Genetics

Bestemmelse af sandsynligheden for Variant patogenicitet ved hjælp af aminosyre-niveau Signal-støj analyse af genetiske Variation

Published: January 16, 2019 doi: 10.3791/58907

¹Department of Pediatrics, Baylor College of Medicine, ²Department of Pediatrics, Division of Cardiology, Duke University School of Medicine

Summary

Aminosyre-niveau signal-støj analyse bestemmer forekomsten af genetisk variation på en bestemt aminosyre position normaliseret til baggrunden genetiske variation af en given befolkning. Dette giver mulighed for identifikation af variant "hotspots" inden for et protein sekvens (signal), der stiger over hyppigheden af sjældne varianter findes i en population (støj).

Abstract

Fremskridt i omkostninger og hastighed af næste generation genetisk sekventering har genereret en eksplosion af klinisk hele exome og hele genom test. Mens dette har ført til øget identifikation af sandsynlige patogene mutationer i forbindelse med genetiske syndromer, er det også dramatisk øget antallet af i øvrigt fundet genetiske varianter af ukendt betydning (køretøjsenheder). Fastlæggelse af den kliniske betydning af disse varianter er en stor udfordring for både forskere og klinikere. En tilgang til at hjælpe med at afgøre sandsynligheden for sygdomsfremkaldende evne er signal-støj analyser på protein sekvens. Denne protokol beskriver en metode til aminosyre-niveau signal-støj analyse, der udnytter variant frekvens på hver aminosyre position af protein med kendte protein topologi til at identificere områder af den primære sekvens med forhøjet risiko for patologiske variation (i forhold til befolkningen "baggrund" variation). Denne metode kan identificere aminosyre rester placering "hotspots" høj patologiske signal, som kan bruges til at forfine diagnostiske vægten af VUSs som dem, der identificeres af næste generation genetisk testning.

Introduction

Den hurtige forbedring af genetiske sekventering platforme har revolutioneret tilgængelighed og rolle genetik i medicin. Når begrænset til et enkelt gen eller en håndfuld af gener, at reduktionen i omkostningerne og stigning i hastighed af næste generation genetisk sekventering har ført rutinemæssig sekventering af helhed af genomet kodende sekvens (hele exome sekventering, WES) og hele genom ( hele genome sequencing, WGS) i de kliniske omgivelser. WES og WGS har været anvendt ofte i fastsættelsen af kritisk syge nyfødte og børn med bekymring for genetiske syndrom er det en gennemprøvet diagnostisk redskab, der kan ændres behandlingsprogram¹^,². Mens dette har ført til øget identifikation af sandsynlige patogene mutationer i forbindelse med genetiske syndromer, har det også dramatisk øget antallet af i øvrigt fundet genetiske varianter eller uventede positive resultater, af ukendt diagnostiske betydning (køretøjsenheder). Mens nogle af disse varianter er ignoreret og ikke rapporteret varianter lokalisering til er gener forbundet med potentielt dødelig eller meget morbide sygdomme ofte rapporteret. Nuværende retningslinjer anbefaler rapportering af utilsigtede varianter findes i specifikke gener, som kan være af medicinsk nytteværdi for patienten, herunder gener forbundet med udviklingen af pludselige cardiac death-disponerende sygdomme som cardiomyopatier og channelopathies³. Selv om denne henstilling blev designet til at fange individer med risiko for en SCD-disponerende sygdom, overstiger variant påvisningsfølsomhed langt specificitet. Dette afspejles i et stigende antal VUSs og i øvrigt identificeret varianter med uklare diagnosehjælpeprogram, der langt overstiger hyppigheden af de respektive sygdomme i en given befolkning⁴. En sådan sygdom, langt QT-syndrom (LQTS), er en kanonisk hjerte channelopathy forårsaget af mutationer lokalisering til gener, der indkode hjerte Ionkanaler, eller kanal interagere proteiner, hvilket resulterer i forsinket hjerte repolarisering⁵. Denne forsinkede repolarisering, set af en forlænget QT-interval på hvilende elektrokardiogram, resulterer i en elektrisk disposition til potentielt fatale ventrikulære arytmier som torsades de pointes. Mens en række gener har været knyttet til udviklingen af denne sygdom, mutationer i KCNQ1-kodet jeg_Ks kalium kanal (KCNQ1, Kv7.1) er årsag til LQTS type 1 og udnyttes som et eksempel under⁶. Illustrere kompleksiteten i variant fortolkning, har tilstedeværelsen af sjældne varianter i LQTS-associerede gener, så kaldt "baggrund genetiske variation" været tidligere beskrevet⁷^,⁸.

Ud over store kompendium-stil databaser af kendte patogene varianter findes flere strategier til at forudsige effekt forskellige varianter vil producere. Nogle er baseret på algoritmer, som SIFT og Polyphen 2, der kan filtrere store mængder af roman ikke-synonym varianter at forudsige deleteriousness⁹^,¹⁰. Trods bred anvendelse af disse værktøjer begrænser lav specificitet deres anvendelighed, når det kommer til at "kalde" klinisk VUSs¹¹. "Signal til støj" analyse er et værktøj, der identificerer sandsynligheden for en variant, der er forbundet med sygdom baseret på hyppigheden af kendte patologiske variation på de pågældende loci normaliseret mod sjældne genetiske variation fra en population. Varianter lokalisering til genetiske loci hvor der er en høj forekomst af sygdommen-associerede mutationer i forhold til befolkningen-baserede variation, en høj signal-støj, er mere tilbøjelige til at være sygdom-associerede sig selv. Yderligere, sjældne varianter findes i øvrigt lokalisering af et gen med en høj frekvens af sjældne befolkning varianter i forhold til sygdommen-associerede frekvens, et lavt signal til støj, kan være mindre tilbøjelige til at være sygdom-associeret. Den diagnostiske nytte af signal-støj analyse er blevet illustreret af de nyeste retningslinjer for gentest for cardiomyopatier og channelopathies; imidlertid har det kun været ansat på hele genet niveau eller domæne-specifikke level¹². For nylig har givet øget tilgængelighed af både patologiske varianter (sygdom databaser, kohorte studier i litteraturen) og befolkningsbaseret kontrol varianter (Exome Aggregation konsortium, ExAC og genom sammenlægning Database, GnomAD¹³), Dette har været anvendt til de enkelte aminosyre holdninger inden for den primære sekvens af et protein. Aminosyre-niveau signal-støj analyse har vist sig nyttige til at kategorisere i øvrigt identificeret varianter i gener forbundet med LQTS som sandsynligvis "baggrund" genetisk variation i stedet sygdom-forbundet. Blandt de tre store gener forbundet med LQTS, herunder KCNQ1, manglede disse i øvrigt identificeret varianter en betydelig signal-støj forhold, tyder på, at hyppigheden af disse varianter på individuelle aminosyre holdninger afspejler sjældne befolkningen variation snarere end sygdom-associerede mutationer. Desuden, hvornår protein-specifikke domænetopologi blev overlejret mod områder af høj signal-støj, patologiske mutation "hotspots" lokaliseret til centrale funktionelle domæner af proteiner¹⁴. Denne metode har løftet i bestemmelse 1) sandsynligheden for en variant er sygdom eller befolkningen forbundet og 2) at identificere roman kritiske funktionelle domæner af et protein, der er forbundet med sygdom hos mennesker.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identificere genet og specifikke Splice Isoform af interesse

Bemærk: Her, vi demonstrere brugen af Ensembl¹⁵ at identificere enighed sekvensen for gen af interesse, som er knyttet til patogenesen af sygdommen af interesse (dvs. KCNQ1 mutationer er forbundet med LQTS). Alternativer til Ensembl omfatter RefSeq via National Center for bioteknologi oplysninger (NCBI)¹⁶ og University of California, Santa Cruz (UCSC) Human genom Browser¹⁷ (Se Tabel af materialer).

I Ensembl hjemmesiden, Vælg arter (dvs. menneskelige) i dropdown-menuen, og Indtast gen af interesse akronym i feltet (dvs. KCNQ1). Klik på "Go"
Vælg linket svarende til gen af interesse (dvs. "KCNQ1 (menneskeligt gen)"
Vælg linket svarer til udskrift af interesse ID af interesse fra tabellen"udskrift" (dvs. TranscriptID ENST00000155840.10, NM_000218 [RNA udskrift], NP_000209 [protein produkt af RNA udskrift]).
Bemærk: Oversigt over den relevante litteratur er nødvendig for at sikre korrekt udskrift konsensus sekvens er valgt.
Bemærk udskrift-specifikke NM og NP identifikationsnumre for fremtidig reference fundet i kolonnen "RefSeq" i "Afskrift bord".
Vælg linket tilknyttet NP-id'et til at åbne en ny webside fra NCBI Protein database.
Rul ned til afsnittet "Oprindelse" at få protein (primære) sekvens for gen udskrift af interesse.
Rul til afsnittet "Funktioner" at få en liste over funktionerne protein (funktionel domæner, bindende domæner, posttranslationel modifikation websteder).
Bemærk: Disse oplysninger kan også fås, via NCBI Protein database eller fra primære energikilder i litteraturen. Dette vil blive yderligere drøftet i trin 5.

2. Opret den eksperimentelle genetiske Variant Database ("Signal")

Bemærk: Her, vi viser hvordan du opretter en database med sygdom-associerede varianter i gen af interesse med hyppigheden af varianter af sygdommen-associerede blandt personer med sygdommen af interesse. Denne database kan tage mange former og repræsenterer den "signal" (fænotype-positive genetiske variation), som vil blive normaliseret mod kontrol variant database. Dette kan omfatte 1) sygdom-associerede varianter til sammenligning mod VUSs til at identificere nye funktionelle domæner af protein og/eller 2) VUSs, herunder i øvrigt identificeret VUSs, at sammenligne mod sygdom-associerede varianter at afgøre sandsynligheden for sygdomsfremkaldende evne. Sygdom-associerede varianter i KCNQ1 vil blive præsenteret for illustration; metoden er imidlertid den samme for analyse af i øvrigt identificeret VUSs eller enhver anden række eksperimentelle varianter.

Identificere cohort(s) af uafhængige indeks tilfælde/probander med sygdom af interesse som gen af interesse var omfattende genotypebestemmes for alle probander (dvs. en undersøgelse identificerer 24 uafhængige probander hosting varianter i KCNQ1 ud af 200 personer med LQTS blev udsat for KCNQ1 genetiske forhør).
Bemærk: Disse årgange kan identificeres fra litteratur, fra eksperimentel genetisk analyse, eller en kombination af begge.
1. Udelukke undersøgelser, som ikke er kohorte-baseret (dvs. en sag rapport, der beskriver en enkelt mutation-positive person), giver ikke det samlede antal individer genotypebestemmes for gen af interesse, eller ikke omfattende genetisk analysere gen ( dvs. en "målrettet" genetisk screening af kun KCNQ1 exons 2-4) disse hinder for beregning af hyppigheden af en variant.
2. Omfatte personer, der er uafhængige probander og udelukke relaterede enkeltpersoner som dette kan overvurdere variant frekvenser (dvs. en undersøgelse identificerer 4 uafhængige personer med KCNQ1 mutationer i en kohorte af 20 patienter med LQTS. En af disse probander er en del af en familie med 5 andre mutation-positive slægtninge. Udelukke alle familiemedlemmer og omfatter kun de 4 uafhængige probander).
Kompilere alle eksperimentelle genetiske varianter findes i identificerede cohort(s)
1. Tildele nomenklatur, der indeholder wild-type aminosyre, aminosyre holdning og variant aminosyre (dvs. alanin aminosyre nummer 212 ændret til valin, Ala212Val eller A212V). En sådan type af nomenklaturen er vist i figur 1.
2. Bekræfte, at variant nomenklatur af alle eksperimentelle genetiske varianter er baseret på den samme reference gen udskrift som anført i trin 1.4. Hvis eksperimentelle genetiske varianter ikke er kommenteret på den samme reference gen udskrift, derefter reannotate variant holdning til en reference udskrift ved hjælp af udskrift justering (Se trin 1.2)
Udelade varianter, ikke gælder afhængigt af spørgsmålet ved at blive undersøgt.
1. Udelukke varianter lokalisering til ikke-kodende regioner i genomet eller varianter, som ikke ændrer proteinet sekvens som synonym, intronic varianter, 5' eller 3' utranslaterede region [UTR] og intergenic regionen varianter (dvs. en rapporteret patologiske variant i KCNQ1, som lokaliserer til 5' UTR af kodning regionen ville blive udelukket som det ikke forventes for at ændre protein sekvens).
2. Udelade varianter, som ikke opfylder inklusionskriterierne til undersøgelsen. For sygdom-associerede varianter omfatter dette varianter, der ikke længere anses for patologiske.
  1. Bekræfte, at hver variant i øjeblikket betragtes som patogene, sandsynligvis patogene, eller i det mindste ikke godartede, ved krydshenvisninger varianter med ClinVar database (Se Tabel af materialer).
  2. Indgå ClinVar Ransage ager (dvs. KCNQ1-Y111C) genet og variant af interesse, skal du vælge "Søg"
  3. Identificere varianten af interesse under kolonnen "Variation/placering".
  4. Bemærk enighed om fortolkningen af patogenicitet under "Klinisk betydning" kolonne (dvs. KCNQ1-Y111C er fortolket som "patogene").
  5. Omfatter varianter som er "tilbøjelige patogene" eller "patogene."
  6. Omfatter varianter med oprindelsesbetegnelser "modstridende fortolkninger af sygdomsfremkaldende evne," "usikker betydning," eller når nogen post er tilgængelige ("ikke leveres") Hvis berettiget af undersøgelsen.
  7. Udelade varianter udpeget som "sandsynligvis godartede" (dvs. KCNQ1-A62T).
Beregne mindre allel frekvens (MAF) af hver eksperimentel variant position.
1. Beregne, hvordan enhver alleler var positive for hver respektive variant (dvs. hvis en KCNQ1-Y111C heterozygous mutation er fundet i 2 uafhængige personer, antallet af variant-positive alleler er 2).
2. Beregn det samlede antal alleler sekventeret i kohorten
  1. Bemærk det totale antal individer sekventeret i hver kohorteundersøgelse (trin 2.1)
  2. Gange det samlede antal personer med 2 for at bestemme det samlede antal alleler.
    Bemærk: Forudsætter dette diploide genomer hvorved hver enkelte værter 2 for hver allel.
3. Beregn det samlede antal variant-positive personer for hver aminosyre (alleler i trin 2.4.1/alleles i trin 2.4.2). For eksempel, hvis 2 uafhængige personer hver vært heterozygous KCNQ1-Y111C mutationer i kohorter af 100 og 200 plaget LQTS individer, henholdsvis, så hyppigheden af eksperimentelle varianter på aminosyre position 111 er 2 varianter/((100+200 individuals ) * 2 alleler/individ) (dvs. kombineret MAF 0.0033).
4. Beregne denne værdi for hver variant som de respektive MAF af hver eksperimentel variant. For yderligere oplysninger se trin 4.2.

3. oprette kontrol genetiske Variant Database ("støj")

Bemærk: Her, vi viser hvordan du opretter en database med kontrol varianter i gen af interesse med en tilhørende frekvens i en kontrol befolkning. Denne database repræsenterer den "støj" (fænotype er negativt, befolkningsbaseret genetiske variation), som er baggrunden som eksperimentel variant databasen bliver normaliseret. Dette kaldes "kontrol" variation.

Identificere en cohort(s) af sunde, uafhængige probander eller udnytte store befolkningen-baserede undersøgelser for at identificere sjældne varianter blandt en given befolkning.
Bemærk: Kilder til denne database er varieret og omfatter: 1) raske personer og/eller ellers fænotype-negative personer udsat for Sanger sekvensering eller offentligt holdt databaser af befolkningen-baserede enkeltpersoner som den paagaeldende sygdom er sjælden i frekvens som 2) 1000 Genome Project (N = 1,094 fag)¹⁸, 3) National Heart, Lung og Blood Institute gå Exome sekventering projekt (ESP, N = 5,379 fag)¹⁹, 4) Exome Aggregation konsortium (ExAC, N = 60,706 fag)¹³, og/eller 5) genom sammenlægning Database (GnomAD, N = 138,632 individer)¹³ (Se Tabel af materialer). GnomAD databasen vil blive udnyttet som et illustrerende eksempel.
1. Angiv gen af interesse i den ransage boks i GnomAD hjemmesiden (dvs. KCNQ1).
2. Bekræfte, at browseren markeret den korrekte gen og udskrift af interesse (trin 1.4).
3. Bekræfte, at der er passende dækning af sekventering af locus ved at gennemgå "gennemsnitlige dækning" og "dækning plot."
4. Vælg for kodende sekvens genetiske variation ved at vælge "Missense + LoF."
5. Vælg "Eksporter tabel til CSV," som vil generere en fil, TextEdit opkaldt "Ukendt".
6. Omdøbe fil og omfatter en ny udvidelse "*.csv" (dvs. "KCNQ1 Control Variation.csv").
7. Åbn filen ved hjælp af en passende softwareprogram til analyse af *.csv filer (Se Tabel af materialer).
Identificere det protein, ændre genetiske variation i kolonnen mærket "Protein konsekvens."
Gælde samme udelukkelseskriterier for disse kontrol genetiske varianter som de eksperimentelle genetiske varianter (trin 2.3.1).
Identificere MAF af hver kontrol variant.
1. Find "Allel Count" kolonne, som angiver antallet af alleler fundet til havnen varianten.
2. Find "Allel nummer" kolonne, som angiver det samlede antal alleler sekventeret på dette givet amino syre position.
  Bemærk: Det samlede antal alleler sekventeret vil variere afhængigt af dækning på denne placering. Områder af høj dækning vil nærme sig 2 * antal individer inden for GnomAD (dvs. 138,632 personer, komplet dækning omfatter 277,264 samlede alleler genotypebestemmes). Omvendt, lavere dækningsområder vil have en nedsat total allel nummer
3. Find variant MAF, som beregnes forud i kolonnen "Allel frekvens" og repræsenterer "Allel Count" divideret med "Allel nummer."
  Bemærk: Menneskelige genomer har to af hver allel (dvs. 1 genstand fundet at have en heterozygous variant i 10 personer har en MAF 1/20)
4. Bemærk MAF for hver variant som de respektive MAF af hver kontrol variant.
  Bemærk: Variant specifikke MAF for hver race/etnisk gruppe bestående af GnomAD kan ses i kolonnerne til højre for "Allel frekvens."
Anvende en MAF tærskel for sjældne varianter over hvilken kontrol varianter er udelukket som "fælles".
1. Angivet MAF tærsklen til maksimal værdi hvor alle virkelig sygdom-associerede varianter (Se trin 2) også observeret i kontrol database er medtaget under tærsklen (dvs., blandt alle sygdom-associerede KCNQ1 varianter også fundet i GnomAD den højeste fælles variant MAF er 0,009, så alle GnomAD varianter over en grænse på 0,01 bør udelukkes).
Sikre, at den eksperimentelle variant nomenklatur er identisk med kontrol (Se trin 2.2).
Gem filen. I nogle tilfælde kan det kræve en ændring type/filtypenavnet.

4. aminosyre Signal-støj beregning og kortlægning

Beregne en MAF for hver aminosyre med en variant af kontrol (jf. figur 1 indeholder eksempel KCNQ1 GnomAD varianter).
1. I en graftegning-kompatible regneark, oprette en kolonne af alle eksperimentelle varianter positioner.
2. Fjern variant tekst for at bevare kun den variant holdning.
  Bemærk: Forskellige funktioner/formler kan udnyttes til at automatisk slette disse tekstelementer i cellerne (figur 1, kolonne C; Se Tabel af materialer).
3. Sortere varianter i stigende værdi til at identificere, hvilke holdninger har mere end 1 variant forbundet med det (figur 1, kolonne E; dvs. aminosyre position 10 er opført to gange i kolonne E, som angiver de 2 unikke varianter på position).
4. Kombinere MAF for hver variant, der er forbundet med en given position ved at tage summen af alle MAFs for en given position (figur 1, kolonne G og H).
Beregne en MAF for hver aminosyre med en eksperimentel variant (jf. figur 2 indeholder mock KCNQ1 patologiske varianter).
1. I en lignende måde at 4.1.1, oprette en kolonne af aminosyre positioner, som har eksperimentelle varianter (figur 2, kolonne B).
2. For hver variant, beregne MAF af alle varianter er forbundet med denne holdning fra trin 2.4 (figur 2, kolonne C-G).
Oprette en rullende gennemsnit af MAF for både eksperimentelle og kontrol varianter.
1. Udvid kolonnerne lavet i 4.1 og 4.2 at medtage celler for aminosyre positioner, der har ingen variant som en MAF = 0. (Figur 3).
  1. Oprette en kolonne, der indeholder alle positioner, aminosyre i gen interesse (dvs. 1 til 676 for KCNQ1, figur 3, kolonne C og jeg).
  2. Tilføje en MAF 0 for alle positioner, der ikke har varianter for både kontrol og eksperimentelle datasæt.
    Bemærk: Dette kan ske automatisk ved at bruge funktionen "LOPSLAG" i et almindeligt udnyttede softwareprogram (figur 3, kolonne D og J, se Tabel af materialer).
2. Oprette en rullende gennemsnit for hver eksperimentelle og kontrol prævalens kolonne.
  Bemærk: Dette giver mulighed for inferens af tilstødende holdning patogenicitet og kan ændres, eller endda udelukket, så det passer til behovene i undersøgelsen.
  1. Oprette en kolonne, der repræsenterer et rullende gennemsnit af MAF for både den for både kontrol og eksperimentelle datasæt (fig. 3, kolonne E og K).
  2. I kolonnen rullende gennemsnit sted gennemsnittet af de respektive MAF for de 5 variant positioner N-terminal og 5 variant positioner C-terminal til den givne position.
    Bemærk: Dette skaber en rullende gennemsnit af +/-5. For positioner med mindre end 5 aminosyrerester foregaaende eller efter en rullende gennemsnit placering (dvs. N - eller C-terminus), det rullende gennemsnit kun tager hensyn til de restkoncentrationer, der er til stede (dvs. det rullende gennemsnit på aminosyre position 3 vil være gennemsnit af MAF på aminosyre positioner 1 selvom 8, beregnet som summen af disse MAFs divideret med 8).
Beregne den minimale kontrol frekvens ved at dividere den laveste rullende MAF med 2.
1. Ændre en celle med en kontrol MAF 0 til minimumsfrekvens at undgå at dividere med 0, når du beregner en signal-støj-forhold.
Beregne aminosyre niveau signal / støj-forhold (figur 4).
1. Opdele hver aminosyre position eksperimentelle rullende gennemsnit af de respektive kontrol rullende gennemsnit.
2. Graf denne ratio (y-aksen) vs aminosyre position (x-akse).

5. protein domæne topologi Overlay

Identificere enighed aminosyre placeringer af funktionelle domæner/funktioner eller områder af posttranslationel modifikation af protein af interesse (trin 1.7).
Bemærk: Et antal ressourcer kan udnyttes til at identificere disse domæner. Disse ressourcer samt ressourcer til at identificere formodede domæner i romanen proteiner, er blevet godt behandlet i litteratur²⁰. Denne protokol vil beskrive protein database tilgængelig via NCBI, som anvendes bredt og robust (Se Tabel af materialer).
Identificere aminosyre stillinger knyttet til protein domæner/funktioner.
1. Åbn websiden NCBI.
2. Angiv NP protein af interesse i den Ransage ager.
3. Identificere kendte protein domæner og funktioner er kataloger under "Funktioner."
4. Identificere og Bemærk domæne navn/type og aminosyre positioner.
5. Vælg linket svarende til funktionen til at visualisere region på protein af interesse primære sekvens.
Oprette en kolonne, der indeholder grænser for domæner/funktioner.
1. Oprette en kolonne ud for kolonnen signal: støj, så kolonnen aminosyre position kan være refererede (figur 5A, kolonne C).
2. Identificere de celler, der svarer på den N-terminal eller C-terminale aspekt af hvert domæne/funktion og placere en 1 i hver celle (dvs. Hvis domænet N-terminalen af S1 transmembrane domæne KCNQ1 er aminosyre holdning 122, og C-terminale domæne position 142, så en 1 er placeret i rækken for aminosyre holdning 122 og 142).
3. For overlappende domæner/funktioner, vise flere domæner ved at ændre 1 til andre værdier (dvs. 1,5, 2, 2,5); Dette kan hjælpe med at adskille domæner.
Oprette et diagram med disse grænser som en y-aksen og aminosyre position på x-aksen (figur 5B).
Overlay denne graf med signal-støj grafen skabt taktfast 4.4.
Identificere sammenhænge mellem kendte protein domæner/funktioner og signal-støj-analyse.

6. variant holdning Overlay

Knytte individuelle variant positioner for overlejring af grafer fremstillet i trin 4,4 og 5,4.
1. Oprette en kolonne ud for kolonnen domæne/funktion, så rækker i kolonnen vil svare til aminosyre positioner (figur 5A, kolonne D).
2. Placer en 1 i hver celle i rækken tilføjet svarende til en holdning, der indeholder en respektive variant.
3. Oprette et diagram med denne kolonne som et y-aksen og aminosyre position på x-aksen (figur 5C).
Overlay denne graf med signal-støj graf skabt taktfast 4.4 og domæne graf skabt taktfast 5.4.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Et repræsentativt resultat for aminosyre-niveau signal til støj analyse for KCNQ1 er afbildet i figur 6. I dette eksempel, sjældne varianter identificeret i GnomAD kohorte (kontrol kohorte), anses i øvrigt identificeret WES varianter (eksperimentel kohorte #1) og LQTS sag-associerede varianter for sandsynligt sygdommen-forbundet (eksperimentel kohorte #2) er afbildet. Yderligere, signal-støj analyse sammenligne den WES og LQTS kohorte variant frekvens normaliseret mod GnomAD variant frekvens er afbildet. LQTS-associerede varianter viste højt signal / støj forhold i domæner svarer med kanal pore, selektivitet filter og KCNE1-bindende domæne. Til sammenligning har i øvrigt identificeret varianter i WES kohorte ikke klart påvist specifikke områder af høj signal-støj elevation, tyder på, at disse varianter afspejler baggrund genetiske variation. I dette eksempel udnytte ikke variant MAFs som nævnt ovenfor; Men, det viser alle de samme principper som beskrevet.

Figur 1 : Eksempel på kontrol variant database med MAF beregning. Kolonne A, direkte importeret GnomAD kontrol sjældne varianter. Kolonne B, sletning af venstre-sidet, ikke-holdning-relaterede tekst fra den variant nomenklatur ved hjælp af et eksempel formel for tegn fjernelse (dvs.: til B2 "= højre (A2, LEN (A2) -5", se Tabel af materialer). Kolonne C, sletning af højresidig, ikke-holdning-relaterede tekst fra den variant nomenklatur ved hjælp af en relaterede formel (dvs.: for C2 "= LEFT(B2,LEN(B2)-3"). Kolonne D, resulterende usorteret aminosyre positioner. Kolonne E, aminosyre positioner sorteret i en stigende mode til at muliggøre identifikation af identiske positioner. Kolonne F, forbundet MAF for hver variant, som importeres fra GnomAD. Kolonne G og H, kombineret MAF for en bestemt aminosyre position (summen af hver variant MAF på en bestemt position). Venligst klik her for at se en større version af dette tal.

Figur 2 : Eksempel på eksperimentelle variant database med MAF beregning. Kolonne A, en liste over mock LQTS-associerede mutationer i KCNQ1 repræsenterer en sygdom-associerede mutation eksperimentelle database. Kolonne B, mutation position svarer til hver variant. Kolonne C, en optælling af mutation-positive personer inden for mock undersøgelse 1. Hver er formodes at være heterozygous mutationsbærere. Det samlede antal individer genotypebestemmes i undersøgelsen er placeret nederst i arket. Kolonne D, greve af mutation-positive person i mock undersøgelse 2. Kolonne E, greve af mutation-positive person i mock undersøgelse 3. Kolonne F, samlede mutation-positive personer hosting de observerede mutation på tværs af alle undersøgelser. Bemærk at forskellige mutationer i forbindelse med den samme aminosyre holdning bør kombineres. Kolonne G, MAF af hver mutation og aminosyre position ved hjælp af et eksempel formel (dvs.: til G2 "=2/(176*2)", se Tabel af materialer). Bemærk, at da alle personer formodes at være heterozygous og enkelte formodes at bære 2 alleler af KCNQ1 locus, de samlede enkeltpersoner skal ganges med 2 for allel-hyppighed. Venligst klik her for at se en større version af dette tal.

Figur 3 : Eksempel på rullende gennemsnit beregningen for kontrol og eksperimentelle varianter. Kolonne A og B, GnomAD kontrol variant positioner og respektive MAFs. Kolonne C, alle aminosyre positioner af KCNQ1 fra aminosyren holdning til den endelige. Kolonne D, GnomAD variant MAF for alle positioner med en MAF 0 i stedet for positioner uden en variant. Dette kan beregnes automatisk, ved hjælp af VLOOKUP funktion (dvs. til D2, "= IFERROR(VLOOKUP(C2,A:B,2,),0), se Tabel af materialer). Kolonne E, glidende gennemsnit af position MAF ved hjælp af et eksempel formel (dvs. til E2, "= SUM(D2:D7)/6" og for E7, "= SUM(D2:D12)/11"). Kolonne G og H, LQTS eksperimentel variant holdninger med respektive MAFs. Kolonne I, alle aminosyre positioner af KCNQ1. Kolonne J, LQTS variant MAF for alle positioner. Kolonne K, rullende LQTS MAF. Grå udfylde celler er eksempler på hvor MAF værdier fra kolonne B og H er udvidet i kolonne D og J, henholdsvis, hvilke korrelat med respektive positioner i kolonne C/I. Bemærk, at det er afgørende, at alle celler er formateret som "Numre" for korrekt formel funktion. Venligst klik her for at se en større version af dette tal.

Figur 4 : Eksempel på signal-støj analyse og graftegning. Venstre, eksempel database og beregninger. Kolonne A, alle aminosyre positioner af KCNQ1. Kolonne B, LQTS eksperimentelle MAF rullende gennemsnit for hver position. Kolonne C, GnomAD styre MAF rullende gennemsnit for hver position. D: signal til støj-forhold (dvs. til D2, "= B2/C2"). Højre, eksempel på grafen for signal-støj-forhold (y-aksen) versus aminosyre position (x-akse). Venligst klik her for at se en større version af dette tal.

Figur 5 : Eksempel på protein og variant holdning kortlægning. A, eksempel database og beregninger. Kolonne A, alle aminosyre positioner af KCNQ1. Kolonne B, KCNQ1 positioner, som har en sjælden kontrol variant identificeret i GnomAD. Kolonne C, kolonnen domæne kortlægning hvor celler, der indeholder værdier svarer til de N eller C-terminale aspekt af identificeret KCNQ1 protein domæner eller funktioner. Som de fleste N-terminale domænet er domænet S1 har den N-terminale grænse på aminosyre 122, er ingen værdier noteret her. Kolonne D, kolonnen variant kortlægning, hvor celler, der indeholder en 1 svarer til KCNQ1 stillinger som lokalisere sjældne varianter. Grå udfylde celler er to eksempler på hvor variant positioner i kolonne B er udvidet i kolonne D, som korrelerer med respektive positioner i kolonne A. venligst klik her for at se en større version af dette tal.

Figur 6 : Eksempel på aminosyre-niveau signal-støj analyse af KCNQ1-kodet KCNQ1 (Kv7.1). Top, variant positioner er påvist med lodrette linjer, herunder sjældne GnomAD kohorte varianter (sort), i øvrigt identificeret varianter i WES henvisninger (blå) og identificeret i LQTS cases(green)-varianter. Funktionelle domæner er noteret. Relative hyppighed af LQTS sag varianter normaliserede til GnomAD varianter (grøn linje) er afbildet i forhold til WES (blå linje). S1-S6, transmembrane domæner; SF, ion selektivitet filter; KCNE1 og AKAP9, respektive protein bindende domæner. Modificerede og genoptrykt med tilladelse fra tidligere arbejde¹⁴. Venligst klik her for at se en større version af dette tal.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Høj overførselshastighed gentest har avancerede dramatisk i dens anvendelse og tilgængelighed i det seneste årti. Dog i mange sygdomme med veletablerede genetiske fundament, såsom cardiomyopatier, har udvidede test kunnet forbedre diagnostisk udbytte²¹. Yderligere, er der betydelig usikkerhed om den diagnostiske nytte af mange identificerede varianter. Dette er delvis på grund af et stigende antal i øvrigt identificeret sjældne varianter opdaget på WES og WGS, hvilket kan føre til fejldiagnosticering²². Aminosyre niveau signal-støj analyse er baseret på veletablerede strategier til at forudsige variant patogenicitet og giver fordelen, at udnytte store befolkning-baseret genom undersøgelser for at forfine variant fortolkning.

Det følger heraf, at en af de mest afgørende skridt i denne protokol er Udvalget af kontrol og eksperimentelle kohorter. Mange af de offentligt tilgængelige store genom undersøgelser er tilgængelige via samlede databaser, såsom GnomAD, der kan gøre det muligt for repræsentant kontrol kohorter i denne protokol til at være så stor som 138,632 personer på nuværende tidspunkt. Selvom ikke alle emner i disse samlede årgange er angiveligt sunde, den store stikprøvestørrelse i fastsættelsen af sjælden sygdom gør denne ressource uvurderlig og giver mulighed for en strengere MAF udstødelse tærskel. Udelukkelse af fælles varianter er nødvendigt, da de er usandsynligt, at være en årsag til højt penetrant mendelske sygdom. Baseret på tidligere arbejde, en MAF tærskel på 0,01 for channelopathy-associerede gener og 0,0001 for kardiomyopati gener kan være hensigtsmæssige og er blevet valideret af uafhængige grupper²³^,²⁴. Vigtigere, bør i betragtning af betydningen af MAF tærskel, dette være indstillet og godkendt for hver undersøgelse uafhængigt. Ikke nødvendigt at anvende en MAF tærskel til en eksperimentel kohorte, givet den veletablerede tilstedeværelse af grundlægger mutationer i channelopathies og cardiomyopatier. Størrelsen af den eksperimentelle kohorte skal være tilstrækkelige til at identificere de områder hvor varianter kan klynge; men der er ingen strenge størrelse. Derudover bør den eksperimentelle kohorte ikke omfatte varianter kendt for at være godartet inden for litteraturen, som det ville mindske rigtigheden af de patogene signal.

Korrekt valg af udelukkelseskriterier er også afgørende for fortolkning og anvendelse af resultatet. Selv om denne protokol anbefaler, bortset fra visse mutation klasser som synonym varianter, kunne disse realistisk medtages for sygdomsprocesser, hvor skadelig synonymt varianter har været identificeret²⁵^,²⁶. Desuden når forskellige udelukkelseskriterier anvendes på både eksperimentelle og kontrol grupper, kan det give for stratificering af signal-støj kortlægning af mutation underklasse (dvs. sammenligne missense til beskærer varianter).

Indstilling et rullende gennemsnit for MAFs muliggøre inferens engagement til nærliggende aminosyrer. For eksempel, hvis aminosyre position 35 indeholder en patologisk variant og er bosat i en kritisk protein domæne, så holdning 36 kan have en vis grad af sygdomsfremkaldende evne når muteret. Ligeledes bør en strækning af primære sekvens har et stort antal sjældne kontrol varianter, derefter aminosyrer inden for denne region, der ikke har vært sjældne varianter kan endnu har en højere sandsynlighed for der indeholder sjældne varianter findes i en befolkning. Mens det rullende gennemsnit i denne protokol er +/-5, dette udvalg kan variere afhængigt af brugeren er ønskede niveau af opløsning af signal-støj-forhold og den specifikke protein undersøges. I eksemplet med LQTS, den afhørt KCNQ1-kodede KCNQ1 kanalen har flere transmembrane domæner spanning ~ 10 aminosyrer, hvilket fik forfatterne til at justere deres ønskede opløsning afspejler væsentlige resultater på denne skala¹⁴. Proteiner med en længere primære sekvens og protein længde muligvis span af den rullende gennemsnit øges på grund af større spænd af protein sekvens uden kontrol variation.

Der er flere begrænsninger for denne metode. Som tidligere nævnt, skal en tilstrækkelig fænotype-positive befolkning hosting formodede patologiske varianter identificeres for at drive et klart patologiske signal. Derudover disse patologiske varianter kan have variabel penetrans, således virkelig patologiske mutationer ikke kan manifestere en sygdom fænotype eller kan ellers ikke være fuldt penetrant og sygdom årsag. Mens mange afholdt offentligt, databaser, såsom GnomAD, der ofte betragtes som "sund kohorter", forekomsten af genetiske sygdomme er sandsynligvis lignende i denne database som befolkningen undersøgelser. Som beskrevet fokuserer denne protokol specifikt på amino-syre niveau ændringer som følge af exonic gen-varianter koden til aminosyrer, som udelukker den rolle, som patogene intronic splejsning varianter kan spille i monogene sygdomme. Givet deres seneste demonstreret rolle i cardiomyopatier, udvidelse af beslutningen tilgang kan være berettiget til at identificere intergenic "hotspots" så godt. Desuden kan anvendelsen af en MAF tærskel savner visse "risiko alleler" at, selv om de eksisterende i befolkningen med en højere end at forekomsten, af sygdom kan bidrage til sygdommen patogenese²⁷^,²⁸MAF. På trods af disse begrænsninger, denne analyse er fleksibel og kan spille en nøglerolle i at yde klinikere en relative sandsynlighed for sygdommen sygdomsfremkaldende evne, når det er hensigtsmæssigt anvendes.

Endelig givet forkærlighed for denne analyse til at identificere kritiske områder inden for et protein, aminosyre-niveau signal-støj beregninger udnytter patologiske mutationer giver mulighed for at identificere nye funktionelle domæner af proteiner er studerede. Givet observation af høj patogenicitet signal til støj på centrale steder af Ionkanaler, som domænet pore, selektivitet filter, S2 transmembrane domæne og KCNE1-bindende domæne af KCNQ1, identifikation af en "peak sygdomsfremkaldende" inden for et område protein uden en kendt funktion kan foreslå en roman kritiske domæne. For eksempel, en markant peak sygdomsfremkaldende for LQTS-associerede mutationer er blevet identificeret lokalisering til aminosyre rester 912-930 af KCNH2-kodet KCNH2 (Kv11.1). Denne region af protein har ingen identificerbare funktionelle domæne endnu ikke viser en markant tilbøjelighed for LQTS-associerede mutationer¹⁴. Som viden om protein topologi udvider, mere sofistikerede proteomics realistisk kunne forbedre løsningen af denne metode i fremtiden fra analysere signal / støj-forhold langs en protein primær struktur at medtage sin sekundær, tertiær, eller kvaternære struktur. Tilsætning af avancerede beregningsmæssige videnskaber til denne analyse, som maskinen læring og kunstig intelligens, giver mulighed for at identificere nye mønstre blandt patologiske versus befolkning-baseret genetisk variation, hvis robust databaser af disse varianter kan være genereret²⁹^,³⁰. Igen, denne metode kunne støtte i bedre kendetegner og forudsige genotype-fænotype relationer af specifikke sygdomme og bruges i forbindelse med en persons præ-test sandsynligheden for sygdom til at forbedre det diagnostiske udbytte af gentest. Yderligere, denne analyse kan opdage roman protein biologi og identificere roman loci inden for det menneskelige genom, som åbenbart med sygdom når ændret.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ikke noget at oplyse.

Acknowledgments

APL understøttes af de nationale institutter for sundhed K08-HL136839.

Materials

Name	Company	Catalog Number	Comments
1000 Genome Project	N/A	www.internationalgenome.org
ClinVar	N/A	www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser	N/A	uswest.ensembl.org/index.html
Excel	Microsoft	office.microsoft.com/excel/	Used for all example formulas and functions
Exome Aggregation Consortium	N/A	www.exac.broadinstitute.org
Genome Aggregation Database	N/A	www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database	N/A	www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database	N/A	www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database	N/A	www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project	N/A	www.evs.gs.washington.edu/EVS/
SnapGene	GSL Biotech LCC	www.snapgene.com
University of California, Santa Cruz Human Genome Browser	N/A	www.genome.ucsc.edu