Aminosyra-nivå signal-brus-analys avgör förekomsten av genetisk variation vid en viss aminosyra position normaliserade till bakgrunden genetisk variation i en viss population. Detta möjliggör identifiering av variant ”hotspots” inom en proteinsekvens (signal) som stiger över frekvensen av sällsynta varianter hittade i en population (buller).
Framsteg i kostnad och hastigheten på nästa generation genetisk sekvensering har genererat en explosion av kliniska hela exome och hela genomet testning. Detta har lett till ökad identifiering av sannolikt patogena mutationer som förknippas med genetiska syndrom, har det också dramatiskt ökat antalet förresten hittat genetiska varianter av okänd betydelse (FE). Avgöra den kliniska betydelsen av dessa varianter är en stor utmaning för både forskare och kliniker. En metod att hjälpa att avgöra sannolikheten för patogenicitet är signal-brus-analys på protein sequence nivå. Det här protokollet beskriver en metod för aminosyra-nivå signal-brus-analys som utnyttjar variant frekvens på varje aminosyra position av proteinet med kända protein topologi att identifiera områden av primära sekvensen med förhöjd sannolikhet för patologisk variation (i förhållande till befolkningen ”bakgrund” variation). Denna metod kan identifiera aminosyra rester läge ”hotspots” av hög patologisk signal, som kan användas för att förfina den diagnostiska vikten av VUSs såsom de identifieras av nästa generation genetisk testning.
Den snabba förbättringen av genetisk sekvensering plattformar har revolutionerat tillgängligheten och rollen av genetik i medicin. När begränsad till en enda gen, eller en handfull gener, minskade kostnaderna och ökning i hastighet av nästa generations genetisk sekvensering lett rutinmässiga sekvensering av hela genomet kodande sekvens (hela exome sekvensering, WES) och hela genomet ( hela Genomsekvensering, WGS) kliniskt. WES och WGS har använts ofta i fastställandet av kritiskt sjuka nyfödda och barn med oro för genetiska syndrom där det är ett beprövat diagnostiskt verktyg som kan förändra klinisk hantering1,2. Medan detta har lett till ökad identifiering av sannolikt patogena mutationer som förknippas med genetiska syndrom, ökat det också dramatiskt antalet förresten hittat genetiska varianter, eller oväntade positiva resultat, av okänd diagnostiska betydelse (FE). Medan vissa av dessa varianter är inte beaktas och inte rapporterats, varianter lokalisera till redovisas ofta gener associerade med potentiellt livshotande eller mycket sjuklig sjukdomar. Nuvarande riktlinjer rekommenderar rapportering av tillfälliga varianter finns i specifika gener som kan vara till medicinsk nytta för patienten, inklusive gener associerade med utveckling av plötslig kardiell död-predisponerande sjukdomar såsom kardiomyopatier och channelopathies3. Även om denna rekommendation var utformat för att fånga individer i riskzonen för en SCD-predisponerande sjukdom, överstiger variant upptäckt känslighet vida specificitet. Detta återspeglas i ett växande antal VUSs och för övrigt identifierade varianter med oklara diagnostiska verktyg som vida överstiger frekvensen av de respektiva sjukdomarna i en viss befolkning4. En sådan sjukdom, långt QT-syndrom (LQTS), är en kanoniska hjärt channelopathy orsakas av mutationer lokalisera gener som kodar hjärtats jonkanaler, eller kanal interagera proteiner, vilket resulterar i försenad kardiell repolarisering5. Detta försenade repolarisering, sett genom ett förlängt QT-intervall på vilar elektrokardiogram, resulterar i en elektrisk anlag till livshotande ventrikulära arytmier såsom torsades de pointes. Medan ett antal gener har kopplats till utvecklingen av denna sjukdom, mutationer i KCNQ1-kodade jagKs kalium kanal (KCNQ1, Kv7.1) är orsaken till LQTS typ 1 och utnyttjas som ett exempel nedan6. Illustrera komplexiteten i variant tolkning, har förekomsten av sällsynta varianter i LQTS-associerade gener, så kallade ”bakgrund genetisk variation” funnits tidigare beskrivna7,8.
Förutom stora kompendium-stil databaser av kända patogena varianter finns flera strategier för att förutsäga effekten olika varianter kommer att producera. Några är baserade på algoritmer, såsom SIFT och Polyphen 2, som kan filtrera ett stort antal nya icke-synonymt varianter att förutsäga deleteriousness9,10. Trots omfattande användning av dessa verktyg begränsar låg specificitet deras tillämplighet när det kommer till ”calling” kliniska VUSs11. ”Signal-brus” analys är ett verktyg som identifierar sannolikheten för en variant som är förknippade med sjukdom baserat på frekvensen av kända patologisk variation på de ifrågavarande loci normaliserade mot sällsynt genetisk variation från en population. Varianter lokalisera till genetiska loci där det finns en hög förekomst av sjukdomsassocierade mutationer jämfört med populationsbaserade variation, en hög signal-brus, är mer benägna att vara sjukdomsassocierade sig själva. Ytterligare, sällsynta varianter hittade för övrigt lokalisera till en gen med en hög frekvens av sällsynta befolkningen varianter jämfört sjukdomsassocierade frekvens, en låg signal-brus, kan vara mindre benägna att vara sjukdomsassocierade. Den diagnostiska nyttan av signal-brus-analys har illustrerats i de senaste riktlinjerna för genetisk testning för kardiomyopatier och channelopathies; dock har det bara varit anställd på hela gennivå eller domän-specifika nivå12. Nyligen har gett ökad tillgänglighet av både patologiska varianter (sjukdom databaser, kohortstudier i litteraturen) och populationsbaserad kontroll varianter (Exome Aggregation Consortium, ExAC och databasen Aggregation genomet, GnomAD13), Detta har tillämpats till enskilda aminosyrapositioner inom primära sekvensen av ett protein. Aminosyra-nivå signal-brus-analys har visat sig användbart kategorisera för övrigt identifierade varianter i gener associerade med LQTS som sannolikt ”bakgrund” genetisk variation snarare än sjukdomsassocierade. Bland de tre stora gener associerade med LQTS, inklusive KCNQ1, saknade dessa för övrigt identifierade varianter en betydande signal-brus-förhållanden, vilket tyder på att frekvensen av dessa varianter på enskilda aminosyrapositioner återspeglar sällsynta befolkningen variation i stället för sjukdomsassocierade mutationer. Dessutom när protein-specifika domäntopologi var övertäckt mot områden av hög signal-brus, patologisk mutation ”hotspots” lokaliserad till viktiga funktionella domäner av proteiner14. Denna metod håller löfte att bestämma 1) sannolikheten att en variant är sjukdom – eller befolkningen-associerade och (2) identifiera roman kritisk funktionella domäner av ett protein som är associerad med mänskliga sjukdomar.
Hög genomströmning genetisk testning har avancerade dramatiskt i dess tillämpning och tillgänglighet under det senaste decenniet. Dock i många sjukdomar med väletablerade genetiska underbyggnad, t ex kardiomyopatier, har utökad testning lyckats förbättra diagnostiska kapacitet21. Vidare finns det betydande osäkerhet beträffande den diagnostiska nyttan av många identifierade varianter. Detta beror delvis på ett växande antal för övrigt identifierade sällsynta varianter upptäckte p…
The authors have nothing to disclose.
APL stöds av de nationella institut för hälsa K08-HL136839.
1000 Genome Project | N/A | www.internationalgenome.org | |
ClinVar | N/A | www.ncbi.nlm.nih.gov/clinvar | |
Ensembl Genome Browser | N/A | uswest.ensembl.org/index.html | |
Excel | Microsoft | office.microsoft.com/excel/ | Used for all example formulas and functions |
Exome Aggregation Consortium | N/A | www.exac.broadinstitute.org | |
Genome Aggregation Database | N/A | www.gnomad.broadinstitute.org | |
National Center for Biotechnology Information Domain and Structure Database | N/A | www.ncbi.nlm.nih.gov/guide/domains-structures/ | |
National Center for Biotechnology Information Gene Database | N/A | www.ncbi.nlm.nih.gov/gene/ | |
National Center for Biotechnology Information Protein Database | N/A | www.ncbi.nlm.nih.gov/protein/ | |
National Heart, Lung, and Blood Institute GO Exome Sequencing Project | N/A | www.evs.gs.washington.edu/EVS/ | |
SnapGene | GSL Biotech LCC | www.snapgene.com | |
University of California, Santa Cruz Human Genome Browser | N/A | www.genome.ucsc.edu |