Aminosyren nivå signal-til-støy analyse bestemmer utbredelsen av genetisk variasjon på en gitt aminosyre posisjon normalisert til bakgrunnen genetisk variasjon av en gitt befolkning. Dette gir identifikasjon av variant “hotspots” i en sekvens med protein (signal) som stiger over frekvensen av sjeldne varianter i en befolkning (støy).
Fremskritt av kostnader og hastigheten på neste generasjon genetisk sekvensering har generert en eksplosjon av klinisk hele exome og hele genomet testing. Mens dette har ført til økt identifikasjon av sannsynlig patogene mutasjoner assosiert med genetisk syndromer, har det også dramatisk økt antall forresten funnet genetisk varianter av ukjent betydning (VUS). Avgjøre klinisk signifikans i disse variantene er en stor utfordring for både forskere og klinikere. En tilnærming til å bistå i å bestemme sannsynligheten for virusets er signal-til-støy analyse på protein sekvens nivå. Denne protokollen beskriver en metode for aminosyre nivå signal-til-støy analyse som utnytter variant frekvens på hver aminosyre posisjon av protein med kjente protein topologi å identifisere områder av primære sekvensen med forhøyet sannsynligheten for patologisk variant (i forhold til befolkningen “bakgrunn” variant). Denne metoden kan identifisere aminosyre rester plasseringen “hotspots” av høy patologisk signal, som kan brukes til å forbedre den diagnostiske vekten av VUSs som de identifiseres av neste generasjon genetisk testing.
Rask bedring av genetisk sekvensering plattformer har revolusjonert tilgjengelighet og rollen til genetikk i medisin. Når begrenset til et enkelt gen, eller en håndfull gener, reduksjonen i kostnadene og økning i hastigheten på neste generasjon genetisk sekvensering har ført rutinemessig sekvensering av helheten av genomet er koding sekvens (hele exome sekvensering, WES) og hele genomet ( hele genomet sekvensering, WGS) i klinisk setting. WES og WGS har blitt brukt ofte i kritisk syke nyfødte og barn med bekymring for genetisk syndrom der det er en anerkjent diagnostisk verktøy som kan endre klinisk behandling1,2. Mens dette har ført til økt identifikasjon av sannsynlig patogene mutasjoner assosiert med genetisk syndromer, økt det også dramatisk antall forresten funnet genetisk varianter, eller uventet positive resultater, ukjent diagnostikk betydning (VUS). Mens noen av disse variantene er bort og ikke rapportert, varianter lokalisere til rapporteres ofte gener forbundet med potensielt dødelig eller svært sykelig sykdommer. Gjeldende retningslinjene anbefaler rapportering av tilfeldige varianter i bestemte gener som kan være av medisinsk nytte for pasienten, inkludert gener knyttet til utviklingen av plutselige hjertestans død-disponerer sykdommer som cardiomyopathies og channelopathies3. Selv om denne anbefalingen ble utformet for å fange personer utsatt for en SCD-disponerer sykdom, overstiger følsomheten av variant langt spesifisitet. Dette gjenspeiles i et økende antall VUSs og øvrig identifisert varianter med uklart diagnoseverktøy som langt overstiger frekvensen av de respektive sykdommene i en gitt befolkning4. En slik sykdom, lang QT-tid syndrom (LQTS), er en kanoniske cardiac channelopathy forårsaket av mutasjoner lokalisere til gener som kodes cardiac ionekanaler, eller kanal samspill proteiner, noe som resulterer i forsinket cardiac repolarisasjon5. Dette forsinket repolarisasjon, sett av en langvarig QT-intervall på hvile elektrokardiogram, resulterer i en elektrisk predisposisjon for potensielt dødelig ventrikulær arytmi som torsades de pointes. Mens en rekke gener har vært knyttet til utvikling av denne sykdommen, mutasjoner i KCNQ1-kodet jegKs kalium (KCNQ1, Kv7.1) er årsaken til LQTS type 1 og benyttes som et eksempel under6. Illustrere kompleksiteten i variant tolkning, har tilstedeværelse av sjeldne varianter i LQTS-assosiert gener, såkalte “bakgrunn genetisk variasjon” vært beskrevet tidligere7,8.
I tillegg til store samling-stil databaser av kjente sykdomsfremkallende varianter finnes flere strategier for å forutsi effekten forskjellige variantene vil produsere. Noen er basert på algoritmer, som SIFT og Polyphen 2, som kan filtrere stort antall romanen ikke-synonymt varianter å forutsi deleteriousness9,10. Til tross for bred bruk av disse verktøyene begrenser lav spesifisitet deres anvendelse når det gjelder “kaller” klinisk VUSs11. “Signal-til-støy” analyse er et verktøy som identifiserer sannsynligheten for en variant knyttes sykdom basert på frekvensen av kjente patologisk variasjon på loci aktuelle normalisert mot sjelden genetisk variasjon fra en populasjon. Varianter lokalisere til genetisk loci hvor det er en høy utbredelse av sykdomsassosierte mutasjoner sammenlignet med befolkningen-baserte varianten, en høy signal-til-støy, er mer sannsynlig å være sykdomsassosierte seg selv. Videre, sjeldne varianter finnes forresten lokalisere til et gen ofte sjeldne befolkningen varianter sammenlignet sykdomsassosierte frekvens, en lav signal-til-støy, kan være mindre sannsynlig å bli sykdomsassosierte. Diagnoseverktøy for signal-til-støy analyse er illustrert i siste retningslinjene for genetisk testing for cardiomyopathies og channelopathies; men har det bare vært ansatt på hele genet nivå eller domene-spesifikke nivå12. Nylig gitt økt tilgjengelighet av både patologisk varianter (sykdom databaser, Kohortstudier i litteraturen) og befolkningen kontrollen varianter (Exome aggregering Consortium, ExAC og genom aggregering databasen, GnomAD13) Dette er utlignet til individuelle aminosyre posisjonene i den primære sekvensen av et protein. Aminosyren nivå signal-til-støy analyse har vist seg nyttig i kategorisere forresten identifiserte varianter i gener forbundet med LQTS som sannsynligvis “bakgrunn” genetisk variasjon snarere enn sykdomsassosierte. Blant de tre store genene knyttet til LQTS, inkludert KCNQ1, manglet disse forresten identifiserte varianter en betydelig signal-til-støy-forhold, antyder at frekvensen av disse variantene på individuelle aminosyre posisjoner gjenspeiler sjeldne befolkningen variasjon i stedet for sykdomsassosierte mutasjoner. Videre, når protein-spesifikke domenetopologi var kledde mot områder med høy signal-til-støy, patologisk mutasjon “hotspots” lokalisert til viktige funksjonelle domener proteiner14. Denne metodikken holder løftet i bestemme 1) sannsynligheten en variant eller befolkningen-sykdomsassosierte og 2) identifiserer romanen kritisk funksjonell domener av et protein forbundet med menneskelig sykdom.
Høy gjennomstrømming genetisk testing har avansert dramatisk i programmet og tilgjengelighet det siste tiåret. Men i mange sykdommer med veletablerte genetisk grunnlaget, som cardiomyopathies, kunne utvidet testing forbedre diagnostiske avkastning21. Videre, det er betydelig usikkerhet om det diagnostiske verktøyet av mange identifiserte varianter. Dette skyldes delvis et økende antall forresten identifiserte sjeldne varianter oppdaget på WES og WGS, som kan føre til feildiagnostisering<sup…
The authors have nothing to disclose.
APL støttes av den nasjonale institutter for helse K08-HL136839.
1000 Genome Project | N/A | www.internationalgenome.org | |
ClinVar | N/A | www.ncbi.nlm.nih.gov/clinvar | |
Ensembl Genome Browser | N/A | uswest.ensembl.org/index.html | |
Excel | Microsoft | office.microsoft.com/excel/ | Used for all example formulas and functions |
Exome Aggregation Consortium | N/A | www.exac.broadinstitute.org | |
Genome Aggregation Database | N/A | www.gnomad.broadinstitute.org | |
National Center for Biotechnology Information Domain and Structure Database | N/A | www.ncbi.nlm.nih.gov/guide/domains-structures/ | |
National Center for Biotechnology Information Gene Database | N/A | www.ncbi.nlm.nih.gov/gene/ | |
National Center for Biotechnology Information Protein Database | N/A | www.ncbi.nlm.nih.gov/protein/ | |
National Heart, Lung, and Blood Institute GO Exome Sequencing Project | N/A | www.evs.gs.washington.edu/EVS/ | |
SnapGene | GSL Biotech LCC | www.snapgene.com | |
University of California, Santa Cruz Human Genome Browser | N/A | www.genome.ucsc.edu |