Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation

Edward G Jones; Andrew P Landstrom

doi:10.3791/58907

JoVE Journal > Genetics

Genetics

Bestemme sannsynligheten for Variant virusets aminosyre nivå Signal-til-støy analyse av genetisk variasjon

Published: January 16, 2019

doi:

10.3791/58907

Edward G Jones, Andrew P Landstrom

¹Department of Pediatrics,Baylor College of Medicine, ²Department of Pediatrics, Division of Cardiology,Duke University School of Medicine

Summary

Aminosyren nivå signal-til-støy analyse bestemmer utbredelsen av genetisk variasjon på en gitt aminosyre posisjon normalisert til bakgrunnen genetisk variasjon av en gitt befolkning. Dette gir identifikasjon av variant “hotspots” i en sekvens med protein (signal) som stiger over frekvensen av sjeldne varianter i en befolkning (støy).

Abstract

Fremskritt av kostnader og hastigheten på neste generasjon genetisk sekvensering har generert en eksplosjon av klinisk hele exome og hele genomet testing. Mens dette har ført til økt identifikasjon av sannsynlig patogene mutasjoner assosiert med genetisk syndromer, har det også dramatisk økt antall forresten funnet genetisk varianter av ukjent betydning (VUS). Avgjøre klinisk signifikans i disse variantene er en stor utfordring for både forskere og klinikere. En tilnærming til å bistå i å bestemme sannsynligheten for virusets er signal-til-støy analyse på protein sekvens nivå. Denne protokollen beskriver en metode for aminosyre nivå signal-til-støy analyse som utnytter variant frekvens på hver aminosyre posisjon av protein med kjente protein topologi å identifisere områder av primære sekvensen med forhøyet sannsynligheten for patologisk variant (i forhold til befolkningen “bakgrunn” variant). Denne metoden kan identifisere aminosyre rester plasseringen “hotspots” av høy patologisk signal, som kan brukes til å forbedre den diagnostiske vekten av VUSs som de identifiseres av neste generasjon genetisk testing.

Introduction

Rask bedring av genetisk sekvensering plattformer har revolusjonert tilgjengelighet og rollen til genetikk i medisin. Når begrenset til et enkelt gen, eller en håndfull gener, reduksjonen i kostnadene og økning i hastigheten på neste generasjon genetisk sekvensering har ført rutinemessig sekvensering av helheten av genomet er koding sekvens (hele exome sekvensering, WES) og hele genomet ( hele genomet sekvensering, WGS) i klinisk setting. WES og WGS har blitt brukt ofte i kritisk syke nyfødte og barn med bekymring for genetisk syndrom der det er en anerkjent diagnostisk verktøy som kan endre klinisk behandling¹^,². Mens dette har ført til økt identifikasjon av sannsynlig patogene mutasjoner assosiert med genetisk syndromer, økt det også dramatisk antall forresten funnet genetisk varianter, eller uventet positive resultater, ukjent diagnostikk betydning (VUS). Mens noen av disse variantene er bort og ikke rapportert, varianter lokalisere til rapporteres ofte gener forbundet med potensielt dødelig eller svært sykelig sykdommer. Gjeldende retningslinjene anbefaler rapportering av tilfeldige varianter i bestemte gener som kan være av medisinsk nytte for pasienten, inkludert gener knyttet til utviklingen av plutselige hjertestans død-disponerer sykdommer som cardiomyopathies og channelopathies³. Selv om denne anbefalingen ble utformet for å fange personer utsatt for en SCD-disponerer sykdom, overstiger følsomheten av variant langt spesifisitet. Dette gjenspeiles i et økende antall VUSs og øvrig identifisert varianter med uklart diagnoseverktøy som langt overstiger frekvensen av de respektive sykdommene i en gitt befolkning⁴. En slik sykdom, lang QT-tid syndrom (LQTS), er en kanoniske cardiac channelopathy forårsaket av mutasjoner lokalisere til gener som kodes cardiac ionekanaler, eller kanal samspill proteiner, noe som resulterer i forsinket cardiac repolarisasjon⁵. Dette forsinket repolarisasjon, sett av en langvarig QT-intervall på hvile elektrokardiogram, resulterer i en elektrisk predisposisjon for potensielt dødelig ventrikulær arytmi som torsades de pointes. Mens en rekke gener har vært knyttet til utvikling av denne sykdommen, mutasjoner i KCNQ1-kodet jeg_Ks kalium (KCNQ1, Kv7.1) er årsaken til LQTS type 1 og benyttes som et eksempel under⁶. Illustrere kompleksiteten i variant tolkning, har tilstedeværelse av sjeldne varianter i LQTS-assosiert gener, såkalte “bakgrunn genetisk variasjon” vært beskrevet tidligere⁷^,⁸.

I tillegg til store samling-stil databaser av kjente sykdomsfremkallende varianter finnes flere strategier for å forutsi effekten forskjellige variantene vil produsere. Noen er basert på algoritmer, som SIFT og Polyphen 2, som kan filtrere stort antall romanen ikke-synonymt varianter å forutsi deleteriousness⁹^,¹⁰. Til tross for bred bruk av disse verktøyene begrenser lav spesifisitet deres anvendelse når det gjelder “kaller” klinisk VUSs¹¹. “Signal-til-støy” analyse er et verktøy som identifiserer sannsynligheten for en variant knyttes sykdom basert på frekvensen av kjente patologisk variasjon på loci aktuelle normalisert mot sjelden genetisk variasjon fra en populasjon. Varianter lokalisere til genetisk loci hvor det er en høy utbredelse av sykdomsassosierte mutasjoner sammenlignet med befolkningen-baserte varianten, en høy signal-til-støy, er mer sannsynlig å være sykdomsassosierte seg selv. Videre, sjeldne varianter finnes forresten lokalisere til et gen ofte sjeldne befolkningen varianter sammenlignet sykdomsassosierte frekvens, en lav signal-til-støy, kan være mindre sannsynlig å bli sykdomsassosierte. Diagnoseverktøy for signal-til-støy analyse er illustrert i siste retningslinjene for genetisk testing for cardiomyopathies og channelopathies; men har det bare vært ansatt på hele genet nivå eller domene-spesifikke nivå¹². Nylig gitt økt tilgjengelighet av både patologisk varianter (sykdom databaser, Kohortstudier i litteraturen) og befolkningen kontrollen varianter (Exome aggregering Consortium, ExAC og genom aggregering databasen, GnomAD¹³) Dette er utlignet til individuelle aminosyre posisjonene i den primære sekvensen av et protein. Aminosyren nivå signal-til-støy analyse har vist seg nyttig i kategorisere forresten identifiserte varianter i gener forbundet med LQTS som sannsynligvis “bakgrunn” genetisk variasjon snarere enn sykdomsassosierte. Blant de tre store genene knyttet til LQTS, inkludert KCNQ1, manglet disse forresten identifiserte varianter en betydelig signal-til-støy-forhold, antyder at frekvensen av disse variantene på individuelle aminosyre posisjoner gjenspeiler sjeldne befolkningen variasjon i stedet for sykdomsassosierte mutasjoner. Videre, når protein-spesifikke domenetopologi var kledde mot områder med høy signal-til-støy, patologisk mutasjon “hotspots” lokalisert til viktige funksjonelle domener proteiner¹⁴. Denne metodikken holder løftet i bestemme 1) sannsynligheten en variant eller befolkningen-sykdomsassosierte og 2) identifiserer romanen kritisk funksjonell domener av et protein forbundet med menneskelig sykdom.

Protocol

1. Identifiser Gene og bestemt Splice isoformen av interesse Merk: Her, vi viser bruk av Ensembl15 å identifisere konsensus rekkefølgen for genet av interesse som er forbundet med patogenesen av sykdommen av interesse (dvs. KCNQ1 mutasjoner er forbundet med LQTS). Alternativer for Ensembl inkluderer RefSeq via National Center for bioteknologi informasjon (NCBI)16 og University of California, Santa Cruz (UCSC) Human Genome nettleser<sup c…

Representative Results

En representant resultat for aminosyre nivå signal til Støyanalyse for KCNQ1 er avbildet i figur 6. I dette eksemplet sjeldne varianter i GnomAD kohort (kontroll kohort), som forresten-identifisert WES varianter (eksperimentell kohort #1) og LQTS tilfelle-assosiert varianter sannsynlig sykdomsassosierte (eksperimentell kohort #2) vises. Videre normalisert signal-til-støy analysen sammenligne WES og LQTS kohort variant frekvensen mot GnomAD variant frekvens…

Discussion

Høy gjennomstrømming genetisk testing har avansert dramatisk i programmet og tilgjengelighet det siste tiåret. Men i mange sykdommer med veletablerte genetisk grunnlaget, som cardiomyopathies, kunne utvidet testing forbedre diagnostiske avkastning²¹. Videre, det er betydelig usikkerhet om det diagnostiske verktøyet av mange identifiserte varianter. Dette skyldes delvis et økende antall forresten identifiserte sjeldne varianter oppdaget på WES og WGS, som kan føre til feildiagnostisering<sup…

Disclosures

The authors have nothing to disclose.

Acknowledgements

APL støttes av den nasjonale institutter for helse K08-HL136839.

Materials

1000 Genome Project	N/A	www.internationalgenome.org
ClinVar	N/A	www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser	N/A	uswest.ensembl.org/index.html
Excel	Microsoft	office.microsoft.com/excel/	Used for all example formulas and functions
Exome Aggregation Consortium	N/A	www.exac.broadinstitute.org
Genome Aggregation Database	N/A	www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database	N/A	www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database	N/A	www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database	N/A	www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project	N/A	www.evs.gs.washington.edu/EVS/
SnapGene	GSL Biotech LCC	www.snapgene.com
University of California, Santa Cruz Human Genome Browser	N/A	www.genome.ucsc.edu

References

Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
Landstrom, A. P., Ackerman, M. J. The Achilles’ heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
Landstrom, A. P., Tester, D. J., Ackerman, M. J., Lawless, C. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. , (2011).
Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , (2013).
Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, 447-453 (2005).
O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Jones, E. G., Landstrom, A. P. Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation. J. Vis. Exp. (143), e58907, doi:10.3791/58907 (2019).

Bestemme sannsynligheten for Variant virusets aminosyre nivå Signal-til-støy analyse av genetisk variasjon

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Bestemme sannsynligheten for Variant virusets aminosyre nivå Signal-til-støy analyse av genetisk variasjon

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below