Summary

Bestemmelse af sandsynligheden for Variant patogenicitet ved hjælp af aminosyre-niveau Signal-støj analyse af genetiske Variation

Published: January 16, 2019
doi:

Summary

Aminosyre-niveau signal-støj analyse bestemmer forekomsten af genetisk variation på en bestemt aminosyre position normaliseret til baggrunden genetiske variation af en given befolkning. Dette giver mulighed for identifikation af variant “hotspots” inden for et protein sekvens (signal), der stiger over hyppigheden af sjældne varianter findes i en population (støj).

Abstract

Fremskridt i omkostninger og hastighed af næste generation genetisk sekventering har genereret en eksplosion af klinisk hele exome og hele genom test. Mens dette har ført til øget identifikation af sandsynlige patogene mutationer i forbindelse med genetiske syndromer, er det også dramatisk øget antallet af i øvrigt fundet genetiske varianter af ukendt betydning (køretøjsenheder). Fastlæggelse af den kliniske betydning af disse varianter er en stor udfordring for både forskere og klinikere. En tilgang til at hjælpe med at afgøre sandsynligheden for sygdomsfremkaldende evne er signal-støj analyser på protein sekvens. Denne protokol beskriver en metode til aminosyre-niveau signal-støj analyse, der udnytter variant frekvens på hver aminosyre position af protein med kendte protein topologi til at identificere områder af den primære sekvens med forhøjet risiko for patologiske variation (i forhold til befolkningen “baggrund” variation). Denne metode kan identificere aminosyre rester placering “hotspots” høj patologiske signal, som kan bruges til at forfine diagnostiske vægten af VUSs som dem, der identificeres af næste generation genetisk testning.

Introduction

Den hurtige forbedring af genetiske sekventering platforme har revolutioneret tilgængelighed og rolle genetik i medicin. Når begrænset til et enkelt gen eller en håndfuld af gener, at reduktionen i omkostningerne og stigning i hastighed af næste generation genetisk sekventering har ført rutinemæssig sekventering af helhed af genomet kodende sekvens (hele exome sekventering, WES) og hele genom ( hele genome sequencing, WGS) i de kliniske omgivelser. WES og WGS har været anvendt ofte i fastsættelsen af kritisk syge nyfødte og børn med bekymring for genetiske syndrom er det en gennemprøvet diagnostisk redskab, der kan ændres behandlingsprogram1,2. Mens dette har ført til øget identifikation af sandsynlige patogene mutationer i forbindelse med genetiske syndromer, har det også dramatisk øget antallet af i øvrigt fundet genetiske varianter eller uventede positive resultater, af ukendt diagnostiske betydning (køretøjsenheder). Mens nogle af disse varianter er ignoreret og ikke rapporteret varianter lokalisering til er gener forbundet med potentielt dødelig eller meget morbide sygdomme ofte rapporteret. Nuværende retningslinjer anbefaler rapportering af utilsigtede varianter findes i specifikke gener, som kan være af medicinsk nytteværdi for patienten, herunder gener forbundet med udviklingen af pludselige cardiac death-disponerende sygdomme som cardiomyopatier og channelopathies3. Selv om denne henstilling blev designet til at fange individer med risiko for en SCD-disponerende sygdom, overstiger variant påvisningsfølsomhed langt specificitet. Dette afspejles i et stigende antal VUSs og i øvrigt identificeret varianter med uklare diagnosehjælpeprogram, der langt overstiger hyppigheden af de respektive sygdomme i en given befolkning4. En sådan sygdom, langt QT-syndrom (LQTS), er en kanonisk hjerte channelopathy forårsaget af mutationer lokalisering til gener, der indkode hjerte Ionkanaler, eller kanal interagere proteiner, hvilket resulterer i forsinket hjerte repolarisering5. Denne forsinkede repolarisering, set af en forlænget QT-interval på hvilende elektrokardiogram, resulterer i en elektrisk disposition til potentielt fatale ventrikulære arytmier som torsades de pointes. Mens en række gener har været knyttet til udviklingen af denne sygdom, mutationer i KCNQ1-kodet jegKs kalium kanal (KCNQ1, Kv7.1) er årsag til LQTS type 1 og udnyttes som et eksempel under6. Illustrere kompleksiteten i variant fortolkning, har tilstedeværelsen af sjældne varianter i LQTS-associerede gener, så kaldt “baggrund genetiske variation” været tidligere beskrevet7,8.

Ud over store kompendium-stil databaser af kendte patogene varianter findes flere strategier til at forudsige effekt forskellige varianter vil producere. Nogle er baseret på algoritmer, som SIFT og Polyphen 2, der kan filtrere store mængder af roman ikke-synonym varianter at forudsige deleteriousness9,10. Trods bred anvendelse af disse værktøjer begrænser lav specificitet deres anvendelighed, når det kommer til at “kalde” klinisk VUSs11. “Signal til støj” analyse er et værktøj, der identificerer sandsynligheden for en variant, der er forbundet med sygdom baseret på hyppigheden af kendte patologiske variation på de pågældende loci normaliseret mod sjældne genetiske variation fra en population. Varianter lokalisering til genetiske loci hvor der er en høj forekomst af sygdommen-associerede mutationer i forhold til befolkningen-baserede variation, en høj signal-støj, er mere tilbøjelige til at være sygdom-associerede sig selv. Yderligere, sjældne varianter findes i øvrigt lokalisering af et gen med en høj frekvens af sjældne befolkning varianter i forhold til sygdommen-associerede frekvens, et lavt signal til støj, kan være mindre tilbøjelige til at være sygdom-associeret. Den diagnostiske nytte af signal-støj analyse er blevet illustreret af de nyeste retningslinjer for gentest for cardiomyopatier og channelopathies; imidlertid har det kun været ansat på hele genet niveau eller domæne-specifikke level12. For nylig har givet øget tilgængelighed af både patologiske varianter (sygdom databaser, kohorte studier i litteraturen) og befolkningsbaseret kontrol varianter (Exome Aggregation konsortium, ExAC og genom sammenlægning Database, GnomAD13), Dette har været anvendt til de enkelte aminosyre holdninger inden for den primære sekvens af et protein. Aminosyre-niveau signal-støj analyse har vist sig nyttige til at kategorisere i øvrigt identificeret varianter i gener forbundet med LQTS som sandsynligvis “baggrund” genetisk variation i stedet sygdom-forbundet. Blandt de tre store gener forbundet med LQTS, herunder KCNQ1, manglede disse i øvrigt identificeret varianter en betydelig signal-støj forhold, tyder på, at hyppigheden af disse varianter på individuelle aminosyre holdninger afspejler sjældne befolkningen variation snarere end sygdom-associerede mutationer. Desuden, hvornår protein-specifikke domænetopologi blev overlejret mod områder af høj signal-støj, patologiske mutation “hotspots” lokaliseret til centrale funktionelle domæner af proteiner14. Denne metode har løftet i bestemmelse 1) sandsynligheden for en variant er sygdom eller befolkningen forbundet og 2) at identificere roman kritiske funktionelle domæner af et protein, der er forbundet med sygdom hos mennesker.

Protocol

1. identificere genet og specifikke Splice Isoform af interesse Bemærk: Her, vi demonstrere brugen af Ensembl15 at identificere enighed sekvensen for gen af interesse, som er knyttet til patogenesen af sygdommen af interesse (dvs. KCNQ1 mutationer er forbundet med LQTS). Alternativer til Ensembl omfatter RefSeq via National Center for bioteknologi oplysninger (NCBI)16 og University of California, Santa Cruz (UCSC) Human genom Browser<sup …

Representative Results

Et repræsentativt resultat for aminosyre-niveau signal til støj analyse for KCNQ1 er afbildet i figur 6. I dette eksempel, sjældne varianter identificeret i GnomAD kohorte (kontrol kohorte), anses i øvrigt identificeret WES varianter (eksperimentel kohorte #1) og LQTS sag-associerede varianter for sandsynligt sygdommen-forbundet (eksperimentel kohorte #2) er afbildet. Yderligere, signal-støj analyse sammenligne den WES og LQTS kohorte variant frekvens no…

Discussion

Høj overførselshastighed gentest har avancerede dramatisk i dens anvendelse og tilgængelighed i det seneste årti. Dog i mange sygdomme med veletablerede genetiske fundament, såsom cardiomyopatier, har udvidede test kunnet forbedre diagnostisk udbytte21. Yderligere, er der betydelig usikkerhed om den diagnostiske nytte af mange identificerede varianter. Dette er delvis på grund af et stigende antal i øvrigt identificeret sjældne varianter opdaget på WES og WGS, hvilket kan føre til fejldi…

Disclosures

The authors have nothing to disclose.

Acknowledgements

APL understøttes af de nationale institutter for sundhed K08-HL136839.

Materials

1000 Genome Project N/A www.internationalgenome.org
ClinVar N/A www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser N/A uswest.ensembl.org/index.html
Excel Microsoft office.microsoft.com/excel/ Used for all example formulas and functions
Exome Aggregation Consortium  N/A www.exac.broadinstitute.org
Genome Aggregation Database  N/A www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database N/A www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database N/A www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database N/A www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project N/A www.evs.gs.washington.edu/EVS/
SnapGene GSL Biotech LCC www.snapgene.com
University of California, Santa Cruz Human Genome Browser N/A www.genome.ucsc.edu

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
  3. Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
  4. Landstrom, A. P., Ackerman, M. J. The Achilles’ heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
  5. Landstrom, A. P., Tester, D. J., Ackerman, M. J., Lawless, C. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. , (2011).
  6. Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
  7. Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
  8. Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
  9. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
  10. Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , (2013).
  11. Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
  12. Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
  13. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  14. Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
  15. Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, 447-453 (2005).
  16. O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
  17. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  18. The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  19. Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
  20. Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
  21. Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
  22. Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
  23. Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
  24. Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
  25. Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
  26. Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
  27. Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
  28. Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
  29. Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
  30. Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).

Play Video

Cite This Article
Jones, E. G., Landstrom, A. P. Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation. J. Vis. Exp. (143), e58907, doi:10.3791/58907 (2019).

View Video