Summary

Navigering MARRVEL, et webbaseret værktøj, der integrerer menneskelig Genomics og model organisme genetik information

Published: August 15, 2019
doi:

Summary

Her præsenterer vi en protokol for at få adgang til og analysere mange menneskelige og model organismer databaser effektivt. Denne protokol demonstrerer brugen af MARRVEL til at analysere kandidat sygdomsfremkaldende varianter identificeret fra næste generations sekvensering.

Abstract

Gennem hel-exome/genom sekventering, Human genetikere identificere sjældne varianter, der adskiller med sygdom fænotyper. For at vurdere, om en bestemt variant er sygdomsfremkaldende, skal man forespørge mange databaser for at afgøre, om det pågældende gen af interesse er knyttet til en genetisk sygdom, om den specifikke variant er blevet rapporteret før, og hvilke funktionelle data der er tilgængelige i model organismen databaser, der kan give fingerpeg om genet funktion i mennesker. MARRVEL (model organisme aggregerede ressourcer til sjælden variant udforskning) er en One-stopdata indsamling værktøj til menneskelige gener og varianter og deres ortologt gener i syv model organismer, herunder i mus, rotte, zebrafish, frugtflue, fyrretræsnematoden orm, fission gær og spirende gær. I denne protokol giver vi et overblik over, hvad MARRVEL kan bruges til, og diskuterer, hvordan forskellige datasæt kan bruges til at vurdere, om en variant af ukendt signifikans (VUS) i et kendt sygdomsfremkaldende gen eller en variant i et gen af usikker betydning (GUS) kan være Patogene. Denne protokol vil guide en bruger ved at søge flere menneskelige databaser samtidig starter med en menneskelig gen med eller uden en variant af interesse. Vi diskuterer også, hvordan man brugerdata fra OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV og dechipher. Desuden illustrerer vi, hvordan man fortolker en liste over ortholog kandidat gener, udtryks mønstre og GO-termer i modelorganismer, der er forbundet med hvert menneskeligt gen. Desuden diskuterer vi værdien protein strukturelle domæne anmærkninger forudsat og forklare, hvordan man bruger flere arter protein justering funktion til at vurdere, om en variant af interesse påvirker en evolutionært bevaret domæne eller aminosyre. Endelig vil vi diskutere tre forskellige brug-tilfælde af denne hjemmeside. MARRVEL er et let tilgængeligt websted for åben adgang, der er designet til både kliniske og grundlæggende forskere og tjener som udgangspunkt for design eksperimenter til funktionelle studier.

Introduction

Brugen af næste generations sekvensering teknologi er stigende i både forskning og kliniske genetiske laboratorier1. Helexome (Wes) og helgenomome sekventering (WGS)-analyser afslører talrige sjældne varianter af ukendt signifikans (Vus) i kendte sygdomsfremkaldende gener samt varianter i gener, der endnu ikke er associeret med en mendelian sygdom (Gus: gener af usikker betydning). Præsenteret med en liste over gener og varianter i en klinisk sekvens rapport, skal medicinske genetikere manuelt besøge flere online ressourcer for at få flere oplysninger til at vurdere, hvilken variant kan være ansvarlig for en bestemt fænotype set hos patienten af interesse . Denne proces er tidskrævende, og dens effektivitet er meget afhængig af den enkeltes ekspertise. Selv om flere retningslinjer papirer er blevet offentliggjort2,3, fortolkning af Wes og WGS kræver manuel kuration, da der endnu ikke er en standardiseret metode til variant analyse. For fortolkningen af Vus, viden om den tidligere rapporterede genotype-phenotype forhold, form for arv, og allel frekvenser i den almindelige befolkning bliver værdifulde. Desuden kan viden om, hvorvidt varianten påvirker et kritisk protein domæne, eller en evolutionært bevaret restkoncentration øge eller mindske sandsynligheden for patogenicitet. For at samle alle disse oplysninger, skal man typisk navigere gennem 10-20 menneskelige og model organismer databaser, da oplysningerne er spredt gennem World Wide Web.

Tilsvarende er model organisme videnskabsmænd, der arbejder på specifikke gener og veje, ofte interesseret i at forbinde deres resultater med sygdomsmekanismer i mennesker og ønsker at udnytte den viden, der genereres i human genomforskning-området. Men på grund af den hurtige ekspansion og udvikling af datasæt vedrørende det menneskelige genom, har det været udfordrende at identificere databaser, der giver nyttige oplysninger. Hertil kommer, da de fleste model organismer databaser er designet til forskere, der arbejder med den specifikke organisme på daglig basis, det er meget vanskeligt, for eksempel, for en mus forsker til at søge efter specifikke oplysninger i en Drosophila database og omvendt. Svarende til varianten fortolkning søgninger udført af medicinske genetikere, identificere nyttige menneskelige og andre model organisme information er tidskrævende og stærkt afhængig af baggrund af modellen organisme forsker. MARRVEL (model organisme aggregerede ressourcer til sjælden variant udforskning)4 er et værktøj designet til begge grupper af brugere til at strømline deres workflow.

MARRVEL (http://marrvel.org) blev designet som en centraliseret søgemaskine, der systematisk indsamler data på en effektiv og konsekvent måde for klinikere og forskere. Med oplysninger fra 20 eller flere offentligt tilgængelige databaser, dette program giver brugerne mulighed for hurtigt at indsamle oplysninger og få adgang til et stort antal menneskelige og model organismer databaser uden gentagende søgninger. Søgeresultatsiderne indeholder også hyperlinks til de oprindelige informationskilder, som gør det muligt for enkeltpersoner at få adgang til rådata og indsamle yderligere oplysninger fra kilderne.

I modsætning til mange af de variant prioritering værktøjer, der kræver store sekvensering data input i form af VCF eller BAM filer og installationer af ofte proprietære/kommerciel software, MARRVEL opererer på enhver web-browser. Det kan bruges uden omkostninger og kompatibel med bærbare enheder (f. eks smartphones, tablets), så længe man er forbundet til internettet. Vi valgte dette format, da mange klinikere og forskere typisk har brug for at søge et eller et par gener og varianter ad gangen. Bemærk, at vi er ved at udvikle batch-download og API (Application Programming Interface) funktioner til MARRVEL til sidst give brugerne mulighed for at kurere hundredvis af gener og varianter på et tidspunkt gennem tilpassede forespørgsels værktøjer, hvis det er nødvendigt.

På grund af den brede vifte af applikationer, i denne protokol, vil vi beskrive en bredt omfattende tilgang til, hvordan man navigerer gennem forskellige datasæt, som MARRVEL viser. Mere målrettede eksempler, der er skræddersyet til specifikke brugeres behov, vil blive beskrevet i afsnittet om repræsentative resultater. Det er vigtigt at bemærke, at produktionen af MARRVEL stadig kræver en vis grad af baggrundsviden i enten humangenetik eller model organismer til at udtrække værdifulde oplysninger. Vi henviser læserne til tabellen, der opregner primære papirer, der beskriver funktionen af hver af de oprindelige databaser, der er kureret af MARRVEL (tabel 1). Følgende protokol er inddelt i tre sektioner: (1) hvordan man begynder en søgning, (2) hvordan man fortolker MARRVEL humangenetik udgange, og (3) hvordan man gør brug af model organisme data i MARRVEL. I afsnittet om repræsentative resultater beskrives mere fokuserede og specifikke tilgange. MARRVEL bliver aktivt opdateret, så se venligst det aktuelle websteds FAQ-side for detaljer om datakilder. Vi anbefaler på det kraftigste, at brugerne af MARRVEL tilmelder sig for at modtage opdateringsmeddelelser via e-mail-indsendelsesformularen nederst på MARRVEL-hjemmesiden.

Protocol

1. sådan begynder en søgning For det menneskelige gen og variant-baseret søgning, gå til trin 1.1.1.-1.1.2. For menneskelig gen-baseret søgning (ingen variant input), gå til trin 1,2. For model organisme gen-baseret søgning, se trin 1.3.1.-1.3.2. Gå til hjemmesiden for MARRVEL4 på http://marrvel.org/. Begynd med at indtaste et menneskeligt gensymbol. Sørg for, at kandidat gennavnene er angivet under indtastningsfeltet med hver tegn indtastning. Hvis søgningen vender ne…

Representative Results

Human genetikere og model organisme videnskabsmænd hver bruger marrvel på forskellige måder, hver med forskellige ønskede resultater. Nedenfor er tre vignetter af mulige anvendelser for MARRVEL. Vurdering af patogenicitet af en variant af en dominerende sygdomDe fleste af de brugere, der besøger MARRVEL bruge denne hjemmeside til at analysere sandsynligheden for, at en sjælden menneskelig variant kan forårsage en bestemt sygdom. F. eks. fandtes en missense (17:59477…

Discussion

Kritiske trin i denne protokol omfatter det indledende input (trin 1.1-1.3) og den efterfølgende fortolkning af outputtet. Den mest almindeligt årsag til, at søgeresultaterne er negative, er på grund af de mange måder, som et gen og/eller en variant kan beskrives på. Mens MARRVEL opdateres på et planlagt grundlag, kan disse opdateringer forårsage afbrydelser mellem de forskellige databaser, som MARRVEL linker til. Således er det første trin i fejlfindingen altid at kontrollere, om alternative navne på genet el…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Vi takker DRs. Rami al-Ouran, seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi WAN, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr og Norbert Perrimon for deres støtte til udvikling og vedligeholdelse af MARRVEL. Vi er taknemmelige for Samantha L. Deal og J. Michael Harnish for deres bidrag til dette manuskript.

Den indledende udvikling af MARRVEL blev delvist støttet af de udiagnosticerede sygdomme Network model organismer screening Center gennem NIH Commonfund (U54NS093793) og gennem NIH Office of Research infrastrukturprogrammer (ORIP) (R24OD022005). JW støttes af NIH Eunice Kennedy Shriver National Institute of Child Health & Human Development (F30HD094503) og Robert og Janice McNair Foundation McNair MD/PhD Student Scholar program hos BCM. HJB støttes yderligere af NIH National Institute of General Medical Sciences (R01GM067858) og er en efterforsker af Howard Hughes Medical Institute. ZL støttes af NIH National Institute of General Medical Science (R01GM120033), National Institute of Aging (R01AG057339), og Huffington Foundation. SY modtog yderligere støtte fra NIH National Institute om døvhed og andre kommunikationsforstyrrelser (R01DC014932), Simons Foundation (SFARI Award: 368479), Alzheimers Association (ny investigator Research tilskud: 15-364099), naman Family Fond for grundforskning og Caroline Wiess lov fond for forskning i Molekylær medicin.

Materials

Human Genetics ClinVar PMID: 29165669 https://www.ncbi.nlm.nih.gov/clinvar/
Human Genetics DECIPHER PMID: 19344873  https://decipher.sanger.ac.uk/
Human Genetics DGV PMID: 24174537 http://dgv.tcag.ca/dgv/app/home
Orthology Prediction DIOPT PMID: 21880147  https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl
Human Gene/Transcript Nomenclature Ensembl PMID: 29155950  https://useast.ensembl.org/
Human Genetics ExAC  PMID: 27535533 http://exac.broadinstitute.org/
Primary Model Organism Databases FlyBase (Drosophila) PMID:26467478 http://flybase.org
Model Organism Database Integration Tools Gene2Function PMID: 28663344 http://www.gene2function.org/search/
Human Genetics Geno2MP N/A http://geno2mp.gs.washington.edu/Geno2MP/
Human Genetics gnomAD PMID: 27535533 http://gnomad.broadinstitute.org/
Gene Ontology GO Central PMID: 10802651, 25428369  http://www.geneontology.org/
Human Gene/Protein Expression GTEx PMID: 29019975, 23715323  https://gtexportal.org/home/
Human Gene Nomenclature HGNC PMID: 27799471  https://www.genenames.org/
Primary Model Organism Databases IMPC (mouse) PMID: 27626380 http://www.mousephenotype.org/
Primary Model Organism Databases MGI (mouse) PMID:25348401 http://www.informatics.jax.org/
Model Organism Database Integration Tools Monarch Initiative PMID: 27899636 https://monarchinitiative.org/
Human Variant Nomenclature Mutalyzer PMID: 18000842  https://mutalyzer.nl/
Human Genetics OMIM PMID: 28654725 https://omim.org/
Primary Model Organism Databases PomBase (fission yeast) PMID:22039153 https://www.pombase.org/
Literature PubMed N/A https://www.ncbi.nlm.nih.gov/pubmed/
Primary Model Organism Databases RGD (rat) PMID:25355511 https://rgd.mcw.edu/
Primary Model Organism Databases SGD (budding yeast) PMID: 22110037 https://www.yeastgenome.org/
Human Gene/Protein Expression The Human Protein Atlas PMID: 21752111 https://www.proteinatlas.org/
Primary Model Organism Databases WormBase (C. elegans) PMID:26578572 http://wormbase.org
Primary Model Organism Databases ZFIN (zebrafish) PMID:26097180 https://zfin.org/

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
  3. MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
  4. Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
  5. Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
  6. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  7. Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
  8. Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
  9. Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
  10. Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
  11. Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
  12. Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
  13. Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
  14. Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
  15. Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
  16. Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
  17. Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
  18. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
  19. Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
  20. Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
  21. Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
  22. Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
  23. MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, 986-992 (2014).
  24. Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
  25. Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
  26. Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
  27. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  28. The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
  29. Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
  30. Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
  31. Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
  32. Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
  33. Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
  34. Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
  35. Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, 217-225 (2016).
  36. Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
  37. Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
  38. Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
  39. Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
  40. Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), 2855-2858 (2017).

Play Video

Cite This Article
Wang, J., Liu, Z., Bellen, H. J., Yamamoto, S. Navigating MARRVEL, a Web-Based Tool that Integrates Human Genomics and Model Organism Genetics Information. J. Vis. Exp. (150), e59542, doi:10.3791/59542 (2019).

View Video