Summary

Naviguer MARRVEL, un outil Web qui intègre la génomique humaine et l'information génétique des organismes modèles

Published: August 15, 2019
doi:

Summary

Ici, nous présentons un protocole pour accéder et analyser de nombreuses bases de données d’organismes humains et modèles efficacement. Ce protocole démontre l’utilisation de MARRVEL pour analyser les variantes candidates causant la maladie identifiées dans les efforts de séquençage de la prochaine génération.

Abstract

Grâce au séquençage de l’exome/génome, les généticiens humains identifient les variantes rares qui se séparent avec les phénotypes de la maladie. Pour évaluer si une variante spécifique est pathogène, il faut interroger de nombreuses bases de données pour déterminer si le gène d’intérêt est lié à une maladie génétique, si la variante spécifique a été rapportée auparavant, et quelles données fonctionnelles sont disponibles dans l’organisme modèle bases de données qui peuvent fournir des indices sur la fonction du gène chez l’homme. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration) est un outil unique de collecte de données pour les gènes et variantes humains et leurs gènes orthologues dans sept organismes modèles, y compris chez la souris, le rat, le poisson zèbre, la mouche des fruits, le ver nématode, la fission levure, et la levure en herbe. Dans ce protocole, nous fournissons un aperçu de ce que MARRVEL peut être utilisé pour et discuter de la façon dont différents ensembles de données peuvent être utilisés pour évaluer si une variante d’importance inconnue (VUS) dans un gène pathogène connu ou une variante dans un gène d’importance incertaine (GUS) peut être Pathogènes. Ce protocole guidera un utilisateur à travers la recherche de plusieurs bases de données humaines simultanément en commençant par un gène humain avec ou sans une variante d’intérêt. Nous discutons également de la façon d’utiliser les données de OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV et DECHIPHER. En outre, nous illustrons comment interpréter une liste de gènes candidats ortholog, modèles d’expression, et go termes dans les organismes modèles associés à chaque gène humain. En outre, nous discutons de la valeur des annotations de domaine structurel de protéine fournies et expliquons comment employer la fonction d’alignement de protéine de plusieurs espèces pour évaluer si une variante d’intérêt affecte un domaine évolué ou acide aminé. Enfin, nous discuterons de trois cas d’utilisation différents de ce site Web. MARRVEL est un site Web en libre accès facilement accessible conçu pour les chercheurs cliniques et de base et sert de point de départ pour concevoir des expériences pour des études fonctionnelles.

Introduction

L’utilisation de la technologie de séquençage de nouvelle génération est en pleine expansion dans les laboratoires de recherche et de génétique clinique1. Les analyses du séquençage de l’exome entier (WES) et du génome entier (WGS) révèlent de nombreuses variantes rares d’importance inconnue (VUS) dans des gènes pathogènes connus ainsi que des variantes dans des gènes qui n’ont pas encore été associés à une maladie mendélienne (GUS : gènes d’incertitude signification). Avec une liste de gènes et de variantes dans un rapport de séquence clinique, les généticiens médicaux doivent visiter manuellement plusieurs ressources en ligne pour obtenir plus d’informations pour évaluer quelle variante peut être responsable d’un certain phénotype vu chez le patient d’intérêt . Ce processus prend beaucoup de temps et son efficacité dépend fortement de l’expertise de l’individu. Bien que plusieurs documents de référence aient été publiés2,3, l’interprétation de WES et WGS nécessite une curation manuelle car il n’y a pas encore de méthodologie normalisée pour l’analyse des variantes. Pour l’interprétation de VUS, la connaissance sur la relation génotype-phénotype précédemment rapportée, le mode d’héritage, et les fréquences d’allèle dans la population générale deviennent valables. En outre, la connaissance de si la variante affecte un domaine critique de protéine, ou un résidu conservationnaire évolutionnellement peut augmenter ou diminuer la probabilité de pathogénie. Pour recueillir toutes ces informations, il faut généralement naviguer à travers 10-20 bases de données d’organismes humains et modèles puisque l’information est dispersée à travers le World Wide Web.

De même, les scientifiques de l’organisme modèle qui travaillent sur des gènes et des voies spécifiques sont souvent intéressés à relier leurs résultats aux mécanismes des maladies humaines et souhaitent tirer parti des connaissances qui sont générées dans le domaine de la génomique humaine. Cependant, en raison de l’expansion et de l’évolution rapides des ensembles de données concernant le génome humain, il a été difficile d’identifier les bases de données qui fournissent des informations utiles. En outre, étant donné que la plupart des bases de données d’organismes modèles sont conçues pour les chercheurs qui travaillent quotidiennement avec l’organisme spécifique, il est très difficile, par exemple, pour un chercheur de souris de rechercher des informations spécifiques dans une base de données Drosophila et vice versa. Semblable aux recherches d’interprétation de variante effectuées par les généticiens médicaux, l’identification de l’information utile d’organisme humain et d’autres modèles est longue et dépend fortement de l’arrière-plan du chercheur de l’organisme modèle. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration)4 est un outil conçu pour les deux groupes d’utilisateurs afin de rationaliser leur flux de travail.

MARRVEL (http://marrvel.org) a été conçu comme un moteur de recherche centralisé qui recueille systématiquement des données de manière efficace et cohérente pour les cliniciens et les chercheurs. Grâce à l’information provenant de 20 bases de données accessibles au public ou plus, ce programme permet aux utilisateurs de recueillir rapidement des informations et d’accéder à un grand nombre de bases de données d’organismes humains et modèles sans recherches réitatrices. Les pages de résultats de recherche contiennent également des hyperliens vers les sources d’information d’origine, permettant aux individus d’accéder aux données brutes et de recueillir des informations supplémentaires fournies par les sources.

Contrairement à bon nombre des outils de priorisation de variante qui nécessitent une entrée de données de séquençage à grande échelle sous la forme de fichiers VCF ou BAM et d’installations de logiciels souvent propriétaires/commerciaux, MARRVEL fonctionne sur n’importe quel navigateur Web. Il peut être utilisé sans frais et compatible avec les appareils portables (par exemple smartphones, tablettes) tant que l’on est connecté à Internet. Nous avons choisi ce format puisque de nombreux cliniciens et chercheurs ont généralement besoin de rechercher un ou quelques gènes et variantes à la fois. Notez que nous développons des fonctionnalités de téléchargement par lots et d’API (interface de programmation d’applications) pour MARRVEL afin de permettre éventuellement aux utilisateurs de rechercher des centaines de gènes et de variantes à la fois grâce à des outils de requête personnalisés si nécessaire.

En raison de la large gamme d’applications, dans ce protocole, nous décrirarons une approche largement globale sur la façon de naviguer à travers différents ensembles de données que MARRVEL affiche. Des exemples plus ciblés qui sont adaptés aux besoins spécifiques des utilisateurs seront décrits dans la section Résultats représentatifs. Il est important de noter que le résultat de MARRVEL nécessite encore un certain niveau de connaissances de base en génétique humaine ou en organismes modèles pour extraire des informations précieuses. Nous renvoyons les lecteurs au tableau qui répertorie les documents primaires qui décrivent la fonction de chacune des bases de données originales qui sont organisées par MARRVEL (tableau 1). Le protocole suivant est divisé en trois sections : (1) Comment commencer une recherche, (2) comment interpréter les résultats génétiques humains DE MARRVEL, et (3) comment utiliser les données de l’organisme modèle dans MARRVEL. Dans la section Résultats représentatifs, des approches plus ciblées et spécifiques sont décrites. MARRVEL est activement mis à jour donc s’il vous plaît se référer à la page FAQ du site Web actuel pour plus de détails sur les sources de données. Nous recommandons fortement aux utilisateurs de MARRVEL de s’inscrire afin de recevoir des notifications de mise à jour par le biais du formulaire de soumission par e-mail au bas de la page d’accueil de MARRVEL.

Protocol

1. Comment commencer une recherche Pour la recherche basée sur le gène humain et les variantes, passez aux étapes 1.1.1.-1.1.2. Pour la recherche basée sur des gènes humains (pas d’entrée de variante), passez à l’étape 1.2. Pour la recherche basée sur les gènes de l’organisme modèle, reportez-vous aux étapes 1.3.1.-1.3.2. Rendez-vous sur la page d’accueil de MARRVEL4 à http://marrvel.org/. Commencez par entrer dans un symbole génétique humain. Assurez-vous que les …

Representative Results

Les généticiens humains et les scientifiques modèles d’organismes utilisent chacun MARRVEL de manière distincte, chacun ayant des résultats différents souhaités. Voici trois vignettes d’utilisations possibles pour MARRVEL. Évaluer la pathogénie d’une variante d’une maladie dominanteLa plupart des utilisateurs qui visitent MARRVEL utilisent ce site Web pour analyser la probabilité qu’une variante humaine rare peut causer une certaine maladie. Par exemple, une vari…

Discussion

Les étapes critiques de ce protocole comprennent l’entrée initiale (étapes 1.1-1.3) et l’interprétation ultérieure de la sortie. La raison la plus courante pour laquelle les résultats de recherche sont négatifs est en raison des nombreuses façons dont un gène et / ou une variante peut être décrite. Bien que MARRVEL soit mis à jour sur une base planifiée, ces mises à jour peuvent provoquer des déconnexions entre les différentes bases de données auxquelles MARRVEL est lié. Ainsi, la première étape du d?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Nous remercions les Drs Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr, et Norbert Perrimon pour leur soutien dans le développement et l’entretien de MARRVEL. Nous sommes reconnaissants à Samantha L. Deal et à J. Michael Harnish pour leur contribution sur ce manuscrit.

Le développement initial de MARRVEL a été soutenu en partie par le Centre de dépistage des organismes modèles du Réseau des maladies non diagnostiquées par l’entremise du Fonds commun des NIH (U54NS093793) et par l’intermédiaire du Bureau des programmes d’infrastructure de recherche des NIH (ORIP) (R24OD022005). JW est soutenu par le NIH Eunice Kennedy Shriver National Institute of Child Health and Human Development (F30HD094503) et The Robert and Janice McNair Foundation McNair MD/PhD Student Scholar Program au BCM. HJB est également soutenu par le NIH National Institute of General Medical Sciences (R01GM067858) et est un chercheur de l’Institut médical Howard Hughes. ZL est soutenu par le NIH National Institute of General Medical Science (R01GM120033), National Institute of Aging (R01AG057339), et la Fondation Huffington. SY a reçu un soutien supplémentaire de l’Institut national des NIH sur la surdité et d’autres troubles de la communication (R01DC014932), de la Fondation Simons (Prix SFARI : 368479), de la Alzheimer’s Association (New Investigator Research Grant: 15-364099), de la famille Naman Fonds pour la recherche fondamentale et Fonds de droit Caroline Wiess pour la recherche en médecine moléculaire.

Materials

Human Genetics ClinVar PMID: 29165669 https://www.ncbi.nlm.nih.gov/clinvar/
Human Genetics DECIPHER PMID: 19344873  https://decipher.sanger.ac.uk/
Human Genetics DGV PMID: 24174537 http://dgv.tcag.ca/dgv/app/home
Orthology Prediction DIOPT PMID: 21880147  https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl
Human Gene/Transcript Nomenclature Ensembl PMID: 29155950  https://useast.ensembl.org/
Human Genetics ExAC  PMID: 27535533 http://exac.broadinstitute.org/
Primary Model Organism Databases FlyBase (Drosophila) PMID:26467478 http://flybase.org
Model Organism Database Integration Tools Gene2Function PMID: 28663344 http://www.gene2function.org/search/
Human Genetics Geno2MP N/A http://geno2mp.gs.washington.edu/Geno2MP/
Human Genetics gnomAD PMID: 27535533 http://gnomad.broadinstitute.org/
Gene Ontology GO Central PMID: 10802651, 25428369  http://www.geneontology.org/
Human Gene/Protein Expression GTEx PMID: 29019975, 23715323  https://gtexportal.org/home/
Human Gene Nomenclature HGNC PMID: 27799471  https://www.genenames.org/
Primary Model Organism Databases IMPC (mouse) PMID: 27626380 http://www.mousephenotype.org/
Primary Model Organism Databases MGI (mouse) PMID:25348401 http://www.informatics.jax.org/
Model Organism Database Integration Tools Monarch Initiative PMID: 27899636 https://monarchinitiative.org/
Human Variant Nomenclature Mutalyzer PMID: 18000842  https://mutalyzer.nl/
Human Genetics OMIM PMID: 28654725 https://omim.org/
Primary Model Organism Databases PomBase (fission yeast) PMID:22039153 https://www.pombase.org/
Literature PubMed N/A https://www.ncbi.nlm.nih.gov/pubmed/
Primary Model Organism Databases RGD (rat) PMID:25355511 https://rgd.mcw.edu/
Primary Model Organism Databases SGD (budding yeast) PMID: 22110037 https://www.yeastgenome.org/
Human Gene/Protein Expression The Human Protein Atlas PMID: 21752111 https://www.proteinatlas.org/
Primary Model Organism Databases WormBase (C. elegans) PMID:26578572 http://wormbase.org
Primary Model Organism Databases ZFIN (zebrafish) PMID:26097180 https://zfin.org/

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
  3. MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
  4. Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
  5. Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
  6. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  7. Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
  8. Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
  9. Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
  10. Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
  11. Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
  12. Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
  13. Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
  14. Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
  15. Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
  16. Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
  17. Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
  18. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
  19. Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
  20. Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
  21. Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
  22. Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
  23. MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, 986-992 (2014).
  24. Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
  25. Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
  26. Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
  27. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  28. The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
  29. Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
  30. Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
  31. Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
  32. Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
  33. Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
  34. Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
  35. Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, 217-225 (2016).
  36. Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
  37. Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
  38. Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
  39. Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
  40. Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), 2855-2858 (2017).

Play Video

Cite This Article
Wang, J., Liu, Z., Bellen, H. J., Yamamoto, S. Navigating MARRVEL, a Web-Based Tool that Integrates Human Genomics and Model Organism Genetics Information. J. Vis. Exp. (150), e59542, doi:10.3791/59542 (2019).

View Video