Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Naviguer MARRVEL, un outil Web qui intègre la génomique humaine et l'information génétique des organismes modèles

Published: August 15, 2019 doi: 10.3791/59542

Summary

Ici, nous présentons un protocole pour accéder et analyser de nombreuses bases de données d'organismes humains et modèles efficacement. Ce protocole démontre l'utilisation de MARRVEL pour analyser les variantes candidates causant la maladie identifiées dans les efforts de séquençage de la prochaine génération.

Abstract

Grâce au séquençage de l'exome/génome, les généticiens humains identifient les variantes rares qui se séparent avec les phénotypes de la maladie. Pour évaluer si une variante spécifique est pathogène, il faut interroger de nombreuses bases de données pour déterminer si le gène d'intérêt est lié à une maladie génétique, si la variante spécifique a été rapportée auparavant, et quelles données fonctionnelles sont disponibles dans l'organisme modèle bases de données qui peuvent fournir des indices sur la fonction du gène chez l'homme. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration) est un outil unique de collecte de données pour les gènes et variantes humains et leurs gènes orthologues dans sept organismes modèles, y compris chez la souris, le rat, le poisson zèbre, la mouche des fruits, le ver nématode, la fission levure, et la levure en herbe. Dans ce protocole, nous fournissons un aperçu de ce que MARRVEL peut être utilisé pour et discuter de la façon dont différents ensembles de données peuvent être utilisés pour évaluer si une variante d'importance inconnue (VUS) dans un gène pathogène connu ou une variante dans un gène d'importance incertaine (GUS) peut être Pathogènes. Ce protocole guidera un utilisateur à travers la recherche de plusieurs bases de données humaines simultanément en commençant par un gène humain avec ou sans une variante d'intérêt. Nous discutons également de la façon d'utiliser les données de OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV et DECHIPHER. En outre, nous illustrons comment interpréter une liste de gènes candidats ortholog, modèles d'expression, et go termes dans les organismes modèles associés à chaque gène humain. En outre, nous discutons de la valeur des annotations de domaine structurel de protéine fournies et expliquons comment employer la fonction d'alignement de protéine de plusieurs espèces pour évaluer si une variante d'intérêt affecte un domaine évolué ou acide aminé. Enfin, nous discuterons de trois cas d'utilisation différents de ce site Web. MARRVEL est un site Web en libre accès facilement accessible conçu pour les chercheurs cliniques et de base et sert de point de départ pour concevoir des expériences pour des études fonctionnelles.

Introduction

L'utilisation de la technologie de séquençage de nouvelle génération est en pleine expansion dans les laboratoires de recherche et de génétique clinique1. Les analyses du séquençage de l'exome entier (WES) et du génome entier (WGS) révèlent de nombreuses variantes rares d'importance inconnue (VUS) dans des gènes pathogènes connus ainsi que des variantes dans des gènes qui n'ont pas encore été associés à une maladie mendélienne (GUS : gènes d'incertitude signification). Avec une liste de gènes et de variantes dans un rapport de séquence clinique, les généticiens médicaux doivent visiter manuellement plusieurs ressources en ligne pour obtenir plus d'informations pour évaluer quelle variante peut être responsable d'un certain phénotype vu chez le patient d'intérêt . Ce processus prend beaucoup de temps et son efficacité dépend fortement de l'expertise de l'individu. Bien que plusieurs documents de référence aient été publiés2,3, l'interprétation de WES et WGS nécessite une curation manuelle car il n'y a pas encore de méthodologie normalisée pour l'analyse des variantes. Pour l'interprétation de VUS, la connaissance sur la relation génotype-phénotype précédemment rapportée, le mode d'héritage, et les fréquences d'allèle dans la population générale deviennent valables. En outre, la connaissance de si la variante affecte un domaine critique de protéine, ou un résidu conservationnaire évolutionnellement peut augmenter ou diminuer la probabilité de pathogénie. Pour recueillir toutes ces informations, il faut généralement naviguer à travers 10-20 bases de données d'organismes humains et modèles puisque l'information est dispersée à travers le World Wide Web.

De même, les scientifiques de l'organisme modèle qui travaillent sur des gènes et des voies spécifiques sont souvent intéressés à relier leurs résultats aux mécanismes des maladies humaines et souhaitent tirer parti des connaissances qui sont générées dans le domaine de la génomique humaine. Cependant, en raison de l'expansion et de l'évolution rapides des ensembles de données concernant le génome humain, il a été difficile d'identifier les bases de données qui fournissent des informations utiles. En outre, étant donné que la plupart des bases de données d'organismes modèles sont conçues pour les chercheurs qui travaillent quotidiennement avec l'organisme spécifique, il est très difficile, par exemple, pour un chercheur de souris de rechercher des informations spécifiques dans une base de données Drosophila et vice versa. Semblable aux recherches d'interprétation de variante effectuées par les généticiens médicaux, l'identification de l'information utile d'organisme humain et d'autres modèles est longue et dépend fortement de l'arrière-plan du chercheur de l'organisme modèle. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration)4 est un outil conçu pour les deux groupes d'utilisateurs afin de rationaliser leur flux de travail.

MARRVEL (http://marrvel.org) a été conçu comme un moteur de recherche centralisé qui recueille systématiquement des données de manière efficace et cohérente pour les cliniciens et les chercheurs. Grâce à l'information provenant de 20 bases de données accessibles au public ou plus, ce programme permet aux utilisateurs de recueillir rapidement des informations et d'accéder à un grand nombre de bases de données d'organismes humains et modèles sans recherches réitatrices. Les pages de résultats de recherche contiennent également des hyperliens vers les sources d'information d'origine, permettant aux individus d'accéder aux données brutes et de recueillir des informations supplémentaires fournies par les sources.

Contrairement à bon nombre des outils de priorisation de variante qui nécessitent une entrée de données de séquençage à grande échelle sous la forme de fichiers VCF ou BAM et d'installations de logiciels souvent propriétaires/commerciaux, MARRVEL fonctionne sur n'importe quel navigateur Web. Il peut être utilisé sans frais et compatible avec les appareils portables (par exemple smartphones, tablettes) tant que l'on est connecté à Internet. Nous avons choisi ce format puisque de nombreux cliniciens et chercheurs ont généralement besoin de rechercher un ou quelques gènes et variantes à la fois. Notez que nous développons des fonctionnalités de téléchargement par lots et d'API (interface de programmation d'applications) pour MARRVEL afin de permettre éventuellement aux utilisateurs de rechercher des centaines de gènes et de variantes à la fois grâce à des outils de requête personnalisés si nécessaire.

En raison de la large gamme d'applications, dans ce protocole, nous décrirarons une approche largement globale sur la façon de naviguer à travers différents ensembles de données que MARRVEL affiche. Des exemples plus ciblés qui sont adaptés aux besoins spécifiques des utilisateurs seront décrits dans la section Résultats représentatifs. Il est important de noter que le résultat de MARRVEL nécessite encore un certain niveau de connaissances de base en génétique humaine ou en organismes modèles pour extraire des informations précieuses. Nous renvoyons les lecteurs au tableau qui répertorie les documents primaires qui décrivent la fonction de chacune des bases de données originales qui sont organisées par MARRVEL (tableau 1). Le protocole suivant est divisé en trois sections : (1) Comment commencer une recherche, (2) comment interpréter les résultats génétiques humains DE MARRVEL, et (3) comment utiliser les données de l'organisme modèle dans MARRVEL. Dans la section Résultats représentatifs, des approches plus ciblées et spécifiques sont décrites. MARRVEL est activement mis à jour donc s'il vous plaît se référer à la page FAQ du site Web actuel pour plus de détails sur les sources de données. Nous recommandons fortement aux utilisateurs de MARRVEL de s'inscrire afin de recevoir des notifications de mise à jour par le biais du formulaire de soumission par e-mail au bas de la page d'accueil de MARRVEL.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Comment commencer une recherche

  1. Pour la recherche basée sur le gène humain et les variantes, passez aux étapes 1.1.1.-1.1.2. Pour la recherche basée sur des gènes humains (pas d'entrée de variante), passez à l'étape 1.2. Pour la recherche basée sur les gènes de l'organisme modèle, reportez-vous aux étapes 1.3.1.-1.3.2.
    1. Rendez-vous sur la page d'accueil de MARRVEL4 à http://marrvel.org/. Commencez par entrer dans un symbole génétique humain. Assurez-vous que les noms de gènes candidats sont énumérés sous la boîte d'entrée avec chaque entrée de caractère. Si la recherche revient négative, assurez-vous que le symbole génétique utilisé est à jour en utilisant le site Web du Comité de nomenclature génique HUGO5 (HGNC; https://www.genenames.org/).
    2. Entrez une variante humaine. La barre de recherche est compatible avec deux types de nomenclature de variante : l'emplacement du génome similaire à la façon dont les variantes sont affichées sur ExAC et GnomAD6 et la nomenclature basée sur la transcription selon les directives du SGV. Des exemples de ces formats sont affichés en texte gris dans la zone de recherche. Pour la nomenclature de localisation génomique, utilisez les coordonnées selon hg19/GRCh37. Procéder à l'étape 2.
      REMARQUE : Si une recherche renvoie une erreur, les problèmes les plus courants sont soit le symbole génétique n'est pas à jour, soit la nomenclature variante est incorrecte. Dans ces cas, les sites Web HGNC (https://www.genenames.org/), Mutalyzer7 (https://www.mutalyzer.nl/) et TransVar8 (https://bioinformatics.mdanderson.org/transvar/) sont d'excellentes ressources pour corriger l'erreur. HGNC fournit des symboles génétiques officiels et leurs alias pour tous les gènes humains.
    3. Si vous rencontrez encore des messages d'erreur après avoir confirmé que le nom du gène est à jour, utilisez Mutalyzer et TransVar pour vérifier et convertir la nomenclature des variantes.
    4. Dans certaines situations, comme un changement de symbole génétique très récent dans HGNC, essayez d'utiliser un synonyme pour le gène et s'il vous plaît contacter l'équipe d'exploitation MARRVEL en utilisant l'onglet "Feedback" afin de mettre à jour les données source, comme MARRVEL peut ne pas fournir les informations correctes en raison d'un décalage dans les données jusqu'à date.
  2. Entrez un symbole de gène humain et laissez la barre de recherche de variante humaine vide. Si une erreur est rencontrée, rendez-vous à HGNC (https://www.genenames.org/) pour vérifier le symbole génétique officiel ou essayez un ancien symbole génétique.
    1. Cliquez sur l'onglet Recherche d'organismes modèles sur la bannière supérieure (Figure 1) ou rendez-vous sur http://marrvel.org/model. Sélectionnez l'organisme modèle de choix et entrez un symbole de gène d'organisme modèle. Cliquez sur le symbole du gène lorsque le nom est autoterminé, puis cliquez sur Recherche. Si le résultat de la recherche est négatif, vérifiez le symbole génétique officiel qui est utilisé dans les bases de données des organismes modèles (tableau 1).
    2. Si le résultat de la recherche est toujours négatif, accédez à DIOPT (DRSC Integrative Ortholog Prediction Tool, https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) et HCOP (https://www.genenames.org/tools/hcop/) pour évaluer s'il n'y a pas de bons orthologs prévus pour le gène d'intérêt. DIOPT est un moteur de recherche ortholog prédiction géré par le DRSC (Drosophila RNAi Screening Center) et HCOP est une suite similaire développée par HGNC.
      REMARQUE : Des recherches supplémentaires à l'aide de BLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi) peuvent permettre aux utilisateurs de trouver des orthologs qui peuvent être manqués par les algorithmes de prédiction utilisés dans DIOPT et HCOP.
    3. Cliquez sur le MARRVEL il en bas pour l'ortholog humain prédit de choix. Vérifier le score DIOPT9 et meilleur score du gène humain à l'organisme modèle? pour la sélection du gène humain. Passez à l'étape 2.
      REMARQUE : Le score9 de DIOPT(https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) est une valeur du nombre d'algorithmes de prédiction ortholog prédisent qu'une paire de gènes dans deux organismes sera orthologue l'un à l'autre. Pour plus d'informations sur ces valeurs et les algorithmes spécifiques utilisés pour calculer ce score, se référer à Hu et al9. Lorsque le meilleur score du gène humain à l'organisme modèle? est Oui, il indique que le gène humain est plus probable un véritable orthologs humains du gène d'intérêt, mais il pourrait y avoir des exceptions, surtout lorsque plusieurs gènes humains sont orthologues à gènes d'organismes modèles multiples en raison d'événements de duplication de gènes au cours de l'évolution. Si le gène d'intérêt est un membre d'une famille de gènes complexes qui ont subi une évolution divergente chez plusieurs espèces, les utilisateurs doivent identifier une publication qui a effectué une analyse phylogénétique approfondie de la famille de gènes d'intérêt pour identifier le plus gène candidat ortholog probable.

2. Comment interpréter les résultats génétiques humains MARRVEL pour une recherche de gènes et de variantes

REMARQUE : Sur la page des résultats, sept bases de données humaines sont affichées (tableau1, figure 1). Pour chaque boîte de sortie, il y a un bouton de lien externe (petite boîte avec uneflèche diagonale) sur le coin supérieur droit qui sera relié à la base de données d'origine pour plus de détails.

  1. Cliquez sur OMIM (Online Mendelian Inheritance in Man, https://www.omim.org/)10, la première base de données qui est affichée.
    REMARQUE : L'OMIM est une base de données organisée manuellement qui regroupe et résume l'information sur les maladies génétiques et les traits chez l'humain.
    1. Utilisez la boîte de description des gènes humains de l'OMIM pour un bref résumé de ce que l'on sait sur le gène et le produit génétique.
    2. Utilisez la boîte De relations gènes-phénotypes pour déterminer si ce gène est un gène pathogène connu ou non. Cette boîte fournit des associations connues de maladie ou de phénotype ascurées manuellement avec le gène d'intérêt.
    3. Utilisez les Allèles signalés de la boîte OMIM pour obtenir une liste de variantes pathogènes organisées par OMIM.
      REMARQUE : Étant donné que la conservation manuelle d'une publication concernant une nouvelle découverte de gène de la maladie est nécessaire pour que toute association de gène-maladie apparaisse dans OMIM, un certain décalage et/ou publications manquées peuvent mener à l'idée fausse. Il est recommandé aux utilisateurs d'effectuer des recherches PubMed (https://www.ncbi.nlm.nih.gov/pubmed/) pour examiner la littérature récente (voir 4.1.2.). Pour plus d'informations organisée dans OMIM, se référer à Amberger10,11.
  2. claquerExAC (En)(Consortium d'agrégation d'exome, http://exac.broadinstitute.org/)6et gnomAD(Genome Aggregation Database, http://gnomad.broadinstitute.org/), de grandes bases de données de génomique de population basées sur WES et WGS des personnes qui sont choisies pour exclure les maladies pédiatriques graves.
    REMARQUE : L'ExAC contient 60 000 WES tandis que le gnomAD contient 120 000 WES et 15 000 WGS. L'ExAC et le gnomAD peuvent être utilisés comme base de données de population témoin, particulièrement pour les désordres pédiatriques graves, mais son interprétation exige un certain degré de prudence. En général, le gnomAD peut être considéré comme une version mise à jour et élargie de l'ExAC puisque la plupart des cohortes qui sont incluses dans l'ExAC sont également incluses dans le gnomAD. Toutefois, comme il y a quelques exceptions (voir les données de cohorte dans http://exac.broadinstitute.org/about et http://gnomad.broadinstitute.org/about, respectivement), MARRVEL affiche les données des deux sources.
    1. Utilisez la case Desynthèse des gènes de la population témoin pour obtenir des statistiques génétiques telles que la probabilité de trouver la perte de fonction (LOF) allèle dans la population générale. C'est ce qu'on appelle le score pLI (probabilité d'intolérance LOF) dans ExAC et peut être utilisé pour déduire la probabilité d'une copie unique d'un allèle LOF pour un gène spécifique peut causer une maladie dominante par des mécanismes haplo-insuffisants.
      REMARQUE : En regardant le score de pLI d'un gène a la valeur, particulièrement en traitant des désordres dominants qui présentent comme maladies pédiatriques graves liées aux variantes de novo. Si un gène a un score de pLI de 0,00, cela signifie qu'il est très tolérant des variantes de LOF donc le gène cause peu probable la maladie par l'intermédiaire d'un mécanisme dominant d'haploinsufficiency. Ceci n'exclut pas nécessairement d'autres gains dominants de fonction (GOF) ou les mécanismes négatifs dominants négociés peuvent causer la maladie. En outre, les gènes qui causent les maladies récessives peuvent avoir de faibles scores pLI puisque les carrières sont censées être trouvées dans la population générale. D'autre part, si un gène a un score pLI de 1,00, il est possible que la perte d'une copie de ce gène est préjudiciable pour la santé humaine. D'autres recherches dans des sites Web tels que DOMINO (https://wwwfbm.unil.ch/domino/) peuvent également être utilisées en combinaison pour évaluer la probabilité d'une variante dans un gène spécifique causant un trouble dominant.
    2. Utilisez les deux cases suivantes pour obtenir les fréquences allèle de la variante d'intérêt dans ExAC et gnomAD, respectivement pour aider à interpréter si oui ou non la variante peut être pathogène selon si le patient a la maladie dominante ou récessive. Cette boîte ne s'affiche que lorsque l'utilisateur saisit des informations variables lors de l'lancement de la recherche.
      REMARQUE : Si l'on émet l'hypothèse d'un scénario de maladie récessive et que le score pLI du gène d'intérêt est faible, il faut prêter attention à la fréquence d'allèle énumérée ici. Certains généticiens peuvent établir un point de coupure de 0,005 à 0,0001 comme fréquence maximale d'allèle pour les variantes pathogènes qui peuvent causer une maladie récessive ment héréditaire grave2. D'autre part, si l'on émet l'hypothèse d'un scénario de maladie dominante, il est moins probable de trouver la variante identique ou similaire dans une population témoin. Encore une fois, cela exige la prudence parce que les personnes avec des désordres de début tardif, des maladies avec la présentation douce, les désordres psychiatriques ou les maladies non examinées par les chercheurs d'ExAC/gnomAD peuvent toujours être incluses et la variante peut toujours être une pathogène dominante variante. En outre, il y a eu quelques exemples de variantes liées aux conditions pédiatriques trouvées dans quelques individus dans ces bases de données12,13,14, potentiellement dues à la penetrance incomplète ou au mosaicism somatique13 , 15 Annonces , 16. En outre, bien que l'ExAC et le gnomAD affichent des variantes qui se trouvent dans un état homozygote, il n'indiquera pas si l'une des variantes se trouve dans un état hétérozygous composé. Enfin, certaines variantes trouvées dans ces bases de données sont étiquetées comme étant peu confiantes en raison de difficultés techniques dans le séquençage (p. ex. faible couverture de séquence, séquence répétitive). Pour examiner plus attentivement ces ensembles de données, il est recommandé aux utilisateurs d'utiliser le bouton de lien externe pour visiter les sites Web ExAC et gnomAD d'origine pour obtenir des informations supplémentaires.
  3. Cliquez sur Geno2MP (Genotype to Mendelian Phenotype Browser, http://geno2mp.gs.washington.edu/Geno2MP/), une collection de données basées sur WES du Centre de génétique mendélienne de l'Université de Washington. Il contient environ 9 600 exomes (au 18/10/2019) de personnes touchées et de parents non affectés avec quelques descriptions phénotypiques (figure 1).
    1. Utilisez la boîte de population de la maladie pour obtenir la fréquence allèle de la variante d'intérêt dans cette cohorte.
    2. Utilisez la boîte De relations génotype pour obtenir HPO (ontologie phénotype humaine)17 termes pour les personnes ayant la variante d'intérêt. C'est l'une des nombreuses façons pour l'on de chercher des patients qui peuvent avoir la même maladie.
      REMARQUE : Si un gène d'intérêt est suspecté d'être associé à la maladie d'un patient et qu'il existe des correspondances trouvées dans Geno2MP, des informations importantes supplémentaires peuvent être présentes dans la source de données au-delà de ce qui est affiché.
      1. Cliquez sur le bouton de lien externe vers la page spécifique au gène sur Geno2MP, filtrez les mutations similaires à celles du patient (p. ex., missense, LOF), et examinez attentivement les listes de variantes. Prenez note des variantes avec des scores CADD18 élevés et cliquez sur les profils HPO. Par exemple, les scores CADD supérieurs à 20 sont dans le top 1% de toutes les variantes prévues pour être délétères, les scores CADD qui sont supérieurs à 10 sont dans le top 10%. Les termes HPO fournissent une description normalisée des phénotypes humains. Ici, assurez-vous de vérifier si la variante a été identifiée chez une personne touchée ou chez un parent.
      2. Si des variantes sont trouvées chez les patients qui sont affectés dans le même système d'organes que le patient, envisagez d'utiliser le formulaire de courriel pour contacter le médecin qui a soumis ces cas à Geno2MP en utilisant la fonctionnalité fournie sur le site Web geno2MP.
        REMARQUE : Tous les médecins ne répondent pas à de telles questions, alors on devrait explorer d'autres avenues de jumeletme pour les patients. D'autres façons de rassembler une cohorte de patients touchés par les mêmes maladies est d'utiliser des outils tels que GeneMatcher19 (https://www.genematcher.org/) et d'autres bases de données qui font partie de la Matchmaker Exchange19,20 ( https://www.matchmakerexchange.org/). Voir l'article joVE d'accompagnement pour plus d'informations sur le jumelet21.
  4. Utiliser la base de données ClinVar (https://www.ncbi.nlm.nih.gov/clinvar/)22, soutenue par les National Institutes of Health (NIH), où chercheurs et cliniciens soumettent des variantes avec ou sans détermination de la pathogénie, pour vérifier variantes de nucléotide unique (SNV), petites indels et plus grandes variations de nombre de copies (CNV).
    1. Utilisez la rangée supérieure pour consulter un résumé du nombre de variations signalées dans ClinVar (Figure 1).
    2. Consultez la liste des variantes ci-dessous dans la boîte Alleles signalés de ClinVar.
      REMARQUE : Si une variante a été incluse dans la recherche initiale, les variantes mises en évidence dans sarcelle sont toutes des variantes qui incluent l'emplacement génomique de la variante d'intérêt [y compris les grands CNV, qui sont souvent étiquetés comme; coordonnées génomiques... x1 (suppression) et ... x3 (duplication)].
  5. Utilisez DGV23 (Database of Genomic Variants, http://dgv.tcag.ca/dgv/app/home) et DECIPHER24 (DatabasE of genomiC varIation and Phenotype in Humans using Ensembl Resources, https://decipher.sanger.ac.uk/), both collections de CNV. DGV est la plus grande collection d'accès public de variantes structurelles de plus de 54 000 personnes. Cette base de données comprend des échantillons d'individus en bonne santé, au moment de la vérification, de jusqu'à 72 études différentes. De même, les données affichées à partir de DECIPHER comprennent des variantes communes de la population témoin.
    REMARQUE : Étant donné que MARRVEL n'a pas la permission d'afficher les données provenant de DECIPHIER, les utilisateurs sont encouragés à visiter directement le site Web de DECIPHER pour accéder à des renseignements potentiellement pathogènes sur le VNC.
    1. Cliquez sur la case De variation du nombre de copies dans la base de données de contrôle (base de données DGV) pour obtenir des variantes qui contiennent le gène d'intérêt. Des informations telles que la taille, le sous-type et la référence de la variation du nombre de copies se trouvent dans la même boîte.
    2. Cliquez sur la case Variables de nombre de copie commune (base de données DECIPHER) pour obtenir des variantes qui contiennent l'emplacement génomique de la variante d'intérêt. Ces informations peuvent aider à déterminer si le gène est dupliqué ou supprimé chez les personnes témoins.
      REMARQUE : Si le gène d'intérêt est supprimé chez de nombreuses personnes de la population témoin, cela signifie que ce gène est susceptible d'être très tolérant aux variantes de LOF. Comme les scores bas de pLI, ceci suggère qu'une perte simple de copie de ce gène soit moins susceptible de causer une maladie grave par l'intermédiaire d'un mécanisme d'haploinsufficiency. Cela n'exclut pas nécessairement d'autres gains dominants de fonction ou de mécanismes négatifs dominants (p. ex. alleles antimorphes, hypermorphes et néomorphes) causés par des alleles spécifiques de mauvaise sensibilité et de tronquation.  Parmi les limites possibles à ces données, mentionnons la variation de la source et de la méthode des données acquises, le manque d'information sur la pénétration incomplète des VNC pathogènes et la question de savoir si les individus ont développé certaines maladies après la collecte de données.

3. Comment utiliser les données de l'organisme modèle dans MARRVEL

  1. Utilisez le tableau de la fonction génique pour obtenir les informations suivantes pour huit organismes modèles, y compris l'homme (humain, rat, souris, poisson zèbre, drosophila, C elegans, levure en herbe et levure de fission):
    1. Nom du gène: Étant donné que chaque nom de gène est hyperrelié aux pages génétiques des bases de données respectives des organismes modèles, cliquez sur ces liens pour en savoir plus sur les informations phénotypiques et les ressources disponibles pour chaque organisme modèle. Par exemple sur FlyBase25 (http://flybase.org/), il y aura une liste de tous les allèles qui ont été générés, leurs phénotypes respectifs et la disponibilité de chaque allèle des centres publics de stock.
    2. Lien PubMed: Cliquez sur le lien PubMed pour aller à une liste de publications qui se rapporte au gène d'intérêt dans chaque organisme. Sans utiliser ces liens, la recherche du gène humain directement dans PubMed peut conduire à manquer certaines publications qui ont utilisé un ancien pseudonyme de gène pour se référer au gène humain. De même, les noms de gènes d'organisme modèle peuvent avoir fluctué historiquement.
    3. DIOPT DIOPT 9 score: Vérifiez cette colonne pour un score de combien d'algorithmes de prédiction ortholog prédire le gène est susceptible d'être un ortholog du gène humain d'intérêt. On peut utiliser un score DIOPT de 3 ou plus comme une coupure raisonnable pour identifier les candidats ortholog solides. Cependant, il y a des cas où les orthologs authentiques ont seulement un score de DIOPT de 1 dû à l'homologie limitée. En haut de la table de la fonction génique, décochez la case « Montrez seulement le meilleur gène de score DIOPT » pour afficher tous les candidats qui incluent généralement des gènes homologues qui ne sont pas nécessairement des orthologs.
    4. Expression: Consultez cette colonne pour la liste des tissus où le gène ou la protéine d'intérêt a été signalé pour être exprimé dans les bases de données des organismes humains ou modèles. Les données sur l'expression des gènes et des protéines humaines proviennent respectivement de GTEx26 (https://gtexportal.org/) et de Human Protein Atlas27 (https://www.proteinatlas.org/), respectivement. Certains ont un bouton avec des liens pop-up, comme pour l'homme et pour la mouche qui affichent le modèle d'expression à l'aide d'une carte thermique, tandis que d'autres sont hyperliés à des pages de bases de données d'organismes modèles respectifs.
    5. Généologie de l'Ontario 28 (GO) termes: Filtrer par des codes de preuves expérimentales et obtenir à partir de bases de données respectives des organismes humains ou modèles. Les termes GO basés sur les « codes de preuve d'analyse computationnelle » et les « codes de preuve d'annotation électronique » (prévisions) ne sont pas affichés. Veuillez visiter chaque site Web de l'organisme modèle pour recueillir ces informations si nécessaire.
    6. D'autres liens tels que Monarch Initiative29 (https://monarchinitiative.org/) et IMPC30 (http://www.mousephenotype.org/): Utilisez l'hyperlien Monarch Initiative pour naviguer vers la page Phenogrid pour le gène humain spécifique, un tableau qui fournit une comparaison rapide entre les phénotypes associés au gène d'intérêt aux maladies humaines connues et aux mutants modèles d'organismes qui ont des chevauchements phénotypiques. Si un gène de souris a une souris knock-out faite ou planifiée par l'International Mouse Phenotyping Consortium (IMPC), le "IMPC" liens vers la page qui détaille le phénotype de la souris knock-out et sa disponibilité à partir de centres boursiers publics.
  2. L'homme Domaines protéiques: Utilisez la boîte de domaines de protéines génétiques humaines pour obtenir les domaines protéiques prévus du gène humain. Les données sont dérivées de DIOPT, qui utilise Pfam (https://pfam.xfam.org/) et CCD (Conserved Domains Database, https://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml). Un seul résidu peut-être annoté plus d'une fois en raison d'un certain chevauchement dans les domaines annotés dans les deux sources.
  3. Utilisez la boîte d'alignement des protéines multiples pour obtenir l'alignement multiple d'acide aminé généré par DIOPT9 qui comprend l'homme (hs), le rat (rn), la souris (mm), le poisson zèbre (dr), la mouche des fruits (dm), le ver (ce) et les levures (sc et sp). Pour mettre en évidence l'acide aminé d'intérêt, faites défiler vers le bas de la boîte et entrez les nombres d'acides aminés ci-dessous et les acides aminés d'intérêt seront mis en évidence dans sarcelle. L'alignement est fourni par DIOPT et utilise mAFFT aligner (programme d'alignement multiple pour les séquences d'acide aminé ou de nucléotide, https://mafft.cbrc.jp/alignment/software/31).
    REMARQUE: Si l'acide aminé qui est mis en évidence en fonction du nombre n'est pas celui prévu, il peut être dû à différents isoformes d'épissage utilisés pour l'alignement. En principe, DIOPT utilise l'isoforme le plus long pour s'afficher dans cette boîte. En outre, pour les segments de gènes qui ne sont pas bien conservés, l'alignement des séquences multi-espèces en utilisant des paramètres par défaut peut ne pas être optimal. Nous vous recommandons d'utiliser d'autres sites Web et logiciels comme Clustal Omega et ClustalW/X (http://www.clustal.org/)32 afin d'optimiser les paramètres d'alignement et les matrices en conséquence.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Les généticiens humains et les scientifiques modèles d'organismes utilisent chacun MARRVEL de manière distincte, chacun ayant des résultats différents souhaités. Voici trois vignettes d'utilisations possibles pour MARRVEL.

Évaluer la pathogénie d'une variante d'une maladie dominante
La plupart des utilisateurs qui visitent MARRVEL utilisent ce site Web pour analyser la probabilité qu'une variante humaine rare peut causer une certaine maladie. Par exemple, une variante erronée (17:59477596 G-gt;A, p.R20Q) dans TBX2 s'est avérée séparer d'une manière dominante autosomique dans une petite famille avec des dispositifs dysmorphiques et le palais de fissure, des défauts cardiaques, des anomalies squelettiques et de digit, phénotypes et défauts immunitaires12. La mère et les deux enfants affectés par ces symptômes ont porté la variante, alors que le père n'a pas. Le fils de 9 ans a eu le phénotype le plus grave, alors que la mère de 36 ans et la fille de 6 ans ont eu des formes plus douces de cette maladie. Pour évaluer si cette variante est probablement pathogène, on peut commencer une recherche MARRVEL en entrant le gène et les variantes sur la page de départ sur http://MARRVEL.org. Notez que la barre de recherche de variante nécessite la suppression de Chr en face de la variante si celle-ci est répertoriée dans le rapport clinique original pour indiquer "Chromosome". Au moment de l'étude originale, la page des résultats a montré qu'il n'y a pas de phénotype OMIM associé à ce gène, et cette variante ne se trouve qu'une seule fois dans le gnomAD, mais pas dans ExAC, ClinVar, ou Geno2MP. On peut penser que cette identification d'un individu peut être une preuve contre p.R20Q étant une variante pathogène, mais il est important de noter que la mère de la famille a montré une forme légère de la maladie. Une variante trouvée dans 1/150.000 individu est en effet une variante très rare et l'identification d'un individu avec la variante identique peut être expliquée par l'expressivité réduite ou la pénétration. Dans le tableau de la fonction génique, il est souvent utile de vérifier si le gène est exprimé dans les tissus pertinents chez l'homme (via GTEx et Protein Atlas) en référence aux phénotypes du patient. Dans ce cas, le modèle d'expression correspond puisque le patient a des phénotypes dans les tissus multiples et le gène est également largement exprimé, y compris les organes cardiaques, et immunisés.

Sur la base des informations de l'organisme modèle affichées dans MARRVEL, on peut rapidement voir que le gène est conservé de C. elegans et Drosophila à l'homme et l'acide aminé d'intérêt, p.R20 est également très conservé tout au long de l'évolution comme indiqué dans Figure 2 (à noter que le rat Tbx2 ne s'aligne pas bien dans cette région, probablement en raison de la transcription qui est utilisée pour l'alignement). L'information phénotypique chez la souris et le poisson zèbre indique que ce gène affecte le développement ou la fonction d'un certain nombre de tissus, y compris le système cardio-vasculaire, craniofacial/palate, et les chiffres. En somme, ces données suggèrent que cette variante est probablement pathogène et une étude fonctionnelle plus poussée est précieuse. Considérant que le gène et la variante sont conservés dans des organismes comme C. elegans et Drosophila, les études fonctionnelles chez les animaux invertébrés seront plus rapides et moins coûteuses par rapport à la réalisation de la même expérience dans les organismes modèles vertébrés comme le poisson zèbre, la souris et le rat. S'il vous plaît voir l'article d'accompagnement par Harnish et al.21 concernant la façon dont nous avons conçu et effectué des tests fonctionnels pour ce cas12. La participation de ce gène/variant dans cette famille' la maladie de s a été encore renforcée par l'identification d'un patient masculin indépendant de 8 ans avec des phénotypes se chevauchant avec une variante de de novo missense dans le même gène utilisant GeneMatcher. Les variantes dans les deux familles se sont avérées fonctionnelles utilisant des expériences dans Drosophila,soutenant davantage la pathogénicité des variantes rares dans TBX2. La maladie a récemment été organisée comme «anomalies vertébrales et variable Dysfonction endocrinienne et t-cellulaire (VETD, OMIM #618223)» dans OMIM. Voir La figure 3 pour la sortie entière pour TBX2 17:59477596 G-gt;A.

Évaluer la pathogénie d'une variante d'une maladie récessive
Il existe des différences significatives entre l'analyse des variantes humaines dans les maladies dominantes et récessives. Par exemple, le score de pLI, la fréquence mineure d'allèle, et la présence des suppressions dans la population témoin deviennent moins importants parce que deux allèles sont nécessaires pour indiquer n'importe quel phénotype.

Un exemple d'analyse d'une maladie récessive est détaillé dans Yoon et al33 et Wang et al4 qui est résumé ici. Une fille de 15 ans a exhibé le retard développemental, la microcéphalie, l'ataxie, l'affaiblissement moteur, l'hypotonie, les affaiblissements de langage, les anomalies de cerveau, et l'hypoplasie du callosum de corpus33. Le proband, ses parents non affectés, et un frère ou une sœur non affectés ont reçu WES. Après le filtrage pour des variantes qui étaient à la fois uniques au proband et rares dans la population, des variantes dans 13 gènes différents sont restées. Le filtrage manuel et l'analyse des 13 candidats en suivant le protocole décrit ici ont donné lieu à la priorisation d'une variante spécifique dans l'OGDHL comme un bon candidat pour les études fonctionnelles. Les éléments clés de l'information qui ont conduit à la priorité p.S778L dans OGDHL (10:50946295 G-gt;A) sur d'autres variantes comprennent: (1) aucune association de maladie précédente dans OMIM, (2) variante non trouvée dans les populations témoins, (3) ontologie génique associée à d'autres variantes microtubule et mitochondries, deux systèmes qui ont de nombreux liens avec les troubles neurologiques34,35, (4) fortement exprimé dans le cervelet humain, un tissu sévèrement affecté dans ce patient, et (5) la variante de l'intérêt affectant un très aminé soudé (de la levure à l'homme) et situé dans le domaine catalytique4. le score de pLI pour ce gène est 0.00 mais ceci n'affecte pas la priorité de cette variante/gène pour ce cas puisque nous soupçonnons un mode récessif de l'héritage et que les porteurs des variantes délétères dans ce gène peuvent présenter dans la population générale. Voir la figure 4 pour la sortie DE MARRVEL pour OGDHL 10:50946295 G.A.

Les études d'organisme modèle réalisées en parallèle ont montré que la perte d'Ogdh(également appelée Nc73EF), l'ortholog drosophila de l'OGDHL, dans le système nerveux présente un phénotype neurodégénératif compatible avec le trouble neurologique de proband33. Des études fonctionnelles dans Drosophila ont prouvé que la variante de l'intérêt (p.S778L) affecte la fonction de protéine, ceci ceci un gène candidat fort pour cette maladie. Depuis lors, cette information sur une variante pathogène potentielle dans OGDHL liée à un nouveau désordre neurologique a été incorporée dans OMIM (https://www.omim.org/entry/617513) très récemment mais n'ont pas encore été assignées un phénotype de maladie parce qu'un seul cas a été signalé en janvier 2019.

L'ortholog humain d'un gène modèle d'organisme d'intérêt est-il associé aux maladies génétiques?
De nombreux chercheurs d'organismes modèles peuvent être intéressés à voir si l'ortholog humain de leur gène d'intérêt peut avoir des liens avec des maladies génétiques. Dans cet exemple, nous chercherons si l'ortholog (s) humain du gène Notch (N) de mouche a une quelconque pertinence pour les maladies génétiques. Pour ce faire, nous allons commencer par effectuer une "Recherche d'organismes modèles (1.3.1.-1.3.2.)" et sélectionner"Drosophila melanogaster" comme nom de l'espèce et"N" comme nom du gène de l'organisme modèle. Les quatre orthologs humains prévus pour ce gène de mouche seront affichés dans la fenêtre de résultats comme NOTCH1, NOTCH2, NOTCH3, et NOTCH4. Les quatre gènes ont des scores DIOPT différents (10/12 pour NOTCH1, 8/12 pour NOTCH2 et NOTCH3, 5/12 pour NOTCH4) en raison du degré d'homologie entre la mouche N et chaque gène humain. Considérant le "Meilleur score du gène humain à la mouche" est répertorié comme "Oui" pour les quatre gènes, la recherche inverse de chaque gène humain prend le gène N mouche comme le candidat ortholog le plus probable. En effet, on pense que les quatre gènes HUMAINS NOTCH sont issus d'un seul gène Notch au cours des deux séries d'événements de duplication du génome entier qui se sont produits dans la lignée des vertébrés après la scission de la lignée des invertébrés36. En cliquant sur les boutons "MARRVEL it" pour chaque gène humain, on peut obtenir les extrants génétiques humains pour NOTCH1-4.  Sur la page des résultats de chaque gène, les cases supérieures de l'OMIM indiquent que, bien que NOTCH1, 2 et 3 soient associés à des maladies génétiques, NOTCH4 n'est actuellement associé à aucune maladie humaine. Notez qu'il y a eu des débats sur la question de savoir si les variantes de NOTCH4 sont associées à la schizophrénie sur la base d'études d'association à l'échelle du génome (GWAS)37,38. Étant donné que l'OMIM ne dispose généralement pas de données GWAS à quelques exceptions près (p. ex. APOE, PTPN22),ces informations ne sont pas disponibles à partir de la fenêtre OMIM. De même, puisque l'OMIM n'est généralement pas le curateur de l'information sur les mutations somatiques associées au cancer, l'information sur la question de savoir si des mutations somatiques dans ces gènes sont associées à certains types de cancer ne sera pas énumérée à quelques exceptions près (p. ex. TP53, RB1, BRCA1). En cliquant sur la boîte PubMed ou Monarch, on peut identifier certains documents liés à la maladie qui ne sont pas conservés dans OMIM. Voir Figure 5 pour l'ensemble de la production DE MARRVEL pour le gène mouche N et le gène humain NOTCH4.

Figure 1
Figure 1 . Sortie représentative d'une recherche MARRVEL. Cet exemple spécifique montre une recherche de gène/variante pour "TBX2/17:59477596 G-gt;A" (http://marrvel.org/search/pair/TBX2/17:59477596%20G%3EA). La barre latérale sur la gauche prend en charge les navigations à travers la sortie de données. Notez que les panneaux « lien externe » fournissent ici des liens vers les pages appropriées du navigateur du génome de l'UCSC (https://genome.ucsc.edu/). Les onglets sur le dessus permettent d'effectuer des recherches basées sur des gènes d'organisme modèle, d'obtenir des informations supplémentaires sur MARRVEL et de fournir des commentaires des utilisateurs. Les panneaux 'Search Results' affichent des informations génétiques et variantes à partir des sources indiquées dans l'image. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Figure 2
Figure 2 . Résumé de la table ortholog organisme modèle et l'alignement multi-espèces pour TBX2. A) MARRVEL sélectionne le meilleur candidat ortholog pour chaque espèce en fonction de l'outil DIOPT. Par exemple, un score DIOPT de 10/12 montré pour le gène Drosophila bi signifie que 10 des 12 programmes de prédiction d'orthographe utilisés par DIOPT ont prédit que le bi est l'ortholog de mouche le plus probable de TBX2humain. Étant donné que 25% des gènes sont dupliqués chez le poisson zèbre par rapport à l'homme, MARRVEL présente deux gènes paralogues (dans ce cas tbx2a et tbx2b) lorsque cela est applicable. B) Instantané de la fenêtre d'alignement multi-espèces. En sélectionnant un organisme spécifique [dans ce cas humain (hs)] et en entrant dans l'acide aminé d'intérêt, on peut mettre en évidence l'acide aminé spécifique dans le sarcelle. Dans cet exemple, p.R20 de TBX2 humain semble être conservé dans la souris (mm1), les deux orthologs de poisson zèbre (dr1 et dr2), Drosophila (dm1) et C. elegans (ce1). Rat Tbx2 ne semble pas bien s'aligner par rapport à d'autres espèces, probablement en raison de l'isoforme utilisé par le DIOPT pour effectuer l'alignement multi-espèces. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Figure 3
Figure 3 : Sortie complète pour TBX2 17:59477596 G-gt;A. Veuillez cliquer ici pour télécharger ce fichier.

Figure 4
Figure 4 : Sortie MARRVEL pour OGDHL 10:50946295 G.A. Veuillez cliquer ici pour télécharger ce fichier.

Figure 5
Figure 5 : Sortie MARRVEL pour le gène mouche N et le gène humain NOTCH4. Veuillez cliquer ici pour télécharger ce fichier.

Type de base de données Nom de la base de données URL/Lien vers la base de données Justification de l'inclusion dans MARRVEL Référence (PMID)
Génétique humaine ClinVar ClinVar https://www.ncbi.nlm.nih.gov/clinvar/ ClinVar est une archive publique de rapports sur les relations entre les variations humaines et les phénotypes, avec des preuves à l'appui. Les variantes avec des interprétations rapportées par des chercheurs et des cliniciens sont valables pour analyser la probabilité qu'une variante soit pathogène. PMID: 29165669
Génétique humaine décoder https://decipher.sanger.ac.uk/ Les données DECIPHER affichées sur MARRVEL comprennent des variantes communes de la population témoin. Les données affichées comprennent des variantes structurelles qui couvrent l'emplacement génomique de la variante d'entrée. DECIPHER contient également des informations variantes et phénotypiques pour les personnes touchées, mais ne peut être consulté directement via leur site Web. PMID: 19344873
Génétique humaine DGV (En anglais) http://dgv.tcag.ca/dgv/app/home À notre connaissance, DGV est la plus grande collection d'accès public de variantes structurelles de plus de 54 000 personnes. La base de données comprend des échantillons d'individus en bonne santé, au moment de la vérification, de jusqu'à 72 études différentes. Les limites possibles à ces données comprennent la variation de la source et de la méthode des données acquises sur le manque d'information concernant la pénétration incomplète des VNC pathogènes et sur la question de savoir si les individus développeront des maladies associées après la collecte de données. PMID: 24174537
Prévision d'orthologie DIOPT DIOPT https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl DIOPT a fourni l'alignement multiple de séquence de protéine des orthologs les mieux prévus dans six organismes modèles contre la séquence de protéine du gène humain d'intérêt. L'alignement fournira des informations sur la conservation d'acides aminés spécifiques ainsi que des domaines de protéines fonctionnelles. PMID: 21880147
Nomenclature de gène humain/transcription Ensembl https://useast.ensembl.org/ Les ID génétiques d'assemblage sont utilisés pour relier les différentes bases de données. PMID: 29155950
Génétique humaine ExAC (En) http://exac.broadinstitute.org/ ExAC contient plus de 60.000 exomes et est, autre que le gnomAD (http://gnomad.broadinstitute.org/), la plus grande collection publique d'exomes qui ont été sélectionnés contre des individus avec des phénotypes mendéliens précoces graves. Aux fins de MARRVEL, l'ExAC et le gnomAD sont le meilleur ensemble de données de population témoin pour calculer la fréquence des allèles mineurs. Nous fournissons deux séries de sorties de l'ExAC. La première sortie est l'aperçu centré sur les gènes du nombre attendu par rapport au nombre observé d'allèles de mauvaise qualité et de perte de fonction (LOF). Une mesure appelée pLI (probabilité d'intolérance au LOF) varie entre 0,00 et 1,00 reflète la pression sélective sur certaines variantes avant l'âge de reproduction. le score de pLI de 1.00 signifie que ce gène est très intolérant de toutes les variantes de LOF et haploinsufficiency de ce gène peut causer la maladie chez l'homme. La deuxième sortie est des données de l'ExAC qui se rapportent à la variante spécifique. Si la variante identique est vue dans ExAC, MARRVEL affichera la fréquence mineure d'allèle. PMID: 27535533
Bases de données sur les organismes modèles primaires FlyBase (Drosophila) http://flybase.org MARRVEL recueille et affiche des données à partir de plusieurs bases de données d'organismes modèles. Nous fournissons un résumé de la fonction moléculaire, cellulaire et biologique du gène en utilisant des termes GO. L'ortholog le plus probable est dérivé par DIOPT. PMID:26467478
Outils d'intégration de base de données d'organismes modèles Gene2Function (en) http://www.gene2function.org/search/ MARRVEL collabore avec DIOPT et Gene2Function pour fournir la fonction « Recherche d'organismes modèles ». Hyperlink est fourni pour les utilisateurs d'accéder à leur site Web qui intègre un certain nombre de bases de données MO et les affiche dans un style différent de la façon dont MARREL ne. PMID: 28663344
Génétique humaine Geno2MP Geno2MP http://geno2mp.gs.washington.edu/Geno2MP/ Geno2MP est une collection d'échantillons du Centre de génétique mendélienne de l'Université de Washington. Il contient 9 650 exomes de personnes touchées et de parents non affectés. Cette base de données relie le phénotypique ainsi que le mode d'information sur l'héritage à des allèles spécifiques. Pour le phénotype, en comparant le système d'organe affecté du patient d'intérêt aux individus affectés dans Geno2MP, on peut trouver des allumettes potentielles. Une correspondance dans l'allèle, le mode d'héritage, et le phénotype fournit une probabilité accrue que la variante probablement pathogène. Cependant, en raison de la petite taille de l'échantillon, une association négative ne diminue pas nécessairement la priorité pathogène d'une variante. Un mécanisme pour contacter le médecin principal d'un patient d'intérêt est fourni dans la source d'origine. ne s'applique pas
Génétique humaine gnomAD (gnomAD) http://gnomad.broadinstitute.org/ gnomAd contient un total de 123 136 séquences d'exome et 15 496 séquences de génome entier provenant d'individus non apparentés séquencés dans le cadre de diverses études génétiques spécifiques à la maladie et en population. Une partie importante des données de l'ExAC est intergrated dans gnomAD. Dans MARRVEL, nous affichons actuellement les fréquences de population qui se rapportent à une variante spécifique. PMID: 27535533
Généologie de l'Ontario GO Central (go central) http://www.geneontology.org/ MARRVEL affiche uniquement les termes de génologie en ontologie (GO) (fonction moléculaire, composant cellulaire et processus biologique) dérivés de preuves expérimentales pour chaque gène. Ils sont filtrés par des « codes de preuve expérimentaux » et les termes GO basés sur des « codes de preuve d'analyse computationnelle » et des « codes de preuve d'annotation électronique » (prédictions) sont évités. PMID: 10802651, 25428369
Expression génique/protéine humaine GTEx GTEx https://gtexportal.org/home/ MARRVEL affiche à la fois l'ARNm et le modèle d'expression des protéines dans les tissus humains de chaque gène. Le modèle d'expression peut ajouter un aperçu des phénotypes observés chez les patients et/ou les organismes modèles. PMID: 29019975, 23715323
Nomenclature de gène humain HGNC (HGNC) https://www.genenames.org/ Les symboles génétiques officiels HGNC sont utilisés pour les recherches MARRVEL. PMID: 27799471
Bases de données sur les organismes modèles primaires IMPC (souris) http://www.mousephenotype.org/ MARRVEL fournit un lien hypertexte pour corépondre les pages de gènes de souris sur le site Web de l'IMPC. S'il y a eu une souris knock-out faite par l'IMPC, une liste exhaustive des essais et de leurs résultats sont rendus publics et peuvent fournir un aperçu du phénotype quand un gène est perdu. Certaines informations sont organisées dans MGI, mais il ya peut-être un décalage dans le temps. PMID: 27626380
Bases de données sur les organismes modèles primaires MGI (souris) http://www.informatics.jax.org/ MARRVEL recueille et affiche des données à partir de plusieurs bases de données d'organismes modèles. Nous fournissons un résumé de la fonction moléculaire, cellulaire et biologique du gène en utilisant des termes GO. L'ortholog le plus probable est dérivé par DIOPT. PMID:25348401
Outils d'intégration de base de données d'organismes modèles Initiative Monarch https://monarchinitiative.org/ MARRVEL fournit un lien vers le Phénogrid d'un gène humain sur monarch Initiative. Cette grille fournit des comparaisons entre le phénotype des organismes modèles et les maladies humaines connues. PMID: 27899636
Nomenclature Variante Humaine Mutalyzer Mutalyzer https://mutalyzer.nl/ MARRVEL utilise l'API de Mutalyzer pour convertir différentes variantes nomenclatures en emplacement génomique. PMID: 18000842
Génétique humaine Omim https://omim.org/ Les trois principaux éléments d'information que nous tirons de l'OMIM sont : la fonction génique, les phénotypes associés et les allèles signalés. Il est utile de savoir si un gène est associé à un phénotype mendélien connu (entrées) dont la base moléculaire est connue. Les gènes qui n'ont pas cette connaissance sont des candidats à la découverte de nouveaux gènes. Pour les gènes qui sont cette catégorie, si le phénotype du patient ne correspond pas à la maladie et le phénotype signalés ainsi que ceux des patients dans la littérature, alors cela augmente la possibilité de fournir une expansion phénotypique pour le gène d'intérêt. PMID: 28654725
Bases de données sur les organismes modèles primaires PomBase (levure de fission) https://www.pombase.org/ MARRVEL recueille et affiche des données à partir de plusieurs bases de données d'organismes modèles. Nous fournissons un résumé de la fonction moléculaire, cellulaire et biologique du gène en utilisant des termes GO. L'ortholog le plus probable est dérivé par DIOPT. PMID:22039153
littérature Pubmed https://www.ncbi.nlm.nih.gov/pubmed/ MARRVEL fournit un lien hypertexte vers la recherche PubMed basée sur "Gene". En cliquant sur ce lien, on peut rechercher des documents biomédicaux qui se réfèrent au gène d'intérêt basé sur les noms et symboles de gènes précédents. ne s'applique pas
Bases de données sur les organismes modèles primaires RGD (rat) https://rgd.mcw.edu/ MARRVEL recueille et affiche des données à partir de plusieurs bases de données d'organismes modèles. Nous fournissons un résumé de la fonction moléculaire, cellulaire et biologique du gène en utilisant des termes GO. L'ortholog le plus probable est dérivé par DIOPT. PMID:25355511
Bases de données sur les organismes modèles primaires SGD (levure en herbe) https://www.yeastgenome.org/ MARRVEL recueille et affiche des données à partir de plusieurs bases de données d'organismes modèles. Nous fournissons un résumé de la fonction moléculaire, cellulaire et biologique du gène en utilisant des termes GO. L'ortholog le plus probable est dérivé par DIOPT. PMID: 22110037
Expression génique/protéine humaine L'Atlas des protéines humaines https://www.proteinatlas.org/ MARRVEL affiche à la fois l'ARNm et le modèle d'expression des protéines dans les tissus humains de chaque gène. Le modèle d'expression peut ajouter un aperçu des phénotypes observés chez les patients et/ou les organismes modèles. PMID: 21752111
Bases de données sur les organismes modèles primaires WormBase (C. elegans) http://wormbase.org MARRVEL recueille et affiche des données à partir de plusieurs bases de données d'organismes modèles. Nous fournissons un résumé de la fonction moléculaire, cellulaire et biologique du gène en utilisant des termes GO. L'ortholog le plus probable est dérivé par DIOPT. PMID:26578572
Bases de données sur les organismes modèles primaires ZFIN (poisson zèbre) https://zfin.org/ MARRVEL recueille et affiche des données à partir de plusieurs bases de données d'organismes modèles. Nous fournissons un résumé de la fonction moléculaire, cellulaire et biologique du gène en utilisant des termes GO. L'ortholog le plus probable est dérivé par DIOPT. PMID:26097180

Tableau 1. Liste des sources de données pour MARRVEL. Toutes les bases de données sur laquelle MARRVEL obtient des données sont répertoriées dans ce tableau. Pour chaque base de données, nous énumérons le type de base de données, URL/Link, la justification de l'inclusion dans MARRVEL, et les références primaires.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Les étapes critiques de ce protocole comprennent l'entrée initiale (étapes 1.1-1.3) et l'interprétation ultérieure de la sortie. La raison la plus courante pour laquelle les résultats de recherche sont négatifs est en raison des nombreuses façons dont un gène et / ou une variante peut être décrite. Bien que MARRVEL soit mis à jour sur une base planifiée, ces mises à jour peuvent provoquer des déconnexions entre les différentes bases de données auxquelles MARRVEL est lié. Ainsi, la première étape du dépannage consiste invariablement à vérifier si d'autres noms du gène ou de la variante mèneront à un résultat de recherche réussi. S'il n'est toujours pas résolu, veuillez envoyer un message à l'équipe de développement à l'aide du formulaire de rétroaction dans http://marrvel.org/message.

Une limitation à MARRVEL est qu'il n'inclut pas encore toutes les bases de données utiles nécessaires pour l'analyse des gènes et des variantes. Par exemple, les algorithmes de prédiction de la pathogénie tels que CADD18 ne sont pas actuellement fournis. De même, l'information sur la structure des protéines et l'information sur l'interaction protéine-protéine qui peuvent également fournir des liens structurels et fonctionnels avec des variantes pathogènes connues dans les gènes ne sont pas actuellement affichées dans MARRVEL. Dans notre prochaine mise à jour majeure, nous prévoyons intégrer cette information dans MARRVEL, en plus d'incorporer plus d'informations phénotypiques à partir de sites Web d'organismes modèles, IMPC, Monarch Initiative et Alliance of Genome Resources (AGR, https://www.alliancegenome.org/). Étant donné que MARRVEL a été conçu pour faciliter la recherche sur les maladies rares, le programme se concentre actuellement sur les variantes germinales et ne donne pas accès à l'information sur les variantes somatiques. Aucune base de données liée à la génétique du cancer n'est intégrée à la date de publication de ce protocole. Au fur et à mesure que MARRVEL est activement développé et mis à niveau, nous apprécions grandement les commentaires et encourageons fortement les utilisateurs existants à s'inscrire à des bulletins d'information sur http://marrvel.org/message pour toute base de données supplémentaire qui s'intégrera.

Bien que les données de MARRVEL peuvent être utilisées pour prioriser les variantes qui peuvent être pathogènes. Cependant, afin de démontrer la pathogénie, il faudra identifier d'autres patients présentant des génotypes et des phénotypes similaires ou effectuer des études fonctionnelles pour fournir des preuves solides que la variante de l'intérêt a des conséquences fonctionnelles qui sont pertinentes pour l'état de la maladie. Pour plus d'informations supplémentaires en dehors de MARRVEL qui peuvent être utiles pour juger si une variante vaut expérimentalement l'étude dans l'organisme modèle, veuillez vous référer à l'article d'accompagnement Harnish et al21. Afin de prendre les prochaines mesures dans l'utilisation des organismes modèles pour étudier les variantes humaines, les généticiens humains et les chercheurs en organismes modèles doivent être en mesure de se connecter et de collaborer. GeneMatcher et d'autres consortiums génomiques qui font partie du consortium Matchmaker Exchange sont des ressources qui facilitent cette prochaine étape. Si les utilisateurs résident au Canada, on peut également s'inscrire au Réseau des modèles et mécanismes des maladies rares (RDMM, http://www.rare-diseases-catalyst-network.ca/) pour identifier les cliniciens et/ou les chercheurs en organisme modèle qui sont prêts à collaborer39 . Le Japon (J-RDMM, https://irudbeyond.nig.ac.jp/en/index.html), l'Europe (RDMM-Europe, http://solve-rd.eu/rdmm-europe/) et l'Australie (Australian Functional Genomics Network: https://www.functionalgenomics.org.au/) ont récemment adopté le Modèle canadien RDMM pour faciliter des collaborations similaires au sein de leurs pays/régions. En outre, en utilisant des outils tels que BioLitMine (https://www.flyrnai.org/tools/biolitmine/web/), on peut rechercher des collaborateurs potentiels parmi les chercheurs principaux qui ont déjà travaillé sur le gène d'intérêt.

Enfin, en plus de MARRVEL, il existe un certain nombre d'autres outils d'exploration de données interspécifiques, dont Gene2Function40 (http://www.gene2function.org/), Monarch Initiative29 (https://monarchinitiative.org/) et Alliance of Ressources génomiques (AGR, https://www.alliancegenome.org/). Bien que Gene2Function donne accès à des données inter-espèces et que Monarch Initiative fournisse des comparaisons phénotypiques, MARRVEL met davantage l'accent sur les variantes humaines et relie les données génomiques humaines aux organismes modèles. AGR est une initiative qui comprend six bases de données d'organismes modèles et le Consortium d'ontologie génétique qui intègre les données de différentes bases de données d'une manière uniforme afin d'accroître l'accessibilité des données accumulées par chaque base de données. Ces ressources sont complémentaires, et les utilisateurs doivent comprendre les forces de chaque base de données pour naviguer dans la grande quantité de connaissances qui ont été accumulées par les chercheurs dans les communautés. Au fur et à mesure que le développement de MARRVEL se poursuit, nous prévoyons d'inclure davantage de bases de données pertinentes pour l'étude des variantes humaines dans les organismes modèles. L'objectif principal de MARRVEL est de fournir un moyen facilement accessible pour les cliniciens et les chercheurs d'analyser les gènes et les variantes humains pour une étude plus approfondie en intégrant des informations utiles tout en gardant l'interface aussi simple que possible.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n'ont rien à révéler.

Acknowledgments

Nous remercions les Drs Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr, et Norbert Perrimon pour leur soutien dans le développement et l'entretien de MARRVEL. Nous sommes reconnaissants à Samantha L. Deal et à J. Michael Harnish pour leur contribution sur ce manuscrit.

Le développement initial de MARRVEL a été soutenu en partie par le Centre de dépistage des organismes modèles du Réseau des maladies non diagnostiquées par l'entremise du Fonds commun des NIH (U54NS093793) et par l'intermédiaire du Bureau des programmes d'infrastructure de recherche des NIH (ORIP) (R24OD022005). JW est soutenu par le NIH Eunice Kennedy Shriver National Institute of Child Health and Human Development (F30HD094503) et The Robert and Janice McNair Foundation McNair MD/PhD Student Scholar Program au BCM. HJB est également soutenu par le NIH National Institute of General Medical Sciences (R01GM067858) et est un chercheur de l'Institut médical Howard Hughes. ZL est soutenu par le NIH National Institute of General Medical Science (R01GM120033), National Institute of Aging (R01AG057339), et la Fondation Huffington. SY a reçu un soutien supplémentaire de l'Institut national des NIH sur la surdité et d'autres troubles de la communication (R01DC014932), de la Fondation Simons (Prix SFARI : 368479), de la Alzheimer's Association (New Investigator Research Grant: 15-364099), de la famille Naman Fonds pour la recherche fondamentale et Fonds de droit Caroline Wiess pour la recherche en médecine moléculaire.

Materials

Name Company Catalog Number Comments
Human Genetics ClinVar PMID: 29165669 https://www.ncbi.nlm.nih.gov/clinvar/
Human Genetics DECIPHER PMID: 19344873  https://decipher.sanger.ac.uk/
Human Genetics DGV PMID: 24174537 http://dgv.tcag.ca/dgv/app/home
Orthology Prediction DIOPT PMID: 21880147  https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl
Human Gene/Transcript Nomenclature Ensembl PMID: 29155950  https://useast.ensembl.org/
Human Genetics ExAC  PMID: 27535533 http://exac.broadinstitute.org/
Primary Model Organism Databases FlyBase (Drosophila) PMID:26467478 http://flybase.org
Model Organism Database Integration Tools Gene2Function PMID: 28663344 http://www.gene2function.org/search/
Human Genetics Geno2MP N/A http://geno2mp.gs.washington.edu/Geno2MP/
Human Genetics gnomAD PMID: 27535533 http://gnomad.broadinstitute.org/
Gene Ontology GO Central PMID: 10802651, 25428369  http://www.geneontology.org/
Human Gene/Protein Expression GTEx PMID: 29019975, 23715323  https://gtexportal.org/home/
Human Gene Nomenclature HGNC PMID: 27799471  https://www.genenames.org/
Primary Model Organism Databases IMPC (mouse) PMID: 27626380 http://www.mousephenotype.org/
Primary Model Organism Databases MGI (mouse) PMID:25348401 http://www.informatics.jax.org/
Model Organism Database Integration Tools Monarch Initiative PMID: 27899636 https://monarchinitiative.org/
Human Variant Nomenclature Mutalyzer PMID: 18000842  https://mutalyzer.nl/
Human Genetics OMIM PMID: 28654725 https://omim.org/
Primary Model Organism Databases PomBase (fission yeast) PMID:22039153 https://www.pombase.org/
Literature PubMed N/A https://www.ncbi.nlm.nih.gov/pubmed/
Primary Model Organism Databases RGD (rat) PMID:25355511 https://rgd.mcw.edu/
Primary Model Organism Databases SGD (budding yeast) PMID: 22110037 https://www.yeastgenome.org/
Human Gene/Protein Expression The Human Protein Atlas PMID: 21752111 https://www.proteinatlas.org/
Primary Model Organism Databases WormBase (C. elegans) PMID:26578572 http://wormbase.org
Primary Model Organism Databases ZFIN (zebrafish) PMID:26097180 https://zfin.org/

DOWNLOAD MATERIALS LIST

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
  3. MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
  4. Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
  5. Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
  6. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  7. Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
  8. Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
  9. Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
  10. Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
  11. Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
  12. Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
  13. Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
  14. Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
  15. Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
  16. Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
  17. Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
  18. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
  19. Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
  20. Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
  21. Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
  22. Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
  23. MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, Database issue 986-992 (2014).
  24. Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
  25. Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
  26. Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
  27. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas--a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  28. The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
  29. Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
  30. Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
  31. Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
  32. Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
  33. Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
  34. Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
  35. Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, Pt 3 217-225 (2016).
  36. Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
  37. Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
  38. Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
  39. Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
  40. Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), Bethesda. 2855-2858 (2017).

Tags

Génétique Numéro 150 Génomique humaine hiérarchisation des variantes organismes modèles génétique maladies rares et non diagnostiquées génomique fonctionnelle intégration de bases de données recherche translationnelle diagnostic médical variante d'importance inconnue gène de signification incertaine outil web
Naviguer MARRVEL, un outil Web qui intègre la génomique humaine et l'information génétique des organismes modèles
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, J., Liu, Z., Bellen, H. J.,More

Wang, J., Liu, Z., Bellen, H. J., Yamamoto, S. Navigating MARRVEL, a Web-Based Tool that Integrates Human Genomics and Model Organism Genetics Information. J. Vis. Exp. (150), e59542, doi:10.3791/59542 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter