Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Navigering MARRVEL, et webbaseret værktøj, der integrerer menneskelig Genomics og model organisme genetik information

Published: August 15, 2019 doi: 10.3791/59542

Summary

Her præsenterer vi en protokol for at få adgang til og analysere mange menneskelige og model organismer databaser effektivt. Denne protokol demonstrerer brugen af MARRVEL til at analysere kandidat sygdomsfremkaldende varianter identificeret fra næste generations sekvensering.

Abstract

Gennem hel-exome/genom sekventering, Human genetikere identificere sjældne varianter, der adskiller med sygdom fænotyper. For at vurdere, om en bestemt variant er sygdomsfremkaldende, skal man forespørge mange databaser for at afgøre, om det pågældende gen af interesse er knyttet til en genetisk sygdom, om den specifikke variant er blevet rapporteret før, og hvilke funktionelle data der er tilgængelige i model organismen databaser, der kan give fingerpeg om genet funktion i mennesker. MARRVEL (model organisme aggregerede ressourcer til sjælden variant udforskning) er en One-stopdata indsamling værktøj til menneskelige gener og varianter og deres ortologt gener i syv model organismer, herunder i mus, rotte, zebrafish, frugtflue, fyrretræsnematoden orm, fission gær og spirende gær. I denne protokol giver vi et overblik over, hvad MARRVEL kan bruges til, og diskuterer, hvordan forskellige datasæt kan bruges til at vurdere, om en variant af ukendt signifikans (VUS) i et kendt sygdomsfremkaldende gen eller en variant i et gen af usikker betydning (GUS) kan være Patogene. Denne protokol vil guide en bruger ved at søge flere menneskelige databaser samtidig starter med en menneskelig gen med eller uden en variant af interesse. Vi diskuterer også, hvordan man brugerdata fra OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV og dechipher. Desuden illustrerer vi, hvordan man fortolker en liste over ortholog kandidat gener, udtryks mønstre og GO-termer i modelorganismer, der er forbundet med hvert menneskeligt gen. Desuden diskuterer vi værdien protein strukturelle domæne anmærkninger forudsat og forklare, hvordan man bruger flere arter protein justering funktion til at vurdere, om en variant af interesse påvirker en evolutionært bevaret domæne eller aminosyre. Endelig vil vi diskutere tre forskellige brug-tilfælde af denne hjemmeside. MARRVEL er et let tilgængeligt websted for åben adgang, der er designet til både kliniske og grundlæggende forskere og tjener som udgangspunkt for design eksperimenter til funktionelle studier.

Introduction

Brugen af næste generations sekvensering teknologi er stigende i både forskning og kliniske genetiske laboratorier1. Helexome (Wes) og helgenomome sekventering (WGS)-analyser afslører talrige sjældne varianter af ukendt signifikans (Vus) i kendte sygdomsfremkaldende gener samt varianter i gener, der endnu ikke er associeret med en mendelian sygdom (Gus: gener af usikker betydning). Præsenteret med en liste over gener og varianter i en klinisk sekvens rapport, skal medicinske genetikere manuelt besøge flere online ressourcer for at få flere oplysninger til at vurdere, hvilken variant kan være ansvarlig for en bestemt fænotype set hos patienten af interesse . Denne proces er tidskrævende, og dens effektivitet er meget afhængig af den enkeltes ekspertise. Selv om flere retningslinjer papirer er blevet offentliggjort2,3, fortolkning af Wes og WGS kræver manuel kuration, da der endnu ikke er en standardiseret metode til variant analyse. For fortolkningen af Vus, viden om den tidligere rapporterede genotype-phenotype forhold, form for arv, og allel frekvenser i den almindelige befolkning bliver værdifulde. Desuden kan viden om, hvorvidt varianten påvirker et kritisk protein domæne, eller en evolutionært bevaret restkoncentration øge eller mindske sandsynligheden for patogenicitet. For at samle alle disse oplysninger, skal man typisk navigere gennem 10-20 menneskelige og model organismer databaser, da oplysningerne er spredt gennem World Wide Web.

Tilsvarende er model organisme videnskabsmænd, der arbejder på specifikke gener og veje, ofte interesseret i at forbinde deres resultater med sygdomsmekanismer i mennesker og ønsker at udnytte den viden, der genereres i human genomforskning-området. Men på grund af den hurtige ekspansion og udvikling af datasæt vedrørende det menneskelige genom, har det været udfordrende at identificere databaser, der giver nyttige oplysninger. Hertil kommer, da de fleste model organismer databaser er designet til forskere, der arbejder med den specifikke organisme på daglig basis, det er meget vanskeligt, for eksempel, for en mus forsker til at søge efter specifikke oplysninger i en Drosophila database og omvendt. Svarende til varianten fortolkning søgninger udført af medicinske genetikere, identificere nyttige menneskelige og andre model organisme information er tidskrævende og stærkt afhængig af baggrund af modellen organisme forsker. MARRVEL (model organisme aggregerede ressourcer til sjælden variant udforskning)4 er et værktøj designet til begge grupper af brugere til at strømline deres workflow.

MARRVEL (http://marrvel.org) blev designet som en centraliseret søgemaskine, der systematisk indsamler data på en effektiv og konsekvent måde for klinikere og forskere. Med oplysninger fra 20 eller flere offentligt tilgængelige databaser, dette program giver brugerne mulighed for hurtigt at indsamle oplysninger og få adgang til et stort antal menneskelige og model organismer databaser uden gentagende søgninger. Søgeresultatsiderne indeholder også hyperlinks til de oprindelige informationskilder, som gør det muligt for enkeltpersoner at få adgang til rådata og indsamle yderligere oplysninger fra kilderne.

I modsætning til mange af de variant prioritering værktøjer, der kræver store sekvensering data input i form af VCF eller BAM filer og installationer af ofte proprietære/kommerciel software, MARRVEL opererer på enhver web-browser. Det kan bruges uden omkostninger og kompatibel med bærbare enheder (f. eks smartphones, tablets), så længe man er forbundet til internettet. Vi valgte dette format, da mange klinikere og forskere typisk har brug for at søge et eller et par gener og varianter ad gangen. Bemærk, at vi er ved at udvikle batch-download og API (Application Programming Interface) funktioner til MARRVEL til sidst give brugerne mulighed for at kurere hundredvis af gener og varianter på et tidspunkt gennem tilpassede forespørgsels værktøjer, hvis det er nødvendigt.

På grund af den brede vifte af applikationer, i denne protokol, vil vi beskrive en bredt omfattende tilgang til, hvordan man navigerer gennem forskellige datasæt, som MARRVEL viser. Mere målrettede eksempler, der er skræddersyet til specifikke brugeres behov, vil blive beskrevet i afsnittet om repræsentative resultater. Det er vigtigt at bemærke, at produktionen af MARRVEL stadig kræver en vis grad af baggrundsviden i enten humangenetik eller model organismer til at udtrække værdifulde oplysninger. Vi henviser læserne til tabellen, der opregner primære papirer, der beskriver funktionen af hver af de oprindelige databaser, der er kureret af MARRVEL (tabel 1). Følgende protokol er inddelt i tre sektioner: (1) hvordan man begynder en søgning, (2) hvordan man fortolker MARRVEL humangenetik udgange, og (3) hvordan man gør brug af model organisme data i MARRVEL. I afsnittet om repræsentative resultater beskrives mere fokuserede og specifikke tilgange. MARRVEL bliver aktivt opdateret, så se venligst det aktuelle websteds FAQ-side for detaljer om datakilder. Vi anbefaler på det kraftigste, at brugerne af MARRVEL tilmelder sig for at modtage opdateringsmeddelelser via e-mail-indsendelsesformularen nederst på MARRVEL-hjemmesiden.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. sådan begynder en søgning

  1. For det menneskelige gen og variant-baseret søgning, gå til trin 1.1.1.-1.1.2. For menneskelig gen-baseret søgning (ingen variant input), gå til trin 1,2. For model organisme gen-baseret søgning, se trin 1.3.1.-1.3.2.
    1. Gå til hjemmesiden for MARRVEL4 på http://marrvel.org/. Begynd med at indtaste et menneskeligt gensymbol. Sørg for, at kandidat gennavnene er angivet under indtastningsfeltet med hver tegn indtastning. Hvis søgningen vender negativt tilbage, skal du sørge for, at det anvendte gensymbol er ajourført ved hjælp af HUGO gene nomenklatur komitéens websted5 (hgnc; https://www.genenames.org/).
    2. Angiv en menneskelig variant. Søgelinjen er kompatibel med to typer af variant nomenklatur: genom placering svarende til hvordan varianter vises på exac og gnomad6 og transskriptions baseret nomenklatur i henhold til hgvs retningslinjer. Eksempler på sådanne formater vises med grå tekst i søgefeltet. For genomisk lokations nomenklatur skal du bruge koordinaterne i henhold til hg19/GRCh37. Fortsæt til trin 2.
      Bemærk: Hvis en søgning returnerer en fejl, er de almindeligste problemer enten er gensymbolet ikke opdateret, eller variant nomenklaturen er forkert. I disse tilfælde, den HGNC (https://www.genenames.org/), Mutalyzer7 (https://www.mutalyzer.nl/), og transvar8 (https://Bioinformatics.mdanderson.org/transvar/) websites er stor ressourcer hen til berigtige den fejl. HGNC giver officielle gensymboler og deres aliasser for alle menneskelige gener.
    3. Hvis der stadig opstår fejlmeddelelser efter bekræftelse af, at gennavnet er opdateret, skal du bruge Mutalyzer og TransVar til at kontrollere og konvertere variant nomenklaturen.
    4. I nogle situationer, såsom en meget nylig gensymbol ændring i HGNC, prøv at bruge et synonym for genet og kontakt venligst MARRVEL Operations team ved hjælp af "feedback" fanen, så for at opdatere kildedataene, da MARRVEL ikke kan give de korrekte oplysninger på grund af en forsinkelse i data op Dato.
  2. Indtast et menneskeligt gensymbol, og lad det humane variant søgefelt være tomt. Hvis der opstår en fejl, skal du gå til HGNC (https://www.genenames.org/) for at se efter det officielle gensymbol eller prøve et ældre gensymbol.
    1. Klik på model organismer Søg fanebladet på toppen Banner (figur 1) eller gå til http://marrvel.org/model. Vælg den model organisme valg og Indtast en model organisme gensymbol. Klik på gensymbolet, da navnet er automatisk udfyldt, og klik derefter på Søg. Hvis søgeresultatet er negativt, kan du kontrollere det officielle gensymbol, der anvendes i model organisme databaser (tabel 1).
    2. Hvis søgeresultatet stadig er negativt, skal du få adgang til DIOPT (DRSC Integrative Ortholog forudsigelse Tool, https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) og HCOP (https://www.genenames.org/tools/hcop/) for at vurdere, om der ikke er nogen god forventet ortolog for det gen af interesse. DIOPT er en ortholog forudsigelse søgemaskine drives af DRSC (Drosophila RNAi screening Center) og hcop er en lignende Suite udviklet af HGNC.
      Bemærk: yderligere søgninger ved hjælp af BLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi) kan give brugerne mulighed for at finde orthologs, der kan blive savnet af forudsigelse algoritmer, der anvendes i DIOPT og HCOP.
    3. Klik på Marrvel det i bunden for den forventede menneskelige ortholog valg. Tjek Diopt score9 og bedste score fra Human Gene til model organisme? til udvælgelse af det menneskelige gen. Fortsæt til trin 2.
      Bemærk: Diopt-score9 (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) er en værdi af, hvor mange ortholog forudsigelses algoritmer der forudser et par gener i to organismer, der skal være ortologøse for hinanden. Yderligere oplysninger om disse værdier og de specifikke algoritmer, der anvendes til at beregne denne score, findes i hu et al9. Når bedste score fra menneskelige gen til model organisme? er Ja, indikerer det, at det menneskelige gen er mere sandsynligt en sand menneskelig ortodoklog af genet af interesse, men der kan være undtagelser, især når flere menneskelige gener er orthologous til flere model organismer gener på grund af genduplikering begivenheder under Evolution. Hvis interesse genet er medlem af en kompleks genfamilie, der har undergået divergerende udvikling i flere arter, bør brugerne identificere en publikation, der har udført en omfattende Fylogenetisk analyse af genfamilien af interesse for at identificere de mest sandsynligvis ortholog kandidat gen.

2. hvordan man fortolker MARRVEL humangenetik udgange til et gen og variant søgning

Bemærk: på resultatsiden er der syv humane databaser, der vises (tabel 1, figur 1). For hver output boks, er der en ekstern link knap (lille boks med en diagonal pil) i øverste højre hjørne, der vil linke til den oprindelige database for flere detaljer.

  1. Klik på OMIM (online Mendelian arv i Man, https://www.OMIM.org/)10, den første database, der vises.
    Bemærk: OMIM er en manuelt kureret database, der samler og opsummerer oplysninger om genetiske sygdomme og træk i det menneskelige.
    1. Brug det humane Genbeskrivelses felt fra OMIM til et kort resumé af det, der vides om genet og genproduktet.
    2. Brug feltet gene-phenotype-relationer til at afgøre, om dette gen er et kendt sygdomsfremkaldende gen eller ej. Denne boks giver manuelt kureret kendt sygdom eller fænotype foreninger med genet af interesse.
    3. Brug de rapporterede alleler fra OMIM boks for at få en liste over patogene varianter kureret af OMIM.
      Bemærk: da manuel kuration af en publikation vedrørende en ny sygdoms genopdagelse er nødvendig for, at enhver gene-sygdoms forening kan dukke op i OMIM, vil nogle tidsforskydninger og/eller ubesvarede publikationer føre til misforståelse. Det anbefales, at brugere udfører PubMed (https://www.ncbi.nlm.nih.gov/pubmed/) søgninger for at se på den seneste litteratur samt (Se 4.1.2.). For yderligere oplysninger, som er kureret i OMIM, henvises til Amberger10,11.
  2. KlikExAC(Exome Aggregation Consortium, http://exac.broadinstitute.org/)6og gnomAD(Genome Aggregation database, http://gnomad.broadinstitute.org/), store population genomforskning databaser baseret på Wes og WGS af mennesker, der er udvalgt til at udelukke alvorlige pædiatriske sygdomme.
    Bemærk: ExAC indeholder ~ 60.000 WES, mens gnomAD indeholder ~ 120.000 WES og ~ 15.000 WGS. Både ExAC og gnomAD kan bruges som en kontrol population database, især for alvorlige pædiatriske lidelser, men dens fortolkning kræver en vis grad af forsigtighed. Generelt kan gnomAD betragtes som en opdateret og udvidet version af ExAC, da de fleste kohorter, der er inkluderet i ExAC, også er inkluderet i gnomAD. Men da der er nogle undtagelser (Se kohorte oplysninger i henholdsvis http://exac.broadinstitute.org/about og http://gnomad.broadinstitute.org/about), viser MARRVEL data fra begge kilder.
    1. Brug feltet kontrol population-Genoversigt til at få statistik på gene-niveau, såsom sandsynligheden for at finde tab af funktion (LOF) alleler i den almindelige population. Dette kaldes pLI (sandsynligheden for LOF intolerance) score i ExAC og kan bruges til at udlede, hvor sandsynligt en enkelt kopi af en LOF allel for et bestemt gen kan forårsage en dominerende sygdom gennem haplo-utilstrækkelige mekanismer.
      Bemærk: at se på pLI score af et gen har værdi, især når der beskæftiger sig med dominerende lidelser, som udgør alvorlige pædiatriske sygdomme forbundet med de Novo varianter. Hvis et gen har en pLI-score på 0,00, betyder det, at det er meget tolerant over for LOF-varianter, således at genet usandsynligt forårsager sygdom via en dominerende haploinsufficiens-mekanisme. Dette udelukker dog ikke nødvendigvis anden dominerende gevinst ved funktion (GOF) eller dominerende negative medierede mekanismer kan forårsage sygdom. Desuden kan gener, der forårsager recessiv sygdomme, have lave pli-scorer, da karrierer forventes at blive fundet i den almindelige befolkning. På den anden side, hvis et gen har en pLI score på 1,00, er det muligt, at tabet af en kopi af dette gen er skadelig for menneskers sundhed. Yderligere søgninger på websites såsom DOMINO (https://wwwfbm.unil.ch/domino/) kan også anvendes i kombination til at vurdere sandsynligheden for en variant i et specifikt gen, der forårsager en dominerende lidelse.
    2. Brug de næste to kasser til at få allel frekvenserne af varianten af interesse i exac og gnomad, henholdsvis for at hjælpe med at fortolke, om varianten kan være sygdomsfremkaldende, afhængigt af om patienten har den dominerende eller recessiv sygdom. Denne boks vises kun, når brugeren indholder variant oplysninger, når søgningen påbegyndes.
      Bemærk: Hvis en hypotese er en recessiv sygdomsscenario og pLI score af genet af interesse er lav, bør man være opmærksom på allel-frekvens, der er anført her. Nogle genetikere kan etablere et cut-off punkt på 0,005 til 0,0001 som den maksimale allel frekvens for patogene varianter, der kan forårsage en alvorlig recessively arvelig sygdom2. På den anden side, hvis en hypotese størrelse en dominerende sygdomsscenario, er det mindre sandsynligt, at finde den identiske eller lignende variant i en kontrol population. Igen, dette kræver forsigtighed, fordi personer med sent debut lidelser, sygdomme med mild præsentation, psykiske lidelser eller sygdomme, der ikke screenes af ExAC/gnomAD forskere kan være stadig inkluderet, og varianten kan stadig være en dominerende patogene Variant. Også, der har været nogle tilfælde af varianter knyttet til Pediatric betingelser findes i et par individer i disse databaser12,13,14, potentielt på grund af ufuldstændig penetrans eller somatisk mosaisme13 , 15 , 16. selv om exac og gnomAD vil vise varianter, der findes i en homozygot tilstand, vil det desuden ikke indikere, om nogen af varianterne findes i en sammensat heterozygot tilstand. Endelig er nogle varianter, der findes i disse databaser, mærket som lav tillid på grund af tekniske udfordringer i sekvensering (f. eks. lav sekvens dækning, gentagen sekvens). For at se nærmere på disse datasæt anbefales det, at brugerne bruger knappen eksternt link til at besøge de originale exac-og gnomAD-websteder for at få yderligere oplysninger.
  3. Klik Geno2MP (genotype til Mendelian phenotype browser, http://geno2mp.GS.Washington.edu/Geno2MP/), en samling af Wes-baserede data fra University of Washington Center for mendelian genetik. Det indeholder omkring 9.600 exomer (fra 1/18/2019) af berørte individer og upåvirkede slægtninge med nogle fænotypiske beskrivelser (figur 1).
    1. Brug feltet sygdomspopulation til at få allel-frekvensen for den variant af interesse i denne kohorte.
    2. Brug feltet gene-fænotype-relationer til at få HPO (Human fænotype Ontology)17 termer for de personer, som har en interesse variant. Dette er en af mange måder for en til at kigge efter patienter, der kan have den samme sygdom.
      Bemærk: Hvis et gen af interesse mistænkes for at være forbundet med en patients sygdom, og der er fundne matches i Geno2MP, kan yderligere vigtige oplysninger være til stede i datakilden ud over det, som vises.
      1. Klik på knappen eksternt link til den genspecifikke side på Geno2MP, Filtrer efter mutationer, der ligner patientens (f. eks. missense, LOF), og gennemgå omhyggeligt listerne over varianter. Vær opmærksom på varianterne med High CADD18 scores og klik ind i HPO profiler. For eksempel, CADD scores højere end 20 er inden for de øverste 1% af alle varianter forventes at være skadelige, CADD scores, der er højere end 10 er inden for de øverste 10%. HPO vilkår giver en standardiseret beskrivelse af humane fænotyper. Her skal du sørge for at kontrollere, om varianten blev identificeret i en berørt person eller i en slægtning.
      2. Hvis der findes varianter hos patienter, som påvirkes i samme organsystem som patienten, bør du overveje at bruge e-mail-formularen til at kontakte den læge, der sendte disse sager til Geno2MP ved hjælp af den funktion, der findes på Geno2MP-webstedet.
        Bemærk: ikke alle læger reagerer på sådanne forespørgsler, så man bør undersøge andre muligheder for patient matchmaking. Andre måder at samle en kohorte af patienter ramt af de samme sygdomme er at bruge værktøjer såsom genematcher19 (https://www.genematcher.org/) og andre databaser, der er en del af matchmaker udveksling19,20 ( https://www.matchmakerexchange.org/). Se ledsagende JoVE artikel for mere information om matchmaking21.
  4. Brug Clinvar (https://www.NCBI.NLM.NIH.gov/clinvar/)22 -databasen, støttet af National Institutes of Health (NIH), hvor forskere og klinikere indsender varianter med eller uden bestemmelse af patogenicitet, til kontrol af enkelt nucleotidvarianter (SNV), små indels og større kopi nummer variationer (CNV).
    1. Brug den øverste række til at gennemgå en oversigt over antallet af hver type varianter, der er rapporteret i ClinVar (figur 1).
    2. Tjek listen over varianter nedenfor i feltet rapporterede alleler fra ClinVar.
      Bemærk: Hvis en variant blev inkluderet i den oprindelige søgning, er de fremhævede varianter i Teal alle varianter, der omfatter genomisk placering af varianten af interesse [herunder store CNVs, som ofte er mærket som; genomkoordinat... x1 (sletning) og... X3 (duplikering)].
  5. Brug DGV23 (database over genomiske varianter, http://DGV.tcag.ca/DGV/app/Home) og dechifrere24 (database over genomisk varIation og fænotype hos mennesker ved hjælp af ensembl-ressourcer, https://Decipher.sanger.ac.uk/), både Samlinger af CNVs. DGV er den største offentlige adgang samling af strukturelle varianter fra mere end 54.000 individer. Denne database omfatter prøver af efter sigende raske individer, på tidspunktet for konstatering, fra op til 72 forskellige undersøgelser. På samme måde omfatter de data, der vises fra DECIPHER, fælles varianter fra kontrolpopulationen.
    Bemærk: da MARRVEL ikke har tilladelse til at vise patient afledte data fra DECIPHIER, opfordres brugerne til direkte at besøge DECIPHER hjemmesiden for at få adgang til potentielt patogene CNV information.
    1. Klik på feltet Kopiér nummer variation i kontrol population (DGV database) for at hente varianter, der indeholder det pågældende gen. Oplysninger som størrelse, under type og reference for kopi nummer varianten kan findes i samme boks.
    2. Klik på feltet fælles kopi nummer varianter (DECIPHER database) for at få varianter, der indeholder den genomiske placering af varianten af interesse. Disse oplysninger kan hjælpe med at afgøre, om genet duplikeres eller slettes i kontrolpersonerne.
      Bemærk: Hvis det gen af interesse er slettet i mange individer i kontrolpopulationen, betyder det, at dette gen er tilbøjelige til at være meget tolerante over for LOF varianter. Ligesom lav pLI scores, dette tyder på, at en enkelt kopi tab af dette gen er mindre tilbøjelige til at forårsage en alvorlig sygdom via en haploinsufficiens mekanisme. Dette udelukker dog ikke nødvendigvis anden dominerende gevinst ved funktion eller dominerende negative mekanismer (f. eks. antimorf, hypermorf og neomorphic alleler) forårsaget af specifik missense og trunkering alleler.  Mulige begrænsninger for disse data omfatter variation i kilde og metode af de erhvervede data, manglende oplysninger om ufuldstændig penetrans af patogene cnvs, og om enkeltpersoner udviklet visse sygdomme efter dataindsamlingen.

3. sådan skal du bruge model organisme data i MARRVEL

  1. Brug tabellen genfunktion til at få følgende oplysninger om otte modelorganismer, herunder mennesker (menneske, rotte, mus, zebrafish, Drosophila, C elegans, spirende gær og fissions gær):
    1. Gennavn: da hvert gen navn er hyperlink til gensider på de respektive model organismer databaser, klik på disse links for at finde ud af mere om de fænotypiske oplysninger og ressourcer til rådighed for hver model organisme. For eksempel på flybase25 (http://flybase.org/), vil der være en liste over alle alleler, der er blevet genereret, deres respektive fænotyper og tilgængeligheden af hver allel fra offentlige lager Centre.
    2. PubMed link: Klik på PubMed link for at gå til en liste over publikationer, der vedrører det gen af interesse i hver organisme. Uden at bruge disse links, søger efter det menneskelige gen direkte i PubMed kan føre til mangler nogle publikationer, der brugte en gammel genalias at henvise til det menneskelige gen. Tilsvarende, model organismen gennavne kan have svinget historisk.
    3. Diopt 9 point: Tjek denne kolonne for en score på, hvor mange ortholog forudsigelse algoritmer forudsige genet er tilbøjelige til at være en ortholog af det menneskelige gen af interesse. Man kan bruge en DIOPT score på 3 eller derover som en rimelig cut-off til at identificere solid ortholog kandidater. Der er dog tilfælde, hvor ægte orthologs kun har en DIOPT score på 1 på grund af begrænset homologi. Øverst i genfunktionens tabel, un-check "Vis kun bedste DIOPT score gen" boks for at vise alle kandidater, der typisk omfatter homologe gener, der ikke nødvendigvis orthologs.
    4. Udtryk: Tjek denne kolonne for listen over de væv, hvor genet eller protein af interesse er blevet rapporteret at være udtrykt i humane eller model organismer databaser. Data fra humane gener og protein ekspression er fra henholdsvis Gtex26 (https://gtexportal.org/) og human protein Atlas27 (https://www.proteinatlas.org/). Nogle har en knap med pop-up-links, såsom for mennesker og for fly, der viser udtryks mønstret ved hjælp af en varmekort, mens andre er hyperlinkede til respektive model organisme databaser sider.
    5. Gene Ontology 28 (Go) vilkår: Filtrer efter eksperimentelle evidens koder og få fra de respektive humane eller model organismer databaser. GO-termer, der er baseret på "beregningskoder for dataanalyse" og "elektroniske anmærknings koder" (forudsigelser), vises ikke. Besøg venligst hver model organisme hjemmeside for at indsamle disse oplysninger, hvis det er nødvendigt.
    6. Andre links såsom Monarch Initiative29 (https://monarchinitiative.org/) og impc30 (http://www.mousephenotype.org/): Brug Monarch Initiative link til at navigere til phenogrid-siden for det specifikke menneskelige gen, et diagram, der giver en hurtig sammenligning mellem fænotyper forbundet med genet af interesse for kendte menneskelige sygdomme og model organisme mutanter, der har fænotypiske overlapninger. Hvis et muse-gen har en Knockout-mus, der er lavet eller planlagt af det internationale muse-Fænotypekonsortium (IMPC), linker "IMPC" til den side, der beskriver knockout-musens fænotype og dens tilgængelighed fra offentlige lager Centre.
  2. Menneskelige Protein domæner: Brug det menneskelige genprotein domæner boks til at opnå forventede protein domæner af det menneskelige gen. Dataene er afledt af Diopt, som bruger pfam (https://pfam.xfam.org/) og CCD (bevaret Domains database, https://www.NCBI.NLM.NIH.gov/Structure/CDD/CDD.shtml). En enkelt rest er måske kommenteret mere end én gang på grund af en vis overlapning i domæner kommenteret i de to kilder.
  3. Brug den Multiple protein justerings boks til at opnå aminosyren multiple justering genereret af diopt9 , som omfatter Human (HS), rotte (RN), mus (mm), zebra (Dr), frugtflue (DM), orm (CE), og gær (SC og SP). For at fremhæve den aminosyre af interesse, skal du rulle ned til bunden af boksen og indtaste aminosyre numrene nedenfor og aminosyrer af interesse vil blive fremhævet i Teal. Tilpasningen leveres af DIOPT og bruger MAFFT aligner (Multiple Alignment program for aminosyre eller nucleotid sekvenser, https://mafft.cbrc.jp/alignment/software/31).
    Bemærk: Hvis den aminosyre, der er fremhævet på baggrund af tallet, ikke er den forventede, kan det skyldes forskellige splejsning isoformer, der anvendes til tilpasningen. I princippet bruger DIOPT den længste isoform til at blive vist i denne boks. Også for segmenter af gener, der ikke er godt bevaret, kan tilpasningen af multi-Arts sekvenser ved hjælp af standardparametre ikke være optimal. Vi anbefaler at bruge andre hjemmesider og software som Clustal Omega og ClustalW/X (http://www.clustal.org/)32 til at optimere justerings parametrene og matricer i overensstemmelse hermed.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Human genetikere og model organisme videnskabsmænd hver bruger marrvel på forskellige måder, hver med forskellige ønskede resultater. Nedenfor er tre vignetter af mulige anvendelser for MARRVEL.

Vurdering af patogenicitet af en variant af en dominerende sygdom
De fleste af de brugere, der besøger MARRVEL bruge denne hjemmeside til at analysere sandsynligheden for, at en sjælden menneskelig variant kan forårsage en bestemt sygdom. F. eks. fandtes en missense (17:59477596 G > a, p. R20Q) variant i TBX2 at adskille sig på en autosomal dominerende måde i en lille familie med dysmorfe egenskaber og ganespalte, hjertefejl, skelet-og ciffer anomalier, skjoldbruskkirtel relaterede fænotyper og immundefekter12. Moderen og to børn påvirket med disse symptomer båret varianten, hvorimod Faderen ikke gjorde. Den 9-årige søn havde den mest alvorlige fænotype, mens den 36-årige mor og den 6-årige datter havde mildere former for denne sygdom. For at vurdere, om denne variant er sandsynligt sygdomsfremkaldende, kan man starte en MARRVEL søgning ved at indtaste genet og varianter på startsiden på http://MARRVEL.org. Bemærk, at den variant søgning bar kræver fjernelse af Chr foran varianten, hvis dette er opført i den oprindelige kliniske rapport for at angive "kromosom". På tidspunktet for den oprindelige undersøgelse viste resultatsiden, at der ikke er nogen OMIM-fænotype forbundet med dette gen, og denne variant findes kun én gang i gnomAD, men ikke i ExAC, ClinVar eller Geno2MP. Man kan mene, at denne identifikation af en person kan være bevis mod p. R20Q er en sygdomsfremkaldende variant, men det er vigtigt at bemærke, at moderen til familien udstillet en mild form af sygdommen. En variant fundet i 1/~ 150000 individ er faktisk en meget sjælden variant, og identifikationen af en person med den identiske variant kan forklares ved reduceret ekspressivitet eller penetrans. I tabellen med genfunktioner er det ofte nyttigt at kontrollere, om genet udtrykkes i relevant væv hos mennesker (via GTEx og protein Atlas) i forhold til patientens fænotyper. I dette tilfælde matcher udtryks mønstret, da patienten har fænotyper i flere væv, og genet udtrykkes også bredt, herunder hjerte-og immunrelaterede organer.

Baseret på model organisme oplysninger, der vises i MARRVEL, kan man hurtigt se, at genet er bevaret fra C. elegans og Drosophila til menneskelige og aminosyre af interesse, p. r20 er også meget bevaret i hele Evolution som vist i Figur 2 (Bemærk, at rat Tbx2 ikke justeres godt i dette område, sandsynligvis på grund af udskriften, der bruges til justering). Fænotypiske oplysninger i mus og Zebra indikerer, at dette gen påvirker udvikling eller funktion af en række væv, herunder det kardiovaskulære system, craniofacial/gane, og cifre. I sum, disse data tyder på, at denne variant er muligvis sygdomsfremkaldende og yderligere funktionelle undersøgelse er værdifuld. I betragtning af at genet og varianten bevares i organismer som C. elegans og Drosophila, vil funktionelle undersøgelser af hvirvelløse dyr være hurtigere og billigere i forhold til at udføre det samme eksperiment i hvirveldyr modelorganismer såsom zebrafish, mus og rotte. Se venligst den medfølgende artikel af Harnish et al.21 om, hvordan vi designede og udførte funktionelle assays til dette tilfælde12. Inddragelsen af dette gen/variant i denne families sygdom blev yderligere styrket ved identifikation af en ikke-forretningsmæssigt forbundet 8-årig mandlig patient med overlappende fænotyper med en de Novo missense variant i samme gen ved hjælp af GeneMatcher. Varianterne i de to familier fandtes begge at være funktionelle ved hjælp af eksperimenter i Drosophila, hvilket yderligere understøtter patogeniciteten af de sjældne varianter i TBX2. Sygdommen er for nylig blevet kurateret som "vertebrale anomalier og variabel endokrine og T-celle dysfunktion (VETD, OMIM #618223)" i OMIM. Se figur 3 for hele output for TBX2 17:59477596 G > A.

Vurdering af patogenicitet af en variant i en recessiv sygdom
Der er betydelige forskelle mellem at analysere menneskelige varianter i dominerende og recessiv sygdomme. For eksempel, pLI score, mindre allel frekvens, og tilstedeværelsen af sletninger i kontrolpopulationen bliver mindre vigtigt, fordi to alleler er nødvendige for at afsløre enhver fænotype.

Et eksempel på analyse af en recessiv sygdom er beskrevet i Yoon et al33 og Wang et al4 , som er opsummeret her. En 15-årig pige udstillet udviklingsmæssige forsinkelse, microcephaly, ataksi, motorisk svækkelse, hypotoni, sproglige funktionsnedsættelser, hjernens abnormiteter, og hypoplasi af corpus callosum33. Proband, hendes upåvirkede forældre og en upåvirket søskende fik WES. Efter filtrering for varianter, der var både unikke for prosenjit og sjælden i befolkningen, varianter i 13 forskellige gener forblev. Manuel filtrering og analyse af de 13 kandidater ved at følge den protokol, der er beskrevet her, resulterede i prioriteringen af en specifik variant i Ogdhl som en god kandidat til funktionelle studier. De vigtigste oplysninger, der førte til prioritering p. S778L i Ogdhl (10:50946295 G > A) over andre varianter omfatter: (1) ingen tidligere sygdoms Association i OMIM, (2) variant ikke fundet i kontrolpopulationer, (3) gen ontologi forbundet med mikrotubulus og mitokondrier, to systemer, der har mange links til neurologiske lidelser34,35, (4) stærkt udtrykt i humant cerebellum, et væv alvorligt ramt i denne patient, og (5) den variant af interesse, der påvirker en meget bevaret aminosyre (fra gær til menneske) og placeret inden for katalytisk domæne4. pLI score for dette gen er 0,00, men dette påvirker ikke prioriteringen af denne variant/gen for denne sag, da vi er mistanke om en recessiv form for arv, og at bærere af skadelige varianter i dette gen kan præsentere i den generelle befolkning. Se figur 4 for marrvel output for Ogdhl 10:50946295 G > A.

Undersøgelser af model organisme udført parallelt viste, at tab af Ogdh (også kaldet Nc73EF), Drosophila ortholog af ogdhl, i nervesystemet udviser en neurodegenerativ fænotype, der er i overensstemmelse med proband neurologiske lidelser33. Funktionelle undersøgelser i Drosophila viste, at varianten af interesse (p. S778L) påvirker protein funktionen, hvilket gør dette til et stærkt kandidat gen for denne sygdom. Siden da er disse oplysninger om en potentiel sygdomsfremkaldende variant i Ogdhl forbundet med en ny neurologisk lidelse blevet indarbejdet i OMIM (https://www.OMIM.org/Entry/617513) for ganske nylig, men er endnu ikke blevet tildelt en sygdom-fænotype nummer, fordi kun én sag er blevet rapporteret pr. januar 2019.

Er den menneskelige ortholog af en model organisme gen af interesse forbundet med genetiske sygdomme?
Mange model organismer forskere kan være interesseret i at se, om den menneskelige ortholog af deres gen af interesse kan have forbindelser til genetiske sygdomme. I dette eksempel vil vi undersøge, om den humane ortholog (e) af flue hakket (N) genet har nogen relevans for genetiske sygdomme. For at gøre dette, vil vi begynde med at udføre en "model organismer søgning (1.3.1.-1.3.2.)" og vælg "Drosophila melanogaster" som artsnavn og "N" som model organismen gen navn. De fire forventede humane orthologs for dette flue gen vil blive vist i resultatvinduet som NOTCH1, NOTCH2, NOTCH3 og NOTCH4. De fire gener har forskellige DIOPT-resultater (10/12 for NOTCH1, 8/12 for NOTCH2 og NOTCH3, 5/12 for NOTCH4) på grund af graden af homologi mellem fly N og hvert menneskeligt gen. I betragtning af den "bedste score fra menneskelige gen til at flyve" er opført som "ja" for alle fire gener, den omvendte søgning fra hvert menneske gen opfanger flue N gen som den mest sandsynlige ortholog kandidat. Faktisk er de fire menneske lige indhak gener menes at være opstået fra et enkelt hak gen i løbet af de to runder af hele genom duplikering begivenheder, der skete i hvirveldyr afstamning efter opdeling fra hvirvelløse afstamning36. Ved at klikke på "MARRVEL it" knapperne for hvert menneskeligt gen, kan man få de menneskelige gen-baserede udgange for NOTCH1-4.  På resultatsiden for hvert gen indikerer de øverste felter for OMIM, at mens NOTCH1, 2 og 3 er forbundet med genetiske sygdomme, er NOTCH4 i øjeblikket ikke forbundet med nogen sygdomme hos mennesker. Bemærk, at der har været debatter om, hvorvidt varianter i NOTCH4 er forbundet med skizofreni baseret på genomdækkende forenings studier (GWAS)37,38. Da OMIM generelt ikke Kurate GWAS data med nogle undtagelser (f. eks ApoE, PTPN22), disse oplysninger er ikke tilgængelig fra OMIM vindue. Da OMIM generelt ikke kuraterer Cancer associerede somatiske Mutations oplysninger, vil oplysninger om, hvorvidt somatiske mutationer i disse gener er forbundet med visse kræfttyper, ikke blive opført med nogle få undtagelser (f. eks. TP53, RB1, BRCA1). Ved at klikke på PubMed eller Monarch boks, kan man identificere nogle sygdomsrelaterede papirer, der ikke er kureret i OMIM. Se figur 5 for hele marrvel-outputtet til flyve genet N og Human Gene NOTCH4.

Figure 1
Figur 1 . En repræsentativ udgang fra en MARRVEL-søgning. Dette specifikke eksempel viser et gen/variant-søgning efter "TBX2/17:59477596 G > A" (http://marrvel.org/search/pair/TBX2/17:59477596%20G%3EA). Sidebar til venstre understøtter navigationer gennem data output. Bemærk de "eksterne link" skilte her giver links til de relevante sider af UCSC genom browser (https://Genome.UCSC.edu/). Fanerne på toppen giver en til at udføre model organisme gen-baserede søgninger, indhente yderligere oplysninger om MARRVEL og give bruger feedbacks. Panelerne "søgeresultater" viser oplysninger om gener og varianter fra de kilder, som er angivet i billedet. Venligst klik her for at se en større version af dette tal.

Figure 2
Figur 2 . Resumé af model organismen ortholog bord og multi-Arts justering for TBX2. A) marrvel udvælger den øverste ortholog kandidat for hver art baseret på diopt-værktøjet. For eksempel, en DIOPT score på 10/12 vist for Drosophila bi genet betyder 10 ud af 12 ortologi forudsigelse programmer, der anvendes af diopt forudsagt, at bi er den mest sandsynlige flyve ortholog af human TBX2. Da 25% af generne duplikeres i Zebra sammenlignet med mennesker, viser marrvel to parallogøse gener (i dette tilfælde tbx2a og tbx2b), når dette er relevant. B) øjebliksbillede af vinduet til justering af flere arter. Ved at vælge en bestemt organisme [i dette tilfælde Human (HS)] og ind i aminosyre af interesse, kan man fremhæve den specifikke aminosyre i Teal. I dette eksempel synes p. r20 af human TBX2 at være bevaret i mus (mm1), både Zebra orthologs (DR1 og DR2), Drosophila (dm1) og C. elegans (CE1). Rotte Tbx2 synes ikke at tilpasse sig godt i forhold til andre arter, mest sandsynligt på grund af den isoform, der anvendes af DIOPT til at udføre fler Arts tilpasningen. Venligst klik her for at se en større version af dette tal.

Figure 3
Figur 3 : Hele output for TBX2 17:59477596 G ≫ A. Venligst klik her for at downloade denne fil.

Figure 4
Figur 4 : Marrvel output for ogdhl 10:50946295 G > A. Venligst klik her for at downloade denne fil.

Figure 5
Figur 5 : Marrvel output for flyve genet N og human gen NOTCH4. Venligst klik her for at downloade denne fil.

Type database Navn på database URL/link til database Begrundelse for optagelse i MARRVEL Reference (PMID)
Human Genetik ClinVar https://www.ncbi.nlm.nih.gov/clinvar/ ClinVar er et offentligt arkiv med rapporter om forholdet mellem humane variationer og fænotyper, med dokumentation. Varianter med fortolkninger rapporteret af forskere og klinikere er værdifulde for at analysere, hvor sandsynligt en variant er sygdomsfremkaldende. PMID: 29165669
Human Genetik Dechifrere https://decipher.sanger.ac.uk/ De DECHIFRERE data, der vises på MARRVEL, indeholder almindelige varianter fra kontrolpopulationen. De viste data omfatter strukturelle varianter, der dækker den genomiske placering af input varianten. DECIPHER indeholder også variant og fænotypiske oplysninger for berørte personer, men kan kun tilgås direkte via deres hjemmeside. PMID: 19344873
Human Genetik GD V http://dgv.tcag.ca/dgv/app/home Til vores kendskab er DGV den største offentlige adgang samling af strukturelle varianter fra mere end 54.000 individer. Databasen indeholder prøver af efter sigende raske individer, på tidspunktet for konstatering, fra op til 72 forskellige undersøgelser. Mulige begrænsninger for disse data omfatter variation i kilde og metode af data erhvervet manglen på oplysninger om ufuldstændig penetrans af patogene CNVs, og om enkeltpersoner vil udvikle tilknyttede sygdomme efter dataindsamlingen. PMID: 24174537
Ortologi forudsigelse DIOPT https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl DIOPT leverede flere protein sekvens justering af de bedste forudsagte ortologs i seks modelorganismer mod protein sekvensen af det menneskelige gen af interesse. Tilpasningen vil give oplysninger om bevarelsen af bestemte aminosyrer samt funktionelle protein domæner. PMID: 21880147
Menneskeligt gen/afskrift nomenklatur Ensembl https://useast.ensembl.org/ Ensembl-genid'er bruges til at sammenkæde de forskellige databaser. PMID: 29155950
Human Genetik ExAC http://exac.broadinstitute.org/ ExAC indeholder mere end 60.000 exomer og er, bortset fra gnomAD (http://gnomad.broadinstitute.org/), den største offentlige samling af exomer, der er blevet udvalgt mod personer med svær tidlig debut Mendelian fænotyper. Til MARRVEL'S formål fungerer ExAC og gnomAD som det bedste datasæt for kontrolpopulationen for at beregne mindre allel-frekvens. Vi leverer to sæt udgange fra ExAC. Det første output er det gen-centriske overblik over det forventede versus observerede antal missense og tab af funktion (LOF) alleler. En måling kaldet pLI (sandsynlighed for LOF intolerance) spænder mellem 0,00 og 1,00 afspejler det selektive pres på visse varianter før reproduktiv alder. pLI score på 1,00 betyder, at dette gen er meget intolerante over for enhver LOF varianter og haploinsufficiens af dette gen kan forårsage sygdom hos mennesker. Den anden udgang er data fra ExAC, der vedrører den specifikke variant. Hvis identisk variant ses i exac, vil marrvel vise den underordnede allel frekvens. PMID: 27535533
Primære model organismer databaser FlyBase (Drosophila) http://flybase.org MARRVEL indsamler og viser data fra flere model organisme databaser. Vi giver et resumé af den molekylære, cellulære og biologiske funktion af genet ved hjælp af GO vilkår. Den mest sandsynlige ortholog er afledt af DIOPT. PMID: 26467478
Model organisme database integration værktøjer Gene2Function http://www.gene2function.org/search/ MARRVEL samarbejder med DIOPT og Gene2Function om at give funktionen "model organisme Search". Hyperlink er til rådighed for brugerne at få adgang til deres hjemmeside, der integrerer en række MO-databaser og viser dem i en anden stil fra, hvordan MARREL gør. PMID: 28663344
Human Genetik Geno2MP http://geno2mp.gs.washington.edu/Geno2MP/ Geno2MP er en samling af prøver fra University of Washington Center for Mendelian genetik. Det indeholder ~ 9.650 exomer af berørte individer og upåvirkede slægtninge. Denne database forbinder fænotypiske samt tilstand af arv oplysninger til bestemte alleler. For fænotype, ved at sammenligne det berørte organsystem af patienten af interesse for de berørte personer i Geno2MP, kan man finde potentielle kampe. En kamp i allele, form for arv, og fænotype giver en øget sandsynlighed for, at varianten sandsynligvis patogene. Men på grund af små stikprøvestørrelse en negativ sammenslutning ikke nødvendigvis mindske en varianten sygdomsfremkaldende prioritet. En mekanisme til at kontakte den primære læge af en patient af interesse er fastsat i den oprindelige kilde. Nielsen
Human Genetik gnomAD http://gnomad.broadinstitute.org/ gnomAd indeholder i alt 123.136 exome sekvenser og 15.496 helgenomer sekvenser fra ikke-forretningsmæssigt forbundne individer, som er en del af forskellige sygdomsspecifikke og populations genetiske studier. Signifikant del af ExAC-data er integreret i gnomAD. I MARRVEL vi i øjeblikket viser befolkningens frekvenser, der vedrører specifikke variant. PMID: 27535533
Gene Ontology GO central http://www.geneontology.org/ MARRVEL viser kun gene ontologi (GO) termer (Molekylær funktion, cellulær komponent og biologisk proces) afledt af eksperimentelle beviser for hvert Gen. De filtreres efter "eksperimentelle evidens koder" og GO-termer baseret på "beregningskoder for dataanalyse" og "elektroniske anmærknings koder" (forudsigelser) undgås. PMID: 10802651, 25428369
Menneskeligt gen/protein udtryk GTEx https://gtexportal.org/home/ MARRVEL viser både mRNA-og protein udtryks mønsteret i humane væv i hvert Gen. Udtryks mønsteret kan tilføre indsigt i de fænotyper, som observeres hos patienter og/eller modelorganismer. PMID: 29019975, 23715323
Human gen nomenklatur HGNC https://www.genenames.org/ HGNC officielle gensymboler bruges til MARRVEL søgninger. PMID: 27799471
Primære model organismer databaser IMPC (mus) http://www.mousephenotype.org/ MARRVEL giver et link til coresponding Mouse gensider på IMPC hjemmeside. Hvis der har været en knock-out mus lavet af IMPC, en udtømmende liste over assays og deres resultater gøres offentligt tilgængelige og kan give indsigt i fænotype, når et gen er tabt. Nogle oplysninger er kureret i MGI, men der måske en tidsforskydning. PMID: 27626380
Primære model organismer databaser MGI (mus) http://www.informatics.jax.org/ MARRVEL indsamler og viser data fra flere model organisme databaser. Vi giver et resumé af den molekylære, cellulære og biologiske funktion af genet ved hjælp af GO vilkår. Den mest sandsynlige ortholog er afledt af DIOPT. PMID: 25348401
Model organisme database integration værktøjer Monarch Initiative https://monarchinitiative.org/ MARRVEL giver et link til Phenogrid af et menneskeligt gen på Monarch Initiative. Dette gitter giver sammenligninger mellem Fænotypen af modelorganismer og kendte sygdomme hos mennesker. PMID: 27899636
Human variant nomenklatur Mutalyzer https://mutalyzer.nl/ MARRVEL bruger Mutalyzers API til at konvertere forskellige variant-nomenklaturer til genomisk placering. PMID: 18000842
Human Genetik OMIM https://omim.org/ De tre vigtigste oplysninger, som vi trækker fra OMIM, er: genfunktion, associerede fænotyper og rapporterede alleler. Det er nyttigt at vide, om et gen er forbundet med en kendt Mendelian fænotype (# indgange), hvis molekylære grundlag er kendt. Gener uden denne viden er kandidater til ny genopdagelse. For gener, der er denne kategori, hvis patientens fænotype ikke svarer til den rapporterede sygdom og fænotype samt de af patienterne i litteraturen, så dette øger muligheden for at give en fænotypisk ekspansion for genet af interesse. PMID: 28654725
Primære model organismer databaser PomBase (fissions gær) https://www.pombase.org/ MARRVEL indsamler og viser data fra flere model organisme databaser. Vi giver et resumé af den molekylære, cellulære og biologiske funktion af genet ved hjælp af GO vilkår. Den mest sandsynlige ortholog er afledt af DIOPT. PMID: 22039153
Litteratur Pubmed https://www.ncbi.nlm.nih.gov/pubmed/ MARRVEL giver et link til "gene" baseret PubMed søgning. Hvis du klikker på dette link, kan man søge i biomedicinsk papir, der refererer til det pågældende gen, baseret på tidligere gennavne og symboler. Nielsen
Primære model organismer databaser RGD (rotte) https://rgd.mcw.edu/ MARRVEL indsamler og viser data fra flere model organisme databaser. Vi giver et resumé af den molekylære, cellulære og biologiske funktion af genet ved hjælp af GO vilkår. Den mest sandsynlige ortholog er afledt af DIOPT. PMID: 25355511
Primære model organismer databaser SGD (spirende gær) https://www.yeastgenome.org/ MARRVEL indsamler og viser data fra flere model organisme databaser. Vi giver et resumé af den molekylære, cellulære og biologiske funktion af genet ved hjælp af GO vilkår. Den mest sandsynlige ortholog er afledt af DIOPT. PMID: 22110037
Menneskeligt gen/protein udtryk Det humane protein Atlas https://www.proteinatlas.org/ MARRVEL viser både mRNA-og protein udtryks mønsteret i humane væv i hvert Gen. Udtryks mønsteret kan tilføre indsigt i de fænotyper, som observeres hos patienter og/eller modelorganismer. PMID: 21752111
Primære model organismer databaser WormBase (C. elegans) http://wormbase.org MARRVEL indsamler og viser data fra flere model organisme databaser. Vi giver et resumé af den molekylære, cellulære og biologiske funktion af genet ved hjælp af GO vilkår. Den mest sandsynlige ortholog er afledt af DIOPT. PMID: 26578572
Primære model organismer databaser ZFIN (zebrafish) https://zfin.org/ MARRVEL indsamler og viser data fra flere model organisme databaser. Vi giver et resumé af den molekylære, cellulære og biologiske funktion af genet ved hjælp af GO vilkår. Den mest sandsynlige ortholog er afledt af DIOPT. PMID: 26097180

Tabel 1. Liste over data kilder for MARRVEL. Alle databaser, hvor MARRVEL indhenter data fra, er angivet i denne tabel. For hver database, vi listetypen af database, URL/link, rationale for at medtage i MARRVEL, og primære referencer.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Kritiske trin i denne protokol omfatter det indledende input (trin 1.1-1.3) og den efterfølgende fortolkning af outputtet. Den mest almindeligt årsag til, at søgeresultaterne er negative, er på grund af de mange måder, som et gen og/eller en variant kan beskrives på. Mens MARRVEL opdateres på et planlagt grundlag, kan disse opdateringer forårsage afbrydelser mellem de forskellige databaser, som MARRVEL linker til. Således er det første trin i fejlfindingen altid at kontrollere, om alternative navne på genet eller varianten vil føre til et vellykket søgeresultat. Hvis det stadig ikke kan løses, skal du sende en besked til udviklingsteamet ved hjælp af feedbackformularen i http://marrvel.org/message.

En begrænsning til MARRVEL er, at den endnu ikke indeholder alle de nyttige databaser, der er nødvendige for analyse af gener og varianter. For eksempel er der i øjeblikket ikke angivet algoritmer for patogenicitet som CADD18 . Tilsvarende oplysninger om protein struktur og protein-protein interaktion, der også kan give strukturelle og funktionelle links til kendte sygdomsfremkaldende varianter i gener, vises ikke i øjeblikket i MARRVEL. I vores næste store opdatering planlægger vi at integrere disse oplysninger i MARRVEL, ud over at indarbejde mere fænotypiske oplysninger fra model organisme websteder, IMPC, Monarch Initiative og Alliance of Genome Resources (AGR, https://www.alliancegenome.org/). Da marrvel var designet til at lette forskning i sjældne sygdomme, fokuserer programmet i øjeblikket på kimcelle-varianter og giver ikke adgang til somatiske variant oplysninger. Ingen kræft genetik relaterede databaser er integreret i offentliggørelsen af denne protokol. Da MARRVEL aktivt udvikles og opgraderes, sætter vi stor pris på feedback og opfordrer kraftigt de eksisterende brugere til at tilmelde sig nyhedsbreve på http://marrvel.org/message for eventuelle fremtidige yderligere databaser, der bliver integreret.

Selvom data fra MARRVEL kan bruges til at prioritere varianter, der kan være sygdomsfremkaldende. For at påvise patogenicitet skal man dog identificere andre patienter med lignende genotyper og fænotyper eller udføre funktionelle undersøgelser for at give solide beviser for, at varianten af interesse har funktionelle konsekvenser, der er relevante for sygdomstilstanden. For mere information om yderligere oplysninger uden for MARRVEL, der kan være nyttige til at bedømme, om en variant er værd at eksperimentelt undersøge i den model organisme, henvises til den ledsagende artikel Harnish et al21. For at tage de næste skridt i at bruge model organismer til at studere menneskelige varianter, menneskelige genetikere og model organisme forskere skal være i stand til at forbinde og samarbejde. GeneMatcher og andre genomkonsortier, der er en del af matchmaker Exchange Consortium, er ressourcer, der letter dette næste trin. Hvis brugerne bor i Canada, kan man også registrere i de sjældne sygdomsmodeller og mekanismer netværk (RDMM, http://www.rare-diseases-catalyst-network.ca/) til at identificere klinikere og/eller model organismer forskere, der er villige til at samarbejde39 . Japan (J-RDMM, https://irudbeyond.nig.ac.jp/en/index.html), Europa (RDMM-Europa, http://solve-rd.eu/rdmm-europe/) og Australien (det australske funktionelle Genomics-netværk: https://www.functionalgenomics.org.au/) har for nylig vedtaget Canadisk RDMM model til at fremme lignende samarbejde i deres lande/regioner. Desuden kan man ved hjælp af værktøjer som BioLitMine (https://www.flyrnai.org/tools/biolitmine/web/) søge efter potentielle samarbejdspartnere blandt de vigtigste investigatorer, der tidligere har arbejdet på det pågældende gen af interesse.

Endelig findes der foruden MARRVEL en række andre data mining-værktøjer på tværs af arter, herunder Gene2Function40 (http://www.gene2function.org/), Monarch Initiative29 (https://monarchinitiative.org/) og Alliance of Genom-ressourcer (AGR, https://www.alliancegenome.org/). Mens Gene2Function giver adgang til data på tværs af arter, og Monarch Initiative giver fænotypiske sammenligninger, har MARRVEL en større vægt på menneskelige varianter og forbinder humane genomiske data med modelorganismer. AGR er et initiativ, der involverer seks model organismer databaser og gene Ontology konsortium, der integrerer data fra forskellige database på en ensartet måde at øge tilgængeligheden af data akkumuleret af hver database. Disse ressourcer supplerer hinanden, og brugerne bør forstå hver enkelt database ' styrker for at navigere i den enorme mængde viden, der er blevet akkumuleret af forskere i Fællesskaberne. Som MARRVEL udvikling fortsætter, vi planlægger at inkludere flere databaser, der er relevante for at studere menneskelige varianter i model organismer. Det overordnede mål for MARRVEL er at give en let tilgængelig måde for klinikere og forskere både til at analysere menneskelige gener og varianter for yderligere undersøgelse ved at integrere nyttige oplysninger, samtidig med at grænsefladen så simpelt som vi kan.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Vi takker DRs. Rami al-Ouran, seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi WAN, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr og Norbert Perrimon for deres støtte til udvikling og vedligeholdelse af MARRVEL. Vi er taknemmelige for Samantha L. Deal og J. Michael Harnish for deres bidrag til dette manuskript.

Den indledende udvikling af MARRVEL blev delvist støttet af de udiagnosticerede sygdomme Network model organismer screening Center gennem NIH Commonfund (U54NS093793) og gennem NIH Office of Research infrastrukturprogrammer (ORIP) (R24OD022005). JW støttes af NIH Eunice Kennedy Shriver National Institute of Child Health & Human Development (F30HD094503) og Robert og Janice McNair Foundation McNair MD/PhD Student Scholar program hos BCM. HJB støttes yderligere af NIH National Institute of General Medical Sciences (R01GM067858) og er en efterforsker af Howard Hughes Medical Institute. ZL støttes af NIH National Institute of General Medical Science (R01GM120033), National Institute of Aging (R01AG057339), og Huffington Foundation. SY modtog yderligere støtte fra NIH National Institute om døvhed og andre kommunikationsforstyrrelser (R01DC014932), Simons Foundation (SFARI Award: 368479), Alzheimers Association (ny investigator Research tilskud: 15-364099), naman Family Fond for grundforskning og Caroline Wiess lov fond for forskning i Molekylær medicin.

Materials

Name Company Catalog Number Comments
Human Genetics ClinVar PMID: 29165669 https://www.ncbi.nlm.nih.gov/clinvar/
Human Genetics DECIPHER PMID: 19344873  https://decipher.sanger.ac.uk/
Human Genetics DGV PMID: 24174537 http://dgv.tcag.ca/dgv/app/home
Orthology Prediction DIOPT PMID: 21880147  https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl
Human Gene/Transcript Nomenclature Ensembl PMID: 29155950  https://useast.ensembl.org/
Human Genetics ExAC  PMID: 27535533 http://exac.broadinstitute.org/
Primary Model Organism Databases FlyBase (Drosophila) PMID:26467478 http://flybase.org
Model Organism Database Integration Tools Gene2Function PMID: 28663344 http://www.gene2function.org/search/
Human Genetics Geno2MP N/A http://geno2mp.gs.washington.edu/Geno2MP/
Human Genetics gnomAD PMID: 27535533 http://gnomad.broadinstitute.org/
Gene Ontology GO Central PMID: 10802651, 25428369  http://www.geneontology.org/
Human Gene/Protein Expression GTEx PMID: 29019975, 23715323  https://gtexportal.org/home/
Human Gene Nomenclature HGNC PMID: 27799471  https://www.genenames.org/
Primary Model Organism Databases IMPC (mouse) PMID: 27626380 http://www.mousephenotype.org/
Primary Model Organism Databases MGI (mouse) PMID:25348401 http://www.informatics.jax.org/
Model Organism Database Integration Tools Monarch Initiative PMID: 27899636 https://monarchinitiative.org/
Human Variant Nomenclature Mutalyzer PMID: 18000842  https://mutalyzer.nl/
Human Genetics OMIM PMID: 28654725 https://omim.org/
Primary Model Organism Databases PomBase (fission yeast) PMID:22039153 https://www.pombase.org/
Literature PubMed N/A https://www.ncbi.nlm.nih.gov/pubmed/
Primary Model Organism Databases RGD (rat) PMID:25355511 https://rgd.mcw.edu/
Primary Model Organism Databases SGD (budding yeast) PMID: 22110037 https://www.yeastgenome.org/
Human Gene/Protein Expression The Human Protein Atlas PMID: 21752111 https://www.proteinatlas.org/
Primary Model Organism Databases WormBase (C. elegans) PMID:26578572 http://wormbase.org
Primary Model Organism Databases ZFIN (zebrafish) PMID:26097180 https://zfin.org/

DOWNLOAD MATERIALS LIST

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
  3. MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
  4. Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
  5. Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
  6. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  7. Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
  8. Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
  9. Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
  10. Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
  11. Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
  12. Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
  13. Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
  14. Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
  15. Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
  16. Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
  17. Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
  18. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
  19. Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
  20. Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
  21. Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
  22. Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
  23. MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, Database issue 986-992 (2014).
  24. Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
  25. Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
  26. Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
  27. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas--a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  28. The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
  29. Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
  30. Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
  31. Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
  32. Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
  33. Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
  34. Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
  35. Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, Pt 3 217-225 (2016).
  36. Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
  37. Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
  38. Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
  39. Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
  40. Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), Bethesda. 2855-2858 (2017).

Tags

Genetik Human Genomics variant prioritering model organismer genetik sjældne og udiagnosticerede sygdomme funktionel Genomics database integration Translationel forskning medicinsk diagnose variant af ukendt betydning gen af usikker betydning web-baseret værktøj
Navigering MARRVEL, et webbaseret værktøj, der integrerer menneskelig Genomics og model organisme genetik information
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, J., Liu, Z., Bellen, H. J.,More

Wang, J., Liu, Z., Bellen, H. J., Yamamoto, S. Navigating MARRVEL, a Web-Based Tool that Integrates Human Genomics and Model Organism Genetics Information. J. Vis. Exp. (150), e59542, doi:10.3791/59542 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter