Her præsenterer vi en protokol for at få adgang til og analysere mange menneskelige og model organismer databaser effektivt. Denne protokol demonstrerer brugen af MARRVEL til at analysere kandidat sygdomsfremkaldende varianter identificeret fra næste generations sekvensering.
Gennem hel-exome/genom sekventering, Human genetikere identificere sjældne varianter, der adskiller med sygdom fænotyper. For at vurdere, om en bestemt variant er sygdomsfremkaldende, skal man forespørge mange databaser for at afgøre, om det pågældende gen af interesse er knyttet til en genetisk sygdom, om den specifikke variant er blevet rapporteret før, og hvilke funktionelle data der er tilgængelige i model organismen databaser, der kan give fingerpeg om genet funktion i mennesker. MARRVEL (model organisme aggregerede ressourcer til sjælden variant udforskning) er en One-stopdata indsamling værktøj til menneskelige gener og varianter og deres ortologt gener i syv model organismer, herunder i mus, rotte, zebrafish, frugtflue, fyrretræsnematoden orm, fission gær og spirende gær. I denne protokol giver vi et overblik over, hvad MARRVEL kan bruges til, og diskuterer, hvordan forskellige datasæt kan bruges til at vurdere, om en variant af ukendt signifikans (VUS) i et kendt sygdomsfremkaldende gen eller en variant i et gen af usikker betydning (GUS) kan være Patogene. Denne protokol vil guide en bruger ved at søge flere menneskelige databaser samtidig starter med en menneskelig gen med eller uden en variant af interesse. Vi diskuterer også, hvordan man brugerdata fra OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV og dechipher. Desuden illustrerer vi, hvordan man fortolker en liste over ortholog kandidat gener, udtryks mønstre og GO-termer i modelorganismer, der er forbundet med hvert menneskeligt gen. Desuden diskuterer vi værdien protein strukturelle domæne anmærkninger forudsat og forklare, hvordan man bruger flere arter protein justering funktion til at vurdere, om en variant af interesse påvirker en evolutionært bevaret domæne eller aminosyre. Endelig vil vi diskutere tre forskellige brug-tilfælde af denne hjemmeside. MARRVEL er et let tilgængeligt websted for åben adgang, der er designet til både kliniske og grundlæggende forskere og tjener som udgangspunkt for design eksperimenter til funktionelle studier.
Brugen af næste generations sekvensering teknologi er stigende i både forskning og kliniske genetiske laboratorier1. Helexome (Wes) og helgenomome sekventering (WGS)-analyser afslører talrige sjældne varianter af ukendt signifikans (Vus) i kendte sygdomsfremkaldende gener samt varianter i gener, der endnu ikke er associeret med en mendelian sygdom (Gus: gener af usikker betydning). Præsenteret med en liste over gener og varianter i en klinisk sekvens rapport, skal medicinske genetikere manuelt besøge flere online ressourcer for at få flere oplysninger til at vurdere, hvilken variant kan være ansvarlig for en bestemt fænotype set hos patienten af interesse . Denne proces er tidskrævende, og dens effektivitet er meget afhængig af den enkeltes ekspertise. Selv om flere retningslinjer papirer er blevet offentliggjort2,3, fortolkning af Wes og WGS kræver manuel kuration, da der endnu ikke er en standardiseret metode til variant analyse. For fortolkningen af Vus, viden om den tidligere rapporterede genotype-phenotype forhold, form for arv, og allel frekvenser i den almindelige befolkning bliver værdifulde. Desuden kan viden om, hvorvidt varianten påvirker et kritisk protein domæne, eller en evolutionært bevaret restkoncentration øge eller mindske sandsynligheden for patogenicitet. For at samle alle disse oplysninger, skal man typisk navigere gennem 10-20 menneskelige og model organismer databaser, da oplysningerne er spredt gennem World Wide Web.
Tilsvarende er model organisme videnskabsmænd, der arbejder på specifikke gener og veje, ofte interesseret i at forbinde deres resultater med sygdomsmekanismer i mennesker og ønsker at udnytte den viden, der genereres i human genomforskning-området. Men på grund af den hurtige ekspansion og udvikling af datasæt vedrørende det menneskelige genom, har det været udfordrende at identificere databaser, der giver nyttige oplysninger. Hertil kommer, da de fleste model organismer databaser er designet til forskere, der arbejder med den specifikke organisme på daglig basis, det er meget vanskeligt, for eksempel, for en mus forsker til at søge efter specifikke oplysninger i en Drosophila database og omvendt. Svarende til varianten fortolkning søgninger udført af medicinske genetikere, identificere nyttige menneskelige og andre model organisme information er tidskrævende og stærkt afhængig af baggrund af modellen organisme forsker. MARRVEL (model organisme aggregerede ressourcer til sjælden variant udforskning)4 er et værktøj designet til begge grupper af brugere til at strømline deres workflow.
MARRVEL (http://marrvel.org) blev designet som en centraliseret søgemaskine, der systematisk indsamler data på en effektiv og konsekvent måde for klinikere og forskere. Med oplysninger fra 20 eller flere offentligt tilgængelige databaser, dette program giver brugerne mulighed for hurtigt at indsamle oplysninger og få adgang til et stort antal menneskelige og model organismer databaser uden gentagende søgninger. Søgeresultatsiderne indeholder også hyperlinks til de oprindelige informationskilder, som gør det muligt for enkeltpersoner at få adgang til rådata og indsamle yderligere oplysninger fra kilderne.
I modsætning til mange af de variant prioritering værktøjer, der kræver store sekvensering data input i form af VCF eller BAM filer og installationer af ofte proprietære/kommerciel software, MARRVEL opererer på enhver web-browser. Det kan bruges uden omkostninger og kompatibel med bærbare enheder (f. eks smartphones, tablets), så længe man er forbundet til internettet. Vi valgte dette format, da mange klinikere og forskere typisk har brug for at søge et eller et par gener og varianter ad gangen. Bemærk, at vi er ved at udvikle batch-download og API (Application Programming Interface) funktioner til MARRVEL til sidst give brugerne mulighed for at kurere hundredvis af gener og varianter på et tidspunkt gennem tilpassede forespørgsels værktøjer, hvis det er nødvendigt.
På grund af den brede vifte af applikationer, i denne protokol, vil vi beskrive en bredt omfattende tilgang til, hvordan man navigerer gennem forskellige datasæt, som MARRVEL viser. Mere målrettede eksempler, der er skræddersyet til specifikke brugeres behov, vil blive beskrevet i afsnittet om repræsentative resultater. Det er vigtigt at bemærke, at produktionen af MARRVEL stadig kræver en vis grad af baggrundsviden i enten humangenetik eller model organismer til at udtrække værdifulde oplysninger. Vi henviser læserne til tabellen, der opregner primære papirer, der beskriver funktionen af hver af de oprindelige databaser, der er kureret af MARRVEL (tabel 1). Følgende protokol er inddelt i tre sektioner: (1) hvordan man begynder en søgning, (2) hvordan man fortolker MARRVEL humangenetik udgange, og (3) hvordan man gør brug af model organisme data i MARRVEL. I afsnittet om repræsentative resultater beskrives mere fokuserede og specifikke tilgange. MARRVEL bliver aktivt opdateret, så se venligst det aktuelle websteds FAQ-side for detaljer om datakilder. Vi anbefaler på det kraftigste, at brugerne af MARRVEL tilmelder sig for at modtage opdateringsmeddelelser via e-mail-indsendelsesformularen nederst på MARRVEL-hjemmesiden.
Kritiske trin i denne protokol omfatter det indledende input (trin 1.1-1.3) og den efterfølgende fortolkning af outputtet. Den mest almindeligt årsag til, at søgeresultaterne er negative, er på grund af de mange måder, som et gen og/eller en variant kan beskrives på. Mens MARRVEL opdateres på et planlagt grundlag, kan disse opdateringer forårsage afbrydelser mellem de forskellige databaser, som MARRVEL linker til. Således er det første trin i fejlfindingen altid at kontrollere, om alternative navne på genet el…
The authors have nothing to disclose.
Vi takker DRs. Rami al-Ouran, seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi WAN, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr og Norbert Perrimon for deres støtte til udvikling og vedligeholdelse af MARRVEL. Vi er taknemmelige for Samantha L. Deal og J. Michael Harnish for deres bidrag til dette manuskript.
Den indledende udvikling af MARRVEL blev delvist støttet af de udiagnosticerede sygdomme Network model organismer screening Center gennem NIH Commonfund (U54NS093793) og gennem NIH Office of Research infrastrukturprogrammer (ORIP) (R24OD022005). JW støttes af NIH Eunice Kennedy Shriver National Institute of Child Health & Human Development (F30HD094503) og Robert og Janice McNair Foundation McNair MD/PhD Student Scholar program hos BCM. HJB støttes yderligere af NIH National Institute of General Medical Sciences (R01GM067858) og er en efterforsker af Howard Hughes Medical Institute. ZL støttes af NIH National Institute of General Medical Science (R01GM120033), National Institute of Aging (R01AG057339), og Huffington Foundation. SY modtog yderligere støtte fra NIH National Institute om døvhed og andre kommunikationsforstyrrelser (R01DC014932), Simons Foundation (SFARI Award: 368479), Alzheimers Association (ny investigator Research tilskud: 15-364099), naman Family Fond for grundforskning og Caroline Wiess lov fond for forskning i Molekylær medicin.
Human Genetics | ClinVar | PMID: 29165669 | https://www.ncbi.nlm.nih.gov/clinvar/ |
Human Genetics | DECIPHER | PMID: 19344873 | https://decipher.sanger.ac.uk/ |
Human Genetics | DGV | PMID: 24174537 | http://dgv.tcag.ca/dgv/app/home |
Orthology Prediction | DIOPT | PMID: 21880147 | https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl |
Human Gene/Transcript Nomenclature | Ensembl | PMID: 29155950 | https://useast.ensembl.org/ |
Human Genetics | ExAC | PMID: 27535533 | http://exac.broadinstitute.org/ |
Primary Model Organism Databases | FlyBase (Drosophila) | PMID:26467478 | http://flybase.org |
Model Organism Database Integration Tools | Gene2Function | PMID: 28663344 | http://www.gene2function.org/search/ |
Human Genetics | Geno2MP | N/A | http://geno2mp.gs.washington.edu/Geno2MP/ |
Human Genetics | gnomAD | PMID: 27535533 | http://gnomad.broadinstitute.org/ |
Gene Ontology | GO Central | PMID: 10802651, 25428369 | http://www.geneontology.org/ |
Human Gene/Protein Expression | GTEx | PMID: 29019975, 23715323 | https://gtexportal.org/home/ |
Human Gene Nomenclature | HGNC | PMID: 27799471 | https://www.genenames.org/ |
Primary Model Organism Databases | IMPC (mouse) | PMID: 27626380 | http://www.mousephenotype.org/ |
Primary Model Organism Databases | MGI (mouse) | PMID:25348401 | http://www.informatics.jax.org/ |
Model Organism Database Integration Tools | Monarch Initiative | PMID: 27899636 | https://monarchinitiative.org/ |
Human Variant Nomenclature | Mutalyzer | PMID: 18000842 | https://mutalyzer.nl/ |
Human Genetics | OMIM | PMID: 28654725 | https://omim.org/ |
Primary Model Organism Databases | PomBase (fission yeast) | PMID:22039153 | https://www.pombase.org/ |
Literature | PubMed | N/A | https://www.ncbi.nlm.nih.gov/pubmed/ |
Primary Model Organism Databases | RGD (rat) | PMID:25355511 | https://rgd.mcw.edu/ |
Primary Model Organism Databases | SGD (budding yeast) | PMID: 22110037 | https://www.yeastgenome.org/ |
Human Gene/Protein Expression | The Human Protein Atlas | PMID: 21752111 | https://www.proteinatlas.org/ |
Primary Model Organism Databases | WormBase (C. elegans) | PMID:26578572 | http://wormbase.org |
Primary Model Organism Databases | ZFIN (zebrafish) | PMID:26097180 | https://zfin.org/ |