Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Navigazione MARRVEL, uno strumento basato sul Web che integra la genomica umana e le informazioni di genetica degli organismi modello

Published: August 15, 2019 doi: 10.3791/59542

Summary

Qui, presentiamo un protocollo per accedere e analizzare in modo efficiente molti database di organismi umani e modelli. Questo protocollo dimostra l'uso di MARRVEL per analizzare le varianti candidate che causano malattie identificate dagli sforzi di sequenziamento di nuova generazione.

Abstract

Attraverso il sequenziamento dell'intero esoma/genoma, i genetisti umani identificano varianti rare che si segregano con i fenotipi della malattia. Per valutare se una variante specifica è patogena, è necessario interrogare molti database per determinare se il gene di interesse è collegato a una malattia genetica, se la variante specifica è stata segnalata in precedenza e quali dati funzionali sono disponibili nell'organismo modello database che possono fornire indizi sulla funzione del gene nell'uomo. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration) è uno strumento di raccolta dati unico per geni e varianti umani e dei loro geni ortologhi in sette organismi modello, tra cui topo, ratto, pesce zebra, mosca della frutta, verme di nematodi, fissione lievito e lievito in erba. In questo protocollo, forniamo una panoramica di ciò che MARRVEL può essere utilizzato per e discutere come diversi set di dati possono essere utilizzati per valutare se una variante di significato sconosciuto (VUS) in un gene noto che causa la malattia o una variante in un gene di significato incerto (GUS) può essere Patogeni. Questo protocollo guiderà l'utente attraverso la ricerca di più database umani contemporaneamente a partire da un gene umano con o senza una variante di interesse. Discutiamo anche su come utilizzare i dati da OMIM, ExAC/gnomAD, ClinVar, Geno2MP, DGV e DECHIPHER. Inoltre, illustriamo come interpretare un elenco di geni candidati ortologi, modelli di espressione e termini GO in organismi modello associati ad ogni gene umano. Inoltre, discutiamo del valore delle annotazioni del dominio strutturale delle proteine fornite e spieghiamo come utilizzare la funzione di allineamento delle proteine di più specie per valutare se una variante di interesse influisce su un dominio evolutivamente conservato o aminoacido. Infine, discuteremo tre diversi casi d'uso di questo sito web. MARRVEL è un sito web ad accesso aperto facilmente accessibile progettato sia per i ricercatori clinici che per i ricercatori di base e funge da punto di partenza per la progettazione di esperimenti per studi funzionali.

Introduction

L'uso della tecnologia di sequenziamento di nuova generazione si sta espandendo sia nella ricerca che nei laboratori genetici clinici1. Le analisi dell'intero esoma (WES) e del sequenziamento dell'intero genoma (WGS) rivelano numerose rare varianti di significato sconosciuto (VUS) nei geni noti che causano malattie, nonché varianti nei geni che devono ancora essere associati a una malattia mendeliana (GUS: geni di incerti significatività). Presentato con un elenco di geni e varianti in un rapporto di sequenza clinica, i genetisti medici devono visitare manualmente più risorse online per ottenere maggiori informazioni per valutare quale variante può essere responsabile di un certo fenotipo visto nel paziente di interesse . Questo processo richiede molto tempo e la sua efficacia dipende fortemente dall'esperienza dell'individuo. Anche se sono stati pubblicati diversi articoli di linee guida2,3, l'interpretazione di WES e WGS richiede la cura manuale poiché non esiste ancora una metodologia standardizzata per l'analisi delle varianti. Per l'interpretazione del VUS, le conoscenze sulla relazione genotipo-fenotipo precedentemente segnalata, sulla modalità di eredità e sulle frequenze degli alleli nella popolazione generale diventano preziose. Inoltre, la conoscenza se la variante colpisce un dominio proteico critico, o un residuo evolutivamente conservato può aumentare o diminuire la probabilità di patogenicità. Per raccogliere tutte queste informazioni, è in genere necessario navigare attraverso 10-20 database di organismi umani e modello poiché le informazioni sono sparse attraverso il World Wide Web.

Allo stesso modo, gli scienziati di organismi modello che lavorano su geni e percorsi specifici sono spesso interessati a collegare le loro scoperte ai meccanismi delle malattie umane e desiderano sfruttare le conoscenze che vengono generate nel campo della genomica umana. Tuttavia, a causa della rapida espansione ed evoluzione dei set di dati relativi al genoma umano, è stato difficile identificare database che forniscono informazioni utili. Inoltre, poiché la maggior parte dei database modello di organismi sono progettati per i ricercatori che lavorano con l'organismo specifico su base giornaliera, è molto difficile, ad esempio, per un ricercatore di topi cercare informazioni specifiche in un database di Drosophila e viceversa. Simile alla ricerca di interpretazione della variante effettuate dai genetisti medici, l'identificazione di informazioni utili sull'uomo e su altri organismi modello è dispendioso in termini di tempo e fortemente dipendente dallo sfondo del ricercatore dell'organismo modello. MARRVEL (Model organism Aggregated Resources for Rare Variant ExpLoration)4 è uno strumento progettato per entrambi i gruppi di utenti per semplificare il flusso di lavoro.

MARRVEL (http://marrvel.org) è stato progettato come un motore di ricerca centralizzato che raccoglie i dati in modo sistematico e coerente per medici e ricercatori. Con informazioni da 20 o più database pubblicamente disponibili, questo programma consente agli utenti di raccogliere rapidamente informazioni e accedere a un gran numero di database di esseri umani e di organismi modello senza ricerche ripetitive. Le pagine dei risultati di ricerca contengono anche collegamenti ipertestuali alle fonti di informazioni originali, consentendo agli utenti di accedere ai dati grezzi e raccogliere informazioni aggiuntive fornite dalle fonti.

A differenza di molti degli strumenti di definizione delle priorità varianti che richiedono l'input di dati di sequenziamento di grandi dimensioni sotto forma di file VCF o BAM e installazioni di software spesso proprietario/commerciale, MARRVEL opera su qualsiasi browser web. Può essere utilizzato gratuitamente e compatibile con dispositivi portatili (ad esempio smartphone, tablet) finché si è connessi a Internet. Abbiamo scelto questo formato poiché molti medici e ricercatori in genere hanno bisogno di cercare uno o pochi geni e varianti alla volta. Si noti che stiamo sviluppando funzionalità di download in batch e API (application programming interface) per MARRVEL per consentire alla fine agli utenti di curare centinaia di geni e varianti alla volta attraverso strumenti di query personalizzati, se necessario.

Grazie all'ampia gamma di applicazioni, in questo protocollo verrà descritto un approccio ampiamente globale su come spostarsi tra diversi set di dati visualizzati da MARRVEL. Esempi più mirati su misura per le esigenze specifiche degli utenti saranno descritti nella sezione Risultati rappresentativi. È importante notare che l'output di MARRVEL richiede ancora un certo livello di conoscenze di base nella genetica umana o negli organismi modello per estrarre informazioni preziose. I lettori fanno riferimento alla tabella che elenca i documenti principali che descrivono la funzione di ciascuno dei database originali che sono curati da MARRVEL (Tabella 1). Il seguente protocollo è suddiviso in tre sezioni: (1) Come iniziare una ricerca, (2) come interpretare i risultati di genetica umana MARRVEL e (3) come utilizzare i dati dell'organismo modello in MARRVEL. Nella sezione Risultati rappresentativi vengono descritti approcci più mirati e specifici. MARRVEL è attivamente aggiornato, quindi si prega di fare riferimento alla pagina FAQ del sito web corrente per i dettagli sulle fonti di dati. Consigliamo vivamente agli utenti di MARRVEL di registrarsi per ricevere notifiche di aggiornamento tramite il modulo di invio e-mail nella parte inferiore della home page di MARRVEL.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Come iniziare una ricerca

  1. Per il gene umano e la ricerca basata sulle varianti, andare ai passaggi 1.1.1.-1.1.2. Per la ricerca umana basata su geni (nessun input di variante), andare al passaggio 1.2. Per la ricerca basata su geni dell'organismo modello, fare riferimento ai passaggi 1.3.1.-1.3.2.
    1. Vai alla home page di MARRVEL4 allhttp://marrvel.org/. Inizia inserendo un simbolo genetico umano. Assicurarsi che i nomi dei geni candidati siano elencati sotto la casella di input per ogni voce di carattere. Se la ricerca risulta negativa, assicurarsi che il simbolo genico utilizzato sia aggiornato utilizzando il sito web5 (HGNC; https://www.genenames.org/) del Comitato per la nomenclatura del gene HUGO.
    2. Immettere una variante umana. La barra di ricerca è compatibile con due tipi di nomenclatura delle varianti: la posizione del genoma simile a quella delle varianti vengono visualizzate su ExAC e GnomAD6 e la nomenclatura basata sulla trascrizione secondo le linee guida HGVS. Esempi di tali formati sono visualizzati in testo grigio all'interno della casella di ricerca. Per la nomenclatura genomica, utilizzare le coordinate in base a hg19/GRCh37. Procedere al passaggio 2.
      NOTA: Se una ricerca restituisce un errore, i problemi più comuni sono il simbolo genico non aggiornato o la nomenclatura della variante non è corretta. In questi casi, i siti Web HGNC (https://www.genenames.org/), Mutalyzer7 (https://www.mutalyzer.nl/) e TransVar8 (https://bioinformatics.mdanderson.org/transvar/) sono ottime risorse per correggere l'errore. HGNC fornisce simboli genici ufficiali e i loro alias per tutti i geni umani.
    3. Se i messaggi di errore continuano a riscontrare messaggi di errore dopo aver confermato che il nome del gene è aggiornato, utilizzare Mutalyzer e TransVar per controllare e convertire la nomenclatura delle varianti.
    4. In alcune situazioni, ad esempio una modifica molto recente del simbolo genico in HGNC, provare a utilizzare un sinonimo per il gene e contattare il team operativo di MARRVEL utilizzando la scheda "Feedback" in modo da aggiornare i dati di origine, in quanto MARRVEL potrebbe non fornire le informazioni corrette a causa di un ritardo nei dati data.
  2. Inserisci un simbolo del gene umano e lascia vuota la barra di ricerca delle varianti umane. Se si verifica un errore, andare all'HGNC (https://www.genenames.org/) per verificare la presenza del simbolo genico ufficiale o provare un simbolo genetico più vecchio.
    1. Fare clic sulla scheda Ricerca organismi modello nel banner superiore (Figura 1) o passare a http://marrvel.org/model. Selezionare l'organismo modello di scelta e immettere un simbolo genico dell'organismo modello. Fare clic sul simbolo del gene quando il nome viene completato automaticamente e quindi fare clic su Cerca. Se il risultato della ricerca è negativo, controllare il simbolo genetico ufficiale utilizzato nelle banche dati degli organismi modello (Tabella 1).
    2. Se il risultato della ricerca è ancora negativo, accedere diSTA-EOPT (DRSC Integrative Ortholog Prediction Tool, https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) e HCOP (https://www.genenames.org/tools/hcop/) per valutare se non sono presenti ortologhi il gene di interesse. DIOPT è un motore di ricerca di previsione ortologo gestito dal DRSC (Drosophila RNAi Screening Center) e HCOP è una suite simile sviluppata da HGNC.
      NOTA: ulteriori ricerche che utilizzano BLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi) possono consentire agli utenti di trovare ortologi che potrebbero essere persi dagli algoritmi di stima utilizzati in DIOPT e HCOP.
    3. Fare clic sul MARRVEL in basso per l'ortologo umano previsto di scelta. Controllare il punteggio DIOPT9 e il miglior punteggio dal gene umano all'organismo modello? per la selezione del gene umano. Procedere al passaggio 2.
      NOTA: Il punteggio DIOPT9 (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) è un valore di quanti algoritmi di previsione ortologeria predicono che una coppia di geni in due organismi sia ortologa l'uno con l'altro. Per ulteriori informazioni su questi valori e sugli algoritmi specifici utilizzati per calcolare questo punteggio, fare riferimento a Hu et al9. Quando il punteggio migliore dal gene umano all'organismo modello? è , indica che il gene umano è più probabile un vero ortologo umano del gene di interesse, ma ci potrebbero essere eccezioni, soprattutto quando più geni umani sono ortologhi più geni dell'organismo modello a causa di eventi di duplicazione genica durante l'evoluzione. Se il gene di interesse è membro di una famiglia genica complessa che ha subito un'evoluzione divergente in più specie, gli utenti devono identificare una pubblicazione che ha eseguito un'ampia analisi filogenetica della famiglia genica di interesse per identificare probabile gene candidato dell'ortologeo.

2. Come interpretare i risultati di genetica umana MARRVEL per una ricerca genica e variante

NOTA: nella pagina dei risultati sono visualizzati sette database umani (Tabella 1, Figura 1). Per ogni casella di output, è presente un pulsante Collegamento esterno (piccolacasella con una freccia diagonale)nell'angolo superiore destro che verrà collegato al database originale per ulteriori dettagli.

  1. Fare clic su OMIM (Online Mendelian Inheritance in Man, https://www.omim.org/)10, il primo database visualizzato.
    NOTA: OMIM è un database curato manualmente che aggrega e riepiloga le informazioni sulle malattie genetiche e sui tratti nell'uomo.
    1. Utilizzare la casella Descrizione del gene umano dell'OMIM per un breve riepilogo di ciò che è noto sul prodotto genico e genetico.
    2. Utilizzare la casella Relazioni gene-fenotipo per determinare se questo gene è un gene noto che causa la malattia o meno. Questa casella fornisce associazioni di malattie note o fenotipi curate manualmente con il gene di interesse.
    3. Utilizzare la casella Alleli segnalati da OMIM per ottenere un elenco di varianti patogene curate da OMIM.
      NOTA: Poiché la cura manuale di una pubblicazione riguardante la scoperta di una nuova malattia genetica è necessaria affinché qualsiasi associazione di malattie genetiche compaia in OMIM, un certo ritardo temporale e/o pubblicazioni perse può portare a un equivoco. È consigliabile che gli utenti eseguano ricerche PubMed (https://www.ncbi.nlm.nih.gov/pubmed/) anche per esaminare la letteratura recente (vedere la pagina 4.1.2.). Per ulteriori informazioni curate in OMIM, fare riferimento a Amberger10,11.
  2. schioccareExAC(Exome Aggregation Consortium, http://exac.broadinstitute.org/)6e gnomAD(genome Aggregation Database, http://gnomad.broadinstitute.org/), grandi database genomici della popolazione basati su WES e WGS di persone che sono selezionate per escludere gravi malattie pediatriche.
    NOTA: ExAC contiene 60.000 WES, mentre gnomAD contiene 120.000 WES e 15.000 WGS. Sia ExAC e gnomAD può essere utilizzato come un database di popolazione di controllo, soprattutto per gravi disturbi pediatrici, ma la sua interpretazione richiede un certo grado di cautela. In generale, gnomAD può essere considerato come una versione aggiornata ed espansa di ExAC poiché la maggior parte delle coorti incluse in ExAC è inclusa anche in gnomAD. Tuttavia, poiché esistono alcune eccezioni (vedere le informazioni di coorte rispettivamente nelle http://exac.broadinstitute.org/about e http://gnomad.broadinstitute.org/about), MARRVEL visualizza i dati provenienti da entrambe le origini.
    1. Utilizzare la casella Control Population Gene Summary per ottenere statistiche a livello genico, ad esempio la probabilità di trovare gli alleli di perdita di funzione (LOF) nella popolazione generale. Questo è chiamato il punteggio pLI (probabilità di intolleranza LOF) in ExAC e può essere utilizzato per dedurre quanto probabile una singola copia di un allele LOF per un gene specifico può causare una malattia dominante attraverso meccanismi aplo-insufficienti.
      NOTA: Guardando il punteggio pLI di un gene ha valore, soprattutto quando si tratta di disturbi dominanti che presentano come gravi malattie pediatriche associate alle varianti de novo. Se un gene ha un punteggio di pLI di 0,00, significa che è altamente tollerante nei pressisti delle varianti LOF, quindi il gene improbabile causa di malattia attraverso un meccanismo dominante di aploinsufficienza. Ciò, tuttavia, non esclude necessariamente che altri meccanismi dominanti di funzione (GOF) o mediati negativi dominanti possano causare malattie. Inoltre, i geni che causano le malattie recessive possono avere punteggi bassi di PLI poiché ci si aspetta che le carriere si trovino nella popolazione generale. D'altra parte, se un gene ha un punteggio pLI di 1,00, è possibile che la perdita di una copia di questo gene sia dannosa per la salute umana. Ulteriori ricerche in siti web come DOMINO (https://wwwfbm.unil.ch/domino/) possono essere utilizzate anche in combinazione per valutare la probabilità di una variante in un gene specifico che causa un disturbo dominante.
    2. Utilizzare le due caselle successive per ottenere le frequenze alleli della variante di interesse in ExAC e gnomAD, rispettivamente per aiutare a interpretare se la variante può essere patogena a seconda se il paziente ha la malattia dominante o resimale. Questa casella verrà visualizzata solo quando l'utente immette informazioni sulle varianti quando viene eseguita l'avvio della ricerca.
      NOTA: Se si ipotizza uno scenario di malattia recessiva e il punteggio pLI del gene di interesse è basso, si dovrebbe prestare attenzione alla frequenza allele elencata qui. Alcuni genetisti possono stabilire un punto di taglio da 0,005 a 0,0001 come frequenza massima di allele per le varianti patogene che possono causare una grave malattia ereditaria recessiva2. D'altra parte, se si ipotizza uno scenario di malattia dominante, è meno probabile trovare la variante identica o simile in una popolazione di controllo. Ancora una volta, questo richiede cautela perché gli individui con disturbi ad esordio tardivo, malattie con presentazione lieve, disturbi psichiatrici o malattie non sottoposte a screening dai ricercatori ExAC/gnomAD possono essere ancora inclusi e la variante può ancora essere un variante f. Inoltre, ci sono stati alcuni casi di varianti legate alle condizioni pediatriche trovate in alcuni individui in questi database12,13,14, potenzialmente a causa di penetrazione incompleta o mosaicismo somatico13 , 15 Mi lasa del sistema , 16.Inoltre, anche se ExAC e gnomAD mostreranno varianti che si trovano in uno stato omozino, non indicherà se una delle varianti si trovano in uno stato eterozio composto. Infine, alcune varianti trovate in questi database sono contrassegnate come scarsa fiducia a causa di sfide tecniche nel sequenziamento (ad esempio, copertura a bassa sequenza, sequenza ripetitiva). Per esaminare più attentamente questi set di dati, si consiglia agli utenti di utilizzare il pulsante di collegamento esterno per visitare i siti Web ExAC e gnomAD originali per ottenere ulteriori informazioni.
  3. Fare clic su Geno2MP (Genotype to Mendelian Phenotype Browser, http://geno2mp.gs.washington.edu/Geno2MP/), una raccolta di dati basati su WES dall'Università di Washington Center for Mendelian Genetics. Contiene circa 9.600 esomi (al 1/18/2019) di individui affetti e parenti non interessati con alcune descrizioni fenotipiche (Figura 1).
    1. Utilizzare la casella Popolazione malattia per ottenere la frequenza allele della variante di interesse in questa coorte.
    2. Utilizzare la casella Relazioni Gene-Fenotipo per ottenere17 termini HPO (ontologia del fenotipo umano) per gli individui con la variante di interesse. Questo è uno dei tanti modi per uno di cercare i pazienti che possono avere la stessa malattia.
      NOTA: Se si sospetta che un gene di interesse sia associato alla malattia di un paziente e si trovano corrispondenze in Geno2MP, ulteriori informazioni importanti potrebbero essere presenti nell'origine dati oltre a ciò che viene visualizzato.
      1. Fare clic sul pulsante di collegamento esterno alla pagina gene-specific su Geno2MP, filtrare le mutazioni simili a quelle del paziente (ad esempio, missense, LOF) e rivedere attentamente gli elenchi delle varianti. Prendere nota delle varianti con alti punteggi CADD18 e fare clic nei profili HPO. Ad esempio, i punteggi CADD superiori a 20 sono all'interno dell'1% superiore di tutte le varianti previste per essere deleteri, punteggi CADD superiori a 10 sono all'interno del 10% superiore. I termini HPO forniscono una descrizione standardizzata dei fenotipi umani. Qui, assicurati di controllare se la variante è stata identificata in un individuo interessato o in un parente.
      2. Se le varianti si trovano in pazienti affetti nello stesso sistema di organi del paziente, prendere in considerazione l'utilizzo del modulo e-mail per contattare il medico che ha inviato questi casi a Geno2MP utilizzando la funzione fornita sul sito Web Geno2MP.
        NOTA: Non tutti i medici rispondono a tali domande, quindi si dovrebbe esplorare altre vie di matchmaking paziente. Altri modi per raccogliere una coorte di pazienti affetti dalle stesse malattie consiste nell'utilizzare strumenti quali GeneMatcher19 (https://www.genematcher.org/) e altri database che fanno parte del Matchmaker Exchange19,20 ( https://www.matchmakerexchange.org/). Vedere l'articolo di accompagnamento JoVE per ulteriori informazioni sul matchmaking21.
  4. Utilizzare la banca dati ClinVar (https://www.ncbi.nlm.nih.gov/clinvar/)22, supportata dai National Institutes of Health (NIH), dove ricercatori e medici presentano varianti con o senza determinazione della patogenicità, per il controllo varianti a singolo nucleotide (SNV), piccoli indel e varianti di numero di copie più grandi (CNV).
    1. Utilizzare la riga superiore per esaminare un riepilogo del numero di ogni tipo di varianti riportato in ClinVar (Figura 1).
    2. Selezionare l'elenco delle varianti riportato di seguito nella casella Alleli segnalati da ClinVar.
      NOTA: Se una variante è stata inclusa nella ricerca iniziale, le varianti evidenziate in teal sono tutte varianti che includono la posizione genomica della variante di interesse [comprese le grandi CnV, che sono spesso etichettate come; coordinata genomica... x1 (eliminazione) e ... x3 (duplicazione)].
  5. Utilizzare DGV23 (Database delle varianti genomiche, http://dgv.tcag.ca/dgv/app/home) e DECIPHER24 (DatabasE della varIazione genomic e Fenotipo negli esseri umani utilizzando Ensembl Resources, https://decipher.sanger.ac.uk/), entrambi collezioni di CNV. DGV è la più grande collezione di accesso pubblico di varianti strutturali da più di 54.000 individui. Questo database include campioni di individui, riferiti, sani, al momento dell'accertamento, da un massimo di 72 studi diversi. Analogamente, i dati visualizzati da DECIPHER includono varianti comuni della popolazione di controllo.
    NOTA: poiché MARRVEL non dispone dell'autorizzazione per visualizzare i dati derivati dal paziente da DECIPHIER, gli utenti sono invitati a visitare direttamente il sito Web DECIPHER per accedere a informazioni CNV potenzialmente patogene.
    1. Fare clic sulla casella Copia variazione numero nella popolazione di controllo (database DGV) per ottenere varianti che contengono il gene di interesse. Informazioni quali la dimensione, il sottotipo e il riferimento della variante del numero di copia sono disponibili nella stessa casella.
    2. Fare clic sulla casella Varianti numero di copia comune (DECIPHER Database) per ottenere varianti che contengono la posizione genomica della variante di interesse. Queste informazioni possono aiutare a determinare se il gene è duplicato o eliminato negli individui di controllo.
      NOTA: Se il gene di interesse viene eliminato in molti individui nella popolazione di controllo, significa che è probabile che questo gene sia altamente tollerante nei punti LOF. Come i punteggi bassi di PLI, questo suggerisce che una singola perdita di copia di questo gene ha meno probabilità di causare una grave malattia tramite un meccanismo di aploinsufficienza. Questo, tuttavia, non esclude necessariamente altri guadagni dominanti di funzione o meccanismi negativi dominanti (ad esempio alleli antimorfici, ipermorfici e neomorfici) causati da specifici alleli di fraspremento e troncamento.  Le possibili limitazioni a questi dati includono variazioni nella fonte e nel metodo dei dati acquisiti, mancanza di informazioni sulla penetrazione incompleta di CPV patogeni e se gli individui hanno sviluppato determinate malattie dopo la raccolta dei dati.

3. Come utilizzare i dati dell'organismo modello in MARRVEL

  1. Utilizzare la tabella delle funzioni gene per ottenere le seguenti informazioni per otto organismi modello, tra cui umano (umano, ratto, topo, pesce zebra, Drosophila, C elegans, lievito in erba e lievito di fissione):
    1. Nome del gene: Poiché ogni nome genetico è collegato a pagine genetiche sui rispettivi database dell'organismo modello, fare clic su questi collegamenti per saperne di più sulle informazioni fenotipiche e sulle risorse disponibili per ogni organismo modello. Ad esempio su FlyBase25 (http://flybase.org/), ci sarà un elenco di tutti gli alleli che sono stati generati, i loro rispettivi fenotipi e la disponibilità di ogni allele dai centri di stock pubblici.
    2. Link PubMed: Clicca sul link PubMed per andare a un elenco di pubblicazioni che si riferisce al gene di interesse per ogni organismo. Senza l'uso di questi legami, la ricerca del gene umano direttamente in PubMed può portare alla mancanza di alcune pubblicazioni che hanno usato un vecchio alias genetico per riferirsi al gene umano. Allo stesso modo, i nomi genici dell'organismo modello possono aver fluttuato storicamente.
    3. DIOPTA 9 punteggio: Controllare questa colonna per un punteggio di quanti algoritmi di previsione ortologeria stimano che il gene sia probabilmente un ortologo del gene umano di interesse. Si può utilizzare un punteggio DIOPT di 3 o superiore come un ragionevole cut-off per identificare i candidati di ortologia solida. Tuttavia, ci sono casi in cui gli ortologhi genuini hanno solo un punteggio DIOPT pari a 1 a causa della limitata omologia. Nella parte superiore della tabella delle funzioni geniche, deseleziona la casella "Mostra solo il miglior gene del punteggio DIOPT" per visualizzare tutti i candidati che in genere includono geni omologhi che non sono necessariamente ortoghi.
    4. Espressione: Controllare questa colonna per l'elenco dei tessuti in cui il gene o la proteina di interesse è stato riportato per essere espresso in database di esseri umani o modelli. I dati sull'espressione dei geni umani e delle proteine provengono rispettivamente da GTEx26 (https://gtexportal.org/) e Human Protein Atlas27 (https://www.proteinatlas.org/). Alcuni hanno un pulsante con collegamenti pop-up, ad esempio per gli esseri umani e per volare che visualizzano il modello di espressione utilizzando una mappa termica, mentre altri sono collegati alle rispettive pagine di database dell'organismo del modello.
    5. Ontologia genetica 28 (GO) termini: Filtrare in base a codici di prova sperimentali e ottenere da rispettivi database di organismi umani o modello. I termini GO basati su "codici di prova di analisi computazionale" e "codici di prova di annotazione elettronica" (previsioni) non vengono visualizzati. Si prega di visitare ogni sito web dell'organismo modello per raccogliere queste informazioni, se necessario.
    6. Altri link come Monarch Initiative29 (https://monarchinitiative.org/) e IMPC30 (http://www.mousephenotype.org/): utilizzare il collegamento ipertestuale Monarch Initiative per navigare alla pagina Phenogrid per il gene umano specifico, un grafico che fornisce un rapido confronto tra i fenotipi associati al gene di interesse per le malattie umane conosciute e i mutanti dell'organismo modello che hanno sovrapposizioni fenotipiche. Se un gene del topo ha un topo knockout fatto o pianificato dall'International Mouse Phenotyping Consortium (IMPC), l'"IMPC" si collega alla pagina che dettaglia il fenotipo del topo knockout e la sua disponibilità dai centri di stock pubblici.
  2. Umano Domini proteici: Utilizzare la casella dei domini proteici genetici umani per ottenere i domini proteici previsti del gene umano. I dati derivano da DIOPT, che utilizza Pfam (https://pfam.xfam.org/) e CCD (Conserved Domains Database, https://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml). Un singolo residuo può essere annotato più di una volta a causa di una certa sovrapposizione nei domini annotati nelle due origini.
  3. Utilizzare la casella Allineamento di proteine multiple per ottenere l'allineamento multiplo di aminoacido generato da DIOPT9 che include umano (hs), ratto (rn), mouse (mm), pesce zebra (dr), mosca della frutta (dm), verme (ce) e lieviti (sc e sp). Per evidenziare l'amminoacido di interesse, scorrere verso il basso fino alla fine della casella e immettere i numeri di aminoacidi sotto e gli aminoacidi di interesse saranno evidenziati in verde acqua. L'allineamento è fornito da DIOPT e utilizza l'allineatore MAFFT (programma di allineamento multiplo per sequenze di aminoacidi o nucleotidi, https://mafft.cbrc.jp/alignment/software/31).
    NOTA: Se l'amminoacido evidenziato in base al numero non è quello previsto, potrebbe essere dovuto a diversi isoformi di giunzione utilizzati per l'allineamento. In linea di principio, DIOPT utilizza l'isoforme più lunga per essere visualizzato in questa casella. Inoltre, per i segmenti di geni che non sono ben conservati, l'allineamento delle sequenze multispecie utilizzando parametri predefiniti potrebbe non essere ottimale. Si consiglia di utilizzare altri siti web e software come Clustal Omega e ClustalW/X (http://www.clustal.org/)32 per ottimizzare i parametri di allineamento e le matrici di conseguenza.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Genetisti umani e scienziati dell'organismo modello utilizzano ciascuno MARRVEL in modi distinti, ognuno con diversi risultati desiderati. Di seguito sono riportate tre vignette di possibili usi per MARRVEL.

Valutazione della patogenicità di una variante in una malattia dominante
La maggior parte degli utenti che visitano MARRVEL utilizzano questo sito web per analizzare la probabilità che una variante umana rara può causare una certa malattia. Ad esempio, una variante errata (17:59477596 G>A, p.R20Q) in TBX2 è risultata segregare in modo dominante autosomico in una piccola famiglia con caratteristiche dismorfiche e palatoschisi, difetti cardiaci, cifre scheletriche e anormali, fenotipi e difetti immunitari12. La madre e i due figli affetti da questi sintomi portavano la variante, mentre il padre non lo ha fatto. Il figlio di 9 anni aveva il fenotipo più grave, mentre la madre di 36 anni e la figlia di 6 anni avevano forme più lievi di questa malattia. Per valutare se questa variante è probabilmente patogena, si può iniziare una ricerca MARRVEL inserendo il gene e le varianti nella pagina di partenza su http://MARRVEL.org. Si noti che la barra di ricerca variante richiede la rimozione di Chr davanti alla variante se questo è elencato nel rapporto clinico originale per indicare "Cromosoma". Al momento dello studio originale, la pagina dei risultati ha mostrato che non esiste alcun fenotipo OMIM associato a questo gene, e questa variante si trova solo una volta in gnomAD ma non in ExAC, ClinVar o Geno2MP. Si potrebbe pensare che questa identificazione di un individuo può essere la prova contro p.R20Q essendo una variante patogena, ma è importante notare che la madre della famiglia ha esibito una forma lieve della malattia. Una variante trovata in 1/150.000 individui è infatti una variante molto rara e l'identificazione di un individuo con la variante identica può essere spiegata dalla ridotta espressività o dalla penetrazione. Nella tabella Gene Function, è spesso utile verificare se il gene è espresso nei tessuti rilevanti negli esseri umani (tramite GTEx e Protein Atlas) in riferimento ai fenotipi del paziente. In questo caso, il modello di espressione corrisponde poiché il paziente ha fenotipi in più tessuti e il gene è anche ampiamente espresso, compresi gli organi cardiaci e correlati al sistema.

Sulla base delle informazioni dell'organismo modello visualizzate in MARRVEL, si può vedere rapidamente che il gene è conservato da C. elegans e Drosophila all'uomo e l'amminoacido di interesse, p.R20 è anche altamente conservato nel corso dell'evoluzione, come mostrato in Figura 2 (si noti che ratto Tbx2 non si allinea bene in questa regione, probabilmente a causa della trascrizione utilizzata per l'allineamento). Le informazioni fenotipiche nel pesce topo e zebra indicano che questo gene influisce sullo sviluppo o sulla funzione di un certo numero di tessuti, tra cui il sistema cardiovascolare, craniofacciale/palato e cifre. In sintesi, questi dati suggeriscono che questa variante è possibilmente patogena e ulteriore studio funzionale è prezioso. Considerando che il gene e la variante sono conservati in organismi come C. elegans e Drosophila, gli studi funzionali negli animali invertebrati saranno più veloci ed economici rispetto all'esecuzione dello stesso esperimento negli organismi modello vertebrato come pesci zebra, topo e ratto. Si prega di consultare l'articolo di accompagnamento di Harnish et al.21 su come abbiamo progettato ed eseguito saggi funzionali per questo caso12. Il coinvolgimento di questo gene/variante nella malattia di questa famiglia è stato ulteriormente rafforzato dall'identificazione di un paziente maschio di 8 anni non correlato con fenotipi sovrapposti con una variante di errore de novo nello stesso gene usando GeneMatcher. Le varianti delle due famiglie sono risultate entrambe funzionali mediante esperimenti in Drosophila,sostenendo ulteriormente la patogenicità delle varianti rare in TBX2. La malattia è stata recentemente curata come "Anomalie vertebrali e disfunzione variabile delle cellule Endocrine e T (VETD, OMIM #618223)" in OMIM. Vedere la figura 3 per l'intero output per TBX2 17:59477596 G>A.

Valutazione della patogenicità di una variante in una malattia recessiva
Ci sono differenze significative tra l'analisi delle varianti umane nelle malattie dominanti e recessive. Ad esempio, il punteggio pLI, la frequenza degli alleli minori e la presenza di deduzioni nella popolazione di controllo diventano meno importanti perché due alleli sono necessari per rivelare qualsiasi fenotipo.

Un esempio di analisi di una malattia recessiva è dettagliato in Yoon et al33 e Wang et al4 che è riassunto qui. Una ragazza di 15 anni ha mostrato ritardo dello sviluppo, microcefalia, atassia, disabilità motoria, ipotonia, disturbi del linguaggio, anomalie cerebrali, e ipoplasia del corpo callosum33. La proband, i suoi genitori inalterati e un fratello inalterato hanno ricevuto WES. Dopo aver filtrato le varianti che erano entrambe uniche per il proband e rare nella popolazione, le varianti in 13 diversi geni sono rimasti. Il filtraggio manuale e l'analisi dei 13 candidati seguendo il protocollo qui descritto hanno portato alla definizione delle priorità di una variante specifica in OGDHL come buon candidato per gli studi funzionali. Le informazioni chiave che hanno portato alla priorità di p.S778L in OGDHL (10:50946295 G>A) rispetto ad altre varianti includono: (1) nessuna precedente associazione di malattie in OMIM, (2) variante non trovata nelle popolazioni di controllo, (3) ontologia genica associata all'ontologia genica associata microtubuli e mitocondri, due sistemi che hanno molti legami con disturbi neurologici34,35, (4) altamente espressi nel cervelletto umano, un tessuto gravemente colpito in questo paziente, e (5) la variante di interesse che colpisce un altamente aminoacido conservato (dal lievito all'uomo) e situato all'interno del dominio catalitico4. Il punteggio pLI per questo gene è 0,00, ma ciò non influisce sulla priorità di questa variante/gene per questo caso poiché stiamo sospettando una modalità recessiva di eredità e che i portatori di varianti deleterie in questo gene possono presentarsi nella popolazione generale. Vedere La figura 4 per l'output MARRVEL per OGDHL 10:50946295 G>A.

Studi di organismo modello effettuati in parallelo hanno mostrato che la perdita di Ogdh(noto anche come Nc73EF), l'ortologo della Drosophila di OGDHL, nel sistema nervoso presenta un fenotipo neurodegenerativo coerente con il disordine neurologico33. Studi funzionali nella Drosophila hanno mostrato che la variante di interesse (P.S778L) influisce sulla funzione delle proteine, rendendo questo un forte gene candidato per questa malattia. Da allora, queste informazioni su una potenziale variante patogena in OGDHL collegata a un nuovo disturbo neurologico sono state incorporate nell'OMIM (https://www.omim.org/entry/617513) molto recentemente, ma non sono ancora state assegnate una malattia-fenotipo numero perché solo un caso è stato segnalato a gennaio 2019.

L'ortologo umano di un gene dell'organismo modello di interesse è associato a malattie genetiche?
Molti ricercatori di organismi modello potrebbero essere interessati a vedere se l'ortologo umano del loro gene di interesse può avere legami con le malattie genetiche. In questo esempio, cercheremo se l'ortologo umano del gene fly Notch (N) ha alcuna rilevanza per le malattie genetiche. Per fare questo, inizieremo con l'esecuzione di una "Ricerca Organismi Modello (1.3.1.-1.3.2.)" e selezioneremo"Drosophila melanogaster" come nome della specie e"N" come nome del gene dell'organismo modello. I quattro ortologhi umani previsti per questo gene di mosca verranno visualizzati nella finestra dei risultati come NOTCH1, NOTCH2, NOTCH3 e NOTCH4. I quattro geni hanno punteggi DIOPT diversi (10/12 per NOTCH1, 8/12 per NOTCH2 e NOTCH3, 5/12 per NOTCH4) a causa del grado di omologia tra il volo N e ogni gene umano. Considerando che il "Miglior punteggio dal gene umano al volo" è elencato come "Sì" per tutti e quattro i geni, la ricerca inversa da ogni gene umano raccoglie il gene fly N come il candidato ortologo più probabile. Infatti, si pensa che i quattro geni NOTCH umani siano sorti da un singolo gene Notch durante i due cicli di eventi di duplicazione dell'intero genoma accaduti nel lignaggio dei vertebrati dopo la divisione dal lignaggio invertebrato36. Cliccando sui pulsanti "MARRVEL it" per ogni gene umano, è possibile ottenere le uscite basate sul gene umano per NOTCH1-4.  Nella pagina dei risultati di ogni gene, le caselle superiori per l'OMIM indicano che mentre NOTCH1, 2 e 3 sono associati a malattie genetiche, NOTCH4 non è attualmente associato ad alcuna malattia umana. Si noti che ci sono stati dibattiti sul fatto che le varianti in NOTCH4 siano associate alla schizofrenia sulla base di studi di associazione a livello di genoma (GWAS)37,38. Poiché OMIM generalmente non cura i dati GWAS con alcune eccezioni (ad esempio APOE, PTPN22), queste informazioni non sono disponibili nella finestra OMIM. Analogamente, poiché l'OMIM non cura generalmente le informazioni sulle mutazioni somatiche associate al cancro, le informazioni relative al fatto che le mutazioni somatiche in questi geni siano associate a determinati tipi di cancro non saranno elencate con poche eccezioni (ad esempio TP53, RB1, BRCA1). Facendo clic sulla casella PubMed o Monarch, è possibile identificare alcuni documenti correlati alla malattia che non sono curati in OMIM. Vedere la figura 5 per l'intera uscita MARRVEL per il gene della mosca N e il gene umano NOTCH4.

Figure 1
Figura 1 . Un Risultato rappresentativo da una ricerca MARRVEL. Questo esempio specifico mostra una ricerca gene/variante per "TBX2/17:59477596 G>A" (http://marrvel.org/search/pair/TBX2/17:59477596%20G%3EA). Sidebar a sinistra supporta la navigazione attraverso l'output dei dati. Si noti che i segni di "collegamento esterno" forniscono collegamenti alle pagine appropriate del browser del genoma UCSC (https://genome.ucsc.edu/). Le schede in alto consentono di eseguire ricerche basate su geni dell'organismo modello, ottenere informazioni aggiuntive su MARRVEL e fornire feedback degli utenti. I pannelli "Risultati ricerca" visualizzano informazioni sui geni e sulle varianti provenienti dalle fonti indicate nell'immagine. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 2
Figura 2 . Riepilogo della tabella ortologadell'organismo modello e allineamento multispecie per TBX2. R) MARRVEL seleziona il candidato ortologo superiore per ogni specie in base allo strumento DIOPT. Ad esempio, un punteggio DIOPT di 10/12 indicato per il gene Drosophila bi significa 10 dei 12 programmi di previsione ortologica utilizzati da DIOPT prevedevano che il bi è l'orologo più probabile di TBX2umano. Poiché il 25% dei geni è duplicato nel pesce zebra rispetto all'uomo, MARRVEL mostra due geni paraloghi (in questo caso tbx2a e tbx2b) quando ciò è applicabile. B) Istantanea della finestra di allineamento multispecie. Selezionando un organismo specifico [in questo caso umano (hs)] e inserendo l'amminoacido di interesse, si può evidenziare l'amminoacido specifico nel verde acqua. In questo esempio, p.R20 di TBX2 umano sembra essere conservato nel topo (mm1), sia pesci zebra ortologi (dr1 e dr2), Drosophila (dm1) e C. elegans (ce1). Rat To Tbx2 non sembra allinearsi bene rispetto ad altre specie, molto probabilmente a causa dell'isoformazione utilizzata dal DIOPT per eseguire l'allineamento multispecie. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 3
Figura 3 : Intero output per TBX2 17:59477596 G>A. Fare clic qui per scaricare questo file.

Figure 4
Figura 4 : Uscita MARRVEL per OGDHL 10:50946295 G>A. Fare clic qui per scaricare questo file.

Figure 5
Figura 5 : uscita MARRVEL per il gene della mosca N e il gene umano NOTCH4. Fare clic qui per scaricare questo file.

Tipo di database Nome del database URL/Collegamento al database Razionalità dell'inclusione in MARRVEL Riferimento (PMID)
Genetica Umana ClinVar https://www.ncbi.nlm.nih.gov/clinvar/ ClinVar è un archivio pubblico di relazioni sulle relazioni tra variazioni umane e fenotipi, con prove a sostegno. Varianti con interpretazioni riportate da ricercatori e clinici sono preziose per analizzare la probabilità che una variante sia patogena. PMID: 29165669
Genetica Umana decifrare https://decipher.sanger.ac.uk/ I dati DECIPHER visualizzati su MARRVEL includono varianti comuni della popolazione di controllo. I dati visualizzati includono varianti strutturali che coprono la posizione genomica della variante di input. DECIPHER contiene anche informazioni di variante e fenotipiche per le persone colpite, ma è possibile accedervi solo direttamente attraverso il loro sito web. PMID: 19344873
Genetica Umana DGV http://dgv.tcag.ca/dgv/app/home Per quanto ne sappiamo, la DGV è la più grande collezione di varianti strutturali ad accesso pubblico da oltre 54.000 individui. Il database include campioni di individui, al momento dell'accertamento, da un massimo di 72 studi diversi. Le possibili limitazioni a questi dati includono la variazione nella fonte e nel metodo dei dati acquisiti la mancanza di informazioni riguardanti la penetrazione incompleta di CPV patogene, e se gli individui svilupperanno malattie associate in seguito alla raccolta dei dati. PMID: 24174537
Previsione ortologica DIOPTA https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl DIOPT ha fornito l'allineamento multiplo della sequenza proteica degli ortologhi meglio previsti in sei organismi modello rispetto alla sequenza proteica del gene umano di interesse. L'allineamento fornirà informazioni sulla conservazione di specifici amminoacidi e domini proteici funzionali. PMID: 21880147
Nomenclatura Gene/Trascrizione Umana Ensembl https://useast.ensembl.org/ Gli ID gene di Ensembl vengono utilizzati per collegare i diversi database. PMID: 29155950
Genetica Umana ExAC http://exac.broadinstitute.org/ ExAC contiene più di 60.000 esomi ed è, oltre a gnomAD (http://gnomad.broadinstitute.org/), la più grande collezione pubblica di esomi che sono stati selezionati contro individui con gravi fenotipi mendeliani accesi. Per gli scopi di MARRVEL, ExAC e gnomAD fungono da miglior set di dati di popolazione di controllo per calcolare la frequenza allele minore. Forniamo due serie di output da ExAC. Il primo output è la panoramica gene-centrica del numero previsto rispetto al numero osservato di missense e perdita di funzione (LOF) alleli. Una metrica chiamata pLI (probabilità di intolleranza LOF) varia tra 0,00 e 1,00 riflette la pressione selettiva su alcune varianti prima dell'età riproduttiva. PLI Punteggio di 1,00 significa che questo gene è molto intollerante di qualsiasi variante LOF e aploinsufficienza di questo gene può causare malattie nell'uomo. Il secondo output sono i dati di ExAC relativi alla variante specifica. Se si vede la variante identica in ExAC, MARRVEL visualizzerà la frequenza allele minore. PMID: 27535533
Database dell'organismo modello primario FlyBase (Drosophila) http://flybase.org MARRVEL raccoglie e visualizza i dati da più database di organismi modello. Forniamo una sintesi della funzione molecolare, cellulare e biologica del gene usando termini GO. L'ortologo più probabile è derivato da DIOPT. PMID:26467478
Strumenti di integrazione del database dell'organismo del modello Gene2Funzione http://www.gene2function.org/search/ MARRVEL collabora con DIOPT e Gene2Function per fornire la funzione "Model Organism Search". Il collegamento ipertestuale è fornito per gli utenti di accedere al loro sito web che integra un certo numero di database MO e li visualizza in uno stile diverso da come MARREL fa. PMID: 286633444
Genetica Umana Geno2MP http://geno2mp.gs.washington.edu/Geno2MP/ Geno2MP è una raccolta di campioni dell'Università di Washington Center for Mendelian Genetics. Esso contiene 9.650 esomi di individui colpiti e parenti inalterati. Questo database collega la modalità fenomenoecomiva e la modalità di eredità ad alleli specifici. Per il fenotipo, confrontando il sistema di organi interessato del paziente di interesse con gli individui colpiti in Geno2MP, si possono trovare potenziali corrispondenze. Una corrispondenza in allele, modalità di eredità e fenotipo fornisce una maggiore probabilità che la variante probabile patogena. Tuttavia, a causa delle piccole dimensioni del campione, un'associazione negativa non diminuisce necessariamente la priorità patogena di una variante. Un meccanismo per contattare il medico primario di un paziente di interesse è fornito nella fonte originale. non pertinente
Genetica Umana gnomAD http://gnomad.broadinstitute.org/ gnomAd contiene un totale di 123.136 sequenze di esomi e 15.496 sequenze dell'intero genoma da individui non correlati sequenziati come parte di vari studi genetici specifici della malattia e della popolazione. Una parte significativa dei dati ExAC è integrata in gnomAD. In MARRVEL attualmente visualizziamo le frequenze della popolazione che si protendono a una variante specifica. PMID: 27535533
Ontologia genetica GO Centrale http://www.geneontology.org/ MARRVEL mostra solo termini di gene ontologia (GO) (funzione molecolare, componente cellulare e processo biologico) derivati da prove sperimentali per ogni gene. Essi sono filtrati per "codici di prova sperimentali" e termini GO basati su "codici di prova di analisi computazionale" e "codici di prova di annotazione elettronica" (previsioni) sono evitati. PMID: 10802651, 25428369
Espressione gene/proteina umana GTEx https://gtexportal.org/home/ MARRVEL mostra sia l'mRNA che il modello di espressione proteica nei tessuti umani di ogni gene. Il modello di espressione può aggiungere informazioni sui fenotipi osservati nei pazienti e/o negli organismi modello. PMID: 29019975, 23715323
Nomenclatura del gene umano HGNC https://www.genenames.org/ I simboli genici ufficiali HGNC vengono utilizzati per le ricerche MARRVEL. PMID: 27799471
Database dell'organismo modello primario IMPC (mouse) http://www.mousephenotype.org/ MARRVEL fornisce un collegamento ipertestuale alle pagine dei geni del mouse sul sito web IMPC. Se c'è stato un topo knock-out fatto dall'IMPC, un elenco esaustivo di saggi e i loro risultati sono resi disponibili pubblicamente e possono fornire informazioni sul fenotipo quando un gene viene perso. Alcune informazioni sono curate in MGI, ma forse c'è un ritardo di tempo. PMID: 27626380
Database dell'organismo modello primario MGI (mouse) http://www.informatics.jax.org/ MARRVEL raccoglie e visualizza i dati da più database di organismi modello. Forniamo una sintesi della funzione molecolare, cellulare e biologica del gene usando termini GO. L'ortologo più probabile è derivato da DIOPT. PMID:25348401
Strumenti di integrazione del database dell'organismo del modello Iniziativa Monarch https://monarchinitiative.org/ MARRVEL fornisce un collegamento con la Phenogrid di un gene umano su Monarch Initiative. Questa griglia fornisce confronti tra il fenotipo degli organismi modello e le malattie umane conosciute. PMID: 27899636
Nomenclatura della variante umana Mutalizzatore https://mutalyzer.nl/ MARRVEL utilizza l'API di Mutalyzer per convertire diverse nomenclature di varianti in posizione genomica. PMID: 18000842
Genetica Umana Omim https://omim.org/ Le tre principali informazioni che traiamo dall'OMIM sono: la funzione genica, i fenotipi associati e gli alleli segnalati. È utile sapere se un gene è associato a un fenotipo mendeliano noto (voci) la cui base molecolare è nota. I geni senza questa conoscenza sono candidati per una nuova scoperta genica. Per i geni che sono questa categoria, se il fenotipo del paziente non corrisponde alla malattia e al fenotipo segnalati così come a quelli dei pazienti nella letteratura, questo aumenta l'opportunità di fornire un'espansione fenotipica per il gene di interesse. PMID: 28654725
Database dell'organismo modello primario PomBase (lievito di fissione) https://www.pombase.org/ MARRVEL raccoglie e visualizza i dati da più database di organismi modello. Forniamo una sintesi della funzione molecolare, cellulare e biologica del gene usando termini GO. L'ortologo più probabile è derivato da DIOPT. PMID:22039153
letteratura Pubmed https://www.ncbi.nlm.nih.gov/pubmed/ MARRVEL fornisce un collegamento ipertestuale alla ricerca PubMed basata su "Gene". Cliccando su questo link si permetterà di cercare documenti biomedici che si riferiscono al gene di interesse sulla base di nomi e simboli genici precedenti. non pertinente
Database dell'organismo modello primario RGD (ratto) https://rgd.mcw.edu/ MARRVEL raccoglie e visualizza i dati da più database di organismi modello. Forniamo una sintesi della funzione molecolare, cellulare e biologica del gene usando termini GO. L'ortologo più probabile è derivato da DIOPT. PMID:25355511
Database dell'organismo modello primario SGD (lievito in erba) https://www.yeastgenome.org/ MARRVEL raccoglie e visualizza i dati da più database di organismi modello. Forniamo una sintesi della funzione molecolare, cellulare e biologica del gene usando termini GO. L'ortologo più probabile è derivato da DIOPT. PMID: 22110037
Espressione gene/proteina umana L'Atlante delle proteine umane https://www.proteinatlas.org/ MARRVEL mostra sia l'mRNA che il modello di espressione proteica nei tessuti umani di ogni gene. Il modello di espressione può aggiungere informazioni sui fenotipi osservati nei pazienti e/o negli organismi modello. PMID: 21752111
Database dell'organismo modello primario WormBase (C. elegans) http://wormbase.org MARRVEL raccoglie e visualizza i dati da più database di organismi modello. Forniamo una sintesi della funzione molecolare, cellulare e biologica del gene usando termini GO. L'ortologo più probabile è derivato da DIOPT. PMID:26578572
Database dell'organismo modello primario FIN (pesce zebra) https://zfin.org/ MARRVEL raccoglie e visualizza i dati da più database di organismi modello. Forniamo una sintesi della funzione molecolare, cellulare e biologica del gene usando termini GO. L'ortologo più probabile è derivato da DIOPT. PMID:26097180

Tabella 1. Elenco di origini dati per MARRVEL. In questa tabella sono elencati tutti i database da cui MARRVEL ottiene i dati. Per ogni database sono elencati il tipo di database, URL/collegamento, la logica per l'inclusione in MARRVEL e i riferimenti primari.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

I passaggi critici di questo protocollo includono l'input iniziale (passaggi 1.1-1.3) e la successiva interpretazione dell'output. Il motivo più comune per cui i risultati della ricerca sono negativi è a causa dei molti modi in cui un gene e/o una variante possono essere descritti. Mentre MARRVEL viene aggiornato su base pianificata, questi aggiornamenti possono causare disconnessioni tra i diversi database a cui MARRVEL si collega. Pertanto, il primo passo nella risoluzione dei problemi consiste in vari a controllare se i nomi alternativi del gene o della variante porteranno a un risultato di ricerca positivo. Se non è ancora possibile risolverlo, inviare un messaggio al team di sviluppo utilizzando il modulo di feedback in http://marrvel.org/message.

Una limitazione a MARRVEL è che non include ancora tutti i database utili necessari per l'analisi genica e variante. Ad esempio, non sono attualmente forniti algoritmi di previsione della patogenicità come CADD18. Allo stesso modo, le informazioni sulla struttura delle proteine e le informazioni sull'interazione proteina-proteina che possono anche fornire collegamenti strutturali e funzionali a varianti nothe che causano malattie nei geni non sono attualmente visualizzate in MARRVEL. Nel nostro prossimo importante aggiornamento, abbiamo in programma di integrare queste informazioni in MARRVEL, oltre a incorporare più informazioni fenotipiche da siti web di organismi modello, IMPC, Monarch Initiative e Alliance of Genome Resources (AGR, https://www.alliancegenome.org/). Dal momento che MARRVEL è stato progettato per facilitare la ricerca sulle malattie rare, il programma si concentra attualmente sulle varianti germinali e non fornisce l'accesso alle informazioni sulle varianti somatiche. Al seguito della pubblicazione di questo protocollo non sono integrate banche dati relative alla genetica del cancro. Poiché MARRVEL è attivamente in fase di sviluppo e aggiornamento, apprezziamo molto il feedback e incoraggiamo fortemente gli utenti esistenti a iscriversi alle newsletter su http://marrvel.org/message per eventuali database aggiuntivi futuri che si integrano.

Anche se i dati da MARRVEL possono essere utilizzati per dare priorità varianti che possono essere patogeni. Tuttavia, per dimostrare la patogenicità, è necessario identificare altri pazienti con genotipi e fenotipi simili o eseguire studi funzionali per fornire prove solide che la variante di interesse ha conseguenze funzionali che sono rilevanti per la condizione della malattia. Per ulteriori informazioni su ulteriori informazioni al di fuori di MARRVEL che possono essere utili per giudicare se una variante vale la pena indagare sperimentalmente nell'organismo modello, si prega di fare riferimento all'articolo di accompagnamento Harnish et al21. Per compiere i prossimi passi nell'utilizzo di organismi modello per studiare le varianti umane, i genetisti umani e i ricercatori dell'organismo modello devono essere in grado di connettersi e collaborare. GeneMatcher e altri consorzi genomici che fanno parte del consorzio Matchmaker Exchange sono risorse che facilitano questo passaggio successivo. Se gli utenti risiedono in Canada, si può anche registrarsi nella rete DI modelli e meccanismi delle malattie rare (RDMM, http://www.rare-diseases-catalyst-network.ca/) per identificare i medici e/o i ricercatori di organismi modello che sono disposti a collaborare39 . Giappone (J-RDMM, https://irudbeyond.nig.ac.jp/en/index.html), Europa (RDMM-Europa, http://solve-rd.eu/rdmm-europe/) e Australia (Australian Functional Genomics Network: https://www.functionalgenomics.org.au/) hanno recentemente adottato modello RDMM canadese per facilitare collaborazioni simili all'interno dei loro paesi/aree geografiche. Inoltre, utilizzando strumenti come BioLitMine (https://www.flyrnai.org/tools/biolitmine/web/) si possono cercare potenziali collaboratori tra i ricercatori principali che hanno precedentemente lavorato sul gene di interesse.

Infine, oltre a MARRVEL, sono disponibili numerosi altri strumenti di data mining tra specie, tra cui Gene2Function40 (http://www.gene2function.org/), Monarch Initiative29 (https://monarchinitiative.org/) e Alliance of Risorse genoma (AGR, https://www.alliancegenome.org/). Mentre Gene2Function fornisce l'accesso ai dati tra specie e Monarch Initiative fornisce confronti fenotipici, MARRVEL ha una maggiore enfasi sulle varianti umane e collega i dati genomici umani con gli organismi modello. AGR è un'iniziativa che coinvolge sei database di organismi modello e il Consorzio di Ontologia Gene che integra i dati provenienti da diversi database in modo uniforme per aumentare l'accessibilità dei dati accumulati da ogni database. Queste risorse sono complementari e gli utenti dovrebbero comprendere i punti di forza di ogni database per navigare nella grande quantità di conoscenze accumulate dai ricercatori delle comunità. Mentre lo sviluppo di MARRVEL continua, abbiamo in programma di includere più database che sono rilevanti per lo studio delle varianti umane negli organismi modello. L'obiettivo generale di MARRVEL è quello di fornire un modo facilmente accessibile a medici e ricercatori per analizzare i geni e le varianti umane per un ulteriore studio integrando informazioni utili mantenendo l'interfaccia il più semplice possibile.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Ringraziamo i dottori Rami Al-Ouran, Seon-Young Kim, Yanhui (Claire) Hu, Ying-Wooi Wan, Naveen Manoharan, Sasidhar Pasupuleti, Aram Comjean, Dongxue Mao, Michael Wangler, Hsiao-Tuan Chao, Stephanie Mohr e Norbert Perrimon per il loro sostegno allo sviluppo e allo sviluppo e manutenzione di MARRVEL. Siamo grati a Samantha L. Deal e J. Michael Harnish per il loro contributo su questo manoscritto.

Lo sviluppo iniziale di MARRVEL è stato sostenuto in parte dal Centro di screening degli organismi modello di rete delle malattie non diagnosticate attraverso il NIH Commonfund (U54NS093793) e attraverso l'Ufficio NIH dei programmi di infrastruttura di ricerca (ORIP) (R24OD022005). JW è supportato dal NIH Eunice Kennedy Shriver National Institute of Child Health & Human Development (F30HD094503) e dal Robert and Janice McNair Foundation McNair MD/PhD Student Scholar Program presso BCM. HJB è inoltre supportato dal NIH National Institute of General Medical Sciences (R01GM067858) ed è un investigatore dell'Howard Hughes Medical Institute. L è supportato dal NIH National Institute of General Medical Science (R01GM120033), dal National Institute of Aging (R01AG057339) e dalla Huffington Foundation. SY ha ricevuto ulteriore sostegno dal NIH National Institute on Deafness and other Communication Disorders (R01DC014932), la Simons Foundation (Premio SFARI: 368479), l'Alzheimer's Association (New Investigator Research Grant: 15-364099), Naman Family Fondo per la ricerca di base e Caroline Wiess Law Fund for Research in Molecular Medicine.

Materials

Name Company Catalog Number Comments
Human Genetics ClinVar PMID: 29165669 https://www.ncbi.nlm.nih.gov/clinvar/
Human Genetics DECIPHER PMID: 19344873  https://decipher.sanger.ac.uk/
Human Genetics DGV PMID: 24174537 http://dgv.tcag.ca/dgv/app/home
Orthology Prediction DIOPT PMID: 21880147  https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl
Human Gene/Transcript Nomenclature Ensembl PMID: 29155950  https://useast.ensembl.org/
Human Genetics ExAC  PMID: 27535533 http://exac.broadinstitute.org/
Primary Model Organism Databases FlyBase (Drosophila) PMID:26467478 http://flybase.org
Model Organism Database Integration Tools Gene2Function PMID: 28663344 http://www.gene2function.org/search/
Human Genetics Geno2MP N/A http://geno2mp.gs.washington.edu/Geno2MP/
Human Genetics gnomAD PMID: 27535533 http://gnomad.broadinstitute.org/
Gene Ontology GO Central PMID: 10802651, 25428369  http://www.geneontology.org/
Human Gene/Protein Expression GTEx PMID: 29019975, 23715323  https://gtexportal.org/home/
Human Gene Nomenclature HGNC PMID: 27799471  https://www.genenames.org/
Primary Model Organism Databases IMPC (mouse) PMID: 27626380 http://www.mousephenotype.org/
Primary Model Organism Databases MGI (mouse) PMID:25348401 http://www.informatics.jax.org/
Model Organism Database Integration Tools Monarch Initiative PMID: 27899636 https://monarchinitiative.org/
Human Variant Nomenclature Mutalyzer PMID: 18000842  https://mutalyzer.nl/
Human Genetics OMIM PMID: 28654725 https://omim.org/
Primary Model Organism Databases PomBase (fission yeast) PMID:22039153 https://www.pombase.org/
Literature PubMed N/A https://www.ncbi.nlm.nih.gov/pubmed/
Primary Model Organism Databases RGD (rat) PMID:25355511 https://rgd.mcw.edu/
Primary Model Organism Databases SGD (budding yeast) PMID: 22110037 https://www.yeastgenome.org/
Human Gene/Protein Expression The Human Protein Atlas PMID: 21752111 https://www.proteinatlas.org/
Primary Model Organism Databases WormBase (C. elegans) PMID:26578572 http://wormbase.org
Primary Model Organism Databases ZFIN (zebrafish) PMID:26097180 https://zfin.org/

DOWNLOAD MATERIALS LIST

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
  3. MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
  4. Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
  5. Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
  6. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  7. Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
  8. Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
  9. Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
  10. Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
  11. Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
  12. Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
  13. Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
  14. Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
  15. Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
  16. Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
  17. Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
  18. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
  19. Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
  20. Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
  21. Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
  22. Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
  23. MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, Database issue 986-992 (2014).
  24. Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
  25. Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
  26. Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
  27. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas--a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  28. The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
  29. Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
  30. Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
  31. Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
  32. Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
  33. Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
  34. Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
  35. Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, Pt 3 217-225 (2016).
  36. Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
  37. Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
  38. Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
  39. Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
  40. Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), Bethesda. 2855-2858 (2017).

Tags

Genetica Numero 150 Genomica umana definizione di definizione delle varianti organismi modello genetica malattie rare e non diagnosticate genomica funzionale integrazione di database ricerca traslazionale diagnosi medica variante del significato sconosciuto gene di significato incerto strumento web-based
Navigazione MARRVEL, uno strumento basato sul Web che integra la genomica umana e le informazioni di genetica degli organismi modello
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, J., Liu, Z., Bellen, H. J.,More

Wang, J., Liu, Z., Bellen, H. J., Yamamoto, S. Navigating MARRVEL, a Web-Based Tool that Integrates Human Genomics and Model Organism Genetics Information. J. Vis. Exp. (150), e59542, doi:10.3791/59542 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter