Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Un protocollo per l'utilizzo di Gene imposta analisi di arricchimento per identificare il modello animale adeguato per la ricerca traslazionale

Published: August 16, 2017 doi: 10.3791/55768

Summary

Forniamo un protocollo standardizzato per l'utilizzo di analisi del gene arricchimento set di dati di trascrittomica per identificare un modello di mouse ideale per la ricerca traslazionale.
Questo protocollo può essere utilizzato con DNA microarray e dati di sequenziamento di RNA e ulteriore può essere esteso ad altri dati di omics se sono disponibili dati.

Abstract

Recenti studi che hanno confrontato Transcrittomica DataSet delle malattie umane con set di dati da modelli murini utilizzando tecniche tradizionali gene per gene confronto ha provocato conclusioni contraddittorie riguardo la rilevanza dei modelli animali per traslazionale ricerca. Delle ragioni principali per le discrepanze tra analisi di espressione genica diversa è il filtraggio arbitraria dei geni differenzialmente espressi. Inoltre, il confronto di singoli geni tra specie diverse e piattaforme spesso è limitato dalla varianza tecnico, che conduce all'interpretazione errata di con/discordanza tra dati provenienti da modelli umani e animali. Così, sono necessari approcci standardizzati per l'analisi sistematica dei dati. Per superare il filtro soggettivo gene e inefficaci gene per gene confronti, noi abbiamo recentemente dimostrato che l'analisi del gene arricchimento set (GSEA) ha il potenziale per evitare questi problemi. Di conseguenza, abbiamo sviluppato un protocollo standardizzato per l'uso di GSEA per distinguere tra modelli animali appropriati e inappropriati per ricerca traslazionale. Questo protocollo non è adatto per predire come progettare nuovi sistemi di modello a priori, in quanto richiede dati sperimentali omics esistenti. Tuttavia, il protocollo viene descritto come interpretare i dati esistenti in un modo standardizzato per poter selezionare il modello animale più idoneo, evitando inutili esperimenti sugli animali e fuorviante studi traslazionali.

Introduction

Modelli animali sono ampiamente usati per studiare le malattie umane, a causa della loro presunta somiglianza agli esseri umani in termini di genetica, anatomia e fisiologia. Inoltre, modelli animali spesso servono come portieri per terapie cliniche e possono avere un enorme impatto sul successo della ricerca traslazionale. Un'attenta selezione del modello animale ottima può ridurre il numero di studi sugli animali fuorvianti. Recentemente, la rilevanza dei modelli animali per ricerca traslazionale è stata discutibile discussa, specialmente perché analizzando gli stesso set di dati ottenuti da malattie infiammatorie umane e modelli murini correlate ha portato a conclusioni contraddittorie 1,2. Questa discussione ha rivelato un problema fondamentale durante l'analisi dei dati omiche: sono necessari approcci standardizzati per l'analisi sistematica dei dati al fine di ridurre la selezione genetica prevenuto e per aumentare la robustezza di confronti interspecie 3.

Tradizionalmente, l'analisi dei dati di trascrittomica (e altri dati di omics) avviene a livello di singolo gene e include un passaggio iniziale della selezione genetica sulla base di parametri rigorosi cut-off (ad es., fold change > 2.0, valore di p < 0.05). Tuttavia, l'impostazione dei parametri di taglio iniziale spesso è soggettiva, arbitraria e non biologicamente giustificati e può anche portare a conclusioni opposte1,2. Inoltre, la selezione genetica iniziale generalmente limita l'analisi a pochi altamente - up e downregulated geni e così non è abbastanza sensibile per includere la maggior parte dei geni differenzialmente espressi in misura minore.

Con l'ascesa dell'era genomica nel 2000s iniziale e la crescente conoscenza delle vie biologiche e contesti, approcci statistici alternativi sono stati sviluppati che hanno permesso di aggirare le limitazioni di analisi livello singolo gene. Gene impostata arricchimento analisi (GSEA)4, che è uno dei metodi ampiamente accettati per l'analisi dei dati di trascrittomica, fa uso di gruppi definiti a priori dei geni (ad es., segnalazione di percorsi, posizione prossimale del cromosoma ecc.). GSEA mappe prima tutti i geni non filtrati rilevati ai set di gene desiderato (ad esempio, percorsi), indipendentemente dal loro cambiamento individuale nell'espressione. Questo approccio comprende così anche moderatamente geni che altrimenti andrebbe perse con analisi livello singolo gene. L'additivo modifica nell'espressione genica rientranti successivamente viene eseguita utilizzando le statistiche di somma in esecuzione.

Nonostante il suo ampio uso nella ricerca medica, GSEA e arricchimento set relativi approcci non sono evidentemente tenuti conto per l'analisi di dati complessi omiche. Qui, descriviamo un protocollo per il confronto di dati omics dai campioni umani con quelli provenienti da modelli murini al fine di individuare il modello ideale per studi traslazionali. Dimostriamo l'applicabilità del protocollo basato su una raccolta di modelli di mouse che vengono utilizzati per mimare umani disordini infiammatori. Tuttavia, questa pipeline di analisi non è limitata ai confronti umani-mouse e ricerca emendabile ad ulteriori domande.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. download del Software GSEA e il Molecular Signatures Database

  1. Vai al sito ufficiale GSEA Broad Institute (http://software.broadinstitute.org/gsea/index.jsp) e registrati per avere accesso al software GSEA strumento e il Molecular Signatures Database (MSigDB).
  2. Scarica l'applicazione desktop javaGSEA o un'opzione di software alternativo (ad esempio, script di R).
    Nota: Tutte le opzioni di implementano esattamente lo stesso algoritmo. Il software GSEA è liberamente disponibile agli individui nel mondo accademico e industriale per scopi di ricerca interna.
  3. Per ulteriori dettagli sul software GSEA per il sito Web della documentazione (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Main_Page) e la guida dell'utente (http://software.broadinstitute.org/gsea/doc/ GSEA GSEAUserGuideFrame.html).
  4. Scarica il Molecular Signatures Database (MSigDB) dal sito Web GSEA per ottenere l'accesso alle collezioni set singolo gene.
    Nota: Il MSigDB è una collezione di insiemi di gene con annotazioni per l'utilizzo con il software GSEA o per altri scopi. Set di gene possono essere divisi secondo segnalazione vie, termini di ontology del gene, motivi cis-regolatori, sperimentale e firme e altri. Geni dalla MSigDB sono sempre stati nominati dal loro ufficiale simbolo di gene di HUGO (Human Genome Organization). Per il confronto del regolamento via tra un determinato disturbo umano e del mouse differenti modelli si consiglia di scaricare il ' tutte le vie canoniche, simboli di gene ' file (c2.cp.v5.2.symbols.gmt). Questo file comprende set di gene che sono stati annotati e organizzati in vie di segnalazione di KEGG 5 , 6, Reactome 7 , 8 e BioCarta 9. la stringa ' v 5.2 ' rappresenta le informazioni sulla versione della collezione. Assicurarsi di scaricare l'ultima versione dei file. Il MSigDB è liberamente disponibile agli individui nel mondo accademico e industriale per scopi di ricerca interna. Non è necessario scaricare il MSigDB, se la connessione internet è disponibile durante l'analisi. In questo caso il MSigDB può essere scelto direttamente all'interno dell'interfaccia utente GSEA.
  5. Scarica il DNA chip file di annotazioni (matrice) dal sito Web GSEA per tradurre gli identificatori di matrice specifica sonda a simboli generali di HUGO gene (ad esempio, Mouse430_2.chip).
    Nota: Esso non è necessario scaricare le annotazioni di chip di DNA, se la connessione internet è disponibile durante l'analisi. In questo caso le annotazioni di chip di DNA possono essere scelto direttamente all'interno dell'interfaccia utente GSEA. Il protocollo può essere utilizzato anche con dati di sequenziamento di RNA. In questo caso, non è necessario scaricare i file delle annotazioni. Utilizzare lo strumento preranked GSEA per analizzare i dati di espressione genica (Vedi punto 4.12).

2. Download dati di espressione genica sperimentale per il disordine umano e modelli animali appropriati

  1. studi di espressione (trascrittomica) identificazione sperimentale per il disordine umano di scelta (ad es., profili di espressione genica leucociti derivate da pazienti con disordine settico, GSE9960).
  2. Allo stesso modo, ricerca di animali diversi modelli che sono supposti per essere confrontato con gli studi umani (ad es., profili di espressione genica delle cellule del sangue derivate da topi dopo l'iniezione di Staphylococcus aureus (Staphylococcus aureus), GSE20524). A questo punto utilizzare la conoscenza per la preselezione di modelli animali che potrebbe essere adatto a che imita la situazione umana.
  3. Per questo scopo si riferiscono alla letteratura e database come Gene Expression Omnibus (GEO) database 10 o ArrayExpress 11 e scaricare i dati di trascrittomica normalizzato di interesse. Salvare i dati come file di testo sul disco rigido locale. Per il database GEO, si consiglia il download di file di testo delimitato da tabulazioni serie matrix. Anche prendere nota della piattaforma (tipo di matrice) utilizzato per quello studio, poiché queste informazioni sono necessarie per tradurre gli identificatori di matrice specifica sonda ai simboli di gene generali HUGO.
    Nota: Assicurarsi di memoria sufficiente per l'archiviazione di dati, come set di dati di trascrittomica solitamente comprendono diverse centinaia di MB.

3. Dati, formattazione e gestione

  1. prima di importare dati di espressione genica sperimentale nello strumento software GSEA, considerare la struttura di dati richiesti. Per ogni Studio creare manualmente due file diversi: 1) un file di dati di espressione genica che contiene i valori di misura per i vari geni e campioni e 2) un file di fenotipo contenente etichette campione per raggruppare singoli campioni (per esempio, ai gruppi di trattamento).
    Per maggiori dettagli e la struttura dati opzioni Vai alla pagina di formato dati GSEA (http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats).
    Nota: In generale, tutte le forme di trascrittomica dati sono compatibili con il protocollo, tra cui gli esperimenti di microarray di DNA, RNA-seq o studi ChIP-seq. In caso di utilizzo di esperimenti di microarray di DNA, il file di dati di espressione genica deve contenere sonda matrice-specific identificatore o HUGO gene simboli per ogni gene (sonda identificatori saranno tradotto in simboli di HUGO gene durante l'analisi, vedi i passaggi 1.5 e 4,10). In caso di utilizzo dei dati di RNA-seq o ChIP-seq, metriche di gruppo manualmente calcolato per i dati di espressione genica (ad es., rapporto medio di gruppo) deve essere utilizzato invece di dati singolo campione. Queste metriche di gruppo dovrebbero poi essere analizzate con lo strumento preranked GSEA (Vedi punto 4,12). Dati di espressione genica devono essere normalizzate come al solito prima di importare nel software GSEA. Il tipo di normalizzazione (ad es., quartile o spline cubica) è generalmente lasciata al ricercatore.
  2. File
  3. dati di espressione genica: utilizzare il formato di testo delimitato da tabulazioni (txt) per descrivere un set di dati di espressione come raffigurato in Figura 1A. Vedi anche il file di esempio supportati GSE20524_expression.txt.
    Nota: Il file di dati di espressione genica contiene valori di espressione per tutti i geni rilevabile (o sonde), anche per i geni che potrebbero non essere differenzialmente espressi. Il file pertanto in genere comprende molte migliaia di geni. È organizzata come rappresentato in Figura 1A. La prima riga contiene il nome di etichetta (ad es., gene simbolo o sonda ID) seguita dall'identificatore per ogni campione del set di dati (ad esempio, esempio 1, esempio 2 ecc.). Il resto del file contiene i valori dell'espressione per ciascuno dei geni e per ogni campione nel dataset. Lo strumento software GSEA esegue i calcoli per le metriche di gruppo (ad esempio, il rapporto medio di gruppo o rapporto segnale-rumore), pertanto si consiglia di includere i dati di ogni singolo campione. In alternativa, è possibile utilizzare la metrica del gruppo esternamente calcolato per i dati di espressione genica (cfr. Figura 1B).
  4. File
  5. fenotipo: creare un file separato per la definizione e l'etichettatura di gruppi che comprendono singoli campioni come raffigurato < forte classe= "xfig" > figura 2. Utilizzare spazi o tabulazioni per separare i campi. Salvarlo in un formato di file CLS (definizione di classe C++). Vedi anche il file di esempio supportati GSE20524_pheno_infection.cls.
    Nota: La prima riga contiene il numero totale di campioni e ulteriormente il numero di gruppi ( Figura 2). Mentre il numero di campioni dovrebbe corrispondere al file di dati di espressione genica (Vedi 3.2), il numero di gruppi dipende dal disegno dello studio. Il terzo campo della prima riga è sempre ' 1 '.
    La seconda riga in un file CLS contiene il nome per ogni gruppo. La riga deve iniziare con un simbolo di cancelletto (#) seguito da uno spazio ( Figura 2).
    La terza riga contiene un'etichetta di gruppo per ogni campione. L'etichetta di gruppo può essere un numero arbitrario o un testo. È solo l'ordine delle etichette che determina l'associazione di ogni campione per i gruppi: la prima etichetta utilizzata viene assegnata al primo gruppo nella seconda riga; la seconda etichetta unica è assegnata al secondo gruppo e così via. Garantire che ciascun campione dello stesso gruppo ha la stessa etichetta a questo passaggio, e che il numero di etichette è lo stesso come il numero di campioni indicato nella prima riga. Infine, salvare il file come file di testo delimitato da tabulazioni (txt) e modificare manualmente l'estensione del nome file (*.cls).
  6. (opzionali) file di Database di Set di Gene: definire set di gene personalizzato. Utilizzare il formato di file delimitato da tabulazioni GMT (Gene matrice trasposta) per i set di gene come raffigurato in Figura 3. Vedi anche il file di esempio supportati Gene_sets_Inflammation_BIOCARTA_KEGG_REACTOME.gmt.
    Nota: Definizione di set di gene personalizzato può essere utile ad esempio per limitare il gene impostare analisi di arricchimento su percorsi di particolare interesse (ad es., Immunologia di segnalazione per gli studi di sepsi), o de novo definizione proprio gene set (ad esempio, attivato e inibito geni negli studi che devono essere messi a confronto). Il file è organizzato come raffigurato in Figura 3. Nel formato GMT, ogni riga rappresenta un insieme di gene ( Figura 3). Ogni set di gene è descritta da un nome, una descrizione e i geni nel set di gene. La prima colonna contiene unico gene impostare i nomi. La seconda riga può contenere facoltativamente una descrizione del set di gene. Le colonne seguenti contengono i nomi di gene (simboli ufficiali HUGO gene) del corrispondente gene set. Infine, salvare il file come file di testo delimitato da tabulazioni (txt) e modificare manualmente l'estensione del nome file a (*. GMT).

4. Eseguire la GSEA

  1. aprire il tool di software GSEA (Vedi 1.2).
  2. Clic il ' caricare dati ' pulsante sul lato sinistro della finestra principale ( Figura 4A). Verrà aperta una nuova scheda per l'importazione dei file di dati richiesti ( Figura 4B). Naviga in una nuova scheda per il file di dati (*. txt) di espressione genica (Vedi 3.2), il file di fenotipo (*.cls) (Vedi 3.3) e, facoltativamente, ai set personalizzato gene (*. GMT) file ( Figura 4B).
    1. Nel caso in cui GSEA non può connettersi a internet, anche caricare il MSigDB scaricati (*. GMT) file (ad esempio, c2.cp.v5.2.symbols.gmt per le vie, Vedi 1.4) e il DNA chip annotazioni (matrice) (* .chip) i file (ad es., Mouse430_2.chip, Vedi 1.5). Dati importati correttamente visualizzati nella ' caricare dati ' sezione ( Figura 4).
      Nota: Ogni studio di espressione genica dovrà essere analizzato singolarmente con GSEA. Il confronto tra due studi (per esempio disordine umano vs modello murino) verrà eseguito al passaggio 5.
  3. Clic il ' eseguire GSEA ' pulsante sul lato sinistro della finestra principale. Si apre una nuova scheda per impostare i parametri per l'analisi ( Figura 4). La scheda è suddivisa in tre parti: i campi obbligatori, i campi di base e avanzate campi.
  4. Nei campi obbligatori, in primo luogo scegliere il set di dati di espressione caricato nel passaggio 4.2 ( Figura 4).
  5. Scegliere il gene imposta database, il sito Web collegato o dal file del set di gene importato manualmente ( Figura 4).
  6. Modificare le etichette di fenotipo per selezionare i gruppi di campioni che si suppone possano essere confrontate tra loro (ad es., S. aureus trattamento vs sano controllo) ( Figura 4).
  7. Crollo dataset ai simboli del gene (= vero) al fine di tradurre gli identificatori di sonda nel dataset espressione ufficiale HUGO gene simboli utilizzati nel database di insiemi di gene. Selezionare false, se il set di dati di espressione già contiene simboli di HUGO gene ( Figura 4).
  8. Impostare l'impostazione di numero di permutazioni per 1.000 ( Figura 4).
    Nota: Per i numeri superiori i tempi di elaborazione aumenterà considerevolmente.
  9. Modificare il tipo di permutazione a ' set di gene ', poiché la permutazione di fenotipo è consigliata solo quando ci sono più di sette campioni in ogni fenotipo ( Figura 4).
  10. Infine, selezionare la piattaforma di chip utilizzata per generare i dati di espressione genica, o dal sito Web collegato o dal DNA importato manualmente chip file di annotazioni (matrice) ( Figura 4).
    Nota: Questo passaggio è solo necessario, se la sonda gli identificatori vengono utilizzati nel set di dati caricato espressione.
  11. Nei campi di base almeno modificare la sezione analisi nome e Salva risultati in questa cartella per trovare di nuovo il file dei risultati ( Figura 4). Inoltre, ulteriori parametri statistici possono essere modificati. Per ulteriori dettagli sui parametri e la sezione campi avanzati per favore la Guida utente GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  12. (Facoltativo): nelle metriche gruppo esternamente calcolato caso per l'espressione genica dei dati (ad esempio, il rapporto medio di gruppo) devono essere utilizzati invece di dati singolo campione, utilizzare lo strumento di preranked GSEA. L'analisi verrà condotta quindi basata su una semplice lista di geni assegnate con metriche di gruppo pre-calcolato che sono usate per classificare i geni. Dopo aver caricato il file di espressione genica alternativa vai alla barra di navigazione principale e fare clic su Strumenti/GseaPreranked. Allo stesso modo, si aprirà una nuova scheda per impostare i parametri per l'analisi ( Figura 4E).
    Nota: Utilizzando lo strumento preranked GSEA è consigliato per gli studi che non hanno dati di espressione genica di campione specifiche individuali. Che potrebbe essere il caso se statistiche speciali o procedure di normalizzazione sono state eseguite sui dati che portano a valori medi di gruppo invece di dati singolo campione. Utilizzando lo strumento preranked GSEA è consigliato per i dati di sequenziamento di RNA. Normalizzazione dei dati di espressione di RNA sequenziamento e calcolare le metriche di gruppo per i campioni (ad es., registro di piega cambiamento), che possono essere utilizzati per classificare i geni secondo la loro espressione.
  13. Clic il ' Run ' pulsante in basso a destra della finestra.
    Nota: L'analisi poi può prendere fino a diversi minuti a seconda della velocità di calcolo. Seguire l'avanzamento dell'analisi nella sezione report GSEA in basso a sinistra della finestra. Dopo aver terminato l'analisi, lo stato ' successo ' appare nella sezione report GSEA.
  14. Clic sulla riuscita analisi nella sezione GSEA report per aprire i risultati di analisi.
    Nota: Un nuovo menu di navigazione viene aperto in una finestra del browser che riassume tutti i risultati e le impostazioni dei parametri ( Figura 5). Le due sezioni superiore del menu di navigazione comprendono gene imposta risultati di arricchimento per i gruppi definiti (ad es., l'arricchimento in S. aureus trattati campioni o di controllo in buona salute). Le prime righe di entrambe le sezioni Visualizza un riepilogo dei risultati statistici. Set di gene che sono arricchito in modo significativo ad un tasso di falsi-scoperta (FDR) inferiore al 25% sono considerati come arricchiti con la seguente interpretazione. Ulteriori informazioni sull'interpretazione dell'analisi possono essere trovate nella Guida dell'utente GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  15. Clic arricchimento dettagliate risultati in formato excel per esportare i risultati di analisi in un foglio di calcolo ( Figura 6A). Esportare i risultati dettagliati di arricchimento in excel separatamente per entrambi fenotipi ( Figura 5) e unire i dati di risultati in un file di foglio di calcolo. Per il successivo raffronto tra dati di espressione genica di numerosi studi, mantenere almeno il nome del set di gene (colonna A), il suo arricchimento normalizzato Punteggio ottenuto (NES) (colonna F) e il relativo valore FDR (tasso di falsi scoperta) (colonna H) ( Figura 6B ).
    Nota: Il file di foglio di calcolo contiene dati enorme per ogni l'analizzato gene insieme, tra cui il nome del set di gene (colonna A), le dimensioni (ovvero, il numero di geni rilevato nei dati di espressione genica, colonna D), il NES (una misura quantitativa della direzione e misura dell'arricchimento, colonna F), il valore nominale p (non riveduta, colonna G) e il relativo valore FDR (corretto per verifica, colonna H più di ipotesi). Per ulteriori dettagli sull'interpretazione, consultare la Guida utente GSEA (http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html).
  16. Ripetere che il gene impostata analisi di arricchimento (passaggi 4.1 a 4.15) per il secondo studio (ad es., S. aureus GSE9960) e per tutte le ulteriori studi che si suppone possano essere confrontate tra loro. Come molti studi clinici umani e diversi modelli murini sono possibili per identificare il modello ottimale del mouse per la domanda di ricerca traslazionale.

5. Confrontando i risultati di GSEA

  1. per identificare il modello animale ottimale per che imita la situazione umana Confronta i risultati GSEA di tutti gli studi a vicenda. Utilizzare i punteggi di arricchimento e i valori FDR per classificare le vie (gene insiemi) come attivato (NES > 0, FDR < 25%), inibito (NES < 0, FDR < 25%) o nessuno dei due (FDR > 25%). Per ogni confronto di due studi, contare il numero di realizzazioni delle nove combinazioni possibili del regolamento via come indicato da una tabella di contingenza di 3 x 3 ( figura 7A).
  2. Valutare la correlazione tra due studi di calcolo del valore predittivo positivo (ppv) e il valore predittivo negativo (npv), che è per definizione la parte delle vie che mostrano lo stesso regolamento (attivato o inibito) in due studi .
    1. Calculate ppv e npv secondo le seguenti formule (1) e (2):
      (1) Equation 1
      (2) Equation 2
      Nota: Poiché la sovrapposizione potrebbe essere puramente casuale, il ppv e il valore attuale netto devono essere ulteriormente rispetto ai valori attesi per caso. Questo approccio consente la stima della quantità di informazioni che possono essere acquisite da uno studio per predire gli effetti in un altro studio. Per esempio, se i processi di regolazione in due modelli erano indipendenti uno da altro (e solo si sovrappongono per caso), e se nel primo modello il 10% dei percorsi sono stati aumentati, che il ppv per il secondo modello sarebbe anche il 10% e non c'era nessuna ulteriore guadagno di inf informazioni. Da altro lato, se entrambi i modelli erano legati da comuni meccanismi di regolazione, quindi il ppv (e npv) sarebbe significativamente maggiore rispetto al previsto per caso. Ad esempio, per la previsione dei cambiamenti di espressione genica durante la sepsi umana (GSE9960) dagli effetti in un modello di iniezione di S. aureus murino (GSE20524), il ppv è del 43% (6/(6+8+0)) e il valore attuale netto è del 61% (11/(0+7+11)). In altre parole, il 43% delle vie attivate nel modello murino della iniezione di aureus S. (GSE20524) si attivano anche durante la sepsi umana (GSE9960). Allo stesso modo, il 61% dei percorsi inibiti nel modello murino della iniezione di aureus S. (GSE20524) sono inoltre ha inibito durante la sepsi umana (GSE9960) ( figura 7B). PPV e npv può essere determinate anche per la costellazione inversa (che significa predire da studio 1-Studio 2).
  3. Per calcolare la sovrapposizione per caso fare riferimento alla tabella di contingenza di 3 x 3 ( Figura 7) e calcolare la ppvchance e npvchance secondo le seguenti formule (3) e (4):
    (3) < img alt = "Equazione 3" src = "/files/. ftp_upload/55768/55768eq3.jpg"/ >
    (4) Equation 4
    Nota: ad esempio, per la previsione dei cambiamenti di espressione genica durante la sepsi umana (GSE9960) dagli effetti in un murino Staphylococcus aureus modello a iniezione (GSE20524) il ppvchance è del 13% (8/64) e il npvchance è e il 22% (14/64).
  4. Calcolare il guadagno di ppv vs possibilità sottraendo ppvchance da ppv. Calcolare di conseguenza per il valore attuale netto:
    (5) Equation 5
    (6) Equation
    Nota: ad esempio, per la previsione del gene espressione cambia durante la sepsi umana (GSE9960) dagli effetti in un modello di iniezione di S. aureus murino (GSE20524) la cambia in ppv e npv vs possibilità è + 30% (43% - 13%) e + 39% (61% - 22%), rispettivamente.
  5. Calcolare il guadagno di informazioni che possono essere ottenute dallo studio 2 per quanto riguarda lo studio 1 da una media di ppvgain e npvgain:
    (7) Equation
  6. utilizzare la tabella di contingenza definita nel passaggio 5.1 di un paio di studi (study1.pathway, study2.pathway) per calcolare il valore p di un test chi quadrato.
    Memorizzare i dati della tabella di contingenza in una matrice X. eseguire il test del chi quadrato, per esempio, dall'uso della R funzione chisq.test.
    Nota: ad esempio, confrontando lo studio selezionato sepsi umana (GSE9960) con un murino S. aureus modello a iniezione (GSE20524) Mostra una sovrapposizione statisticamente significativa nel regolamento via infiammatoria:
    > chisq.test(X,simulate.p.value=F)$ p.Value
    3.82e-07

6. Identificazione del modello animale ottimale

  1. Confronta la GSEA risultati per tutte le combinazioni degli studi che sono stati selezionati per l'analisi.
    Nota: Si consiglia inoltre di confrontare gli studi umani (simili) uno a altro come pure gli studi sugli animali diversi uno a altro. Questo confronto può fornire la comprensione nella varianza intraspecie di studi clinici (o disturbi) e i diversi modelli animali. Si prevede che gli studi clinici dovrebbero mostrare che una sovrapposizione accettabile e un'informazione significativa di guadagno, perché altrimenti gli studi clinici potrebbero essere troppo eterogenei per trovare un modello animale che può imitare la situazione umana. In questo caso, si consiglia di includere solo gli studi umani che sono simili tra loro per l'identificazione di modelli animali adatti.
  2. Ordina tutte le combinazioni per il guadagno delle informazioni (punto 5.5). Per il confronto di molti DataSet, utilizzare una matrice e visualizzare i risultati dall'uso di un heatmap colorata o simili ( Figura 8).
  3. Selezionare il modello animale con il guadagno massimo di informazioni. Al fine di valutare l'importanza del guadagno delle informazioni, considerare anche il test chi quadrato (punto 5.6).
    Nota: Modelli animali dovrebbero essere considerati solo come appropriato se il guadagno di informazioni è notevole e se il valore di p del test chi quadrato è sotto il livello di significatività. User-Defined soglie dipenderà generalmente diversi fattori: 1) la conoscenza di pre-studio sulla trasferibilità dei risultati dal modello animale agli esseri umani (per esempio simile fisiologia), 2) il beneficio previsto per gli esseri umani da un presunto successo, 3) la pratica applicabilità di tale esperimento sugli animali e 4) il previsto dolore, sofferenza o danno inflitto sul labgli animali oratorio.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Il flusso di lavoro GSEA e screenshot per dati esemplari sono dimostrati. La figura 1 Mostra il file di dati di espressione genica che contiene i dati di trascrittomica di interesse. Per ogni studio un file descrittivo fenotipo è richiesto che è illustrato nella Figura 2. Set di gene con annotazioni (ad es., vie) sono definiti nel file di database set gene (Figura 3). La figura 4 Mostra un protocollo passo-passo per l'utilizzo dello strumento software GSEA. Una relazione esemplare risultato è dato in Figura 5. I risultati dettagliati di arricchimento GSEA sono riassunti nella Figura 6. Per il confronto di diversi studi di espressione, in particolare umano vs gli studi del topo, una tabella di contingenza è richiesta (Figura 7). Per la visualizzazione dei risultati, la figura 8 Mostra una matrice di correlazione dei confronti di percorso tra umani e gli studi del topo.

Figure 1
Figura 1: File di dati GSEA Gene Expression. Il file contiene i valori di espressione per tutti i geni rilevabile (o sonde), anche per i geni che potrebbero non essere differenzialmente espressi. Il file pertanto in genere comprende molte migliaia di geni. (A), il file di dati di espressione genica include i dati per ogni singolo campione. La prima riga contiene il nome di etichette (qui: sonda ID) seguita da una descrizione facoltativa e nomi di singolo campione (qui: GSM515585, GSM515586, ecc.). Il resto del file contiene i valori dell'espressione per ciascuno dei geni e per ogni campione nel dataset. (B) formato di dati espressione genica alternativi. Esternamente calcolato della metrica di gruppo (qui: rapporto medio) può essere utilizzato per lo strumento preranked GSEA se non sono disponibili dati singolo campione. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 2
Figura 2: File di fenotipo GSEA. Il file combina campioni individuali per gruppi ed etichette i gruppi di conseguenza. La prima riga contiene il numero totale di campioni e in seguito il numero di gruppi. Il terzo campo della prima riga è sempre '1'. La seconda riga contiene il nome per ogni gruppo. La riga inizia con un simbolo di cancelletto (#) seguito da uno spazio. La terza riga contiene un'etichetta di gruppo per ogni campione (qui: 0 o 1). Clicca qui per visualizzare una versione più grande di questa figura.

Figure 3
Figura 3: Gene GSEA impostata Database File. Il file definisce i set di geni che vengono assegnati a determinati processi biologici o categorie (qui: le vie infiammatorie). Nel formato GMT, ogni riga rappresenta un set di gene, che è definito da un nome, una descrizione e i geni inclusi (simboli ufficiali HUGO gene). Clicca qui per visualizzare una versione più grande di questa figura.

Figure 4
Figura 4: impostazioni del Software GSEA. Lo strumento software GSEA è stato scaricato dal sito Broad Institute come un'applicazione desktop java. (A) dal menu di avvio. Lato sinistro contiene il menu di navigazione, mentre la sezione giusta (Home) dà un breve riassunto del flusso di lavoro GSEA. Facendo clic sul pulsante di caricamento dei dati si aprirà una nuova scheda per l'importazione dei file. (B) dati del carico sezione prima importazione dei dati. I file necessari possono essere importati tramite il file browser. (C) caricare dati sezione dopo l'importazione dei dati. I dati importati file sono elencati nella cache degli oggetti e sono organizzati per set di dati (file obbligatorio), fenotipi (file obbligatorio), gene impostata i database (opzionale, se la connessione internet disponibile) e chip file (opzionale, se forniti di connessione internet). Facendo clic sul pulsante Esegui GSEA si aprirà una nuova scheda per impostare i parametri di analisi. (D) Eseguire GSEA sezione. La scheda per impostare i parametri di analisi è suddivisa in campi obbligatori, campi base e avanzato. Facendo clic sul pulsante Esegui sull'in basso a destra della finestra inizierà l'analisi. Lo stato di avanzamento dell'analisi sarà quindi visibile nella sezione report GSEA in basso a sinistra della finestra. Dopo aver terminato l'analisi, il 'successo' stato appare nella GSEA report sezione. (E) GSEA preranked strumento. Espressione genica file di dati contenenti metriche di gruppo esternamente calcolato invece di dati singolo campione possono essere analizzata tramite la barra di navigazione principale. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 5
Figura 5: Report GSEA. La relazione GSEA viene aperto in una finestra del browser che riassume tutti i risultati e i parametri selezionati. Le due sezioni superiore del menu di navigazione comprendono gene arricchimento set risultati per i gruppi definiti (ad es., l'arricchimento in campioni di S. aureus trattati o controllo sano). In tale esempio, 42 di 65 set di gene (VIE) sono attivate nei topi di S. aureus trattati, mentre 14 di loro sono significativamente arricchita con un FDR inferiore al 25%. Allo stesso modo, 23 di 65 set di gene (VIE) sono inibita nei topi di S. aureus trattati, mentre 18 di loro sono notevolmente arricchito con un FDR inferiore al 25%. Facendo clic sui risultati di arricchimento dettagliate si apre un file html o excel file per esportare i dati di analisi necessari per un confronto tra gli studi di espressione di geni diversi. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 6
Figura 6: arricchimento risultati dettagliati. (A) file di foglio di calcolo esportato contenente i risultati dell'analisi dettagliata per set di gene (VIE) che sono stati attivati in S. aureus topi trattati. Il file di foglio di calcolo contiene enormi di dati per ogni set di gene analizzato, inclusi il nome dell'insieme del gene, le sue dimensioni, suo punteggio normalizzato arricchimento, suo valore nominale p (non corretta) e il relativo valore FDR. (B) semplificato file di foglio di calcolocontiene solo le informazioni necessarie per il confronto di diversi studi di espressione. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 7
Figura 7:3 x 3 tabella di contingenza di risultati GSEA. Formato della tabella di contingenza di (A) comune per il confronto di 2 studi. (B) numeri esemplare delle vie regolate per il confronto di uno studio di sepsi umana (GSE9960) con un murino modello iniezione di S. aureus (GSE20524). Clicca qui per visualizzare una versione più grande di questa figura.

Figure 8
Figura 8: matrice di correlazione di Pathway confronti tra umani e gli studi del topo. La sovrapposizione del regolamento percorso è indicata come il guadagno delle informazioni che possono essere ottenuti da uno studio (del mouse) per predire gli effetti in un altro studio (umano) (blu, diminuzione, bassa correlazione; rosso, aumento, alta correlazione). In questo esempio, il confronto dell'essere umano con i DataSet murini ha rivelato un sottogruppo di modelli sperimentali murini che erano altamente correlativo agli studi clinici umani (studi 10 e 11, linea tratteggiata), che indica che questi modelli murini sono più adatti per che imita la situazione dell'uomo. Al contrario, gli studi, 7, 8 e 9 hanno mostrato alcuna correlazione con gli studi di malattia umana. Clicca qui per visualizzare una versione più grande di questa figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Modelli animali sono state applicate lungo per lo studio dei meccanismi di malattia e lo sviluppo di nuove strategie terapeutiche. Tuttavia, scetticismo per quanto riguarda la predittività di modelli animali ha cominciato a diffondersi a seguito di errori di test clinici12. Inoltre, controverse discussioni sulle strategie adeguate per analizzare ed interpretare dati di grande omics dagli studi preclinici sono state sollevate da opposte conclusioni tracciate dagli stessi dati dopo l'applicazione di differenti strategie di analisi dei dati1 ,2. Di conseguenza, c'è una forte domanda per ulteriori tecniche di bioinformatica robusto per l'analisi di dati complessi omics per definire sistematicamente il modello animale ottimale per una determinata patologia umana. Applicando il migliore modello disponibile non solo migliora la ricerca traslazionale ma contribuisce ulteriormente al benessere degli animali evitando gli esperimenti sugli animali che potrebbero non correlano con la situazione umana.

Il protocollo presentato descrive un approccio standardizzato per confrontare sistematicamente dati omics di specie diverse con lo scopo di identificare i modelli animali ottimale e protocolli di trattamento per un determinato disturbo umano. Mediante l'uso di GSEA invece di una singolo gene analisi, questo protocollo aggira tutti i problemi connessi con soggettiva impostazione delle soglie di espressione del gene e gene di filtraggio. Il focus su percorsi selezionati ulteriormente permette in particolare indirizzo il processo fisiologico (patho) della malattia/condizione in questione (ad es., l'infiammazione). Naturalmente, la precisione dei risultati GSEA dipende sulla qualità dell'attuale gene set annotazioni e se i meccanismi di regolazione sono conservati tra le specie. Tuttavia, supponiamo che in generale la conservazione è superiore a livello di percorso rispetto al livello di singolo gene. Inoltre, arricchimento set approcci sono più robusti per i confronti di trascrittomica dati tra piattaforme diverse e modelli sperimentali o coorti cliniche di singolo gene analizza13.

Invece di utilizzare set di gene pre-definiti quali vie, l'approccio presentato permette anche di definire set di gene personalizzato. In particolare, i dati di espressione sperimentale utilizzabile per identificare i geni rilevanti che vengono attivati o inibiti in una condizione (ad es., sovrapposizione di geni umani in coorti cliniche). De novo definito gene set può quindi essere utilizzato per verificare per l'arricchimento dei dati da diversi modelli animali. Questo approccio alternativo evita la 'deviazione' dell'utilizzo di vie con annotazioni. Inoltre, il protocollo non è limitato al confronto dei dati di trascrittomica, ma è trasferibile a qualsiasi dati di omics compresi proteomica e metabolomica. Tuttavia, bisogna tenere a mente che questo approccio è limitato ai dati esistenti omics dagli esseri umani e modelli murini, e che non indica come sviluppare nuovi modelli animali. Tuttavia, essa rappresenta un approccio efficace per l'interpretazione standardizzata dei dati esistenti, che possono facilitare l'accurata selezione del modello animale ottimo e quindi evitare inutili e fuorvianti studi traslazionali.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori dichiarano di non avere nessun concorrenti interessi finanziari.

Acknowledgments

Questo lavoro è stato finanziato dall'Istituto federale tedesco per la valutazione del rischio (BfR).

Materials

Name Company Catalog Number Comments
Excel Microsoft Corporation

DOWNLOAD MATERIALS LIST

References

  1. Seok, J., et al. Genomic responses in mouse models poorly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 110 (9), 3507-3512 (2013).
  2. Takao, K., Miyakawa, T. Genomic responses in mouse models greatly mimic human inflammatory diseases. Proc Natl Acad Sci U S A. 112 (4), 1167-1172 (2015).
  3. Weidner, C., Steinfath, M., Opitz, E., Oelgeschläger, M., Schönfelder, G. Defining the optimal animal model for translational research using gene set enrichment analysis. EMBO Mol Med. 8 (8), 831-838 (2016).
  4. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 102 (43), 15545-15550 (2005).
  5. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  6. Kanehisa, M., Goto, S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  7. Fabregat, A., et al. The Reactome pathway Knowledgebase. Nucleic Acids Res. 44 (D1), D481-D487 (2016).
  8. Croft, D., et al. The Reactome pathway knowledgebase. Nucleic Acids Res. 42 (Database issue), D472-D477 (2014).
  9. Nishimura, D. BioCarta. Biotech Software & Internet Report. 2 (3), 117-120 (2001).
  10. Edgar, R., Domrachev, M., Lash, A. E. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 30 (1), 207-210 (2002).
  11. Kolesnikov, N., et al. ArrayExpress update--simplifying data submissions. Nucleic Acids Res. 43 (Database issue), D1113-D1116 (2015).
  12. Cohen, J., et al. Sepsis: a roadmap for future research. Lancet Infect Dis. 15 (5), 581-614 (2015).
  13. Spinelli, L., Carpentier, S., Montanana Sanchis, F., Dalod, M., Vu Manh, T. P. BubbleGUM: automatic extraction of phenotype molecular signatures and comprehensive visualization of multiple Gene Set Enrichment Analyses. BMC Genomics. 16 (1), 814 (2015).

Tags

Protocollo di base problema 126 modello animale modello del topo ricerca traslazionale biologia dei sistemi trascrittomica GSEA
Un protocollo per l'utilizzo di Gene imposta analisi di arricchimento per identificare il modello animale adeguato per la ricerca traslazionale
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Weidner, C., Steinfath, M., Wistorf, More

Weidner, C., Steinfath, M., Wistorf, E., Oelgeschläger, M., Schneider, M. R., Schönfelder, G. A Protocol for Using Gene Set Enrichment Analysis to Identify the Appropriate Animal Model for Translational Research. J. Vis. Exp. (126), e55768, doi:10.3791/55768 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter