Analisi trascrittomica di

Genetics

Your institution must subscribe to JoVE's Genetics section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Galaxy e David sono emersi come strumenti popolari che permettono ai ricercatori senza formazione bioinformatica per analizzare e interpretare i dati di RNA-Seq. Descriviamo un protocollo per la C. elegans ai ricercatori di effettuare RNA-Seq esperimenti, l'accesso ed elaborare il set di dati utilizzando Galaxy e ottenere informazioni biologiche significative dalle liste di geni con David.

Cite this Article

Copy Citation | Download Citations

Amrit, F. R., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Next generation sequencing (NGS) tecnologie hanno rivoluzionato la natura della ricerca biologica. Di questi, RNA Sequencing (RNA-Seq) è emersa come un potente strumento per l'analisi di espressione genica e la mappatura del trascrittoma. Tuttavia, la manipolazione serie di dati di RNA-Seq richiede sofisticate competenze computazionali e pone sfide insite per i ricercatori di biologia. Questo collo di bottiglia è stato mitigato dal progetto open access Galaxy che permette agli utenti senza competenze di bioinformatica per l'analisi dei dati di RNA-Seq, e la base di dati per l'annotazione, la visualizzazione e integrato Discovery (David), un Gene Ontology (GO) Suite analisi termine che aiuta derivare significato biologico da grandi insiemi di dati. Tuttavia, per gli utenti prima volta e dilettanti bioinformatica, auto-apprendimento e la familiarizzazione con queste piattaforme può richiedere molto tempo e scoraggiante. Descriviamo un flusso di lavoro semplice che vi aiuterà a C. elegans ai ricercatori di isolare l'RNA a vite senza fine, condurre un esperimento di RNA-Seqe analizzare i dati utilizzando piattaforme Galaxy e David. Questo protocollo fornisce istruzioni graduali per l'utilizzo dei vari moduli Galaxy per l'accesso ai dati grezzi NGS, alcun controllo di qualità, l'allineamento e analisi differenziale espressione genica, guidando l'utente con i parametri ad ogni passo di generare un elenco gene che può essere proiettato per l'arricchimento di classi di geni o processi biologici con David. Nel complesso, prevediamo che questo articolo vi fornirà le informazioni di C. elegans ricercatori che effettuano esperimenti di RNA-Seq per la prima volta così come gli utenti che eseguono frequenti un piccolo numero di campioni.

Introduction

Il primo sequenziamento del genoma umano, effettuata con il metodo dideoxynucleotide-sequenziamento di Fred Sanger, sono voluti 10 anni, con un costo stimato US $ 3 miliardi di 1, 2. Tuttavia, in poco più di un decennio, sin dal suo inizio, Next-Generation Sequencing Technology (NGS) ha reso possibile sequenziare l'intero genoma umano entro due settimane e per US $ 1.000. Nuovi strumenti che permettono di NGS sempre crescente velocità di raccolta sequenziamento-dati con incredibile efficienza, con una riduzione dei costi vivi, stanno rivoluzionando la biologia moderna in modi inimmaginabili, come i progetti di sequenziamento del genoma stanno rapidamente diventando un luogo comune. Inoltre, questi sviluppi hanno galvanizzato progressi in molti altri settori quali l'analisi dell'espressione genica mediante RNA-Sequencing (RNA-Seq), studio delle modificazioni epigenetiche tutto il genoma, interazioni DNA-proteina e screening per la diversità microbica in ospiti umani. NGS a base di RNA-Seq in particolare, ha permesso di identificare e mappare trascrittomi completo con accuratezza e sensibilità, e ha sostituito microarray come metodo di scelta per profili di espressione. Mentre la tecnologia microarray è stato ampiamente utilizzato, è limitata dalla sua dipendenza array preesistenti con nota informazione genomica e altri inconvenienti come ibridazione incrociata e ristretta gamma di cambiamenti di espressione che può essere misurato in modo attendibile. RNA-Seq, d'altra parte, può essere utilizzato per rilevare sia le trascrizioni noti e ignoti, mentre la produzione a basso rumore di fondo a causa della sua natura ambigua mappatura del DNA. RNA-Seq, insieme ai numerosi strumenti genetici offerti da organismi modello come il lievito, mosche, vermi, pesci e topi, ha servito come base per molti recenti scoperte biomediche importanti. Tuttavia, permangono delle sfide significative che compongono NGS inaccessibili alla comunità scientifica più ampia, comprese le limitazioni di conservazione, elaborazione, e la maggior parte di tutti, m analisi bioinformatica eaningful di grandi volumi di dati di sequenziamento.

I rapidi progressi nelle tecnologie di sequenziamento e l'accumulo esponenziale dei dati hanno creato un grande bisogno di piattaforme computazionali che permetteranno ai ricercatori di accedere, analizzare e comprendere queste informazioni. I primi sistemi erano fortemente dipendente dalla conoscenza di programmazione di computer, mentre, i browser genoma quali NCBI che hanno permesso ai non programmatori di accedere e visualizzare i dati non permetteva analisi sofisticate. La piattaforma web-based, ad accesso aperto, Galaxy ( https://galaxyproject.org/ ), ha riempito questo vuoto e dimostrato di essere un oleodotto prezioso che consente ai ricercatori di elaborare i dati NGS ed eseguire uno spettro di semplice da complessi analisi bioinformatica. Galaxy è stato inizialmente stabilito, ed è mantenuto, dai laboratori di Anton Nekrutenko (Penn State University) e James Taylor (Johns Hopkins University)f "> 3. Galaxy offre una vasta gamma di compiti computazionali che lo rende un 'one-stop shop' per le esigenze di bioinformatica innumerevoli, compresi tutti i passaggi necessari per uno studio di RNA-Seq. Itallows agli utenti di eseguire l'elaborazione dei dati sia sui propri server o localmente sulle proprie macchine. i dati e flussi di lavoro possono essere riprodotti e condivisi. tutorial online, sezione di aiuto, e un wiki-page ( https://wiki.galaxyproject.org/Support ) dedicato al Progetto Galaxy forniscono un supporto costante. Tuttavia, per prima volta gli utenti, in particolare quelli con nessuna formazione bioinformatica, la pipeline può apparire scoraggiante e il processo di auto-apprendimento e di familiarizzazione può richiedere molto tempo. Inoltre, il sistema biologico studiato, e le specifiche di questo esperimento e metodi utilizzati, l'impatto le decisioni di analisi in diversi passaggi, e questi possono essere difficili da navigare senza istruzioni.

Il complesso RN A-Seq Galaxy Workflow consiste di caricamento dei dati e di controllo della qualità seguita da analisi usando l'smoking Suite 4, 5, 6, 7, 8, 9, che è un collettivo di vari strumenti necessari per le diverse fasi di analisi dei dati RNA-Seq 10, 11, 12, 13, 14. Un tipico esperimento RNA-Seq consiste nella parte sperimentale (preparazione del campione, l'isolamento di mRNA e preparazione di cDNA library), il NGS e l'analisi bioinformatica dei dati. Una panoramica di queste sezioni, e le fasi coinvolte nella pipeline Galaxy, sono mostrati in Figura 1.

3fig1.jpg"/>
Figura 1: Sintesi di un Workflow RNA-Seq. Illustrazione delle fasi sperimentali e computazionali coinvolti in un esperimento RNA-Seq di confrontare i profili di espressione genica di due ceppi di vite senza fine (rispettivamente A e B, le linee arancioni e verdi e frecce,). I diversi moduli Galaxy utilizzati sono mostrati in scatole con passo corrispondente nel nostro protocollo indicato in rosso. Le uscite di varie operazioni sono scritte in grigio con i formati di file indicati in blu. Si prega di cliccare qui per vedere una versione più grande di questa figura.

Il primo strumento nel Tuxedo Suite è un programma di allineamento chiamato 'Tophat'. Si rompe l'ingresso NGS si legge in frammenti più piccoli e poi li associa ad un genoma di riferimento. Questo processo in due fasi assicura che legge regioni ponte introniche cui allineamento può altrimenti essere disrupted o mancati sono contabilizzati e mappati. Questo aumenta la copertura e facilita l'identificazione di nuovi giunzioni di splicing. Uscita Tophat viene segnalato come due file, un file LETTO (con informazioni sulle giunzioni di splicing che comprendono posizione genomica) e un file di BAM (con i dettagli di mappatura di ogni lettura). Successivamente, il file BAM è allineato contro un genoma di riferimento per stimare l'abbondanza delle singole trascrizioni all'interno di ogni campione usando il successivo strumento nel Tuxedo Suite chiamata 'Gemelli'. Gemelli funzioni di scansione l'allineamento di riferire frammenti trascrizione full-length o 'transfrags' che si estendono su tutte le possibili varianti di splicing nei dati di input per ogni gene. Sulla base di questo, si genera un 'trascrittoma' (assemblea di tutti i trascritti generati per gene per ogni gene) per ogni campione viene sequenziato. Questi gemelli assembly vengono poi compresso o fuse insieme lungo con la rirenza genoma per produrre un singolo file di annotazione per l'analisi differenziale a valle usando l'utensile successivo, 'Cuffmerge'. Infine, il 'Cuffdiff' utensile misure differenziale espressione genica tra i campioni confrontando le uscite Tophat di ciascuno dei campioni al file di output Cuffmerge finale (Figura 1). Gemelli utilizza FPKM / RPKM (Frammenti / Legge Per kilobase di trascrizione per milione mappato letture) valori segnalare abbondanze trascrizione. Questi valori riflettono la normalizzazione dei dati NGS prime per profondità (numero medio di letture da un campione che si allineano al genoma di riferimento) e la lunghezza del gene (geni hanno lunghezze diverse, in modo conteggi devono essere normalizzati per la lunghezza di un gene per confrontare i livelli tra geni). FPKM e RPKM sono essenzialmente le stesse con RPKM utilizzato per single-end RNA-Seq dove ogni lettura corrisponde ad un singolo frammento, che, FPKM serveabbinato-end RNA-Seq, in quanto rappresenta il fatto che due letture possono corrispondere allo stesso frammento. In definitiva, il risultato di queste analisi è una lista dei geni differenzialmente espressi tra le condizioni e / o ceppi testati.

Una volta che una corsa Galaxy successo è completato e viene generato una 'lista gene', il passo logico successivo richiede più bioinformatica analisi dedurre conoscenze significative da set di dati. Molti pacchetti software sono emerse per soddisfare questa esigenza, inclusi i pacchetti computazionale basati sul web pubblicamente disponibili come David (il database per l'annotazione, la visualizzazione e la scoperta Integrata) 15. DAVID facilita l'assegnazione di significato biologico di grandi liste di geni provenienti da studi ad alto throughput confrontando la lista gene caricato al suo knowledge base biologica integrata e rivelando le annotazioni biologiche associate con l'elenco dei geni. Questo è seguito da analisi arricchimento, cioè, prove a identify se qualsiasi processo o gene classe biologica è sovrarappresentato nella lista gene (s) in un modo statisticamente significativo. E 'diventato una scelta popolare a causa di una combinazione di un ampio, base di conoscenze integrata e algoritmi di analisi potenti che consentono ai ricercatori di individuare temi biologici arricchiti entro genomica-derivato 'liste di geni' 10, 16. Ulteriori vantaggi sono la sua capacità di elaborare liste di geni creati su qualsiasi piattaforma di sequenziamento e un'interfaccia altamente user-friendly.

Nematode Caenorhabditis elegans è un sistema modello genetico, ben noto per i suoi numerosi vantaggi come piccole dimensioni, corpo trasparente, semplice corpo piano, facilità di coltura e grande amenability per dissezione genetica e molecolare. Vermi hanno una piccola, semplice e ben annotato genoma che comprende fino al 40% geni conservati con noti omologhi umani 17. Infatti, C. elegansè stato il primo metazoo cui genoma è stato completamente sequenziato 18, e una delle prime specie dove RNA-Seq è stato usato per mappare transcriptome di un organismo 19, 20. I primi studi verme coinvolto la sperimentazione di metodi diversi per high-throughput di cattura RNA, preparazione biblioteca e sequenziamento così come condutture di bioinformatica che hanno contribuito al progresso della tecnologia 21, 22. Negli ultimi anni, la sperimentazione RNA-Seq-based nei vermi è diventato un luogo comune. Ma, per i biologi vite senza fine tradizionali le sfide poste dalla analisi computazionale dei dati di RNA-Seq rimangono uno dei principali ostacoli per una maggiore e migliore utilizzo della tecnica.

In questo articolo, si descrive un protocollo per l'utilizzo della piattaforma Galaxy analizzare alto throughput dati RNA-Seq generati da C. elegans. Per molti la prima volta e piccole-SCALe utenti, il modo più conveniente e semplice da intraprendere un esperimento RNA-Seq è quello di isolare l'RNA in laboratorio e utilizzare una commerciale (o in-house) impianto NGS per la preparazione di librerie di cDNA sequenziamento e l'NGS stesso. Quindi, abbiamo prima descritto le fasi in isolamento, quantificazione e valutazione della qualità di C. elegans campioni di RNA per l'RNA-Seq. Successivamente, forniamo istruzioni passo-passo per l'utilizzo dell'interfaccia Galaxy per analisi dei dati NGS, iniziando con test per la post-sequenziamento alcun controllo di qualità seguiti da allineamento, assemblaggio, e differenziale quantificazione dell'espressione genica. Inoltre, abbiamo incluso le indicazioni per scrutare le liste di geni derivanti da Galaxy per gli studi di arricchimento biologici con David. Come passo finale nel flusso di lavoro, mettiamo a disposizione le istruzioni per il caricamento dei dati di RNA-Seq ai server pubblici come la sequenza Leggi Archive (SRA) su NCBI ( http: // www.ncbi.nlm.nih.gov/sra) per renderlo liberamente accessibile alla comunità scientifica. Nel complesso, prevediamo che questo articolo vi fornirà informazioni complete e sufficienti per biologi vite senza fine che intraprendono esperimenti di RNA-Seq per la prima volta così come gli utenti che eseguono frequenti un piccolo numero di campioni.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Isolamento 1. RNA

  1. Misure precauzionali
    1. Pulire l'intera superficie di lavoro, strumenti e pipette usando uno spray RNase disponibile in commercio per eliminare eventuali RNasi presenti.
    2. Indossare guanti in ogni momento, cambiarle regolarmente con quelli freschi durante le diverse fasi del protocollo.
    3. Utilizzare solo puntali con filtro e conservare tutti i campioni in ghiaccio il più possibile per evitare la degradazione dell'RNA.
      NOTA: Al fine di ottenere i migliori dati da piattaforme NGS, è fondamentale per iniziare con l'RNA di alta qualità. isolamento dell'RNA e preparazione metodi variano a seconda dell'origine del campione, metodo di sequenziamento e investigatore preferenza. Diversi kit disponibili in commercio possono essere utilizzati per questo scopo o RNA possono essere isolate utilizzando un metodo di fenolo-cloroformio tenore di estrazione di RNA. Con entrambi la metodologia, le misure precauzionali di cui sopra devono essere seguiti durante tutto il processo per minimizzare la contaminazione e OBTain campioni di RNA incontaminata.
  2. raccolta Worms
    1. Sincronizzare la popolazione worm trattamento sbiancante ipoclorito 23 per ottenere 1.000-1.500 pari età C. elegans vermi adulti per ceppo.
    2. Lavare i vermi off piastre con soluzione tampone M9 e centrifugare a 325 xg in una centrifuga da tavolo per 30 s. Aspirare il buffer M9 lasciando una pallina di vermi. Ripetere questa operazione almeno tre volte di eliminare i residui di batteri.
    3. Al pellet verme, aggiungere ~ 500 ml di tampone di lisi (se usando un kit commerciale) o Trizol (una soluzione mono-fasica di fenolo e guanidina isotiocianato, se fenolo: cloroformio descritto in 1.3.3 è intrapresa) per distruggere tessuti verme disattivare RNasi e stabilizzare gli acidi nucleici.
      NOTA: Il protocollo può essere sospesa qui dal flash congelamento dei campioni in azoto liquido seguito da stoccaggio a -80 ° C.
  3. Isolamento RNA
  4. campioni verme Sonicare a 45% di ampiezza in cicli di 20 s. 'ON' e 40 s. 'OFF' (8-12 cicli al ceppo). I campioni in ghiaccio in ogni momento.
    NOTA: Assicurarsi che la sonda del sonicatore è immersa nel buffer e viene mantenuta ad un livello costante per tutto. Evitare la formazione di schiuma del campione e pulire accuratamente la sonda in-tra i campioni. cicli di sonicazione possono variare a seconda del tipo di sonicatore utilizzato. Si raccomanda di condizioni sonicazione vengono dapprima ottimizzati su un campione di prova prima di iniziare un esperimento.
  5. Se si utilizza un kit disponibile in commercio, procedere con l'RNA isolamento come da protocollo prescritto. Per l'isolamento di RNA utilizzando un metodo fenolo-cloroformio, effettuare le seguenti operazioni.
  6. Centrifuga sonicato campioni a 16.000 xg per 10 min. a 4 ° C.
  7. Trasferire il surnatante in una provetta per microcentrifuga da 1,5 mL RNase-free e aggiungere 100 ml di cloroformio (1/5 il volume di RNA / DNA reagente isolamento).
    Attenzione: Cloroformio è tossico. Per ridurre al minimo l'esposizione e evitare l'inalazione, lavorare in una cappa chimica durante la manipolazione questa sostanza.
  8. Vortex i campioni a fondo per 30 - 60 s. e lasciare che i campioni di sedersi a temperatura ambiente per 3 min.
  9. Centrifugare a 11.750 xg per 15 min. a 4 ° C. Trasferire solo lo strato acquoso superiore in una nuova provetta da microcentrifuga RNasi-free facendo attenzione a non aspirare l'all'interfaccia bianco DNA contenenti. Ripetere i passaggi 1.3.4 tramite 1.3.6.
  10. Aggiungere 250 microlitri (70% di fase acquosa o 1/2 RNA / DNA isolamento volume di reagente) di 2-propanolo e capovolgere il tubo per mescolare. Lasciate che i tubi si siedono a temperatura ambiente per 10 minuti o lasciare per una notte a -80 ° C.
  11. Centrifugare i campioni a 11.750 xg per 10 min. a 4 ° C. Decantare il surnatante con molta attenzione, lasciando dietro di sé alcuni microlitri sul fondo del tubo in modo che il pellet non è disturbato.
  12. Lavare pellet con 500 ml di etanolo al 75% (fatta con l'acqua RNase-free) e centrifugare a 16.000 xg per 5 min. unt 4 ° C.
  13. Rimuovere il più surnatante possibile senza disturbare il pellet. Far asciugare il pellet in una cappa per qualche minuto.
  14. Aggiungere 30 ml di acqua RNasi-free e aiutare a sciogliere il pellet di RNA da riscaldamento per 10 min. a 60 ° C.
  15. Controllare la qualità e la quantità di RNA utilizzando un Bioanalyzer.
    NOTA: Bioanalyzer genera una terra d'ombra ntegrity N R NA I (RIN) come misura della qualità dell'RNA. Un RIN di almeno 8 è la soglia raccomandata per i campioni di RNA-Seq (maggiore è meglio). quantità e qualità dell'RNA possono anche essere controllati spettrofotometricamente ma devono anche essere seguiti da valutazione visiva di integrità dell'RNA. A tale scopo, eseguire i campioni su un gel di agarosio 1,2% abbastanza lungo per ottenere adeguata separazione dei 28s e 18s bande di RNA ribosomiale. La presenza di due bande distinte (1,75 kb per 18S rRNA e 3,5 kb per 28s rRNA nel caso di C. elegans) è una misura accettabile di qualità dell'RNA.
  16. Usa ~ 100 ng / ml di RNA a ship per l'impianto / NGS fornitore per la preparazione di librerie di sequenziamento.
    NOTA: i campioni di RNA dovrebbero essere spediti in ghiaccio secco al fornitore del servizio di sequenziamento. La maggior parte dei fornitori di condurre un test di RNA di controllo di qualità indipendente prima della preparazione biblioteca.

2. RNA-Seq analisi dei dati

  1. Scarica di Raw Sequencing dati
    1. Scarica i dati di sequenziamento grezzi FASTQ compressi codificati nel formato fastq.gz dal provider NGS utilizzando un "protocollo di trasferimento file" (FTP).

figura 2
Figura 2: Layout della Galassia utente pannello di interfaccia e funzioni chiave di RNA-Seq. Le caratteristiche principali della pagina vengono espansi ed evidenziati. (A) mette in evidenza la funzione 'Analizzare i dati' nell'intestazione pagina web utilizzato per l'accesso (B) è la 'barra di avanzamento' che indica lo spazio sul server Galaxy utilizzato dall'operazione. (C) è la 'Strumenti sezione' che elenca tutti gli strumenti che possono essere eseguiti sull'interfaccia Galaxy. (D) mostra i 'NGS: RNA Analisi' sezione utensili utilizzati per l'analisi di RNA-Seq. (E) raffigura il pannello 'Storia' che elenca tutti i file generati utilizzando Galaxy. (F) mostra un esempio della finestra di dialogo che si apre quando si clicca su un qualsiasi file nella sezione storia. All'interno (F), la scatola blu mette in evidenza le icone che possono essere utilizzati per visualizzare, editthe attributi o eliminare il set di dati, la casella viola mette in evidenza le icone che possono essere utilizzati per 'modifica' i tag set di dati o di annotazione, e, la casella rossa indica icone per scaricare i dati, visualizzare i dettagli delle operazioni svolte o eseguire nuovamente l'operazione. Si prega di cliccare qui per vedere una versione più grande di questa figura.

  1. Primi passi con Galaxy
    NOTA: Galaxy può essere eseguito su un server pubblico gratuito utilizzando una piattaforma web-based che fornisce l'accesso nuvola e archiviazione gratuito limitato. Può anche essere scaricato ed eseguito localmente sul computer dell'utente o cluster di calcolo ospitate da istituzioni, ma di elaborazione locale, può essere vincolato da limiti dei dati di archiviazione e le limitazioni di potenza di elaborazione dei computer degli utenti. Dettagli sul download e l'installazione è possibile accedere in https://wiki.galaxyproject.org/Admin/GetGalaxy . In questo protocollo si descrive l'utilizzo di web-based del gasdotto Galaxy.
    1. Dopo aver scaricato e la memorizzazione dei dati NGS sulla macchina dell'utente, Galaxy accesso alaxy.org/" target = "_blank"> https://usegalaxy.org/.
    2. Registra un account utente cliccando su 'utente' nell'intestazione della pagina, di login e iniziare a fare conoscenza con il pannello di interfaccia utente.
      NOTA: Si raccomanda che gli utenti prima volta utilizzano il tutorial 'Inizia da qui' fornito sulla home page per ottenere familiarizzato con il set up di base di Galaxy ( https://github.com/nekrut/galaxy/wiki/Galaxy101-1 ) .
    3. Clicca su 'Analisi dei dati' (Figura 2A) nel pannello di intestazione per accedere al 'Analisi casa View', che è anche la schermata di avvio su Galaxy.
      NOTA: L'intestazione ospita anche altri collegamenti i cui dettagli si può vedere facendo passare il puntatore del mouse su di essi. Nell'angolo superiore destro dell'intestazione ha una barra di avanzamento che controlla lo spazio utilizzato per i compiti (Figura 2B).
    4. Cleccare on 'NGS: RNA Analisi' compito nel 'Menu Strumenti' sul pannello di sinistra (Figura 2C) per accedere a tutti gli strumenti necessari per l'analisi dei dati RNA-seq.
      NOTA: il 'Menu Strumenti' cataloga tutte le operazioni che Galaxy offre. Questo menu è diviso sulla base di compiti e cliccando su una qualsiasi aprirà un elenco di tutti gli strumenti necessari per realizzare questo compito.
    5. Crea nuova storia di analisi facendo clic sull'icona dell'ingranaggio nella parte superiore del pannello 'Storia' a destra (Figura 2E). Scegliere 'Crea nuovo' opzione dal menu a comparsa. Dare a questo 'Storia' un nome adatto per identificare l'analisi.
      NOTA: Il pannello 'Storia' mostra tutti i file caricati per l'analisi, così come tutti i file di output generati da esecuzione di attività su Galaxy. Facendo clic su un nome di file in questo pannello si apre una finestra di dialogo con le informazioni dettagliate sul compito svoltoe un frammento del set di dati (Figura 2F). Icone in questo riquadro consentono all'utente di 'vista', 'modificare gli attributi' o 'eliminare' l'insieme di dati (figura 2F, evidenziata in blu). Inoltre, l'utente può anche 'edit' tag set di dati o di annotazione (Figura 2F, evidenziato in viola), 'scaricare dei dati, Visualizza dettagli' del compito, 'rieseguire' il compito o addirittura 'visualizza' il set di dati da questo finestra di dialogo (Figura 2F, evidenziato in rosso).
    6. Fare clic sulla funzione 'Carica file' sotto 'Get Data' nel 'menu Strumenti' per caricare i file FASTQ prime.
      NOTA: Facendo clic su questo o qualsiasi altro strumento apre una breve descrizione del funzionamento, e la prova stessa, nel pannello centrale 'Analysis Interface'. Questo pannello lacci insieme alla'Strumenti' dal pannello a sinistra e il 'file di input' dal pannello di destra 'Storia' (Figura 2E). Qui, i file di input da 'Storia' sono selezionati e altri parametri definiti per eseguire un determinato compito. L'insieme di dati di output risultante da ogni test viene salvato di nuovo in 'Storia'. Incluso con il test nel pannello 'Analysis Interface "sono spiegazioni per tutti i parametri disponibili per l'esecuzione di un determinato strumento insieme ad un elenco dettagliato di tutti i file di output lo strumento genera.
    7. Dopo l'operazione si apre nel 'Analysis Interface', clicca su 'Scegli file locale' o 'Scegli file FTP' (upload più veloce), accedere alla cartella contenente i file di sequenziamento e selezionare il set di dati appropriata per essere caricato.
    8. Lasciare Galaxy al tipo di file caricato (impostazione di default) 'Auto-detect'. Seleziona 'C. elEgans 'nel menu a discesa per il genoma.
    9. Fare clic su 'Start' per avviare il caricamento dei dati. Una volta che il file è stato caricato, verrà salvato nel pannello 'Storia' e si può accedere da lì.
    10. Se i file di dati di sequenziamento multiplo sono prodotte per un singolo campione, combinarle usando lo strumento 'Concatenate'. Per fare questo, aprire l'opzione 'Manipolazione del testo' nel 'Menu Strumenti'.
    11. Fare clic sullo strumento 'Concatenate', scegliere i file che devono essere combinati dalla casella a discesa nel mezzo della 'interfaccia Analysis' e cliccare su 'Esegui'.
      NOTA: I file di output prodotte con questa operazione vengono generati in formato FASTQ. Il programma di mappatura ha un limite di 16.000.000 di sequenze per file FASTQ e quando viene raggiunto tale limite un nuovo file FASTQ viene generato per i restanti sequenze. il '; Strumento Concatenate' è necessaria in questi casi per combinare i dataset.
    12. Convertire i file in formato FASTQ caricati nel formato richiesto per fastqsanger Galaxy analisi di RNA-Seq tramite funzione 'FASTQ toelettatore' trovato sotto il 'NGS: QC e manipolazione' sezione (vedi file supplementare).
    13. Scegliere il set di dati FASTQ appropriata sotto il 'file a Groom' opzione ed eseguire lo strumento utilizzando i parametri di default.
      NOTA: I file di output prodotte con questa operazione vengono generati in formato fastqsanger.
  2. I test fastqsanger Data Quality-Control
    1. Controllare la qualità del fastqsanger caricato legge usando lo strumento 'FastQC' si trova sotto 'NGS: QC e la manipolazione' nel menu 'Strumenti'.
    2. Scegliere il file di dati fastqsanger curato dal menu a discesa per 'Short leggere i dati dalla libreria corrente' ed eseguire lo strumento utilizzando i parametri di default.
      NOTA: Prestare particolare attenzione alla qualità della legge e la presenza di eventuali sequenze di adattatori. Gli adattatori sono solitamente rimossi come parte del post trattamento dei dati RNA-Seq da fornitori di NGS, ma in alcuni casi, possono essere lasciati alle spalle. Per la spiegazione di standard di qualità andare a http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ .
    3. Verificare con il fornitore di NGS e se le schede sono presenti, tagliare utilizzando lo strumento 'Clip' dalle 'NGS: QC e la manipolazione' menu task.
      NOTA: I file di output prodotte con questa operazione vengono generati in formato txt cruda così come in html che può essere aperto su qualsiasi browser web.
  3. Analisi dei dati con Tuxedo Suite
    1. TopHat
      1. Scarica l'ultima versione di fasta genoma di riferimento e file da Carica un file GTF (Gene Transfer Format)' come descritto sopra in 2.2.6.
      2. Aprire il 'NGS: RNA Analisi' sezione e fare clic sullo strumento 'TopHat' per mappare la sequenza si legge al genoma di riferimento scaricato.
      3. Selezionare la risposta appropriata dal menu a discesa alla domanda 'E' questo single-end o dati appaiati-end?'
      4. Scegliere il file FASTQ appropriata.
      5. Seleziona 'Utilizzare un genoma dalla storia' nel prossimo menu a discesa e scegli genoma di riferimento scaricato al passaggio 2.4.1.1.
      6. Seleziona 'Default' per gli altri parametri e fare clic su 'Esegui'.
        NOTA: Tra le file di output prodotti con questo compito, il file 'Hits accettato' viene utilizzato per le fasi successive.
    2. Gemelli e Cuffmerge
      1. Selezionare il 'Cuffstrumento nelle 'link NGS: sezione RNA Analysis' di assemblare le trascrizioni, stimare la loro abbondanza e di test per l'espressione differenziale.
      2. Nel primo menu a discesa, scegliere il file mappati 'colpi accettati (formato BAM)' ottenuti dall'analisi TopHat.
      3. Nel secondo menu a discesa, impostare l'annotazione riferimento al file gtf scaricato al punto 2.4.1.1.
      4. Selezionare 'Sì' per l'opzione 'Eseguire la correzione pregiudizi' ed eseguire l'attività utilizzando le impostazioni predefinite per tutti gli altri parametri.
        NOTA: Tra le file di output prodotti con questo compito, il file 'accettate trascrizioni' viene utilizzato per le fasi successive.
      5. Strumento Open 'Cuffmerge' nei 'NGS: Analisi RNA' per unire le 'trascrizioni assemblato' prodotta per tutti i campioni di RNA-Seq.
        NOTA: La prima casella nello strumento di auto-popola ed elenchi tutte le Gemelli.
      6. Selezionare il file 'assemblato' Trascrizioni per tutti i ceppi / condizioni testate, tra cui repliche biologiche dello stesso ceppo / condizioni (vedi la discussione per repliche biologiche).
      7. Selezionare 'Sì' per 'Usa di riferimento Annotazione' e scegliere il file scaricato nel passaggio gtf 2.4.1.1.
      8. Nella casella qui sotto, di nuovo selezionare 'Sì' per l'opzione 'Usa Sequence Data' e scegliere il file intero genoma fasta scaricato al punto 2.4.1.1.
      9. Mantenere gli altri parametri di default, fare clic su 'Esegui'.
        NOTA: Cuffmerge genera un singolo file di output gtf.
    3. Cuffdiff
      1. Apri lo strumento 'Cuffdiff' nei 'NGS: RNA Analysis' sezione. Nel menu 'trascrizioni', selezionare il file di output unito da Cuffmerge.
      2. Etichettacondizioni 1 e 2 con i nomi due ceppi / condizione.
        NOTA: Cuffdiff in grado di eseguire il confronto tra più di due ceppi o condizioni, nonché esperimenti corso del tempo. Basta usare l'opzione 'Aggiungi nuove condizioni' per aggiungere ogni nuovo ceppi / condizioni, a seconda delle necessità.
      3. Per ogni ceppo / condizione, sotto selezionare file di output 'Hits accettati' da TopHat che corrispondono alle diverse repliche biologiche di tale ceppo / condizione individuale 'replicati. Tenere premuto il tasto 'cmd', se si utilizza un computer Macintosh, e la chiave 'Ctrl', se si utilizza un PC, per selezionare più file.
      4. Lasciare tutte le altre opzioni come parametri di default. Fare clic su 'Esegui' per eseguire l'attività.
        NOTA: Cuffdiff genera numerosi file di output in un formato tabulare, come la lettura finale dell'analisi RNA-Seq. Questi includono i file con il monitoraggio FPKM per trascrizioni, geni (combinatevalori FPKM di trascrizioni che condividono un'identità gene), trascrizioni primarie e sequenze codificanti. Tutti i dati generati possono essere visualizzati su qualsiasi foglio elettronico e contengono attributi simili come nome del gene, locus, piegare cambio (in scala log2) nonché dati statistici sul confronto tra ceppi / condizioni, con un valore p e q valori. I dati in questi file possono essere ordinati in base significatività statistica delle differenze o piegare variazione di espressione genica (entità e la direzione del cambiamento, come in alto o down- geni regolati) e manipolati secondo i requisiti degli utenti. Se è necessaria la conversione tra diversi identificatori di geni (ad esempio, Wormbase ID gene rispetto al numero cosmid), strumenti disponibili su BioMart ( http://www.biomart.org/ ) può essere utilizzato.

3. Gene Ontology (GO) Analisi Termine con David

  1. L'accesso DAVID dal sito web hTTP: //david.ncifcrf.gov/. Fare clic su 'Start Analysis' nell'intestazione della pagina web. In 'Fase 1', copia e incolla l'elenco dei geni ottenuti da Galaxy nella casella di A. In 'Fase 2', selezionare 'Wormbase Gene ID' come l'identificatore per i geni di ingresso.
    NOTA: DAVID riconosce più accessibili al pubblico le categorie di annotazione, in modo che altri identificatori gene (come Entrez ID gene gene) può anche essere usato.
  2. In 'Fase 3', selezionare 'Lista Gene' (geni da analizzare) sotto 'Lista Tipo' e poi cliccare sull'icona 'Invia List'.
    NOTA: 'Analisi guidata', si aprirà per elencare tutti gli strumenti DAVID collegamento ipertestuale che possono essere eseguiti sulla lista gene caricato (Figura 3). Clicca su questi link per accedere a importanti moduli corrispondenti secondo il requisito dell'utente. Per identificare gli strumenti adeguati per un determinato compito, clicca su 'Quali strumenti DAVID da usare? 'Link sulla' ; Pagina Analisi guidata'. Clicca sul link 'Start Analysis' nell'intestazione per tornare alla home page 'Analisi guidata' in qualsiasi momento durante l'analisi.

Figura 3
Figura 3: Struttura della DAVID Analisi guidata pagina web e Esempi di uscite di funzionamento. Interfaccia utente web 'Analisi guidata' sono elencati gli strumenti utilizzati per analizzare la lista gene caricati per l'arricchimento in base a diversi parametri. Cliccando su questi strumenti riporta i dati analizzati in una nuova pagina web. Esempi di report tabulari generati da 'Gene classificazione funzionale', 'Annotazione grafico funzionale' e 'annotazione funzionale Clustering' sono mostrate come gli intarsi laterali (frecce).> Clicca qui per vedere una versione più grande di questa figura.

  1. Funzionale strumento di annotazione 1: annotazione funzionale Clustering
    1. Clicca su modulo 'funzionale annotazione Clustering' per andare alla pagina di riepilogo. Mantenere le categorie di annotazione predefinite e fare clic su 'annotazione Clustering Funzionale' per generare gruppi di termini di annotazione simili ordinati per il loro punteggio di arricchimento.
    2. Fare clic sul nome con collegamento ipertestuale di ogni termine di leggere i dettagli su di esso e 'RT' (termini relativi) per elencare altri termini simili relativi alla categoria.
    3. Fare clic sulla barra viola per elencare i geni associati con un termine e il rosso 'G' per elencare tutti i geni associati con tutti i termini all'interno di un cluster.
    4. Clicca sull'icona verde per vedere una visione bidimensionale di tutti i geni e le condizioni di un cluster.
      NOTA: elencare le ultime tre colonne dei risultati analitici e statistici per ognitermine. I risultati di questo e tutti gli altri di analisi possono essere scaricati in un formato .txt cliccando sul link 'Scaricare File'.
  2. Funzionale strumento di annotazione 2: funzionale Annotazione grafico
    1. Ritorna alla pagina di riepilogo e fare clic su 'Annotazione grafico funzionale' per identificare i termini biologici significativamente sovrarappresentati (ad esempio, la trascrizione di attività del fattore o attività chinasi) associati con l'elenco dei geni.
    2. Clicca sul nome del termine per ottenere informazioni più dettagliate e 'RT' (termini relativi) per elencare altri termini correlati.
    3. Fare clic sulla barra viola per elencare tutti i geni associati corrispondente categoria individuale.
      NOTA: elencano Le ultime due colonne risultati della statistica-test per ogni categoria.
  3. Funzionale strumento di annotazione 3: funzionale Tabella annotazione
    1. Ritorna alla pagina di riepilogo e fare clic su 'Functional Tabella annotazione 'per visualizzare un elenco di tutte le annotazioni associate con i geni in un elenco senza calcoli statistici.
      Nota: questo strumento può essere utile per l'analisi del gene-by-gene di una lista o di guardare specifici, geni molto interessanti.
  4. Gene strumento di classificazione funzionale
    1. Torna a 'Analisi guidata' e cliccare su modulo 'Gene Classificazione funzionale' per separare l'elenco gene di ingresso in gruppi funzionalmente correlati di geni ordinati secondo il loro 'Score arricchimento', una misura di arricchimento complessivo del gruppo gene nella lista.
    2. Clicca sul nome del termine per ottenere informazioni più dettagliate e 'RG' per rivelare geni funzionalmente correlate del gruppo gene
    3. Fare clic sul rosso 'T' (relazioni termine) per elencare biologia associati e l'icona verde per vedere una visione bidimensionale di tutti i geni e le condizioni.
  5. Gene-nomeBatch Viewer
    1. Torna a 'Analisi guidata' e cliccare su 'Gene nome-Batch Viewer' di tradurre 'Wormbase Gene ID' nei loro nomi gene corrispondente. (WBGene00022855 = tCER-1).
    2. Clicca sul nome del gene per ottenere ulteriori informazioni specifiche del gene.
    3. Clicca sul 'RG' (geni correlati) accanto a ciascun gene per rivelare i geni previsto per essere funzionalmente correlato al gene di interesse.

4. Caricamento dei dati RAW sul NCBI sequenza Leggi Archive (SRA)

  1. Accedere alla pagina web SRA a Accedi al collegamento NCBI' o registrare un nuovo account.
  2. Clicca su 'Bioproject'.
  3. Clicca su 'Submission' sotto la 'Utilizzando Bioproject' intestazione a sinistra.
  4. Selezionare l'opzione 'Nuovo Submission'. Aggiornare i dettagli del mittente. Continuare attraverso i rimanenti sette schede, Compilando i dettagli dell'esperimento e dei dati caricato. Fare clic su 'Invia' una volta completato.
    NOTA: Nella scheda quinta 'Biosample', lasciare lo slot per 'Biosample' vuota.
  5. Aggiornare la pagina risultante cliccando sul link 'My Submissions'. I dati forniti saranno elencati con un numero di presentazione assegnato, breve descrizione e lo stato di caricamento.
  6. Clicca su 'Biosample' nella parte superiore della pagina, nella casella 'iniziare una nuova sottomissione' e creare una 'nuova presentazione'. Invia osservazioni separate per ogni campione.
  7. Come nel caso con 'Bioproject' in 4.4, aggiornare i dati del mittente e continuare per il resto delle schede compilando i dettagli di ogni scheda. Una volta completata la revisione e cliccare su 'Invia'.
  8. Passare a http: //www.ncbi.nlm.nih.gov / SRA per creare il 'Sequence Leggi Archive (SRA)' presentazione finale.
  9. Clicca su 'Accesso per SRA' sotto 'Getting Started'.
  10. Nella pagina successiva cliccare sul link 'NCBI PDA'. Un link 'Aggiornamento Preferenze' si aprirà. Compila il modulo e fare clic su 'Salva preferenze'.
  11. Nella pagina visualizzata, cliccare sul link 'Crea nuovo Submission'. Inserire un nome adatto sotto 'Alias' e cliccare su 'Salva'. Verrà creata una tabella con l'ID di presentazione e altri dettagli.
  12. Clicca su 'nuovo esperimento' e registrarsi almeno una libreria sequenziamento unico per ogni 'bio-campione'.
  13. Designare e collegare il creato in precedenza 'Bioproject' e 'bio-campione' identità di presentazione di. Verrà creato un 'nuovo esperimento'.
  14. Clicca su 'Nuovo Run' in fondo alla paginadopo l'esperimento SRA è stato fatto e di individuare i file di dati che devono essere ad esso collegato.
  15. Calcolare la somma MD5 di ogni file di dati. Per fare questo su un terminale MacIntosh, passare a Applicazioni / Utility / Terminale. Nel terminale, digitare 'md5' (senza virgolette) seguito da uno spazio. Trascinare e rilasciare i file che devono essere caricati nel terminale dal Finder e fare clic su 'Invio'.
  16. Terminal restituirà una somma MD5 alfanumerico. Inserisci questo come parte del processo di presentazione per il caricamento di file. Utilizzare il nome utente e la password forniti dal sistema per caricare i file tramite FTP.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

In C. elegans, eliminazione delle cellule staminali germinali (GSC) si estende durata, aumenta lo stress resilienza, ed eleva il grasso corporeo 24, 28. Perdita di GSCs, sia causata da laser ablazione o da mutazioni come GLP-1, provoca estensione durata attraverso l'attivazione di una rete di fattori di trascrizione 29. Uno di questi fattori, tCER-1, codifica l'omologo verme della trascrizione allungamento e splicing fattore umano, TCERG1 30. I seguenti risultati rappresentativi illustrano come RNA-Seq è stato utilizzato per identificare i geni la cui espressione è modulata da tCER-1 / TCERG1 in seguito alla perdita della linea germinale nel nostro studio pubblicato di recente 31. I trascrittoma di pari età, giorno 2 adulti di GLP-1 e tCER-1; GLP-1 mutanti sono stati confrontati. Per ogni ceppo, mRNA è stato isolato da due replica biologicaTES (quattro campioni totalmente) usando il protocollo descritto nella sezione 1. I campioni di RNA sono stati inviati ad un fornitore di servizi commerciale che librerie di cDNA preparata dai quattro campioni ed eseguito 50 bp singola sequenza finale. I dati grezzi NGS è stato scaricato come descritto nella sezione 2.1.

Messaggio valutazione dei dati di sequenziamento

Tabella 1 è una raccolta dei risultati dei test per valutare la qualità del sequenziamento cruda legge. Analisi controllo qualità 'FASTQ' evidenzia il numero di sequenze di lettura senza 'scarsa qualità' legge insieme al contenuto GC 48-49% e una sequenza costante lettura lunghezza di 51 bp. Questo passaggio controlla anche i dati di sequenziamento per molte altre caratteristiche come il contenuto Kmer ed è fatta collettivamente da 11 test in totale. Il C. elegans genoma è ~ 100 Mbp. In base al numero di sequenziamento legge da ogni campione che mappato il genoma, il gcopertura enome (ultima colonna) è stata stimata usando l'equazione Lander / Waterman 'C = LN / G', in cui, C sta per copertura, G è la lunghezza del genoma aploide, L è la lunghezza di lettura e N è il numero di letture. Abbiamo utilizzato parametri di default per tutti i passaggi e ottenuto 48-49% contenuto di GC in tutti i campioni. Come si può vedere, la copertura del genoma è stato tra 9x a 11x nei campioni.

Identificazione di tCER-1 / Genes TCERG-1-regolato da Gene Expression differenziale Analisi su Galaxy

Attraverso i passaggi descritti nelle sezioni da 2.2 a 2.4, il Galaxy conduttura 3 è stato usato per ottenere un elenco di geni differenzialmente espressi tra GLP-1 e tCER-1, GLP-1 mutanti. Galaxy ci ha consentito di combinare i dati NGS dai due repliche per ogni ceppo ed eseguito analisi differenziale per generare file tabulari evidenziando l'ampia espressione genoma proFile. Tramite una soglia di cambiamento almeno una volte in grandezza e il valore P di almeno 0,05, un elenco di 835 geni che erano differenzialmente espressi tra i due ceppi è stata generata 31. La lista è stata divisa in base a se l'espressione dei geni è stata down-regolato in tCER-1; GLP-1 mutanti (359 UP geni la cui trascrizione è probabile arricchito da tCER-1 / TCERG1) o fino regolate (476 geni GIÙ cui trascrizione è probabile repressa da tCER-1 / TCERG1) rispetto a GLP-1 (figura 4).

Figura 4
Figura 4: Identificazione di geni tCER-1 / TCERG1 regolati in Germline-meno C. elegans Mutanti utilizzando RNA-Seq: Risultati di Galaxy (A) e David (B) Analisi. (A) gene differenziale analisi dell'espressione dei dati RNA-Seq a confrontole trascrittomi di GLP-1 e tCER-1, GLP-1 ha prodotto un totale di 835 geni, di cui 359 sono stati riconosciuti come up-regolati da tCER-1 / TCERG1 (UP) e 476 come down-regolato da tCER-1 / TCERG1 (DOWN). (B) I risultati dell'analisi 'funzionale Annotazione Clustering' dei geni identificati come tCER-1 / TCERG1 obiettivi con David. Percentuale arricchimento dei processi biologici sia per i up-regolati (UP) e down-regolato (giù) Classi di tCER-1 / TCERG1 obiettivi. Il grafico mostrato qui viene ottenuta riportando i gruppi di geni arricchiti (asse X) e la loro rispettiva percentuale di arricchimento (asse Y) ottenuta come uscita di analisi DAVID. Figura modificata da Amrit et al. 31 e riprodotto con permesso. Si prega di cliccare qui per vedere una versione più grande di questa figura.

Per ottenere una panoramica delle classi di geni arricchito in obiettivi tCER-1 / TCERG1, abbiamo effettuato analisi Gene Ontology (GO) termine con David. Il tCER-1 / TCERG1-regolato UP e liste di geni GIÙ sono stati caricati in modo indipendente in David e analizzata come descritto nella sezione 3. Si sapeva poco sui geni e processi cellulari bersaglio da tCER-1 / TCERG1 precedenza 30, quindi abbiamo trovato il DAVID analisi di essere particolarmente rivelatrice e disponibile. Analisi annotazione funzionale dei geni UP rivelato cinque cluster annotazione con un punteggio di arricchimento> 1.3, la più alta tra cui citocromo P450 geni codificanti enzimi e geni di risposta xenobiotici, seguita da geni implicati nella modificazioni lipidiche. Questo è stato rafforzato dai risultati del gene analisi classificazione funzionale che hanno identificato gruppi attribuiti con molecola simileLe attività di R con significative punteggi di arricchimento. Utilizzando foglio, i gruppi identificati sono stati tracciati sulle loro rispettive colonne di arricchimento (Figura 4). I nostri dati precedenti suggerito che tCER-1 / TCERG1 ha funzionato con il fattore di longevità di trascrizione conservato, DAF-16 / FOXO3A, per promuovere la longevità di GSC-meno adulti 30. DAF-16 / FOXO3A, a sua volta, è stata implicata nella modulazione del metabolismo lipidico in recenti studi 27, 32, 33. Sulla base di questa evidenza, e l'identificazione di geni e vie lipidi metabolica come potenziali tCER-1 / TCERG1 obiettivi nel DAVID analisi, ci siamo concentrati sui geni del metabolismo dei grassi identificati nello studio RNA-Seq per gli studi meccanicistici dettagliati. Seguendo questa, e attraverso la successiva sperimentazione genetica, biochimica e funzionale molecolare, abbiamo dimostrato che tCER-1 / TCERG1 insieme DAF-16 / FOXO3A coordinatamente enhanced sia catabolico lipidico e processi anabolici in risposta alla perdita di linea germinale 31. Analogamente, annotazione funzionale Clustering del GIÙ tCER-1 / TCERG1 obiettivi individuati cluster annotazione arricchito da funzioni del citoscheletro, regolazione positiva di crescita, la riproduzione e l'invecchiamento (Figura 4). Queste osservazioni, e le nostre sostegno evidenze sperimentali suggeriscono che in caso di perdita linea germinale, tCER-1 / TCERG1 reprime anche la crescita e fisiologia riproduttiva in cellule somatiche nonché l'espressione di geni anti-longevità 31.

Campione Sequenze totali Lunghezza GC% Total Reads (Galaxy) Mappato Letture (Galaxy) Copertura Genome
GLP-1 4000000 51 49 20700539 ~ 16.000.000 11x
GLP-1; tCER-1 4000000 51 49 18055444 ~ 13.000.000 9x
GLP-1 4000000 51 48 18947463 ~ 14.000.000 10x
GLP-1; tCER-1 4000000 51 48 13829643 ~ 10.000.000 7x

Tabella 1: RNA-Seq Sample Dettagli. Compilazione di attributi di dati grezzi valutato post-sequenziamento per confermare il successo della corsa di sequenziamento. Dati di sequenziamento dal esperimento rappresentativo è costituito da due condizioni biologiche, un ceppo di controllo (GLP-1 (tCER-1, GLP-1) con due repliche biologiche sequenziati per ciascuno. Analisi controllo di qualità 'FastQC' mette in evidenza il numero di sequenze di leggere senza "scarsa qualità", si legge, 48 - contenuto di GC 49% e una sequenza di lettura lunghezza costante di 51bp. Modificato e riprodotto con il permesso di Amrit et al. 31.

File supplementare: la catena di comando in breve per gli strumenti di correre sul gasdotto Galaxy per l'analisi dei dati di RNA-Seq. Cliccate qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Significato della Sequencing Platform Galaxy in Biologia moderna

Il progetto Galaxy è diventato determinante per aiutare i biologi senza l'addestramento bioinformatica per elaborare e analizzare high-throughput di dati di sequenziamento in maniera veloce ed efficiente. Una volta considerato un compito erculeo, questa piattaforma pubblicamente disponibile ha fatto in esecuzione di algoritmi di bioinformatica complessi per analizzare i dati NGS un processo semplice, affidabile e facile. Oltre a ospitare una vasta gamma di strumenti di bioinformatica, la chiave del successo per Galaxy è anche la semplicità della sua interfaccia utente che allaccia insieme i vari aspetti di analisi di sequenziamento complesso in modo intuitivo e senza soluzione di continuità. Grazie a queste caratteristiche, la pipeline Galaxy ha acquisito uso largo tra biologi, tra cui C. elegans ricercatori. Oltre a familiarizzare l'utente con il gasdotto Analisi RNA-Seq, Galaxy aiuta anche a gettare le basi per i biologi di base per cogliere laconcetto di analisi dei dati e capire gli strumenti coinvolti. Questa conoscenza innesca l'utente di perseguire forse più piattaforme bioinformatiche più complessi come 'R' e 'Python'. Oltre Galaxy, altri strumenti e pacchetti sono disponibili in commercio e, come soluzioni open-source, che possono essere utilizzati per l'analisi di RNA-Seq. Le opzioni commerciali spesso sono pacchetti software che sono user-friendly, ma può essere costoso per i singoli ricercatori che non usano NGS spesso stand-alone. In alternativa, piattaforme open source come BioWadrobe 34 e 35 ArrayExpressHTS richiedono conoscenza della riga di comando e script in esecuzione, che pone sfide significative per non bioinformatici. Quindi, Galaxy rimane una risorsa popolare e indispensabile.

Passaggi critici all'interno del protocollo

I vantaggi sforzo di Galaxy e David nonostante, un riuscito esperimento di RNA-Seq ancorasi basa fondamentalmente su un'attenta progettazione e l'esecuzione della fase sperimentale. Ad esempio, è fondamentale per garantire omogeneità genetica prima di confrontare due ceppi da RNA-Seq, e per determinare se esistono differenze nei tassi di sviluppo. Isolare RNA da ceppi di pari età è critica pure. Analogamente, per tenere conto della variabilità dell'espressione genica all'interno dello stesso ceppo, è importante eseguire due o più 'repliche biologiche' di ciascun ceppo. Ciò significa essenzialmente coltivazione e vermi raccolta dei ceppi essendo sequenziato in esperimenti almeno twoindependent, anche se tre repliche biologiche è lo standard raccomandata. Galaxy unifica i dati da più repliche biologiche in modo che le differenze di espressione genica riportate tra ceppi non sono semplicemente una conseguenza della variabilità 'all'interno-campione'.

Una decisione di progettazione critico è circa l'uso di single-end contro abbinato-end di sequenziamento. Consequenziamento single-end, ogni frammento viene sequenziato unidirezionale in modo che il processo è più veloce, più economico e adatto per profilatura trascrizionale. In sequenziamento accoppiato-end, una volta che il frammento viene sequenza da un'estremità all'altra, una seconda fase di sequenziamento viene ripreso nella direzione opposta. Esso fornisce più dati approfonditi e informazioni aggiuntive posizionamento del genoma, quindi è più adatto per de novo assemblaggio del genoma, nuova identificazione SNP e per identificare epigenetici modifiche, delezioni, inserzioni, inversioni e. Analogamente, il numero totale di letture e l'estensione della copertura genoma richiesto per studi di espressione adeguati differenziali è dipendente dal contesto. Per i piccoli genomi, come batteri e funghi, ~ 5 milioni di letture è sufficiente, considerando che, nei vermi e mosche ~ 10 milioni di letture fornire una copertura adeguata. Per gli organismi con grandi genomi, come topi e nell'uomo, 15-25.000.000 legge è la gamma desiderata. Inoltre, per il numero di lettura e la copertura, è anche important che la maggior parte della NGS legge allineare al genoma di riferimento. Un allineamento di <70% legge è indicativo di NGS poveri o la presenza di contaminanti. Nel complesso, per C. elegans studi di RNA-Seq, tre repliche biologiche in sequenza con 50 bp sequenziamento unidirezionale traduce in ~ 10-15 milioni di letture e ~ 5-10x la copertura del genoma per ogni campione è un obiettivo ideale.

Nonostante la facilità di utilizzo di Galaxy, ci sono alcuni punti da ricordare, al fine di garantire un'esperienza di analisi dei dati liscia e senza intoppi. È necessario che l'utente abbia una conoscenza di base dello scopo e funzionamento dei vari strumenti utilizzati. Ogni strumento Galaxy richiede la selezione di parametri e comprendere lo strumento aiuterà l'utente a ottimizzare le impostazioni sulla base dei requisiti di questo esperimento. Le pagine di aiuto Galaxy spiegano tutti i parametri e si raccomanda che l'utente sfogliare questi dettagli a decidere sulle variabili di prova.

Il p lista gene ottenutoost analisi RNA-Seq è semplicemente una lista di geni finché viene estratto per dati biologicamente rilevanti con David. Questo è un esercizio fondamentale che converte i dati a base genetica individuale in risultati basati biologico-processo. Esplorare l'elenco gene RNA-Seq utilizzando le varie analisi DAVID fornisce quindi una parte integrante ed importante del protocollo.

Modifiche, risoluzione di problemi e limitazioni

Un problema comune con l'analisi dei dati NGS è compiti o test che falliscono, particolarmente nelle fasi di controllo della qualità. Tra i test che FastQC viene eseguito su un campione, pochi potevano venire come non riuscita. Tuttavia, questo non necessariamente significa che il campione non soddisfa gli standard di qualità FASTQ. Il fallimento potrebbe avere una spiegazione alternativa che dovrebbe essere esplorato con attenzione.

Ad esempio, se il test 'Per contenuto sequenza di basi' fallisce (suggerendo che v'è una differenza maggiore del 10% trabasi in qualsiasi posizione), controllare il metodo per la preparazione biblioteca oligodT. Precedenti studi hanno dimostrato che le biblioteche Illumina NGS possono avere una propensione per il 13 ° base essendo sequenziato avere una polarizzazione per determinate basi causando il campione a fallire il test. Similmente, un guasto del test 'contenuto Kmer' volte può essere attribuito al fatto che le biblioteche derivati da innesco casuale saranno quasi sempre mostra Kmer polarizzazione all'inizio a causa di un campionamento incompleta dei primer casuali. Pertanto, è importante prendere in considerazione questi e altri impedimenti in cantiere analisi prima di determinare il destino dell'esperimento.

Un'altra caratteristica importante che può influenzare l'analisi dei dati RNA-Seq è progressi rapida ed esponenziale che si verificano nei metodi NGS e software analitico. Idealmente, ci si aspetta un elenco gene identico al risultato da analisi di un campione di dati NGS su due condutture o due versioni dello stesso tubolinea. Tuttavia, mentre algoritmi sempre migliori sono abbassando aberrazioni nell'analisi RNA-Seq e producendo liste di geni di una maggiore precisione, questo spesso porta a disparità. Per esempio, l'analisi di un campione di dati NGS utilizza una versione precedente rispetto a versione più recente dello stesso set di strumenti può produrre significativamente differenti liste di geni. Una variazione modesta si aspetta, ma gli utenti devono essere consapevoli del fatto che le grandi discrepanze possono essere riflessivi di deficienze nella concezione o le prestazioni di questo esperimento.

Collettivamente, gli strumenti analitici Galaxy progetto e David hanno trasformato il modo in cui i dati NGS possono essere sfruttate per estrarre le informazioni biologicamente rilevanti. Questo ha aperto completamente nuovi livelli di indipendenza e di indagine per la comunità scientifica, tra cui C. elegans ricercatori. Ad esempio, il costo costante riduzione del sequenziamento accoppiato con una migliore e più veloce tecnologia di sequenziamento sono inaugurando un'epoca di trascrittomica a livello delle singole vermi,singoli tessuti vite senza fine e anche alcuni Selezionare le celle a vite senza fine. Questi sforzi implicano forti aumenti dei dati NGS generati. Tenere il passo con la fine analitica di questo flusso di lavoro sarà una sfida, ma grazie alla sua versatilità, Galaxy è probabile che sia strumentale che abilita la transizione da trascrittomica tutto l'organismo di RNA-Seq a livello di singola cellula in C. elegans. I progressi nella conoscenza risultanti sono suscettibili di fornire straordinarie intuizioni in biologia fondamentale.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Gli autori desiderano esprimere la loro gratitudine ai laboratori, gruppi e gli individui che hanno sviluppato Galaxy e David, e quindi fatte NGS ampiamente accessibile per la comunità scientifica. L'aiuto e consulenza fornita dai colleghi presso l'Università di Pittsburgh durante il nostro allenamento bioinformatica è riconosciuto. Questo lavoro è stato supportato da un Ellison Medical Foundation di New Scholar in Aging premio (AG-NS-0879-12) e di una sovvenzione da parte del National Institutes of Health (R01AG051659) per AG.

Materials

Name Company Catalog Number Comments
RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

DOWNLOAD MATERIALS LIST

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291, (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409, (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44, (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25, (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28, (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12, (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27, (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7, (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31, (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4, (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15, (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9, (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13, (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21, (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37, (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6, (5), e20085 (2011).
  18. Consortium, C. eS. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282, (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20, (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, Web Server issue W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21, (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68, (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399, (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285, (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21, (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10, (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51, (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5, (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12, (2), e1005788 (2016).
  32. Wang, M. C., O'Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322, (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans' lifespan in response to reproductive signals. Aging Cell. 11, (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27, (6), 867-869 (2011).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics