Genetics

Utilizzare risorse CyVerse per Published: May 9, 2017 doi: 10.3791/55009

DOI

Automatic Translation

English (Original)
العربية (Arabic)
中文 (Chinese)
dansk (Danish)
Nederlands (Dutch)
français (French)
Deutsch (German)
עברית (Hebrew)
हिंदी (Hindi)
italiano (Italian)
日本語 (Japanese)
한국어 (Korean)
norsk (Norwegian)
português (Portugese)
русский (Russian)
español (Spanish)
svenska (Swedish)
Türkçe (Turkish)

Blake L. Joyce^1,2, Asher K. Haug-Baltzell³, Jonathan P. Hulvey⁴, Fiona McCarthy⁵, Upendra Kumar Devisetty^1,6, Eric Lyons^1,2,3

¹BIO5 Institute, University of Arizona, ²The School of Plant Sciences, University of Arizona, ³Genetics GIDP, University of Arizona, ⁴Biology Department, University of Massachusetts Amherst, ⁵School of Animal and Comparative Biomedical Sciences, University of Arizona, ⁶CyVerse, University of Arizona

Abstract

Questo flusso di lavoro consente ai ricercatori novizi di sfruttare risorse avanzate di calcolo come il cloud computing per eseguire trascrizioni comparative parallele. Serve anche come primer per i biologi per sviluppare competenze informatiche di dati scientifici, ad esempio eseguendo comandi bash, visualizzazione e gestione di grandi set di dati. Tutti i codici di riga di comando e ulteriori spiegazioni di ciascun comando o passaggio possono essere trovati nella wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Le piattaforme Discovery Environment e Atmosphere sono collegate insieme tramite CyVerse Data Store. In quanto tale, una volta caricati i dati iniziali di sequenziamento non è più necessario trasferire file di dati di grandi dimensioni su una connessione a Internet, riducendo al minimo il tempo necessario per condurre analisi. Questo protocollo è progettato per analizzare solo due trattamenti sperimentali o condizioni. L'analisi differenziale di espressione genica è condotta in thrO confronti a coppia e non sarà adatto per testare più fattori. Questo flusso di lavoro è anche progettato per essere manuale piuttosto che automatizzato. Ogni passo deve essere eseguito e indagato dall'utente, fornendo una migliore comprensione dei dati e delle uscite analitiche e quindi migliori risultati per l'utente. Una volta completata, questo protocollo produrrà de novo transcriptomi assemblati per organismi non dimostrati (senza modello) senza la necessità di mappare i genomi di riferimento precedentemente assemblati (che di solito non sono disponibili in organismi non utilizzati). Questi de novo transcriptomi sono ulteriormente usati in analisi espressione differenziale a coppia in coppia per indagare i geni che differiscono tra due condizioni sperimentali. I geni espressi in modo differenziato vengono quindi annotati funzionalmente per comprendere che gli organismi di risposta genetica devono trovarsi in condizioni sperimentali. In totale, i dati derivanti da questo protocollo vengono utilizzati per testare ipotesi sulle risposte biologiche degli organismi sottoperti.

Introduction

Homo sapiens e diverse specie animali come Drosophila melanogaster , mus musculus e Danio rerio rappresentano la maggior parte del lavoro genomico funzionale e attuale. Tuttavia, il costo in rapida diminuzione della tecnologia di sequenziamento ad alto rendimento offre opportunità per la genomica funzionale in specie animali non modellate (a volte "trascurate" o "non servite") ¹ . Si tratta di una transizione importante nella genomica, in quanto gli organismi non-modelli rappresentano spesso rappresentativi di specie economicamente rilevanti ( es. Ostriche, gamberetti e granchi) e offrono opportunità per indagare nuovi fenotipi e sistemi biologici al di fuori di quelli che si trovano nelle specie di modello.

Sebbene gli organismi sottoelencati presentino un'attrattiva opportunità per indagare sistemi biologici unici, molteplici sfide affrontano i ricercatori soprattutto durante l'analisi bioinformatica. Alcuni deiSe le sfide sono innatili per l'elaborazione di grandi set di dati, mentre altri derivano dalla mancanza di risorse genetiche a disposizione dei ricercatori che lavorano in organismi sottoelencati come un genoma di riferimento, organismi specifiche ontologie, ecc. Le sfide dell'isolamento e del sequenziamento dell'acido nucleico sono spesso in routine Confronto con quelli dell'analisi dei dati e come tali analisi bioinformatiche si dimostrano generalmente il costo più sottovalutato dei progetti di sequenziamento ² . Ad esempio, un'analisi base di bioinformatica di sequenziamento di nuova generazione potrebbe consistere nelle seguenti fasi: filtraggio e taglio di qualità di letture di sequenze crude, assemblaggio di brevi letture in più grandi parti contigue, annotazioni e / o confronti con altri sistemi per ottenere una comprensione biologica. Anche se apparentemente semplice, questo flusso di lavoro di esempio richiede conoscenze specialistiche e risorse di calcolo al di là di un computer di laboratorio, mettendolo fuori dalla portata di molti scienziati che studiano non-Organismi del modello.

Le sfide innate possono essere infrastrutture o basate sulla conoscenza. Una sfida classica dell'infrastruttura è l'accesso a risorse informatiche adeguate. Ad esempio, l'assemblaggio e l'annotazione si basano su algoritmi computazionali che richiedono computer o cluster di computer potenti, con grande quantità di RAM (256 GB-1 TB) e diversi processori / core da eseguire. Purtroppo, molti ricercatori non hanno accesso a tali risorse di calcolo né dispongono delle conoscenze necessarie per interagire con questi sistemi. Altri ricercatori potrebbero avere accesso a cluster di calcolo ad alte prestazioni attraverso le loro università o istituzioni, ma l'accesso a queste risorse potrebbe essere limitato e talvolta si verifica un costo per ora di calcolo, vale a dire il numero di processori di CPU moltiplicati per il numero di orologio in tempo reale Ore "che questi processori sono in esecuzione. Sfruttamento di un sistema di cyberinfrastructure finanziato dalla US National Science FoundationIn quanto CyVerse ³ che fornisce l'accesso libero alle risorse di calcolo per i ricercatori, negli Stati Uniti e in tutto il mondo, può contribuire ad alleviare le sfide infrastrutturali, come verrà dimostrato qui.

Un esempio di una tipica sfida basata sulla conoscenza è comprendere il software necessario per analisi complete. Per condurre in modo efficace un progetto basato su sequenziamento, i ricercatori devono conoscere la miriade di strumenti software sviluppati per analisi bioinformatiche. Imparare ogni pacchetto è di per sé difficile, ma è esacerbato dal fatto che i pacchetti vengono costantemente aggiornati, riesaminati, messi in nuovi flussi di lavoro e, talvolta, diventati restrittivi per essere utilizzati in nuove licenze. Inoltre, collegare gli ingressi e le uscite di questi strumenti a volte richiede la trasformazione di tipi di dati per renderli compatibili, aggiungendo un altro strumento al flusso di lavoro. Infine, è anche difficile sapere quale pacchetto software è 'thE meglio per un'analisi e spesso identificare il miglior software per determinate condizioni sperimentali è una questione di sottili differenze. In alcuni casi, sono disponibili revisioni utili del software, ma a causa del continuo rilascio di nuovi aggiornamenti e opzioni software, questi rapidamente vanno fuori data.

Per i ricercatori che indagano sugli organismi sottomessi, queste sfide innate entrano in aggiunta alle sfide associate all'analisi dei dati in un nuovo organismo. Queste sfide specifiche per l'organizzazione non sono meglio illustrate durante l'annotazione genica. Ad esempio, gli organismi sottomessi spesso non hanno un organismo modello strettamente correlato che possa essere ragionevolmente usato per identificare l'ortologia e la funzione genetica ( ad es. Invertebrati marini e Drosophila ). Molti strumenti bioinformati richiedono anche "formazione" per identificare motivi strutturali, che possono essere utilizzati per identificare la funzione genica. Tuttavia, i dati formativi sono solitamente disponibili solo per il modEl organismi e la formazione dei modelli nascosti di Markov (HMMs) è al di fuori della competenza di biologi e persino di molti bioinformaticiani. Infine, anche se le annotazioni possono essere eseguite usando dati provenienti dagli organismi modello, alcune ontologie gene associate agli organismi del modello non hanno senso quando si considera la biologia e la storia naturale dell'organismo sottoelencato ( ad esempio , trasferire le informazioni da Drosophila a gamberi).

Alla luce di queste sfide, è necessario sviluppare risorse bioinformatiche con i ricercatori che effettuano analisi de novo su specifici organismi specializzati. I prossimi anni di progetti di sequenziamento delle funzionalità genomiche contribuiranno a chiudere il divario tra modelli e organismi insufficienti ( https://genome10k.soe.ucsc.edu/ ), ma ci sono molti strumenti che dovranno essere sviluppati per affrontare le sfide Considerato sopra. CyVerse è dedicato alla creazione di ecosistemi di iNteroperability collegando la cyberinfrastructure esistente e le applicazioni di terze parti per fornire la gestione dei dati, strumenti di analisi bioinformatica e visualizzazioni dei dati agli scienziati di vita. L'interoperabilità aiuta a lisciare le transizioni tra applicazioni bioinformatiche e piattaforme fornendo risorse di calcolo scalabili e limitando le conversioni del formato di file e la quantità di dati trasferiti tra le piattaforme. CyVerse offre diverse piattaforme, tra cui l'ambiente Discovery (DE ⁴ , Atmosphere ⁵ e Data Store ^3. Il DE è basato sul web e dispone di molti comuni strumenti analitici per la bioinformatica che vengono convertiti in formati di punta e clic ("apps" ") E rappresenta l'interfaccia grafica (GUI) grafica per il Data Store in cui vengono memorizzati e gestiti i dati di grandi dimensioni ( cioè letture di sequenze e genomi assemblati). Atmosphere è un servizio di cloud computing che offre ai ricercatori maggiore flessibilitàUtilizzando risorse computerizzate di Virtual Machine, che dispongono di una vasta gamma di strumenti bioinformatici preinstallati. Entrambe queste piattaforme sono collegate all'archivio dati e possono essere utilizzate insieme per creare flussi di lavoro come quelli qui descritti. Questo rapporto si concentra su un gruppo di transcriptomi de novo e flussi di lavoro di analisi differenziali di espressione genica e si occupa inoltre di alcune pratiche migliori associate allo sviluppo e alla conduzione di analisi bioinformatiche. Una spiegazione della più ampia missione di CyVerse ( http://www.cyverse.org/about ) e delle descrizioni dettagliate delle piattaforme ( http://www.cyverse.org/learning-center ) sono pubblicamente disponibili. Tutte le analisi qui descritte utilizzano Discovery Environment ⁴ (DE) e Atmosphere ⁵ e vengono presentati in modo da renderli accessibili ai ricercatori di tutti i livelli computazionali. DE flussi di lavoro e AtmosfLe immagini possono essere citate direttamente utilizzando gli URL per garantire la provenienza, la riutilizzabilità e la riproducibilità a lungo termine.

Protocol

NOTA: Il protocollo globale è stato numerato in base alle cartelle che verranno create e nominate al punto 1.2 ( Figura 1 e 2 ). Questo protocollo rappresenta un'analisi comparativa standard di transcriptome de novo e ogni passo dettagliato qui può non essere necessario per tutti i ricercatori. Questo flusso di lavoro è documentato in modo approfondito su un wiki di tutorial companion, che contiene anche tutti i file aggiuntivi e link a documenti di interesse degli sviluppatori di tre partiti per ogni pacchetto di analisi ( tabella 1 ). I collegamenti a questo materiale saranno inclusi in tutto questo protocollo per un accesso più facile a queste informazioni. Le migliori pratiche sono le note fornite agli utenti come suggerimenti per il modo migliore per svolgere attività o per gli utenti da considerare e verranno comunicati tramite le note del protocollo. Una cartella di esempio di input di dati e di output analitico è pubblicamente disponibile per gli utenti ed è organizzata come suggerito nel protocollo ( de novo

1. Impostare il progetto, caricare le sequenze di sequenza raw e valutare le letture usando FastQC

Ottenere l'accesso all'atmosfera e all'ambiente di scoperta.
1. Richiedi un account gratuito CyVerse navigando alla pagina di registrazione ( ad es. Person@institution.edu).
2. Compila le informazioni richieste e invia.
3. Passare alla pagina principale (http://www.cyverse.org/) e selezionare "Accedi" nella barra degli strumenti superiore. Seleziona "Cyverse Login" e accedi utilizzando le credenziali CyVerse.
4. Passare alla scheda Apps & Services e richiedere l'accesso a Atmosphere. L'accesso all'Area Discovery viene automaticamente concesso.
Impostare il progetto e spostare i dati nel Data Store.
1. Accedere all'ambiente di scoperta (https://de.iplantcollaborative.org/de). Selezionare la scheda "Dati" per visualizzare un menu contenente tutte le cartelle del Data Store. Creare una cartella di progetto principale che ospita tutti i dati associati al progetto. Trovate la barra degli strumenti nella parte superiore della finestra dati e selezionate File | Nuova cartella. Non utilizzare spazi o caratteri speciali nei nomi delle cartelle o in tutti i nomi di file di input / output, ad esempio "! @ # () [] {}:; $% ^ & *." Utilizza invece sottolineature o trattini, ad esempio "_" o "-" se necessario.
2. Crea cinque cartelle all'interno della cartella principale del progetto per organizzare le analisi ( Figura 1 ) Nome le cartelle come segue senza virgole o virgolette: "1_Raw_Sequence", "2_High_Quality_Sequence", "3_Assembly", "4_Differential_Expression", "5_Annotated_Assembly". Le sottocartelle verranno posizionate in ciascuna di queste cartelle di progetto principali ( Figura 2 ).

Figura 1
figura1: Una panoramica generale dell'organizzazione delle cartelle di progetto e del flusso di lavoro di Assembly e Analysis di DeRovo. Gli utenti caricheranno le sequenze di elaborazione in base alla cartella principale del progetto sul Data Store e quindi posizioneranno i risultati di ogni passaggio in cartelle separate. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 2: Panoramica dettagliata del flusso di lavoro di Assembly e Analysis Analysis di De Novo Transcriptome che si verifica all'interno di Cyber Infrastructure CyVerse. L'intero flusso di lavoro di assemblaggio e analisi sarà completato in cinque passaggi che ognuno riceve la propria cartella (icone cartelle con numero di griglia e numerate). Ciascuna delle cinque cartelle a passo avanti con workflow numerate contiene sottocartelle contenenti dati di output di analisi bioinformatiche (cartellaicone). Gli ingressi per l'analisi vengono da una sottocartella e passano in un'altra cartella attraverso l'output di un programma di analisi (caselle di rettangolo). I dati finali dei primi tre passaggi sono confrontati e preparati per la pubblicazione. In definitiva, questo schema produce una cartella principale del progetto che ha analisi graduale per i collaboratori e / o i revisori manoscritti in grado di comprendere rapidamente il flusso di lavoro e ripeterlo utilizzando ogni file, se necessario. Clicca qui per visualizzare una versione più grande di questa figura.

Caricare i file di sequenza FASTQ crudi nella cartella "1_Raw_Sequence" in una sottocartella intitolata "A_Raw_Reads" utilizzando uno dei seguenti tre metodi.
1. Utilizza la funzionalità di caricamento semplice di Archivio dei dati per navigare nella barra degli strumenti della finestra di dati facendo clic sul pulsante dati nel desktop principale DE e seleziona Carica | Caricamento semplice dal desktop. Selezionare il pulsante SfogliaPer navigare sui file di sequenza FASTQ crudi sul computer locale. Questo metodo è adatto solo per i file sotto i 2 GB.
2. Seleziona il pulsante Carica nella parte inferiore dello schermo per inviare il caricamento. Una notifica verrà registrata nella parte superiore destra della DE nell'icona della campana che l'upload è stato inviato. Un'altra notifica verrà registrata quando il caricamento è completo.
3. In alternativa, utilizzare Cyberduck per trasferire file più grandi (https://wiki.cyverse.org/wiki/x/pYcVAQ). Installare Cyberduck e quindi eseguire come programma sul desktop del computer locale.
4. Infine, scaricare iCommands e installare sul computer locale in base alle istruzioni (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands).
Valutare il caricamento, la sequenza di elaborazione raw che legge utilizzando l'applicazione FastQC nel DE.
1. Seleziona il pulsante "Apps" sul desktop principale di DE per aprire una finestra contenente tutte le applicazioni di analisi disponibili nel DE.
2. Cerca e apri la vittoriaDow per lo strumento FastQC nella barra degli strumenti di ricerca nella parte superiore della finestra. Aprire la versione multi-file se c'è più di un file FASTQ. Selezionare File | Nuova cartella per creare una cartella denominata "B_FastQC_Raw_Reads" e selezionare questa cartella come cartella di output.
3. Caricare i file di lettura FASTQ nella finestra degli strumenti chiamata "Seleziona i dati di input" e selezionare "Analisi di avvio".
4. Aprire il file .html o .pdf per visualizzare i risultati una volta completata l'analisi. FastQC esegue numerose analisi che testano diversi aspetti dei file di lettura ( Figura 3 ).

2. Il filtro Trim e Filtro di qualità legge per rendere la sequenza di alta qualità

Nota: utilizzare l'applicazione Trimmomatic o l'applicazione Sickle.

Cercare l'applicazione Trimmomatic programmabile nella DE e aprirla come prima.
1. Carica la cartella dei file di FASTQ crudi nella sezione "Impostazioni".
2. Selezionare se il seI file di spegnimento sono singoli o concatenati.
3. Utilizza il file di controllo standard fornito selezionando il pulsante Sfoglia e incollando / iplant / home / shared / Trinity_transdecoder_trinotate_databases nella casella "Visualizzazione:". Selezionare il file Trimmomaticv0.33_control_file e avviare l'analisi. Il file può essere scaricato, le impostazioni modificate e quindi caricate nella seconda cartella di progetto per creare uno script di trimming personalizzato.
4. Facoltativo: se l'analisi FastQC individuò le sequenze di adattatori, utilizzare l'impostazione ILLUMINACLIP per ridurre gli adattatori Illumina. Selezionare il file adattatore appropriato nella cartella / iplant / home / shared / Trinity_transdecoder_trinotate_databases come sopra.
La sequenza di taglio di qualità si legge utilizzando Sickle.
1. Cerca e apri l'applicazione Sickle nel DE. Selezionare il taglio FASTQ letto come lettura in ingresso e rinominare i file di output. Includere le impostazioni di qualità nelle opzioni. Le impostazioni tipiche sono il formato di qualità: illumina, sanger, solexa; Qualità tSoglia: 20; Lunghezza minima: 50.
2. Spostare l'output nella cartella tagliata e filtrata (2_High_Quality_Sequence).
Valutare le letture finali usando FastQC e confrontarle con i rapporti di FastQC precedenti. Selezionare il file html per visualizzare una pagina web di tutti i risultati. Selezionare la cartella dei file di immagine (.png) forniti nell'output se non può essere visualizzata.

3. De Novo Transcriptome Assembly usando la Trinità nell'atmosfera

Apri la versione più recente dell'istanza Atmosphere navigando alla pagina wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). Selezionare il collegamento per la versione più recente dell'immagine Trinity e Trinotate. In alternativa, cercare "Trinotate" nello strumento di ricerca delle immagini di Atmosphere (https://atmo.iplantcollaborative.org/application/images) per visualizzare tutte le versioni delle immagini Trinity e Trinotate.
1. Seleziona il pulsante "Accedi per avviare" e quindi denomina l'Atmosfera instance.
2. Selezionare una dimensione di istanza di "medium3" (CPU: 4, Mem: 32GB) o "large3" (CPU: 8, Mem: 64 GB). Avviare l'istanza e attendere che si crei. In alcuni casi rari, CyVerse subisce manutenzione per aggiornare le piattaforme. Durante questi aggiornamenti sono disponibili istanze esistenti, ma potrebbe non essere possibile creare nuove istanze. Visitare la pagina Stato CyVerse per vedere lo stato attuale di qualsiasi piattaforma (http://status.cyverse.org/).
Apri l'istanza una volta pronta cliccando sul nome e selezionando "Desktop remoto" in fondo al menu a destra. Consenti Java e VNC Viewer se richiesto. Selezionare il pulsante "Connessione" nella finestra VNC Viewer e quindi selezionare "Continua".
1. Accedi per aprire una finestra separata che sarà la nuova istanza di cloud computing.
2. Spostare i file di lettura FASTQ tagliati e / o filtrati nell'istanza utilizzando uno dei tre metodi descritti nei passaggi 1.3.1 - 1.3.4. NoiE il browser Internet per accedere alla DE e scaricare i file come prima sul computer locale. Oppure utilizzare iCommands installati su queste immagini per trasferire rapidamente grandi set di dati.
Corri Trinità per assemblare letture di alta qualità.
1. Impostare la cartella di analisi nell'istanza Atmosphere. Utilizza lo script disponibile nel DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) o copia e incolla i comandi dalla pagina wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). La spiegazione di tutti i comandi può essere trovata nella pagina wiki.
2. Una volta stabilita la cartella di analisi ei database Trinotate, eseguire l'assemblatore Trinity utilizzando i comandi dall'alto. Ci sono diversi file di output, ma il più importante è il file di assemblaggio finale intitolato "Trinity.fasta". Rinominare questo file FASTA per essere unico all'organismo e al trattamento delle letture assemblate prima di spostarlo nell'archivio dati (cartella 3_Assembly) per ridurre al minimo la potenziale confusione.
  NOTA: L'output calcola le tabelle per l'analisi di espressione genica differenziale in una cartella (4_Differential_Expression).
Valutare l'assemblaggio usando rnaQUAST ( Figura 4 ).
1. Spostare i file di output Trinity nella cartella "3_Assembly" nel DE e contrassegnare la cartella "A_Trinity_de_novo_assembly". Dare a ciascun transcriptoma che è stata assemblata una sottocartella all'interno della cartella "A_Trinity_de_novo_assembly" con nomi univoco compreso il nome scientifico di organismi e trattamenti associati a ciascun trascritto. Creare un'altra sottocartella denominata "B_rnaQUAST_Output" nella cartella "3_Assembly".
2. Apri l'app denominato "rnaQUAST 1.2.0 (denovo based)" e denomina l'analisi e seleziona "B_rnaQUAST_Output" come cartella di output.
  1. Aggiungere i file FASTA di montaggio de novo alla sezione "Inserimento dati". Nella sezione "Data Output", digitare un nome univoco per il de novo
3. Selezionare opzioni aggiuntive nelle sezioni "GenemarkS-T Gene Prediction", "BUSCO" e "Parametri".
  1. Selezionare il prokaryote nella sezione "GenemarkS-T Gene Prediction" se l'organismo non è eucariotico.
  2. Eseguire BUSCO per selezionare il pulsante di navigazione e copiare il percorso iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data nella casella "Visualizzazione:" e premere invio. Selezionare la cartella BUSCO più specifica disponibile per l'organismo.
    NOTA: BUSCO valuterà l'assemblaggio per i geni di base specificati per le linee, e produrrà quale percentuale di geni di base si trova. Ci sono cartelle generali, ad esempio eucariote, e linee più specifiche, ad es . Artropodi.
Cerca "Transcript decoder" ed eseguire Transdecoder sul de novO Il file FASTA di assemblaggio Trinity genererà l'ambiente Discovery.
Spostare il file .pep di output nella cartella de novo assembly (3_Assembly) per l'utilizzo nell'annotazione di fase 5.

4. Espressione differenziale in combinazione con DESeq2 nel DE

Apri l'app DESeq2 nella DE come descritto in precedenza. Immettere l'analisi e selezionare la cartella di output come 4_Differential_Expression.
Nella sezione "Inputs", selezionare il file di tabelle dei conteggi dall'esecuzione di assemblaggio di Trinity e la colonna che i nomi contig possono essere trovati in quella tabella dei conteggi.
Inserisci le intestazioni di colonna dal file della tabella dati dei conteggi per determinare quali colonne vengono confrontate. Includere le virgole tra ciascuna delle condizioni. Non includere la prima intestazione di colonna che contiene i nomi contig.
Per repliche, ripetere lo stesso nome ( ad esempio , Treatment1rep1, Treatment1rep2, Treatment1rep3 diventerà Trattamento1, Trattamento1, Trattamento1). In thE seconda linea, fornire i nomi delle due condizioni da confrontare ( ad esempio , trattamento1, trattamento2). Corrispondere ai nomi delle intestazioni della colonna forniti nella prima riga.
NOTA: queste intestazioni di colonna devono essere alfanumeriche e non possono contenere caratteri speciali.

5. Annotazione usando Trinotate

Esegui ogni parte di Trinotate nell'istanza di cloud computing di Atmosphere. Nota: i comandi Bash sono forniti in un file txt da copiare, incollare e modificare prima di eseguire sul DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) o sulla pagina wiki (https://wiki.cyverse.org/ wiki / x / dgGtAQ). Se annotando più assembly, annotare ogni assembly una alla volta e trasferire nuovamente i file di annotazione completi nella cartella "5_Annotation" ognuno con una cartella univoca corrispondente al nome dell'assembly.
1. Eseguire il comando bash per la ricerca di trascritti Trinity. Modificare il numero di thread corrispondenti a quante CPUSull'istanza, vale a dire il mezzo ha 4 CPU e il grande ha 8 CPU. Per ulteriori dettagli, fare riferimento alla fase 3.1.2. Modificare il comando Trinity.fasta in modo che corrisponda al nome di file di assembly di FASTA.
  NOTA: Le ricerche BLAST + richiederanno più tempo. Può essere giorni prima del suo completamento. L'attività del computer cloud può essere controllata in Atmosphere senza dover richiamare il Visualizzatore VNC.
2. Eseguire il comando bash per la ricerca di proteine previste da Transdecoder. Come prima, modificare il numero di thread e il nome del file in base alle condizioni di cui al punto 5.2.1.
3. Eseguire il comando bash per HMMER e modificare il numero di thread come sopra.
4. Esegui il comando bash per signalP e tmHMM se necessario. SignalP prevede i peptidi di segnale e la tmHMM prevede motivi di proteine transmembrana.
Caricamento dei risultati nel database SQLite
1. Una volta completate tutte le analisi di cui sopra, eseguire il comando bash per caricare i file di output in un database finale di annotazione SQLite. Rimuovere tutti i comandiPer analisi che non sono state eseguite.
2. Esportare il database SQLite in un file .xls per la visualizzazione nei visualizzatori di tabelle popolari.

Representative Results

Una volta creati i file dell'organizzazione di progetto ( Figura 1 e 2 ), la prima attività in questo flusso di lavoro è di valutare i file di sequenza crudi e quindi di pulirli mediante il taglio e il filtraggio della qualità. FastQC genera statistiche sintetiche leggere umane sui punteggi di qualità e la lunghezza delle sequenze dal file di file FASTQ. Le figure di FastQC vengono quindi confrontate prima e dopo il taglio per valutare se le letture finali sono di alta qualità e quindi adatte per assemblare. "Per qualità di sequenza di base" indica la qualità media di letture su ciascuna coppia di sequenze di base. È meglio avere un punteggio di qualità superiore a 20-28 indicato dai colori delle cifre FastQC. "Per punteggio di qualità di sequenza" determina se può essere necessario filtrare la qualità di letture. Se troppe letture hanno un punteggio medio inferiore a 20-25, potrebbe essere necessario filtrare sulla base della qualità di lettura media. "Per contenuto di sequenza di base" dovrebbe mostrare una distribuzione uniforme in tutte e quattro le basi di nucleotidi. Se esiste una polarizzazione nel contenuto di nucleotidi, è possibile che sia necessario eseguire finiture di taglio. "Per contenuto di base GC dovrebbe essere anche in tutte le posizioni.Quando c'è una vibrazione le letture potrebbero essere necessarie per essere tagliate come nel 1.4.4.3" Per sequenza GC contenuto "dovrebbe essere una distribuzione normale Adattatore o polimerasi reazione a catena (PCR ) I prodotti possono contaminare la libreria di sequenziamento e inclinare la distribuzione normale, in questo caso potrebbe essere necessario un taglio adattatore "La distribuzione della lunghezza della sequenza" fornisce le lunghezze medie di tutte le letture.Le letture inferiori a 35-45 coppie di base vengono solitamente filtrate. "Livelli di duplicazione di sequenza" mostrano quante volte una sequenza di lettura è stata visualizzata all'interno della libreria.La sequenza di sequenze "Overrepresented" viene fornita in modo molto duplicato e FastQC tenta di identificare se le letture duplicateSono sequenze di adattatori o altre sequenze noti associate a piattaforme di sequenziamento. Un'etichetta di "No Hit" indica che la sequenza deve essere ulteriormente studiata usando NCBI BLAST ⁶ per determinare se è una sequenza biologicamente rilevante, o se deve essere rimossa. Il DE ha anche diverse versioni di BLAST disponibili. L'applicazione DE BLASTn è disponibile all'indirizzo https://de.iplantcollaborative.org/de/?type=apps&app-id=6f94cc92-6d28-45c6-aef1-036be697671d .

Dopo che i sequenziamenti crudi sono stati proiettati per produrre letture di alta qualità, le letture devono essere assemblate per creare sequenze contigue (contigs). In breve, le assemblee vengono create allineando tutte le letture brevi di sequenza per trovare sequenze simili. Le aree di sequenza simile più grande di una certa lunghezza sono considerate come saMe perché la probabilità di una sequenza simile a una determinata lunghezza di una determinata lunghezza è quasi zero. Trinity distribuirà i file di log, i file fasta per ogni passaggio nel processo di assemblaggio. Tuttavia, l'output più importante è il file di assemblaggio finale contenente i contig, che è etichettato "Trinity.fasta" e trovato nella cartella principale. Questo file contiene tutti i contigioni assemblati e in sé non è praticamente "leggibile dall'uomo". Pertanto, lo strumento rnaQUAST può essere usato per comprendere meglio l'assemblaggio. Lo strumento rnaQUAST produrrà cifre che consentiranno agli utenti di confrontare gli assiemi per determinare quali sono i più completi ( Figura 4 ). Ulteriori informazioni su ogni figura di rnaQUAST possono essere trovate nella wiki ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). Se è stato eseguito BUSCO ⁷ , di particolare interesse è il file specificity.txt che mostra il numero completo e pGeni ARCO arciali e il numero di previsioni del gene GeneMarkS-T in un assieme. I geni BUSCO sono un insieme curato di geni comuni a un gruppo di organismi. Possono essere utilizzati per valutare quanto un insieme sta catturando gruppi di geni che si prevede siano presenti in un determinato tipo di organismo, basato su cladine filogenetiche. Un'applicazione BUSCO standalone è disponibile anche nella DE ( https://de.iplantcollaborative.org/de/?type=apps&app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ).

L'analisi differenziale di espressione genica identifica i trascritti che presentano diversi pattern di espressione nei trattamenti da semplici conteggi per tabelle di trascrizione assemblate. DESeq2 utilizza un modello lineare generalizzato (GLM) per determinare la variazione da una media normalizzata. Gli esperimenti con repliche sono preferiti in modo che la variazione tecnica frIl sequencing può essere normalizzato dall'algoritmo DESeq2. L'analisi DESeq2 DEG fornisce cifre e un file di report HTML che contiene tutte le figure di output e una descrizione. In alternativa, EdgeR può essere utilizzato invece di DESeq2 e lo stesso report .html verrà generato invece con le visualizzazioni EdgeR. I ricercatori possono desiderare di eseguire sia DESeq2 che EdgeR per trovare geni espressi differenzialmente identificati da entrambi gli algoritmi per qualsiasi dato esperimento. Trinotate creerà un file .xls di output che può essere aperto in qualsiasi programma software di fogli di calcolo. I file DEG .txt e il file .xls di annotazione possono essere analizzati e visualizzati in numerose applicazioni a valle che esistono al di fuori della piattaforma CyVerse.

Figura 3: Rapporti FastQC di letture raw sequenza, letture tagliate e letture finali e filtrate. Confronto sistematico del sequenziamento lettoDopo ogni passaggio di pre-elaborazione. Le letture di alta qualità sono necessarie per assemblare i transcriptomi de novo . FastQC può aiutare i ricercatori a comprendere la qualità iniziale dei loro dati di sequenza e monitorare in che modo le letture siano state pre-elaborate in modo efficiente. I risultati di FastQC dipenderanno dagli organismi e dai campioni in sequenza, ma l'uniformità di tutti i campioni che verranno confrontati a valle è l'obiettivo primario delle letture di pre-elaborazione. Un video di tutorial e una documentazione sono disponibili dagli autori e dagli sviluppatori di FastQC. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 4: Rapporti rnaQUAST di tre gruppi separati. RnaQUAST può essere utilizzato per confrontare più unità di lettura usando lo stesso assembler o multiplo a Ssemblers che utilizzano le stesse letture iniziali. RnaQUAST sfrutta BUSCO per generare statistiche di sintesi relative a congegni basati su geni di base noti presenti nelle celle tassonomiche. Il numero di disadattamenti per trascrizione e quanti trascrizioni corrispondono a geni canonici, frazione corrispondente, forniscono una visione della precisione degli assemblatori. Gli ultimi quattro sottotipi qui presentati forniscono statistiche di sintesi della lunghezza contig e isoforme e della copertura delle isoforme previste. NAx rappresenta la percentuale (x) dei contigamenti con una lunghezza superiore alla lunghezza (bp) sull'asse y. La frazione assemblata è la più lunga singola copia assemblata divisa per la sua lunghezza. La frazione coperta è la percentuale di trascrizioni / isoforme assemblate complete come previsto dai geni prokaryotici o eucariotici di BUSCO. È disponibile una descrizione di tutti i grafici generati da rnaQUAST ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Fare clic qui per visualizzare una versione più grande di questa figura.

Nome dell'applicazione	Piattaforma CyVerse	Documentazione di terze parti	Documentazione CyVerse	Runtime stimata per il set di dati di esempio	Collegamento a App
FastQC	DE	http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y	https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768	15 minuti	https: //de.iplantcollaborative. org / de /? type = app e app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295
Trimmomatic v0.33	DE	https://github.com/timflutre/trimmomatic	https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0,33	30 minuti	https: //de.iplantcollaborative. org / de /? type = app e app-id = 9c2a30dc-028d- 11e6-A915-ab4311791e69
Falce	DE	https://github.com/najoshi/sickle	https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming	30 minuti	https: //de.iplantcollaborative. org / de /? type = app e app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinità	Atmosfera	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https: //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + - + + Trinotate Atmosfera + Immagine	1 settimana	https: //atmo.iplantcollaborative. org / applicazione / images / 1261
	DE		https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1	2-5 giorni	https: // wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1
RnaQUAST v1.2.0	DE, Atmosfera	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https: //pods.iplantcollaborative. org / wiki / display / TUT / rnaQUAST + 1.2.0 +% 28denovo +% 29 + base con + DE	30 minuti	https: //de.iplantcollaborative. org / de /? type = app e app-id = 980dd11a-1666- 11e6-9122-930 ba8f23352
Transdecoder	DE	https://transdecoder.github.io	https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0	2-3 ore	https: //de.iplantcollaborative. org / de /? type = app e app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179
DESeq2	DE	https://bioconductor.org/packages/release/bioc/html/DESeq2.html	https: //pods.iplantcollaborative. org / wiki / pagine /viewpage.action? pageId = 28115142	2-3 ore	https: //de.iplantcollaborative. org / de /? type = app e app-id = 9574e87c-4f90- 11e6-a594-008 cfa5ae621
Edger	DE	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144	2-3 ore	https: //de.iplantcollaborative. org / de /? type = app e app-id = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621
Trinotate	Atmosfera	https://trinotate.github.io/	https: //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + - + + Trinotate Atmosfera + Immagine	1 settimana	https: //atmo.iplantcollaborative. org / applicazione / images / 1261

Tabella 1: Programmi di analisi, piattaforme disponibili su, aNd Risorse aggiuntive disponibili per i flussi di lavoro in ordine per primo aspetto. Tutte le versioni del pacchetto sono aggiornate a partire da aprile 2016.

Discussion

Ci sono cinque passi critici nel protocollo che ciascuno creerà una propria cartella separata all'interno della cartella principale del progetto ( figure 1 e 2 ). Tutti i dati primari di sequenziamento sono sacrosanto: devono essere caricati e conservati nella prima cartella denominata "1_Raw_Sequence" e non modificati in alcun modo. I dati possono essere caricati in uno dei tre modi. L'interfaccia DE può essere utilizzata per caricare i file direttamente. Questo è il modo più semplice per caricare i dati, ma richiederà anche il più lungo trasferimento. Cyberduck dispone di un'interfaccia grafica e consente agli utenti di trascinare e rilasciare i file per trasferire alla DE. ICommands è uno strumento di riga di comando che può essere utilizzato per trasferire i dati da e verso l'archivio dati, creare directory e gestire i set di dati, ed è probabilmente il modo più veloce per trasferire i file di dati. Tutti i dati nell'archivio dati possono essere condivisi con altri utenti CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), pubblicato attraverso un URL generato (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links) o può essere ospitato in modo pubblico e anonimo ( Nessun nome utente richiesto) dati comunitari disponibili (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). All'interno di questa cartella, le sequenze di sequenze grezze vengono analizzate con FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) per valutare come tagliare e filtrare le letture per generare letture di alta qualità. Dopo il taglio e la filtrazione di qualità è utile confrontare le uscite di FastQC per determinare se la qualità di lettura è cambiata per determinare che è migliorata senza perdere le informazioni ( Figura 3 ). Si noti che l'asse x di FastQC non è lineare, ma è binned per molti grafici di output, che può portare a errori interpretativi dei risultati. Le letture tagliate e filtrate vengono quindi utilizzate per assemblare transcriptomi de novo utilizzando un'istanza di cloud computing Atmosphere. QuestoIl computer cloud utilizza lo schermo del computer locale, la tastiera e il mouse, ma ha un proprio software (Trinity e Trinotate) e l'hardware installato. I programmi in esecuzione sull'istanza del computer cloud non influenzano in alcun modo il computer locale. L' assemblaggio De novo e l'annotazione a valle probabilmente saranno i due passi più lunghi di esecuzione in questo flusso di lavoro. Pertanto, sono completati in Atmosphere per evitare problemi comuni di computer condivisi da laboratorio che interromperebbero l'analisi come interruzioni di corrente, riavvia dopo aggiornamenti automatici tardivi o crash causati da altri utenti. L'annotazione Trinotate utilizza BLAST + ⁸ , HMMER ⁹ , tmHMM ¹⁰ e PFAM ¹¹ . L'output finale di annotazione è un database SQLite e un file .xls. Le uscite possono essere usate al di fuori di CyVerse nelle piattaforme di analisi a valle come KEGG ¹² ^, ¹³ .

Questo flusso di lavoroÈ pronto per essere utilizzato in DE e Atmosphere. Ciò elimina la necessità di passare il tempo di installazione, configurazione e risoluzione dei problemi di ogni pacchetto di analisi e di tutte le dipendenze che ogni strumento richiede. Ciò semplifica le analisi dei ricercatori, minimizza lo sforzo sprecato e riduce la barriera di ingresso per molti scienziati. Questo flusso di lavoro crea in modo specifico le letture singole o parziali della piattaforma di sequenza Illumina, ma in DE e Atmosphere esistono molti strumenti per gestire altri tipi di tecnologie di sequenza. Gli strumenti di questo flusso di lavoro possono essere facilmente sostituiti con un corrispondente strumento alternativo per gestire qualsiasi tipo di tecnologia di sequenza in arrivo. Ciò vale anche per nuove versioni di strumenti di analisi o strumenti completamente nuovi.

Questo flusso di lavoro è specificamente progettato per assemblare, confrontare e annotare solo pochi transcriptomi alla volta. Pertanto, gli utenti possono trovare tempo a raccogliere più transcriptomi per la genetica della popolazione comparata. AnalisiLe condutture saranno disponibili per gli utenti di genetica della popolazione nel prossimo futuro e il collegamento alla pipeline può essere trovato nella pagina wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). L'analisi differenziale di espressione genica può gestire repliche, ma è un confronto a coppia e non valuta accuratamente più fattori ( ad esempio , condizioni che variano nel tempo, più di due trattamenti). Flussi di lavoro automatizzati esistono per organismi con genomi di riferimento ( es . TRAPLINE ¹⁴ ). Mentre i flussi di lavoro automatizzati sono i più facili da utilizzare per i novizi, i nuovi assembly richiedono una valutazione e una considerazione per ogni passo qui descritto. Inoltre, gli utenti sono tenuti a utilizzare le condutture automatiche in quanto sono costruite e pertanto non sono intrinsecamente flessibili per soddisfare le mutevoli esigenze degli utenti.

Poiché la maggior parte di questo protocollo viene eseguito su Internet, gli utenti possono verificarsi problemi con le impostazioni del browser. In primo luogo,I bloccanti pop-up potrebbero impedire all'apertura delle finestre o potrebbero impedire l'apertura delle finestre finché l'autorizzazione non viene concessa a CyVerse nel browser. Atmosfera utilizza VNC per accedere a computer remoti, ma può essere utilizzato altri software. Questo intero protocollo è stato eseguito in versione Firefox 45.0.2 e dovrebbe funzionare con tutti i browser Internet più noti, ma potrebbero apparire alcune incongruenze. Il flusso di lavoro verrà aggiornato quando Trinity rilascia nuove versioni (https://github.com/trinityrnaseq/trinityrnaseq/wiki). Le versioni più recenti e le informazioni aggiornate sul flusso di lavoro si trovano nella pagina del tutorial della wiki ( tabella 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Gli utenti possono contattare direttamente il supporto o inviare domande a Ask CyVerse (ask.cyverse.org/) per risolvere eventuali problemi con il flusso di lavoro.

Nelle DE esistono diverse applicazioni per eseguire ogni passaggio di questo protocollo. Ad esempio, gli utenti potrebbero desiderare di eseguire Scythe (https://github.com/najoshi/sickle) invece di Trimmomatic¹⁵ per la lettura del taglio o l'esecuzione di EdgeR ¹⁶ invece di DESeq ¹⁷ ^, ¹⁸ . Anche se al di fuori del campo di applicazione di questo manoscritto, le applicazioni DE possono essere copiate, modificate e rilasciate dagli utenti (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) o nuove applicazioni possono essere aggiunte dagli utenti (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Le immagini di Atmosphere possono anche essere modificate e reimagate per creare flussi di lavoro nuovi o modificati che soddisfino meglio le esigenze degli utenti (https://wiki.cyverse.org/wiki/x/TwHX). Questo lavoro serve come un'introduzione all'utilizzo della riga di comando per spostare dati e eseguire analisi. Gli utenti possono considerare l'utilizzo di risorse avanzate di riga di comando come le interfacce di programmazione delle applicazioni (API) di CyVerse (http://www.cyverse.org/science-apis) o la progettazione di proprie applicazioni DE che richiedono conoscenzeSu come viene eseguito lo strumento di analisi nella riga di comando (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Materials

Name	Company	Catalog Number	Comments
Trimmomatic v0.33	USADELLAB.org	https://github.com/timflutre/trimmomatic	https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle	Joshi and Fass	https://github.com/najoshi/sickle	https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity	Broad Institute and Hebrew University of Jersalem	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0	Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352
Transdecoder	Broad Institute and Commonwealth Scientific and Industrial Research Organisation	https://transdecoder.github.io	https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR	Robinson et al. 2010.	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate	Broad Institute and Hebrew University of Jersalem	https://trinotate.github.io/	https://atmo.iplantcollaborative.org/application/images/1261