Genetics

Tirer parti des ressources CyVerse pour Published: May 9, 2017 doi: 10.3791/55009

DOI

Automatic Translation

English (Original)
العربية (Arabic)
中文 (Chinese)
dansk (Danish)
Nederlands (Dutch)
français (French)
Deutsch (German)
עברית (Hebrew)
हिंदी (Hindi)
italiano (Italian)
日本語 (Japanese)
한국어 (Korean)
norsk (Norwegian)
português (Portugese)
русский (Russian)
español (Spanish)
svenska (Swedish)
Türkçe (Turkish)

Blake L. Joyce^1,2, Asher K. Haug-Baltzell³, Jonathan P. Hulvey⁴, Fiona McCarthy⁵, Upendra Kumar Devisetty^1,6, Eric Lyons^1,2,3

¹BIO5 Institute, University of Arizona, ²The School of Plant Sciences, University of Arizona, ³Genetics GIDP, University of Arizona, ⁴Biology Department, University of Massachusetts Amherst, ⁵School of Animal and Comparative Biomedical Sciences, University of Arizona, ⁶CyVerse, University of Arizona

Abstract

Ce flux de travail permet aux chercheurs débutants d'exploiter des ressources informatiques avancées telles que le cloud computing pour effectuer des transcriptomies comparatives par paires. Il sert également de base pour que les biologistes développent des compétences informatiques scientifiques, par exemple en exécutant des commandes bash, la visualisation et la gestion de grands ensembles de données. Tout le code de la ligne de commande et d'autres explications de chaque commande ou étape peuvent être trouvés sur le wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Les plates-formes Discovery Environment et Atmosphere sont reliées entre elles via le CyVerse Data Store. En tant que tel, une fois que les données de séquençage brutes initiales ont été téléchargées, il n'est plus nécessaire de transférer de gros fichiers de données sur une connexion Internet, en minimisant le temps nécessaire à la réalisation d'analyses. Ce protocole est conçu pour analyser seulement deux traitements ou conditions expérimentales. L'analyse différentielle de l'expression des gènes est conduiteComparaisons par paires, et ne sera pas approprié pour tester de multiples facteurs. Ce flux de travail est également conçu pour être manuel plutôt que automatisé. Chaque étape doit être exécutée et étudiée par l'utilisateur, ce qui donne une meilleure compréhension des données et des résultats analytiques, et donc de meilleurs résultats pour l'utilisateur. Une fois terminé, ce protocole produira des transcriptomes assemblés de novo pour les organismes mal desservis (sans modèle) sans avoir à cartographier les génomes de référence préalablement assemblés (qui ne sont généralement pas disponibles dans un organisme mal desservi). Ces transcriptomes de novo sont encore utilisés dans l'analyse différentielle de l'expression des gènes par paires pour étudier les gènes qui diffèrent entre deux conditions expérimentales. Les gènes exprimés de façon différentielle sont ensuite fonctionnellement annotés pour comprendre les organismes de réponse génétique qui ont des conditions expérimentales. Au total, les données dérivées de ce protocole sont utilisées pour tester des hypothèses sur les réponses biologiques des organismes mal desservis.

Introduction

Homo sapiens et plusieurs espèces d'animaux modèles clés tels que Drosophila melanogaster , Mus musculus et Danio rerio représentent la majorité du travail de génomique fonctionnel actuel et passé. Cependant, le coût en baisse rapide de la technologie de séquençage à haut débit fournit des possibilités de génomique fonctionnelle dans les espèces animales non-modèles ( aka "négligées" ou "mal desservies" ¹⁾ . Il s'agit d'une transition importante dans la génomique car les organismes non-modèles représentent fréquemment des espèces économiquement pertinentes ( p. Ex. Les huîtres, les crevettes, le crabe) et offrent des possibilités d'enquêter sur de nouveaux phénotypes et des systèmes biologiques en dehors de la portée des espèces modèles.

Bien que les organismes mal desservis présentent une opportunité intéressante pour étudier des systèmes biologiques uniques, plusieurs défis sont confrontés aux chercheurs en particulier lors de l'analyse bioinformatique. CertainsLes défis sont innés au traitement de grands ensembles de données, tandis que d'autres résultent du manque de ressources génétiques disponibles pour les chercheurs travaillant dans des organismes mal desservis tels qu'un génome de référence, des ontologies spécifiques à l'organisme, etc. Les problèmes liés à l'isolement et au séquençage des acides nucléiques sont souvent courants Comparaison avec celles de l'analyse des données, et en tant que telles, les analyses bioinformatiques se révèlent généralement être le coût le plus sous-estimé des projets de séquençage ² . Par exemple, une analyse bioinformatique de base de prochaine génération de la prochaine génération pourrait comporter les étapes suivantes: filtrage et coupe de qualité des lectures séquentielles brutes, assemblage de lectures courtes en pièces contiguës plus importantes et annotations et / ou comparaisons avec d'autres systèmes pour acquérir une compréhension biologique. Bien que tout simplement simple, cet exemple de flux de travail nécessite des connaissances spécialisées et des ressources informatiques au-delà de la portée d'un ordinateur de laboratoire, en le plaçant hors de la portée de nombreux scientifiques qui étudient des non-Organismes modèles.

Les défis innés peuvent être basés sur l'infrastructure ou la connaissance. Un défi d'infrastructure classique est l'accès à des ressources informatiques appropriées. Par exemple, l'assemblage et l'annotation s'appuient sur des algorithmes à forte intensité de calcul qui nécessitent des ordinateurs puissants ou des clusters d'ordinateurs, disposant d'une grande quantité de RAM (256 Go-1 TB) et de plusieurs processeurs / noyaux à exécuter. Malheureusement, de nombreux chercheurs n'ont pas accès à de telles ressources informatiques ou n'ont pas les connaissances nécessaires pour interagir avec ces systèmes. D'autres chercheurs pourraient avoir accès à des grappes informatiques performantes dans leurs universités ou institutions, mais l'accès à ces ressources pourrait être limité et parfois entraîner des charges par heure de calcul, c'est-à-dire le nombre de processeurs CPU multiplié par le nombre d'horloge en temps réel Heures "que ces processeurs fonctionnent. Tirer parti d'un système de cyberinfrastructure financé par l'US National Science Foundation sUch que CyVerse ³ qui offre un accès gratuit aux ressources de calcul pour les chercheurs, aux États-Unis et dans le monde entier, peut aider à atténuer les défis de l'infrastructure, comme cela sera démontré ici.

Un exemple d'un défi typique basé sur le savoir consiste à comprendre le logiciel nécessaire aux analyses complètes. Pour mener efficacement un projet basé sur le séquençage, les chercheurs doivent se familiariser avec la myriade d'outils logiciels qui ont été développés pour les analyses bioinformatiques. L'apprentissage de chaque paquet est difficile à part entière, mais il est exacerbé par le fait que les paquets sont constamment mis à niveau, rediffusés, mis en place dans de nouveaux flux de travail et parfois restreints pour être utilisés sous de nouvelles licences. En outre, la liaison des entrées et des sorties de ces outils nécessite parfois la transformation de types de données pour les rendre compatibles, en ajoutant un autre outil au flux de travail. Enfin, il est également difficile de savoir quel paquet logiciel est 'thLe meilleur "pour une analyse, et souvent identifier le meilleur logiciel pour des conditions expérimentales particulières est une question de différences subtiles. Dans certains cas, des critiques utiles sur les logiciels sont disponibles, mais en raison de la publication continue de nouvelles mises à jour et d'options logicielles, celles-ci sont rapidement dépassées.

Pour les chercheurs qui étudient les organismes mal desservis, ces défis innés s'ajoutent aux défis associés à l'analyse des données dans un organisme nouveau. Ces défis spécifiques aux organismes mal desservis sont mieux illustrés lors de l'annotation des gènes. Par exemple, les organismes mal desservis ne possèdent souvent pas d'organisme modèle étroitement lié qui peut être utilisé de façon raisonnable pour identifier l'orthologie et la fonction des gènes ( p. Ex. Invertébrés marins et Drosophila ). De nombreux outils bioinformatiques nécessitent également une «formation» pour identifier des motifs structurels, qui peuvent être utilisés pour identifier la fonction des gènes. Cependant, les données de formation ne sont généralement disponibles que pour le modLes organismes et les modèles cachés de Markov (HMM) ne relèvent pas des biologistes, et même de nombreux bioinformaticiens. Enfin, même si des annotations peuvent être réalisées à l'aide de données provenant d'organismes modèles, certaines ontologies de gènes associées à des organismes modèles n'ont pas de sens lorsque la biologie et l'histoire naturelle de l'organisme mal desservi sont considérées ( p. Ex . Transfert d'informations de Drosophila aux crevettes ).

À la lumière de ces défis, les ressources bioinformatiques doivent être développées avec des chercheurs qui effectuent des analyses de novo sur les organismes mal desservis. Les prochaines années de projets de séquençage génomique fonctionnel aideront à combler l'écart entre les organismes modèles et mal desservis ( https://genome10k.soe.ucsc.edu/ ), mais il existe plusieurs outils qui devront être développés pour relever les défis Considéré ci-dessus. CyVerse est dédié à la création d'écosystèmes de iNteropérabilité en liant la cyberinfrastructure existante et les applications tierces pour fournir une gestion des données, des outils d'analyse bioinformatique et des visualisations de données à des scientifiques de la vie. L'interopérabilité contribue à lisser les transitions entre les applications bioinformatiques et les plates-formes en fournissant des ressources informatiques évolutives et en limitant les conversions de format de fichier et la quantité de données transférées entre les plates-formes. CyVerse offre plusieurs plates-formes, y compris l'environnement Discovery (DE ⁴ , Atmosphere ⁵ et Data Store ³⁾ . Le DE est basé sur le Web et dispose de nombreux outils analytiques de bioinformatique communs converties en formats conviviaux point-et-clic (appelés "applications "), Et est l'interface utilisateur graphique (GUI) pour le magasin de données où sont stockés et gérés des ensembles de données volumineux ( c'est-à-dire des lectures séquentielles brutes, des génomes assemblés). L'atmosphère est un service de cloud computing offrant aux chercheurs une flexibilité accrue pourEn utilisant les ressources informatiques de la machine virtuelle, qui possèdent une large gamme d'outils de bioinformatique préinstallés. Ces deux plates-formes sont liées au magasin de données et peuvent être utilisées ensemble pour créer des flux de travail tels que ceux décrits ici. Ce rapport se concentre sur un assemblage de transcriptome de novo et des flux de travail différentiels d'analyse de l'expression des gènes, et traite en outre des meilleures pratiques associées au développement et à la réalisation d'analyses bioinformatiques. Une explication de la mission plus large de CyVerse ( http://www.cyverse.org/about ) et des descriptions détaillées de plate-forme ( http://www.cyverse.org/learning-center ) sont publiquement disponibles. Toutes les analyses décrites ici utilisent Discovery Environment ⁴ (DE) et Atmosphere ⁵ , et sont présentées de manière à les rendre accessibles aux chercheurs de tous les niveaux de calcul. DE workflows et AtmosphLes images peuvent être référencées directement à l'aide d'URL pour assurer la provenance, la réutilisation et la reproductibilité à long terme.

Protocol

REMARQUE: le protocole global a été numéroté selon les dossiers qui seront créés et nommés à l'étape 1.2 ( Figure 1 et 2 ). Ce protocole représente une analyse comparative de transcriptome de novo standard, et chaque étape détaillée ici peut ne pas être nécessaire pour tous les chercheurs. Ce flux de travail est documenté à fond sur un wiki de tutoriel complémentaire, qui contient également tous les fichiers et liens supplémentaires vers les documents intéressant les développeurs de ^3ème partie pour chaque package d'analyse ( Tableau 1 ). Les liens vers ce matériel seront inclus dans tout le protocole afin d'accéder facilement à ces informations. Les meilleures pratiques sont des notes fournies aux utilisateurs en tant que suggestions pour la meilleure façon d'accomplir des tâches ou pour les utilisateurs à considérer, et seront communiquées par des notes dans le protocole. Un dossier d'exemple d'entrée de données et de sortie analytique est mis à la disposition des utilisateurs et est organisé comme suggéré dans le protocole ( de novo

1. Configurez le projet, téléchargez des séquences de séquençage et évaluez les lectures en utilisant FastQC

Accédez à l'atmosphère et à l'environnement découverte.
1. Demandez un compte CyVerse gratuit en naviguant vers la page d'inscription ( par exemple, person@institution.edu).
2. Remplissez les informations requises et soumettez.
3. Accédez à la page Web principale (http://www.cyverse.org/), puis sélectionnez «Connexion» dans la barre d'outils supérieure. Sélectionnez "Cyverse Login" et connectez-vous en utilisant vos informations d'identification CyVerse.
4. Accédez à l'onglet Applications et services et demandez l'accès à l'atmosphère. L'accès à l'environnement découverte est automatiquement accordé.
Configurez le projet et déplacez les données vers le Data Store.
1. Connectez-vous à Discovery Environment (https://de.iplantcollaborative.org/de). Sélectionnez l'onglet "Données" pour afficher un menu contenant tous les dossiers du magasin de données. Créez un dossier de projet principal qui abrite toutes les données associées au projet. Trouvez la barre d'outils en haut de la fenêtre de données et sélectionnez Fichier | Nouveau dossier. N'utilisez pas d'espaces ou de caractères spéciaux dans les noms de dossier ou les noms de fichiers d'entrée / sortie, par exemple "! @ # () [] {}:; $% ^ & *." Au lieu de cela, utilisez des caractères de soulignement ou des tirets, c'est-à-dire "_" ou "-" le cas échéant.
2. Créez cinq dossiers dans le dossier du projet principal pour organiser les analyses ( Figure 1 ) Nommez les dossiers comme suit sans virgules ni guillemets: "1_Raw_Sequence", "2_housain_qualité_séquence", "3_Assemblage", "4_différentiel_expression", "5_Annotated_Assemblage". Les sous-dossiers seront placés dans chacun de ces dossiers principaux du projet ( Figure 2 ).

Figure1: un aperçu général de l'organisation du dossier du projet et le flux de travail de l'assemblage et de l'analyse transcriptome de De Novo . Les utilisateurs téléchargent des lectures séquentielles brutes dans le dossier principal du projet dans le magasin de données, puis placent les résultats de chaque étape dans des dossiers distincts. Cliquez ici pour voir une version plus grande de ce chiffre.

Figure 2: Vue d'ensemble détaillée de l'assemblage de Transcriptome de De Novo et du flux de travail d'analyse qui se produit dans Cyberinfrastructure CyVerse. L'ensemble du processus d'assemblage et d'analyse sera complété en cinq étapes, chacune recevant son propre dossier (icônes de dossiers numérotés et en caractères gras). Chacun des cinq dossiers échelonnés de flux de travail comporte des sous-dossiers contenant des données de sortie issues d'analyses bioinformatiques (dossierIcônes). Les entrées pour l'analyse proviennent d'un sous-dossier, puis se déplacent dans un autre dossier via la sortie d'un programme d'analyse (rectangle). Les données finales des trois premières étapes sont comparées et préparées pour publication. En fin de compte, ce schéma produit un dossier de projet principal qui a une analyse par étapes pour les collaborateurs et / ou les réviseurs de manuscrits peuvent rapidement comprendre le flux de travail et le répéter en utilisant chaque fichier si nécessaire. Cliquez ici pour voir une version plus grande de ce chiffre.

Téléchargez les fichiers de séquence FASTQ bruts dans le dossier "1_Raw_Sequence" dans un sous-dossier intitulé "A_Raw_Reads" en utilisant l'une des trois méthodes suivantes.
1. Utilisez la fonctionnalité de téléchargement simple de Data Store pour naviguer dans la barre d'outils de la fenêtre Données en cliquant sur le bouton de données dans le bureau principal de DE, puis sélectionnez Charger | Téléchargement simple depuis le bureau. Sélectionnez le bouton ParcourirPour naviguer vers les fichiers de séquençage FASTQ bruts sur l'ordinateur local. Cette méthode convient uniquement aux fichiers de moins de 2 Go.
2. Sélectionnez le bouton Télécharger en bas de l'écran pour soumettre le téléchargement. Une notification s'inscrit en haut à droite du DE dans l'icône de cloche que le téléchargement a été envoyé. Une autre notification s'inscrira lorsque le chargement sera terminé.
3. Sinon, utilisez Cyberduck pour transférer des fichiers plus importants (https://wiki.cyverse.org/wiki/x/pYcVAQ). Installez Cyberduck puis exécutez-le en tant que programme sur le bureau de l'ordinateur local.
4. Enfin, téléchargez iCommands et installez-le sur l'ordinateur local selon les instructions (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands).
Evaluer téléchargé, le séquençage brut se lit à l'aide de l'application FastQC dans le DE.
1. Sélectionnez le bouton "Applications" sur le bureau principal de DE pour ouvrir une fenêtre contenant toutes les applications d'analyse disponibles dans le DE.
2. Recherchez et ouvrez la victoireDow pour l'outil FastQC dans la barre d'outils de recherche en haut de la fenêtre. Ouvrez la version multi-fichiers s'il existe plus d'un fichier FASTQ. Sélectionnez Fichier | Nouveau dossier pour créer un dossier nommé "B_FastQC_Raw_Reads" et sélectionnez ce dossier comme dossier de sortie.
3. Chargez les fichiers de lecture FASTQ dans la fenêtre d'outil appelée "Sélectionner les données d'entrée" et sélectionnez "Analyse de lancement".
4. Ouvrez le fichier .html ou .pdf pour afficher les résultats une fois l'analyse terminée. FastQC exécute plusieurs analyses qui testent différents aspects des fichiers lus ( Figure 3 ).

2. Trim et filtre de qualité Raw se lit pour produire une séquence de haute qualité

Remarque: Utilisez l'application Trimmomatic ou l'application Sickle.

Recherchez l'application programmable Trimmomatic dans le DE et ouvrez-la comme précédemment.
1. Chargez le dossier des fichiers de lecture FASTQ bruts dans la section "Paramètres".
2. Sélectionnez si le seLes fichiers de quintements sont simples ou jumelés.
3. Utilisez le fichier de contrôle standard fourni en sélectionnant le bouton Parcourir et en collant / iplant / home / shared / Trinity_transdecoder_trinotate_databases dans la zone "Affichage:". Sélectionnez le fichier Trimmomaticv0.33_control_file et lancez l'analyse. Le fichier peut être téléchargé, les paramètres édités, puis téléchargés dans le deuxième dossier de projet pour créer un script de coupe personnalisé.
4. Facultatif: si l'analyse FastQC a identifié les séquences d'adaptateur, utilisez le paramètre ILLUMINACLIP pour recadrer les adaptateurs Illumina. Sélectionnez le fichier adaptateur approprié dans le dossier / iplant / home / shared / Trinity_transdecoder_trinotate_databases comme ci-dessus.
La séquence de coupe de qualité se lit à l'aide de Sickle.
1. Recherchez et ouvrez l'application Sickle dans le DE. Sélectionnez les lectures FASTQ découpées en tant que lectures d'entrée et renommez les fichiers de sortie. Inclure les paramètres de qualité dans les options. Les paramètres typiques sont le format Qualité: illumina, sanger, solexa; Qualité tSeuil: 20; Longueur minimale: 50.
2. Déplacez toutes les sorties dans le dossier recadré et filtré (2_High_Quality_Sequence).
Évaluez les lectures finales en utilisant FastQC et comparez aux rapports FastQC précédents. Sélectionnez le fichier .html pour afficher une page Web de tous les résultats. Sélectionnez le dossier des fichiers image (.png) fournis dans la sortie si cela ne peut pas être visualisé.

3. Ensemble de transcriptome de De Novo utilisant la Trinité dans l'atmosphère

Ouvrez la version la plus récente de l'instance Atmosphere en naviguant vers la page wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). Sélectionnez le lien pour la version la plus récente de l'image Trinity and Trinotate. Alternativement, recherchez "Trinotate" dans l'outil de recherche d'image Atmosphère (https://atmo.iplantcollaborative.org/application/images) pour afficher toutes les versions des images Trinity et Trinotate.
1. Sélectionnez le bouton "Connectez-vous pour lancer", puis appelez l'atmosphère iNstance.
2. Sélectionnez une taille d'instance de "medium3" (CPU: 4, Mem: 32 Go) ou "large3" (CPU: 8, Mem: 64 Go). Lancez l'instance et attendez qu'elle soit construite. Dans certains cas, CyVerse subit une maintenance pour mettre à jour les plates-formes. Les instances existantes sont disponibles au cours de ces mises à jour, mais il n'est peut-être pas possible de créer de nouvelles instances. Visitez la page CyVerse Status pour voir l'état actuel de toute plate-forme (http://status.cyverse.org/).
Ouvrez l'instance une fois qu'elle est prête en cliquant sur le nom, puis sélectionnez «Bureau à distance» en bas du menu à droite. Autoriser Java et VNC Viewer si demandé. Sélectionnez le bouton "Connect" dans la fenêtre VNC Viewer, puis sélectionnez "Continuer".
1. Connectez-vous pour ouvrir une fenêtre distincte qui sera la nouvelle instance de cloud computing.
2. Déplacez les fichiers de lecture FASTQ coupés et / ou filtrés dans l'instance en utilisant l'une des trois méthodes décrites aux étapes 1.3.1 - 1.3.4. NousE le navigateur Internet pour accéder au DE et télécharger des fichiers comme précédemment sur l'ordinateur local. Ou utiliser iCommands installé sur ces images pour transférer rapidement de gros ensembles de données.
Running Trinity pour assembler des lectures de haute qualité.
1. Configurez le dossier d'analyse sur l'instance Atmosphère. Utilisez le script disponible dans les bases DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) ou copiez et collez les commandes à partir de la page wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). L'explication de toutes les commandes se trouve sur la page wiki.
2. Une fois que le dossier d'analyse et les bases de données Trinotate sont établis, exécutez l'assembleur Trinity à l'aide des commandes ci-dessus. Il existe plusieurs fichiers de sortie, mais le plus important est le fichier de montage final intitulé "Trinity.fasta". Renommez ce fichier FASTA pour être unique à l'organisme et au traitement des lectures assemblées avant de le transférer dans Data Store (dossier 3_Assemblage) pour minimiser la confusion potentielle.
  REMARQUE: la sortie affiche les tables pour l'analyse différentielle des expressions génétiques dans un dossier (4_Differential_Expression).
Évaluez l'assemblage à l'aide de rnaQUAST ( Figure 4 ).
1. Déplacez les fichiers de sortie Trinity dans le dossier "3_Assembly" dans le DE et étiquetez le dossier "A_Trinity_de_novo_assembly". Donnez à chaque transcriptome qui a été assemblé un sous-dossier dans le dossier "A_Trinity_de_novo_assembly" avec des noms uniques, y compris le nom scientifique des organismes et des traitements associés à chaque transcriptome. Créez un autre sous-dossier appelé "B_rnaQUAST_Output" dans le "dossier 3_Assembly".
2. Ouvrez l'application intitulée "rnaQUAST 1.2.0 (basé sur denovo)" et nommez l'analyse et sélectionnez "B_rnaQUAST_Output" comme dossier de sortie.
  1. Ajouter le fichier FASTA d'assemblage de novo à la section "Entrée de données". Dans la section "Sortie de données", tapez un nom unique pour le de novo
3. Sélectionnez les options supplémentaires dans les sections «GenemarkS-T Gene Prediction», «BUSCO» et «Parameters».
  1. Sélectionnez le procaryote dans la section "Prévision des gènes GenemarkS-T" si l'organisme n'est pas eucaryote.
  2. Exécutez BUSCO pour sélectionner le bouton Parcourir et copiez le chemin iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data dans la zone "Affichage:" et appuyez sur Entrée. Sélectionnez le dossier BUSCO le plus spécifique disponible pour l'organisme.
    REMARQUE: BUSCO évaluera l'assemblage pour les gènes de base spécifiques à la lignée et produira quel pourcentage de gènes de base est trouvé. Il existe des dossiers généraux, par exemple ekaryote, et des lignées plus spécifiques, par exemple arthropoda.
Rechercher "Transcript decoder" et exécuter Transdecoder on the de novO Fichier FASTA de sortie d'assemblage Trinity dans l'environnement de découverte.
Déplacez le fichier .pep de sortie dans le dossier d'assemblage de novo (3_Assemblage) pour l'utilisation à l'étape 5 Annotation.

4. Expression différentielle en paire en utilisant DESeq2 dans le DE

Ouvrez l'application DESeq2 dans le DE comme décrit précédemment. Nommez l'analyse et sélectionnez le dossier de sortie sous 4_Differential_Expression.
Dans la section "Entrées", sélectionnez le fichier de table des comptes à partir de l'exécution de l'assemblage Trinity et la colonne où les noms de contig peuvent être trouvés dans cette table compte.
Entrez les en-têtes de colonne à partir du fichier de table de données compte pour déterminer quelles colonnes sont comparées. Incluez les virgules entre chacune des conditions. N'incluez pas l'en-tête de la première colonne contenant les noms contig.
Pour les répliques, répétez le même nom ( p. Ex. , Treatment1rep1, Treatment1rep2, Treatment1rep3 deviendrait Treatment1, Treatment1, Treatment1). Dans leE deuxième ligne, fournir les noms des deux conditions à comparer ( par exemple , Treatment1, Treatment2). Faites correspondre les noms d'en-tête de colonne fournis dans la première ligne.
REMARQUE: ces en-têtes de colonne doivent être alphanumériques et ne peuvent contenir aucun caractère spécial.

5. Annotation utilisant Trinotate

Exécutez chaque partie de Trinotate dans l'instance de cloud computing. Remarque: Les commandes de Bash sont fournies dans un fichier txt à copier, à coller puis à modifier avant de s'exécuter sur les bases DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) ou sur la page wiki (https://wiki.cyverse.org/ Wiki / x / dgGtAQ). Si vous annotez plusieurs assemblages, annotez chaque assemblage un à la fois, puis transférez les fichiers d'annotations complétés dans le dossier "5_Annotation" chacun avec un dossier unique correspondant au nom de l'assemblage.
1. Exécutez la commande bash pour la recherche des transcriptions Trinity. Modifiez le nombre de threads en fonction du nombre de CPUSur l'instance, c'est-à-dire que le moyen comporte 4 CPU et le grand possède 8 CPU. Reportez-vous à l'étape 3.1.2 pour plus de détails. Changez la commande Trinity.fasta pour correspondre au nom de fichier FASTA de l'assemblage.
  REMARQUE: les recherches BLAST + nécessitent le plus de temps. Il se peut qu'il contienne quelques jours. L'activité de l'ordinateur en nuage peut être vérifiée en ambiance sans avoir à afficher le VNC Viewer.
2. Exécutez la commande bash pour rechercher des protéines prédites par Transdecoder. Comme précédemment, modifiez le numéro de fil et le nom du fichier pour correspondre aux conditions de 5.2.1.
3. Exécutez la commande bash pour HMMER et modifiez le nombre de threads comme ci-dessus.
4. Exécutez la commande bash pour signalP et tmHMM si nécessaire. SignalP va prédire les peptides de signal et le tmHMM prédit des motifs de protéines transmembranaires.
Chargement des résultats dans la base de données SQLite
1. Une fois que toutes les analyses ci-dessus sont terminées, exécutez la commande bash pour charger les fichiers de sortie dans une base de données finale d'annotations SQLite. Supprimer toutes les commandesPour les analyses qui n'ont pas été exécutées.
2. Exportez la base de données SQLite dans un fichier .xls pour la visualisation dans les téléspectateurs populaires.

Representative Results

Une fois que les fichiers d'organisation du projet ont été créés ( Figure 1 et 2 ), la première tâche de ce flux de travail est d'évaluer les fichiers de séquençage bruts, puis de les nettoyer en réduisant et filtrant de qualité. FastQC générera des statistiques sommaires lisibles par l'homme sur les scores de qualité et la longueur des séquences du format de fichier FASTQ. Les chiffres de FastQC sont ensuite comparés avant et après le découpage pour évaluer si les lectures finales sont de haute qualité et donc adaptées à l'assemblage. "Qualité de séquence par séquence" montre la qualité moyenne des lectures dans chaque paire de séquences de base. Il est préférable d'avoir un score de qualité phred au-dessus de 20-28 indiqué par les couleurs sur les chiffres de FastQC. Le «score de qualité par séquence» détermine si le filtrage de qualité des lectures peut être nécessaire. Si trop de lectures ont un score moyen inférieur à 20-25, il peut être nécessaire de filtrer en fonction de la qualité de lecture moyenne. "Le contenu de la séquence par base" devrait montrer une répartition uniforme dans les quatre bases nucléotidiques. S'il y a un biais dans la teneur en nucléotides, il est possible que des extrémités de coupe soient nécessaires. "Le contenu par GC de base devrait également être uniforme dans toutes les positions. S'il y a un oscillation, il faudra peut-être recadrer les lectures comme indiqué dans 1.4.4.3." Le contenu de la GC par séquence devrait être une distribution normale. Adaptation ou réaction en chaîne par polymérase (PCR ) Les produits peuvent contaminer dans la bibliothèque de séquençage et fausser la distribution normale. Dans ce cas, le découpage de l'adaptateur peut être nécessaire. La "distribution de la longueur de séquence" donne la longueur moyenne de toutes les lectures. Les lectures inférieures à 35-45 paires de bases sont généralement filtrées. Les «niveaux de duplication de séquences» montrent combien de fois une séquence de lecture donnée est visualisée dans la bibliothèque. La séquence de lecture et le nombre de répétitions très élevés sont fournis dans la section «Séquences surreprésentées». FastQC tente également d'identifier si les lectures dupliquéesSont une séquence d'adaptateur ou d'autres séquences connues associées à des plates-formes de séquençage. Une étiquette de "No Hit" signifie que la séquence devrait être étudiée plus en profondeur en utilisant NCBI BLAST ⁶ pour déterminer s'il s'agit d'une séquence biologiquement pertinente ou si elle doit être supprimée. Le DE dispose également de plusieurs versions de BLAST disponibles. L'application DE BLASTn est disponible à l'adresse suivante: https://de.iplantcollaborative.org/de/?type=apps&app-id=6f94cc92-6d28-45c6-aef1-036be697671d .

Une fois que le séquençage brut a été projeté pour produire des lectures de haute qualité, les lectures doivent être assemblées pour créer des séquences contiguës (contigs). En bref, les assemblages sont créés en alignant toutes les lectures de séquences courtes pour trouver des séquences similaires. Les zones de séquence similaire supérieure à une certaine longueur sont considérées comme étant la saMoi parce que la probabilité d'une séquence semblable de façon aléatoire d'une certaine longueur est presque nulle. Trinity produira des fichiers journaux, des fichiers fasta pour chaque étape du processus d'assemblage. Cependant, la sortie la plus importante est le fichier de montage final contenant les contigs, qui est intitulé "Trinity.fasta" et trouvé dans le dossier principal. Ce fichier contient tous les contigs assemblés, et en soi n'est pas pratiquement "lisible par l'homme". Par conséquent, l'outil rnaQUAST peut être utilisé pour comprendre l'assemblage plus en profondeur. L'outil rnaQUAST affichera des chiffres qui permettront aux utilisateurs de comparer les assemblages pour déterminer ceux qui sont les plus complets ( Figure 4 ). Vous trouverez des informations supplémentaires sur chaque chiffre de rnaQUAST sur le wiki ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). Si BUSCO ⁷ a été exécuté, l'intérêt particulier est le fichier specificity.txt qui montre le nombre complet et pLes gènes artial BUSCO et le nombre de prédictions des gènes GeneMarkS-T dans un assemblage. Les gènes BUSCO sont des ensembles de gènes bien organisés communs à un groupe d'organismes. Ils peuvent être utilisés pour évaluer à quel point un assemblage est en train de capturer des ensembles de gènes qui devraient être présents dans un type quelconque d'organisme, qui est basé sur des clades phylogénétiques. Une application autonome de BUSCO est également disponible dans le DE ( https://de.iplantcollaborative.org/de/?type=apps&app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ).

L'analyse différentielle de l'expression des gènes identifie les transcrits qui ont différents modèles d'expression à travers les traitements à partir de comptes simples selon les tableaux de transcription assemblés. DESeq2 utilise un modèle linéaire généralisé (GLM) pour déterminer la variation par rapport à une moyenne normalisée. Les expériences avec les répliques sont préférées pour que les variations techniques frLe séquençage OM peut être normalisé par l'algorithme DESeq2. L'analyse DESeq2 DEG donne des chiffres et un fichier de rapport .html qui contient tous les chiffres de sortie et une description. Alternativement, EdgeR peut être utilisé à la place de DESeq2, et le même rapport .html sera généré avec des visualisations EdgeR à la place. Les chercheurs souhaiteront peut-être exécuter DESeq2 et EdgeR pour trouver des gènes exprimés de façon différentielle identifiés par les deux algorithmes pour une expérience donnée. Trinotate créera un fichier .xls de sortie qui peut être ouvert dans n'importe quel logiciel de tableur. Les fichiers .txt DEG et le fichier .xls d'annotation peuvent être analysés et visualisés dans de nombreuses applications en aval qui existent en dehors de la plate-forme CyVerse.

Figure 3: Rapports FastQC de séquences de séquences brutes, lectures coupées et lectures finies et filtrées. Comparaison systématique du séquençage lueS après chaque étape de prétraitement. Des lectures de haute qualité sont nécessaires pour assembler des transcriptomes de novo . FastQC peut aider les chercheurs à comprendre la qualité initiale de leurs données de séquençage et à suivre avec quelle efficacité les lectures ont été prétraitées. Les résultats de FastQC dépendront des organismes et des échantillons séquencés, mais l'uniformité dans tous les échantillons qui seront comparés en aval est l'objectif principal des lectures de prétraitement. Une vidéo et une documentation sont disponibles auprès des auteurs et des développeurs de FastQC. Cliquez ici pour voir une version plus grande de ce chiffre.

Figure 4: RNAQUAST Rapports de trois ensembles distincts. RnaQUAST peut être utilisé pour comparer plusieurs ensembles de lecture utilisant le même assembleur, ou plusieurs Ssemblers utilisant les mêmes lectures initiales. RnaQUAST exploite BUSCO pour générer des statistiques récapitulatives sur les assemblages basés sur des gènes de noyau connus présents dans des clades taxonomiques. Le nombre de décalages par transcription et le nombre de transcriptions correspondant aux gènes canoniques, les fractions appariées, donnent un aperçu de la précision des assembleurs. Les quatre derniers sous-traits présentés ici fournissent des statistiques récapitulatives sur la longueur de contig et isoform et la couverture des isoformes attendues. NAx représente le pourcentage (x) de contigs avec une longueur supérieure à la longueur (bp) sur l'axe des y. La fraction assemblée est la plus longue transcription unique assemblée divisée par sa longueur. La fraction couvert est le pourcentage de transcrits / isoformes assemblés complets comme prévu par les gènes procaryotes ou eucaryotes de base de BUSCO. Une description de tous les graphiques générés par rnaQUAST est disponible ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Cliquez ici pour voir une version plus grande de ce chiffre.

Nom de l'application	Plate-forme CyVerse	Documentation tierce partie	Documentation CyVerse	Durée d'exécution estimée pour l'ensemble des exemples de données	Lien vers une application
FastQC	DE	Http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y	Https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768	15 min	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295
Trimmomatic v0.33	DE	Https://github.com/timflutre/trimmomatic	Https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-prOgrammable-0,33	30 minutes	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 9c2a30dc-028d- 11e6-a915-ab4311791e69
Faucille	DE	Https://github.com/najoshi/sickle	Https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming	30 minutes	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinité	Atmosphère	Https://github.com/trinityrnaseq/trinityrnaseq/wiki	Https: //pods.iplantcollaborative. Org / wiki / display / atmman / Trinity + - + Trinotate + Atmosphère + Image	1 semaine	Https: //atmo.iplantcollaborative. Org / application / images / 1261
	DE		Https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1	2-5 jours	Https: // wikI.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1
RnaQUAST v1.2.0	DE, Atmosphère	Http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	Https: //pods.iplantcollaborative. Org / wiki / display / TUT / rnaQUAST + 1.2.0 +% 28denovo + basé% 29 + en utilisant + DE	30 minutes	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 980dd11a-1666- 11e6-9122-930 Ba8f23352
Transdecoder	DE	Https://transdecoder.github.io	Https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0	2-3 heures	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179
DESeq2	DE	Https://bioconductor.org/packages/release/bioc/html/DESeq2.html	Https: //pods.iplantcollaborative. Org / wiki / pages /Viewpage.action? PageId = 28115142	2-3 heures	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 9574e87c-4f90- 11e6-a594-008 Cfa5ae621
EdgeR	DE	Https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	Https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144	2-3 heures	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 4a08ceda-54fe- 11e6-862f-008 Cfa5ae621
Trinotate	Atmosphère	Https://trinotate.github.io/	Https: //pods.iplantcollaborative. Org / wiki / display / atmman / Trinity + - + Trinotate + Atmosphère + Image	1 semaine	Https: //atmo.iplantcollaborative. Org / application / images / 1261

Tableau 1: Programmes d'analyse, plates-formes sur lesquelles ils sont disponibles, unNd Ressources supplémentaires disponibles pour les flux de travail en ordre par première apparence. Toutes les versions du paquet sont en vigueur en avril 2016.

Discussion

Il existe cinq étapes critiques dans le protocole qui créeront chacun leur propre dossier distinct dans le dossier principal du projet ( figures 1 et 2 ). Toutes les données principales de séquençage brut sont sacrosanct: elles doivent être téléchargées et conservées dans le premier dossier intitulé «1_Raw_Sequence» et non modifiées de quelque manière que ce soit. Les données peuvent être téléchargées de trois façons. L'interface DE peut être utilisée pour télécharger des fichiers directement. C'est le moyen le plus simple de télécharger des données, mais prendra le plus de temps à transférer. Cyberduck dispose d'une interface graphique et permet aux utilisateurs de faire glisser et déposer des fichiers à transférer vers le DE. ICommands est un outil de ligne de commande qui peut être utilisé pour transférer des données vers et depuis le magasin de données, créer des répertoires et gérer des ensembles de données et est probablement le moyen le plus rapide de transférer des fichiers de données. Toutes les données dans le magasin de données peuvent être partagées avec d'autres utilisateurs de CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), rendu public via une URL générée (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), ou peut être hébergé de manière publique et anonyme ( Aucun nom d'utilisateur requis) données communautaires disponibles (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). À l'intérieur de ce dossier, les lectures de séquence brute sont analysées avec FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) afin d'évaluer comment recadrer et filtrer les lectures pour générer des lectures de haute qualité. Après le recadrage et le filtrage de qualité, il est utile de comparer les sorties FastQC pour déterminer si la qualité de lecture a changé pour déterminer qu'elle s'est améliorée sans perdre d'informations ( Figure 3 ). Notez que l'axe des x de FastQC n'est pas linéaire, mais est plutôt utilisé pour de nombreux graphiques de sortie, ce qui peut entraîner une mauvaise interprétation des résultats. Les lectures taillées et filtrées sont ensuite utilisées pour assembler des transcriptomes de novo à l'aide d'une instance de cloud computing. CeL'ordinateur en nuage utilise l'écran, le clavier et la souris de l'ordinateur local, mais possède son propre logiciel (Trinity et Trinotate) et son matériel installé. L'exécution des programmes sur l'instance de l'ordinateur en nuage n'affectera aucunement l'ordinateur local. L' assemblage de novo et l'annotation en aval seront probablement les deux étapes les plus longues dans ce flux de travail. Par conséquent, ils sont complétés sur Atmosphere pour éviter les problèmes courants d'ordinateur partagés en laboratoire qui interrompent l'analyse, comme les pannes de courant, les redémarrages après des mises à jour automatiques tardives ou des collisions causées par d'autres utilisateurs. L'annotation Trinotate utilise BLAST + ⁸ , HMMER ⁹ , tmHMM ¹⁰ et PFAM ¹¹ . Le résultat final de l'annotation est une base de données SQLite et un fichier .xls. Les sorties peuvent être utilisées en dehors de CyVerse dans les plates-formes d'analyse en aval telles que KEGG ¹² ^, ¹³ .

Ce flux de travailEst prêt à utiliser dans le DE et l'atmosphère. Cela élimine la nécessité de passer du temps à installer, à configurer et à résoudre chaque module d'analyse et toutes les dépendances requises par chaque outil. Cela rationalise les analyses des chercheurs, minimise les efforts gaspillés et réduit la barrière d'entrée pour de nombreux scientifiques. Ce flux de travail assemble spécifiquement des lectures individuelles ou jumelées de la plate-forme de séquençage Illumina, mais de nombreux outils existent dans le DE et l'atmosphère pour gérer d'autres types de technologies de séquençage. Les outils de ce flux de travail peuvent être facilement remplacés par un outil alternatif correspondant pour gérer tout type de technologie de séquençage entrant. Cela vaut également pour les nouvelles versions d'outils d'analyse ou des outils complètement nouveaux.

Ce flux de travail est spécifiquement conçu pour assembler, comparer et annoter seulement quelques transcriptomes à la fois. Par conséquent, les utilisateurs peuvent trouver beaucoup de temps pour assembler des transcriptomes multiples pour la génétique de population comparative. Une analyseLes pipelines seront disponibles pour les utilisateurs de la génétique de la population dans un proche avenir et le lien vers le pipeline peut être trouvé sur la page wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). L'étape différentielle d'analyse de l'expression du gène peut traiter les répétitions, mais il s'agit d'une comparaison par paire et ne pas évaluer avec précision de multiples facteurs ( par exemple , les conditions qui varient avec le temps, plus de deux traitements). Des flux de travail automatisés existent pour les organismes avec des génomes de référence ( p. Ex. , TRAPLINE ¹⁴ ). Alors que les flux de travail automatisés sont les plus faciles à utiliser pour les novices, les ensembles de novo nécessitent une évaluation et une considération pour chaque étape décrite ici. En outre, les utilisateurs sont tenus d'utiliser des pipelines automatisés au fur et à mesure qu'ils sont construits et ne sont donc pas souples pour répondre aux demandes changeantes des utilisateurs.

Comme la plupart de ce protocole est effectué sur Internet, les utilisateurs peuvent rencontrer des problèmes avec leurs paramètres de navigateur. Premièrement,Les bloqueurs de fenêtres pop-up peuvent empêcher les fenêtres d'ouvrir ou empêcher les fenêtres d'ouvrir jusqu'à l'autorisation de CyVerse dans le navigateur. Atmosphère utilise VNC pour accéder aux ordinateurs de bureau distants, mais d'autres logiciels peuvent être utilisés. Tout ce protocole a été mené dans Firefox version 45.0.2 et devrait fonctionner avec tous les navigateurs Internet populaires, mais certaines incohérences peuvent apparaître. Le flux de travail sera mis à jour car Trinity publie de nouvelles versions (https://github.com/trinityrnaseq/trinityrnaseq/wiki). Les versions les plus récentes et les informations à jour sur le flux de travail se trouvent sur la page du didacticiel wiki ( tableau 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Les utilisateurs peuvent contacter directement le support technique ou poser des questions à Ask CyVerse (ask.cyverse.org/) pour résoudre les problèmes liés au flux de travail.

Dans le DE plusieurs applications existent pour accomplir chaque étape de ce protocole. Par exemple, les utilisateurs souhaitent exécuter Scythe (https://github.com/najoshi/sickle) au lieu de Trimmomatic¹⁵ pour lire ou couper EdgeR ¹⁶ au lieu de DESeq ¹⁷ ^, ¹⁸ . Bien que hors de la portée de ce manuscrit, les applications DE peuvent être copiées, éditées et diffusées par les utilisateurs (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) ou de nouvelles applications peuvent être ajoutées par les utilisateurs (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Les images Atmosphère peuvent également être modifiées et redimensionnées pour créer des flux de travail nouveaux ou modifiés qui correspondent plus spécifiquement aux besoins des utilisateurs (https://wiki.cyverse.org/wiki/x/TwHX). Ce travail sert d'introduction à l'utilisation de la ligne de commande pour déplacer des données et exécuter des analyses. Les utilisateurs peuvent envisager d'utiliser des ressources de ligne de commande plus avancées telles que les interfaces de programmation d'applications CyVerse (API) (http://www.cyverse.org/science-apis), ou la conception de leurs propres applications DE, qui nécessitent des connaissancesSur la façon dont l'outil d'analyse est exécuté sur la ligne de commande (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Materials

Name	Company	Catalog Number	Comments
Trimmomatic v0.33	USADELLAB.org	https://github.com/timflutre/trimmomatic	https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle	Joshi and Fass	https://github.com/najoshi/sickle	https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity	Broad Institute and Hebrew University of Jersalem	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0	Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352
Transdecoder	Broad Institute and Commonwealth Scientific and Industrial Research Organisation	https://transdecoder.github.io	https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR	Robinson et al. 2010.	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate	Broad Institute and Hebrew University of Jersalem	https://trinotate.github.io/	https://atmo.iplantcollaborative.org/application/images/1261