RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
French
Menu
Menu
Menu
Menu
DOI: 10.3791/55009-v
Blake L. Joyce1,2, Asher K. Haug-Baltzell3, Jonathan P. Hulvey4, Fiona McCarthy5, Upendra Kumar Devisetty1,6, Eric Lyons1,2,3
1BIO5 Institute,University of Arizona, 2The School of Plant Sciences,University of Arizona, 3Genetics GIDP,University of Arizona, 4Biology Department,University of Massachusetts Amherst, 5School of Animal and Comparative Biomedical Sciences,University of Arizona, 6CyVerse,University of Arizona
Please note that some of the translations on this page are AI generated. Click here for the English version.
Ce protocole décrit un flux de travail comparatif d’assemblage et d’annotation du transcriptome de novo pour les bioinformaticiens débutants. Le flux de travail est disponible gratuitement entièrement via CyVerse et connecté par le Data Store. La ligne de commande et les interfaces utilisateur graphiques sont utilisées, mais tout le code nécessaire est disponible pour le copier-coller.
L’objectif global de cette procédure est d’évaluer, d’assembler, d’annoter et de comparer l’expression différentielle des gènes par transcriptomique De Novo, à partir de fichiers FASTQ bruts. Cette méthode peut aider à répondre à des questions de biologie comparative et moléculaire, notamment quels transcrits se trouvent à l’intérieur d’un organisme, ce que ces transcrits font à l’intérieur de ces organismes et quelles sont les différences entre les conditions expérimentales. Le principal avantage de cette technique est qu’elle offre un environnement interactif.
Il fournit des ressources de calcul à la demande et permet aux chercheurs de commencer immédiatement à analyser leurs données de RNA-Seq. Cette méthode est particulièrement utile pour les chercheurs qui comparent des expériences au sein d’un seul organisme impliquant plusieurs tissus, conditions, points temporels pour comprendre comment les systèmes biologiques changent. Cette méthode se concentre sur des organismes non modèles sans génomes, mais peut également être appliquée à des organismes avec des assemblages de génomes disponibles, même ceux avec des dizaines ou des centaines de milliers d’échafaudages dans leur assemblage.
Pour commencer, accédez à Atmosphère dans l’environnement de découverte. Demandez un compte CyVerse gratuit en accédant à la page d’inscription. Utilisez une adresse e-mail institutionnelle pour vous inscrire au compte.
Ensuite, accédez à l’onglet Applications et services et demandez l’accès à Atmosphere. L’accès à l’environnement de découverte est automatiquement accordé. Connectez-vous à l’environnement de découverte, abrégé en DE. Ensuite, sélectionnez l’onglet Données pour afficher un menu contenant tous les dossiers du magasin de données.
Créez un dossier de projet principal qui hébergera toutes les données associées au projet. Recherchez la barre d’outils en haut de la fenêtre de données et sélectionnez Fichier, Nouveau dossier. N’utilisez pas d’espaces ou de caractères spéciaux dans les noms de dossiers ou de fichiers d’entrée et de sortie.
Utilisez plutôt des traits de soulignement ou des tirets le cas échéant. Téléchargez les fichiers de séquence FASTQ bruts et le dossier, 1_Raw_Sequence, dans un sous-dossier intitulé Dossier A_Raw_Reads. Pour les fichiers de moins de deux gigabits, utilisez la fonction de téléchargement simple du magasin de données pour accéder à la barre d’outils de la fenêtre de données en cliquant sur le bouton Données sur le bureau DE principal.
Sélectionnez Télécharger, Téléchargement simple à partir du bureau. Ensuite, sélectionnez le bouton Parcourir pour accéder aux fichiers de séquençage FASTQ bruts sur l’ordinateur local. Évaluez les lectures de séquençage brutes téléchargées à l’aide de l’application FastQC dans le DE. Sélectionnez le bouton Applications sur le bureau principal du DE pour ouvrir une fenêtre contenant toutes les applications d’analyse disponibles dans le DE. Recherchez l’outil FastQC dans la fenêtre de la barre d’outils de recherche en haut de la fenêtre.
Ouvrez la version multi-fichiers s’il y a plus d’un fichier FASTQ. Sélectionnez Fichier et créez un dossier, puis sélectionnez ce dossier comme dossier de sortie. Chargez les fichiers de lecture FASTQ dans la fenêtre d’outil appelée Sélectionner les données d’entrée et sélectionnez Lancer l’analyse.
Recherchez l’application programmable Trimmomatic dans le DE et ouvrez-la. Téléchargez le dossier des fichiers bruts lus FASTQ dans la section des paramètres. Indiquez si les fichiers de séquencement sont à une extrémité ou à deux extrémités.
Utilisez le fichier de contrôle standard fourni en sélectionnant le bouton Parcourir et en collant le chemin d’accès au fichier dans la zone d’affichage. Sélectionnez le fichier de contrôle Trimmomatic et lancez l’analyse. Pour des lectures de séquences de découpage de qualité, recherchez et ouvrez l’application Sickle dans le DE. Sélectionnez les lectures FASTQ tronquées comme lectures d’entrée et renommez les fichiers de sortie.
Incluez les paramètres de qualité dans les options. Ouvrez la version la plus récente de l’instance Atmosphere en accédant à la page wiki. Sélectionnez le lien pour la version la plus récente de l’image Trinity et Trinotate.
Sélectionnez le bouton Se connecter pour lancer, puis nommez l’instance Atmosphere. Sélectionnez une taille d’instance moyenne3 ou grande3. Lancez l’instance et attendez qu’elle soit générée.
Si une image Atmosphere ne fonctionne pas, vous pouvez essayer de postuler pour une instance plus petite ou vous pouvez postuler à Jetstream pour une allocation plus importante. Tous les détails sont sur le wiki compagnon. Déplacez les fichiers de sortie Trinity dans le dossier, 3_Assembly, dans le DE et étiquetez le dossier, A_Trinity_de_novo_assembly.
L’exécution de Trinity nécessite une connaissance de la ligne de commande et plusieurs jours, voire plusieurs semaines, pour effectuer des analyses de grande envergure. Il existe des ressources gratuites disponibles qui sont liées sur le wiki pour aider à comprendre la ligne de commande. Donnez à chaque transcriptome assemblé un sous-dossier à l’intérieur du dossier A_Trinity_de_novo_assembly.
Utilisez des noms uniques, y compris les noms scientifiques des organismes et des traitements associés à chaque transcriptome, puis créez un autre sous-dossier appelé Dossier B_rnaQUAT_Output dans le dossier 3_Assembly. Ouvrez l’application intitulée De Novo rnaQUAST. Nommez l’analyse et sélectionnez Dossier B_rnaQUAST_Output comme dossier de sortie.
Recherchez le décodeur de transcription et exécutez le transdécodeur sur le fichier fasta de sortie De Novo Trinity Assembly dans l’environnement de découverte. Ouvrez l’application deseq2 dans le DE.Name l’analyse et sélectionnez le dossier de sortie comme 4_Differential_Expresssion. Dans la section Entrée, sélectionnez le fichier de table des comptes à partir de l’exécution de Trinity Assembly.
Sélectionnez également la colonne dans laquelle se trouvent les noms des contigs. Entrez les en-têtes de colonne à partir du fichier de table de données des nombres pour déterminer quelles colonnes sont comparées. Incluez les virgules entre chacune des conditions.
N’incluez pas le premier en-tête de colonne qui contient les noms de contig. Pour les réplications, répétez le même nom. Sur la deuxième ligne, indiquez les noms des deux conditions à comparer.
Correspond aux noms d’en-tête de colonne fournis dans la première ligne. Voici une comparaison systématique des lectures de séquençage après chaque étape de prétraitement. Après le découpage, la lecture doit avoir moins de contenu GC et de contenu de séquence asymétriques, et avoir une plus grande proportion de lectures avec un score de qualité élevé.
Des lectures de haute qualité sont nécessaires pour assembler les transcriptomes De Novo. Les résultats du CQ rapide dépendent des organismes et des échantillons séquencés. L’uniformité de tous les échantillons qui seront comparés en aval est l’objectif principal du prétraitement des lectures.
rnaQUAST pour exploiter le code boost afin de générer des statistiques récapitulatives sur les assemblages basés sur des gènes de base connus dans les clades taxonomiques. La précision des assembleurs est révélée par le nombre de mésappariements par transcrit et le nombre de transcrits correspondant aux gènes canoniques. Les quatre derniers sous-graphiques présentés ici fournissent des statistiques sommaires sur la longueur des contig et des isoformes, ainsi que la couverture des isoformes attendues.
NAx représente le pourcentage de contigs dont la longueur est supérieure à la longueur de l’axe des y. La fraction assemblée est le plus long transcrit assemblé divisé par sa longueur. Alors que la fraction couverte est le pourcentage d’isoformes complètes du transcrit assemblé comme prévu par les gènes procaryotes ou eucaryotes de base de BUSCO.
Après avoir regardé cette vidéo, vous devriez avoir une bonne compréhension de la façon d’assembler et de saisir des transcriptomes. De plus, ce protocole vous permettra de détecter l’expression différentielle des gènes entre deux conditions. En général, les individus ont du mal avec les packages bioinformatiques parce qu’il y en a tellement, il y a beaucoup de paramètres et de variables qui leur sont associés, et généralement vous devez avoir une connaissance de la ligne de commande pour les exécuter.
Il est important d’étiqueter et d’organiser vos entrées de données et vos résultats d’analyse afin que d’autres chercheurs puissent comprendre ce qui a été fait. Vous devez inclure les étapes de la commande terminées, les versions du programme et les informations sur les échantillons. Omettez également les espaces dans les noms de dossiers ou de fichiers.
De nouveaux outils et de nouvelles versions des outils sont constamment intégrés, mais les anciennes versions des outils sont également conservées. Toutes les modifications seront enregistrées sur le wiki compagnon. À la suite de cette procédure, d’autres méthodes bioinformatiques telles que l’analyse de réseau, l’enrichissement GO et l’identification des voies métaboliques peuvent être effectuées pour aider à répondre à des questions telles que la variation du phénotype, les conditions qui modifient les profils d’expression et l’identification des gènes d’intérêt pour la génomique fonctionnelle.
Related Videos
12:10
Related Videos
13.9K Views
10:19
Related Videos
18.1K Views
09:35
Related Videos
18.3K Views
09:40
Related Videos
9.2K Views
12:14
Related Videos
5.9K Views
06:41
Related Videos
14.4K Views
14:58
Related Videos
4.8K Views
06:40
Related Videos
1.8K Views
10:22
Related Videos
565 Views
03:08
Related Videos
998 Views