Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Analyse transcriptomique de Published: April 8, 2017 doi: 10.3791/55473

Summary

Galaxy et David sont apparus comme des outils populaires qui permettent aux enquêteurs sans formation de bio-informatique pour analyser et interpréter les données d'ARN-Seq. Nous décrivons un protocole pour C. elegans aux chercheurs d'effectuer des expériences ARN-Seq, l' accès et de traiter l'ensemble de données en utilisant Galaxy et d' obtenir des informations biologiques significatives à partir des listes de gènes en utilisant DAVID.

Abstract

technologies de séquençage de nouvelle génération (NGS) ont révolutionné la nature de la recherche biologique. Parmi ceux-ci, l'ARN de séquençage (ARN-Seq) est devenue un outil puissant pour l'analyse de l'expression génique et cartographie transcriptome. Cependant, la manipulation des ensembles de données d'ARN-Seq nécessite une expertise informatique sophistiquée et pose des défis inhérents aux chercheurs en biologie. Ce goulot d'étranglement a été atténué par le projet Galaxy d'accès ouvert qui permet aux utilisateurs sans compétences en bio-informatique pour analyser les données d'ARN-Seq, et la base de données pour l'annotation, la visualisation et la découverte intégrée (DAVID), une analyse terme Gene Ontology (de GO) de suite qui aide tirer signification biologique de grands ensembles de données. Toutefois, pour les nouveaux utilisateurs et les amateurs de bio-informatique, l'auto-apprentissage et de familiarisation avec ces plates-formes peut prendre beaucoup de temps et intimidante. Nous décrivons un flux de travail simple qui aidera à C. elegans chercheurs pour isoler l' ARN sans fin, mener une expérience d'ARN-Seqet d'analyser les données en utilisant des plates-formes Galaxy et David. Ce protocole fournit des instructions par étapes pour l'utilisation des différents modules Galaxy pour l'accès aux données de l'END premières vérifications de contrôle de qualité, l'alignement et l'analyse de l'expression génique différentielle, guidant l'utilisateur avec des paramètres à chaque étape pour générer une liste de gènes qui peuvent être criblés pour l'enrichissement de classes de gènes ou de processus biologiques à l'aide de DAVID. Dans l' ensemble, nous prévoyons que cet article fournira des informations à C. elegans chercheurs qui entreprennent des expériences d'ARN-Seq pour la première fois ainsi que les utilisateurs fréquents en cours d' exécution d' un petit nombre d'échantillons.

Introduction

Le premier séquençage du génome humain, réalisée en utilisant la méthode didésoxynucléotide-séquençage de Fred Sanger, a 10 ans et a coûté 3 milliards $ US environ 1, 2. Cependant, dans un peu plus d'une décennie depuis sa création, le séquençage de nouvelle génération (NGS) la technologie a permis de séquencer l'ensemble du génome humain dans les deux semaines et pour 1000 $ US. De nouveaux instruments qui permettent NGS toujours plus des vitesses de collecte de données d'séquençage avec une incroyable efficacité, ainsi que de fortes réductions des coûts, sont en train de révolutionner la biologie moderne de façon inimaginable que des projets de séquençage du génome deviennent rapidement monnaie courante. De plus, ces développements ont galvanisé des progrès dans de nombreux autres domaines tels que l'analyse de l'expression des gènes par ARN-séquençage (ARN-Seq), étude du génome à l'échelle des modifications épigénétiques, les interactions ADN-protéines, et le dépistage de la diversité microbienne dans des hôtes humains. ARN-Se-NGS à baseq en particulier, a permis d'identifier et de cartographier transcriptome globalement la précision et la sensibilité, et a remplacé la technologie des puces à ADN comme méthode de choix pour le profilage d'expression. Bien que la technologie des puces à ADN a été largement utilisée, elle est limitée par sa dépendance à l'égard des réseaux préexistants avec des informations génomiques connues, et d'autres inconvénients tels que l'hybridation croisée et la gamme restreinte de changements d'expression qui peut être mesurée de manière fiable. ARN-Seq, d'autre part, peut être utilisé pour détecter à la fois les transcriptions connus et inconnus, tout en produisant un faible bruit de fond en raison de sa nature cartographie de l'ADN non équivoque. ARN-Seq, ainsi que les nombreux outils génétiques offerts par des organismes modèles tels que la levure, les mouches, les vers, les poissons et les souris, a servi de base pour de nombreuses importantes découvertes biomédicales récentes. Cependant, d'importants défis subsistent qui rendent NGS inaccessibles à la communauté scientifique dans son ensemble, y compris les limites de stockage, le traitement, et la plupart de tous, m analyse bioinformatique eaningful de grands volumes de données de séquençage.

Les progrès rapides des technologies de séquençage et de l'accumulation exponentielle des données ont créé un grand besoin de plates-formes de calcul qui permettront aux chercheurs d'accéder, d'analyser et de comprendre ces informations. Les premiers systèmes étaient fortement tributaires des connaissances de programmation informatique, alors que, les navigateurs du génome tels que NCBI qui a permis aux non-programmeurs d'accéder et de visualiser les données ne permettaient pas des analyses sophistiquées. Le Web, la plate - forme ouverte d'accès, Galaxy ( https://galaxyproject.org/ ), a rempli ce vide et avéré être un pipeline précieux qui permet aux chercheurs de traiter les données et effectuer NGS un spectre de simple à complexe analyse bio-informatique. Galaxy a d'abord été établie et est maintenue, par les laboratoires d'Anton Nekrutenko (Penn State University) et James Taylor (Johns Hopkins University)f "> 3. Galaxy propose une large gamme de tâches de calcul qui en fait un « guichet unique » pour les besoins innombrables de bio - informatique, y compris toutes les étapes impliquées dans une étude de l' ARN-Seq. Itallows utilisateurs pour effectuer le traitement des données soit sur ses serveurs ou localement sur leurs propres machines. les données et les flux de travail peuvent être reproduits et partagés. les didacticiels en ligne, aide et une page wiki ( https://wiki.galaxyproject.org/Support ) dédié au projet Galaxy fournissent un soutien constant. Cependant, pour les utilisateurs pour la première fois, en particulier ceux sans formation de bio-informatique, le pipeline peut sembler décourageants et le processus d'auto-apprentissage et de familiarisation peut prendre du temps. En outre, le système biologique étudié, et les spécificités de l'expérience et les méthodes utilisées, l'impact les décisions d'analyse à plusieurs étapes, et celles-ci peuvent être difficiles à naviguer sans instruction.

Le RN total A-Seq Galaxy flux de travail se compose de transfert de données et de contrôle de qualité suivie d' une analyse en utilisant le Tuxedo Suite 4, 5, 6, 7, 8, 9, qui est un collectif de différents outils nécessaires à différentes étapes de l' analyse des données de l' ARN-Seq 10, 11, 12, 13, 14. Une expérience d'ARN-Seq typique se compose de la partie expérimentale (préparation de l'échantillon, l'isolement de l'ARNm et préparation banque d'ADNc), l'END et l'analyse des données bio-informatique. Un aperçu de ces sections, et les étapes du pipeline Galaxy, sont présentés dans la figure 1.

3fig1.jpg »/>
Figure 1: Vue d' ensemble d'un ARN-Seq Workflow. Illustration des étapes expérimentales et informatiques impliquées dans une expérience d'ARN-Seq pour comparer les profils d'expression génique de deux souches de vers (A et B, les lignes orange et vert et des flèches, respectivement). Les différents modules de Galaxy utilisés sont indiqués dans les cases avec l'étape correspondante dans notre protocole indiqué en rouge. Les sorties de différentes opérations sont écrites en gris avec les formats de fichiers en bleu. S'il vous plaît cliquer ici pour voir une version plus grande de ce chiffre.

Le premier outil de la Tuxedo Suite est un programme d'alignement appelé « Tophat ». Il se décompose l'entrée NGS lit en fragments plus petits, puis les cartes à un génome de référence. Ce procédé en deux étapes assure que les lectures couvrant les régions introniques dont l'alignement peut être autrement disrupted ou manqués sont pris en compte et cartographiées. Cela augmente la couverture et facilite l'identification des jonctions nouvelles d'épissage. Sortie Tophat est rapporté que deux fichiers, un fichier de lit (avec des informations sur les jonctions d'épissage qui comprennent l' emplacement génomique) et un fichier BAM (avec des détails cartographiques de chaque lecture). Ensuite, le fichier BAM est aligné sur un génome de référence pour estimer l'abondance des relevés de notes individuelles dans chaque échantillon à l' aide de l'outil suivant dans la suite Tuxedo appelé « » Boutons de manchette. Boutons de manchette fonctions en balayant l'alignement pour signaler des fragments de transcription complète ou « transfrags » qui couvrent toutes les variantes d'épissage possibles dans les données d'entrée pour chaque gène. Sur cette base, il génère un « transcriptome » (ensemble de tous les transcrits générés par gène pour chaque gène) pour chaque échantillon étant séquencées. Ces ensembles de boutons de manchette sont alors effondrés ou ont fusionné ensemble avec la regénome rence pour produire un fichier d'annotation pour l' analyse différentielle en aval en utilisant l'outil suivant, 'Cuffmerge. Enfin, les mesures de l' outil « Cuffdiff » expression différentielle de gènes entre des échantillons en comparant les sorties de TopHat de chacun des échantillons dans le fichier de sortie de Cuffmerge finale (Figure 1). Cufflinks utilise des valeurs FPKM / RPKM (Fragments / Reads par kilobase de la transcription par million cartographié lectures) de faire rapport abondances de transcription. Ces valeurs reflètent la normalisation des données de l'END premières pour la profondeur (nombre moyen de lectures à partir d'un échantillon alignement sur le génome de référence) et la longueur des gènes (gènes ont des longueurs différentes, de sorte que les chiffres doivent être normalisées pour la longueur d'un gène pour comparer les niveaux entre les gènes). FPKM et RPKM sont essentiellement les mêmes avec RPKM utilisé pour l'ARN-Seq-end unique où chaque lecture correspond à un seul fragment, tandis que, FPKM est utilisé pourARN-Seq-end associé, car il tient compte du fait que deux lectures peuvent correspondre au même fragment. En fin de compte, le résultat de ces analyses est une liste de gènes exprimés de manière différentielle entre les conditions et / ou les souches testées.

Une fois un succès run Galaxy est terminée et une « liste de gènes » est générée, la prochaine étape logique exige plus des analyses bio-informatique pour en déduire des connaissances significatives à partir des ensembles de données. De nombreux logiciels ont vu le jour pour répondre à ce besoin, y compris les progiciels de calcul basés sur le Web accessibles au public , tels que DAVID (la base de données pour l' annotation, la visualisation et la découverte intégrée) 15. DAVID facilite l'attribution sens biologique à des listes de gènes provenant d'études à haut débit en comparant la liste des gènes transféré à sa base de connaissances biologique intégrée et révélant les annotations biologiques associées à la liste des gènes. Il est suivi par l' analyse d' enrichissement, par exemple, des tests à identifier si un processus biologique ou une catégorie gène est surreprésenté dans la liste de gène (s) d'une manière statistiquement significative. Il est devenu un choix populaire en raison d'une combinaison d'un large, des algorithmes d' analyse et de base de connaissances intégrée puissants qui permettent aux chercheurs de détecter des thèmes biologiques enrichis au sein de la génomique dérivées 10 « listes de gènes », 16. D'autres avantages sont sa capacité à traiter des listes de gènes créés sur une plate-forme de séquençage et une interface très conviviale.

Le nématode Caenorhabditis elegans est un système de modèle génétique, bien connu pour ses nombreux avantages tels que de petite taille, le corps transparent, plan de corps simple, la facilité de la culture et à la dissection grande amenability génétique et moléculaire. Worms ont un petit, simple et génome bien annotée qui comprend jusqu'à 40% des gènes conservés avec homologues humains connus 17. En effet, C. elegansa été le premier métazoaire dont le génome a été entièrement séquencé 18, et une de la première espèce , où l' ARN-Seq a été utilisé pour cartographier le transcriptome d'un organisme 19, 20. Les premières études de ver impliqués expérimentation de méthodes différentes pour la capture d'ARN à haut débit, la préparation et le séquençage bibliothèque, ainsi que les pipelines de bio - informatique qui ont contribué à l'avancement de la technologie 21, 22. Ces dernières années, l'expérimentation à base d'ARN-Seq vers est devenu monnaie courante. Mais, pour les biologistes des vers traditionnels les défis posés par l'analyse informatique des données d'ARN-Seq demeurent un obstacle majeur pour une meilleure utilisation et une meilleure de la technique.

Dans cet article, on décrit un protocole pour l' utilisation de la plate - forme Galaxy pour analyser les données d'ARN-Seq à haut débit provenant de C. elegans. Pour beaucoup pour la première fois et le petit-scautilisateurs Le, la façon la plus rentable et facile à entreprendre une expérience d'ARN-Seq est d'isoler l'ARN dans le laboratoire et utiliser un commercial (ou interne) installation NGS pour la préparation de banques d'ADNc de séquençage et la centrale nucléaire elle-même. Par conséquent, nous avons d' abord en détail les étapes de l' isolement, l' évaluation de la quantification et la qualité de C. elegans échantillons d'ARN pour l' ARN-Seq. Ensuite, nous fournissons des instructions étape par étape pour l'utilisation de l'interface Galaxy pour l'analyse des données de l'END, en commençant par des tests de contrôles de qualité post-séquençage suivi par l'alignement, l'assemblage et la quantification différentielle de l'expression génique. De plus, nous avons inclus les directions pour examiner les listes de gènes résultant de Galaxy pour des études d'enrichissement biologique en utilisant DAVID. En tant que dernière étape du flux de travail, nous fournissons des instructions pour le téléchargement des données d'ARN-Seq aux serveurs publics tels que l'archive Lire la séquence (SRA) sur NCBI ( http: // www.ncbi.nlm.nih.gov/sra) pour le rendre librement accessible à la communauté scientifique. Dans l'ensemble, nous prévoyons que cet article fournira des informations complètes et suffisantes pour les biologistes de ver expériences d'ARN qui entreprennent-Seq pour la première fois ainsi que les utilisateurs fréquents en cours d'exécution d'un petit nombre d'échantillons.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Isolement de l'ARN

  1. Des mesures de précaution
    1. Essuyez toute la surface de travail, des instruments et pipettes à l'aide d'un spray RNase disponible dans le commerce pour éliminer les RNases présents.
    2. Porter des gants en tout temps, les changer régulièrement avec les frais au cours des différentes étapes du protocole.
    3. Utilisez uniquement des conseils de filtre et de garder tous les échantillons sur la glace autant que possible pour éviter la dégradation de l'ARN.
      NOTE: Afin d'obtenir les meilleures données des plates-formes NGS, il est essentiel de commencer par l'ARN de haute qualité. isolement de l'ARN et des procédés de préparation varient selon l'origine échantillon, la méthode de séquençage et de préférence enquêteur. Plusieurs kits disponibles dans le commerce peuvent être utilisés à cet effet ou d'ARN peuvent également être isolés en utilisant un procédé au phénol-chloroforme classique d'extraction de l'ARN. Avec une ou l'autre méthode, les mesures de précaution énumérées ci-dessus doivent être suivies tout au long du processus afin de minimiser la contamination et OBTain échantillons d'ARN intact.
  2. Worms récolte
    1. Synchroniser la population ayant une vis sans fin par un traitement de blanchiment hypochlorite pour obtenir 23 1000-1500 C. elegans appariés selon l' âge des vers adultes par souche.
    2. Laver les vers de plaques en utilisant une solution tampon M9 et centrifugation à 325 x g sur une centrifugeuse de dessus de table pendant 30 s. Aspirer le tampon M9 laissant derrière un culot de vers. Répétez cette étape au moins trois fois pour éliminer des bactéries report.
    3. Pour le culot à vis sans fin, ajouter ~ 500 ul de tampon de lyse (si l'on utilise un kit commercial) ou Trizol (une solution de mono-phasique de phénol et d'isothiocyanate de guanidine, si extraction au phénol: chloroforme décrit dans 1.3.3 est entreprise) pour perturber les tissus à vis sans fin , désactiver RNases et stabiliser les acides nucléiques.
      REMARQUE: Le protocole peut être mis en pause ici par le flash gel des échantillons dans l'azote liquide suivie d'un stockage à -80 ° C.
  3. Isolement de l' ARN
  4. Des échantillons de vis sans fin de sonication à amplitude de 45% des cycles de 20 s. 'ON' et 40 s. 'OFF' (8-12 cycles par souche). Conserver les échantillons sur la glace en tout temps.
    REMARQUE: Assurez-vous que la sonde de sonication est immergé dans le tampon et est maintenue à un niveau constant tout au long. Évitez mousser de l'échantillon et nettoyer soigneusement la sonde entre-deux échantillons. les cycles de sonication peuvent varier en fonction du type de sonicateur utilisé. Il est recommandé que les conditions de sonication sont d'abord optimisés sur un échantillon d'essai avant de commencer une expérience.
  5. Si l'on utilise un kit disponible dans le commerce, procéder à l'isolement de l'ARN conformément au protocole prescrit. Pour l'isolement de l'ARN en utilisant une méthode au phénol-chloroforme, effectuer les étapes suivantes.
  6. Centrifugeuse soniqué échantillons à 16 000 xg pendant 10 min. à 4 ° C
  7. Transférer le surnageant dans un tube de microcentrifugation sans RNase-1,5 ml et ajouter 100 ul de chloroforme (1/5 du volume de réactif d'isolement de l' ARN / ADN).
    Mise en garde: Chloroforme est toxique. Afin de minimiser l'exposition et éviter l'inhalation, travailler dans une hotte chimique pour manipuler cette substance.
  8. Vortex les échantillons à fond pour les 30 - 60 s. et laisser les échantillons reposer à température ambiante pendant 3 min.
  9. Centrifuger à 11750 g pendant 15 min. à 4 ° C. Transfert seule la couche aqueuse supérieure à un nouveau tube de microcentrifugeuse sans RNase en prenant soin de ne pas aspirer l'ADN contenant l'interface blanche. Répétez les étapes 1.3.4 à travers 1.3.6.
  10. Ajouter 250 ul (70% de phase aqueuse ou 1/2 volume de réactif d'isolement de l'ARN / ADN) de 2-propanol et inverser le tube pour mélanger. Laissez tubes reposer à température ambiante pendant 10 minutes ou laisser une nuit à -80 ° C.
  11. Centrifuger les échantillons à 11 750 xg pendant 10 min. à 4 ° C. Décanter le surnageant très soigneusement, laissant derrière lui quelques pi au fond du tube, de sorte que la pastille ne soit pas perturbé.
  12. Laver culot avec 500 ul de 75% d'éthanol (fabriqué en utilisant de l'eau sans RNase) et centrifuger à 16 000 xg pendant 5 min. unet 4 ° C.
  13. Retirez le plus possible surnageant sans perturber le culot. Sécher à l'air le culot dans une hotte pendant quelques minutes.
  14. Ajouter 30 ul d'eau sans RNase et aider à dissoudre le culot d'ARN par chauffage pendant 10 min. à 60 ° C.
  15. Vérifier la qualité de l'ARN et la quantité en utilisant un Bioanalyseur.
    REMARQUE: Bioanalyzer génère un R NA I Ntegrity N ombre (RIN) en tant que mesure de la qualité de l' ARN. Un RIN d'au moins 8 est le seuil recommandé pour les échantillons d'ARN-Seq (plus élevé est mieux). la quantité d'ARN et la qualité peuvent aussi être vérifiés par spectrophotométrie mais devraient également être suivies par une évaluation visuelle de l'intégrité de l'ARN. Pour ce faire, exécuter les échantillons sur une assez longue gel d'agarose à 1,2% pour obtenir une séparation appropriée des 28s et 18s bandes d'ARN ribosomique. La présence de deux bandes distinctes (1,75 kb pour l' ARNr 18S et de 3,5 kb pour l' ARNr 28S dans le cas de C. elegans) est une mesure acceptable de la qualité de l' ARN.
  16. Utiliser ~ 100 ng / ul d'ARN de ship à l'installation du fournisseur / NGS pour la préparation de bibliothèques de séquençage.
    NOTE: Les échantillons d'ARN doivent être expédiés sur glace sèche au fournisseur de services de séquençage. La plupart des fournisseurs effectuent un test ARN indépendant de contrôle de qualité avant la préparation bibliothèque.

2. ARN-Seq analyse des données

  1. Télécharger des données brutes Séquençage
    1. Télécharger les données de séquençage de fastq brut comprimé encodées dans le format fastq.gz du fournisseur NGS en utilisant un « protocole de transfert de fichiers » (ftp).

Figure 2
Figure 2: Structure du panneau d' interface utilisateur Galaxy et d' ARN-Seq - clés fonctions. Les principales caractéristiques de la page sont développés et mis en évidence. (A) met en évidence la fonction « Analyse des données » dans l' en- tête de la page Web utilisée pour accéder (B) est la « barre de progression » indiquant l'espace sur le serveur Galaxy utilisé par l'opération. (C) est la « section Outils » qui répertorie tous les outils qui peuvent être exécutés sur l'interface Galaxy. (D) représente les «END: ARN Analyse de la section de l' outil utilisé pour l' analyse de l' ARN-Seq. (E) représente le panneau « Historique » qui répertorie tous les fichiers générés à l' aide Galaxy. (F) montre un exemple de la boîte de dialogue qui ouvre en cliquant sur un fichier dans la section Historique. Within (F), la boîte bleue met en évidence les icônes qui peuvent être utilisés pour afficher, editthe attributs ou supprimer l'ensemble de données, la boîte violacés icônes qui peuvent être utilisés pour « modifier » les balises ensemble de données ou d' annotations, et la boîte rouge indique les icônes pour télécharger les données, voir les détails de la tâche accomplie ou réexécuter l'opération. S'il vous plaît cliquer ici pour voir une version plus grande de ce chiffre.

  1. Mise en route avec Galaxy
    REMARQUE: Galaxy peut être exécuté sur un serveur public gratuit en utilisant une plate-forme Web offrant un accès en nuage et sans stockage limité. Il peut également être téléchargé et exécuté localement sur la machine de l'utilisateur ou des clusters de calcul hébergés par des institutions, mais le traitement local, peut être limité par les limites de stockage de données et les limites de la puissance de traitement des machines utilisateur. Détails sur le téléchargement et l' installation sont accessibles à https://wiki.galaxyproject.org/Admin/GetGalaxy . Dans ce protocole, nous décrivons l'utilisation en ligne du pipeline Galaxy.
    1. Après le téléchargement et le stockage des données NGS sur la machine de l'utilisateur, l'accès Galaxy àlaxy.org/ » target = "_blank"> https://usegalaxy.org/.
    2. Inscrivez -vous un compte d'utilisateur en cliquant sur « utilisateur » dans l' en- tête de la page, connectez - vous et commencer par se familiariser avec le panneau d'interface utilisateur.
      NOTE: Il est recommandé que les utilisateurs débutants utilisent le tutoriel « Commencez ici » fourni sur la page d'accueil pour se familiariser avec la configuration de base de Galaxy ( https://github.com/nekrut/galaxy/wiki/Galaxy101-1 ) .
    3. Cliquez sur « Analyser les données » (figure 2A) dans le panneau d' en- tête pour accéder à la « Analyse Accueil View » qui est aussi l'écran de démarrage sur Galaxy.
      REMARQUE: L'en-tête abrite également d'autres liens dont les détails peuvent être vus en plaçant le curseur du pointeur de la souris sur eux. Le coin supérieur droit de l' en- tête a une barre de progression qui surveille l' espace utilisé pour les tâches (figure 2B).
    4. Clèchent sur 'NGS: ARN Analyse de la tâche dans le « Menu Outils » sur le panneau gauche (figure 2C) pour accéder à tous les outils nécessaires à l' analyse des données ARN-Seq.
      REMARQUE: Le « Menu Outils » catalogues de toutes les opérations que nous offre Galaxy. Ce menu est divisé en fonction des tâches et en cliquant sur l'une ouvrira une liste de tous les outils nécessaires pour accomplir cette tâche.
    5. Créer un nouveau historique d'analyse en cliquant sur l'icône d'engrenage en haut du panneau « Historique » à droite (figure 2E). Choisissez « Créer un nouveau » option dans le menu contextuel. Donnez cette « Histoire » un nom approprié pour identifier l'analyse.
      REMARQUE: Le panneau « Historique » affiche tous les fichiers téléchargés pour l'analyse ainsi que tous les fichiers de sortie qui sont générés par des tâches en cours d'exécution sur Galaxy. En cliquant sur un nom de fichier dans ce panneau ouvre une boîte de dialogue avec des informations détaillées sur la tâche effectuéeet un extrait de l'ensemble de données (Figure 2F). Les icônes de cette boîte permettent à l'utilisateur de « vue », « modifier les attributs » ou « supprimer » l'ensemble de données (figure 2F, surligné en bleu). En outre, l'utilisateur peut également « modifier » balises ensemble de données ou d' annotations (Figure 2F, en violet), « télécharger » les données, « voir les détails » de la tâche, «exécutez à nouveau la tâche ou même « visualiser » l'ensemble de données de cette boîte de dialogue (figure 2F, mis en évidence en rouge).
    6. Cliquez sur la fonction « File Upload » sous « Données » dans le « menu Outils » pour télécharger des fichiers de fastq premières.
      NOTE: En cliquant sur ce ou tout autre outil ouvre une brève description de l'opération, et le test lui - même, au milieu panneau « Analyse Interface ». Ce panneau lacets ensemble la« Outils » dans le panneau de gauche et le « Fichiers d' entrée » à partir du panneau droit « Histoire » (figure 2E). Ici, les fichiers d' entrée de « Histoire » sont choisis et d' autres paramètres définis pour exécuter une tâche donnée. L'ensemble de données de sortie résultant de chaque test est enregistré retour dans « Histoire ». Inclus avec le test dans le panneau «Analyse Interface» sont des explications pour tous les paramètres disponibles pour l' exécution d' un outil donné avec une liste détaillée de tous les fichiers de sortie de l'outil génère.
    7. Une fois la tâche ouvre dans la « Analyse Interface », cliquez sur « Choisissez Fichier local » ou « Choisissez Fichier FTP » (plus rapide upload), naviguez jusqu'au dossier contenant les fichiers de séquençage et sélectionnez l'ensemble de données approprié à télécharger.
    8. Autoriser Galaxy à «Auto-détection du type de fichier téléchargé (paramètre par défaut). Sélectionnez 'el C.Egans 'dans le menu déroulant du génome.
    9. Cliquez sur « Démarrer » pour lancer le téléchargement des données. Une fois le fichier téléchargé, il sera enregistré dans le panneau « Historique » et est accessible à partir de là.
    10. Si les fichiers de données de séquençage multiples sont produits pour un seul échantillon, les combiner en utilisant l'outil « Concatenate ». Pour ce faire, ouvrez l'option de manipulation de texte "dans le « Menu Outils ».
    11. Cliquez sur le « Concatenate » outil, choisissez les fichiers qui doivent être combinés dans la zone déroulante au milieu de « l' interface d'analyse » et cliquez sur « Exécuter ».
      REMARQUE: Les fichiers de sortie produits à l' aide de cette tâche sont générés au format fastq. Le programme de cartographie a une limite de 16.000.000 séquences par fichier fastq et lorsque cette limite est atteinte d' un nouveau fichier fastq est généré pour les séquences restantes. le '; Outil Concatenate » est nécessaire dans de tels cas de combiner les ensembles de données.
    12. Convertir les fichiers téléchargés au format fastq au format fastqsanger requis pour Galaxy analyse ARN-Seq en utilisant l'outil « fastq toiletteur » se trouve sous les « NGS: QC et manipulation » section (voir fichier supplémentaire).
    13. Choisissez le jeu de données fastq approprié dans le cadre du « fichier toiletter » option et exécuter l'outil en utilisant les paramètres par défaut.
      REMARQUE: Les fichiers de sortie produits à l' aide de cette tâche sont générés au format fastqsanger.
  2. fastqsanger données Tests de contrôle qualité
    1. Vérifiez la qualité du fastqsanger téléchargé lit utilisant l'outil « FastQC » situé sous « NGS: QC et de manipulation » dans le menu « Outils ».
    2. Choisissez le fichier de données fastqsanger damée dans le menu déroulant pour 'Short lire les données de la bibliothèque actuelle » et exécutez l'outil en utilisant les paramètres par défaut.
      REMARQUE: Portez une attention particulière à la qualité de la lecture et présence de séquences d'adaptateur. Les adaptateurs sont généralement éliminés dans le cadre du post-traitement des données ARN-Seq par les fournisseurs de NGS, mais dans certains cas, peuvent être laissés pour compte. Pour une explication des normes de qualité aller à http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ .
    3. Vérifiez auprès du fournisseur NGS et si les adaptateurs sont présents, les couper en utilisant l'outil « Clip » des « NGS: QC et manipulation » menu des tâches.
      REMARQUE: Les fichiers de sortie produits à l' aide de cette tâche sont générés au format txt brut, ainsi que dans html qui peut être ouvert sur tout navigateur Web.
  3. Analyse des données avec Tuxedo Suite
    1. Haut-de-forme
      1. Télécharger la dernière version de FASTA et GTF fichiers (Gene Transfer Format) à partir du fichier Upload » comme décrit ci - dessus en 2.2.6.
      2. Ouvrez la fenêtre 'NGS: ARN Analyse de la section et cliquez sur l'outil « TopHat » pour cartographier le séquençage du génome lit de référence téléchargé.
      3. Sélectionnez la réponse appropriée dans le menu déroulant à la question «Est - ce une seule fin ou les données de fin apparié?
      4. Choisissez le fichier fastq approprié.
      5. Sélectionnez « Utiliser un génome de l' histoire » dans le prochain menu déroulant et choisissez génome de référence téléchargé à l' étape 2.4.1.1.
      6. Sélectionnez « par défaut » pour les autres paramètres et cliquez sur « Exécuter ».
        REMARQUE: Parmi les fichiers de sortie produits à l' aide de cette tâche, le fichier «hits accepté est utilisée pour les étapes ultérieures.
    2. Boutons de manchette et Cuffmerge
      1. Sélectionnez le « Cuffde l'outil dans les «liens NGS: section Analyse des ARN pour assembler les relevés de notes, d' estimer leur abondance et test pour l' expression différentielle.
      2. Dans le premier menu déroulant, choisissez les cartographiées « hits accepté (format BAM) » fichier obtenu à partir de l' analyse de TopHat.
      3. Dans le second menu déroulant, définissez l' annotation de référence au fichier FTE téléchargé à l' étape 2.4.1.1.
      4. Sélectionnez « Oui » pour l'option « Effectuer la correction de biais » et exécuter la tâche en utilisant les paramètres par défaut pour tous les autres paramètres.
        REMARQUE: Parmi les fichiers de sortie produits à l' aide de cette tâche, le fichier « accepté Transcriptions » est utilisé pour les étapes ultérieures.
      5. Outil open « Cuffmerge » dans les « NGS: Analyse des ARN » pour fusionner les « » Transcriptions Assemblé produit pour tous les échantillons d'ARN-Seq.
        NOTE: La première case dans l'auto-Remplit d'outils et répertorie tous les boutons de manchette.
      6. Sélectionnez le fichier « Transcriptions assemblé » pour toutes les souches / conditions testées, y compris biologiques réplicats de la même souche / état (voir la discussion pour réplicats biologiques).
      7. Sélectionnez « Oui » pour « utilisation de référence Annotation » et choisissez le fichier FTE téléchargé à l' étape 2.4.1.1.
      8. Dans la zone suivante, sélectionnez à nouveau « Oui » pour l'option « Utiliser les données de séquence » et choisissez l'ensemble du fichier FASTA du génome téléchargé à l' étape 2.4.1.1.
      9. Garder les autres paramètres par défaut, cliquez sur « Exécuter ».
        REMARQUE: Cuffmerge génère un fichier de sortie GTF.
    3. Cuffdiff
      1. Accédez à l'outil « Cuffdiff » dans les 'NGS: ARN Analyse de la section. Dans le menu « Transcriptions », sélectionnez le fichier de sortie fusionné à partir Cuffmerge.
      2. Étiquetteconditions 1 et 2 avec les deux souches / noms de condition.
        REMARQUE: Cuffdiff peut effectuer des comparaisons entre plus de deux souches ou conditions ainsi que des expériences de cours de temps. Il suffit d' utiliser l'option « ajouter de nouvelles conditions » pour ajouter chaque nouvelle souches / condition, au besoin.
      3. Pour chaque souche / condition, sous sélection individuelle des fichiers de sortie 'Affichages de TopHat accepté de' réplicats de qui correspondent aux différentes répétitions biologiques de cette souche / condition. Maintenez la touche « cmd », si vous utilisez un ordinateur Macintosh, et touche « ctrl », si vous utilisez un PC, pour sélectionner plusieurs fichiers.
      4. Laissez toutes les autres options comme paramètres par défaut. Cliquez sur « Exécuter » pour exécuter la tâche.
        REMARQUE: Cuffdiff génère de nombreux fichiers de sortie sous forme de tableau que la lecture finale de l'analyse de l' ARN-Seq. Ceux-ci comprennent des fichiers avec le suivi des FPKM pour les transcriptions, les gènes (combinésFPKM valeurs de transcriptions partageant une identité de gènes), les transcriptions primaires et des séquences de codage. Tous les fichiers de données générés peuvent être consultés sur toutes les applications de tableur et contiennent des attributs similaires tels que le nom du gène, lieu, fold change (à l'échelle de log2), ainsi que des données statistiques sur les comparaisons entre les souches / conditions, y compris la valeur de p et q valeurs. Les données contenues dans ces fichiers peuvent être triés en fonction de la signification statistique des différences ou plier le changement dans l'expression des gènes (amplitude et la direction du changement, comme en amont ou en aval gènes régulés) et manipulés selon les besoins des utilisateurs. Si la conversion entre les différents identifiants de gènes est nécessaire (par exemple, WormBase ID de gène par rapport au nombre de cosmide), les outils disponibles sur Biomart ( http://www.biomart.org/ ) peut être utilisé.

3. Gene Ontology (GO) Analyse terme en utilisant DAVID

  1. Accès DAVID à partir du site hTTPs: //david.ncifcrf.gov/. Cliquez sur « Démarrer Analyse » dans l' en- tête de la page Web. Dans « l'étape 1 », copier et coller la liste des gènes obtenus à partir de Galaxy dans la surface A. Dans l'Étape 2, sélectionnez « WormBase ID du gène » comme identifiant pour les gènes d'entrée.
    NOTE: DAVID reconnaît la plupart des catégories d'annotation accessibles au public, de sorte que d'autres identificateurs de gènes (tels que le gène ID ou le symbole Entrez- de gène) peut également être utilisé.
  2. Dans « étape 3 », choisissez « Liste des gènes » (gènes à analyser) sous la rubrique « Type de liste », puis cliquez sur l'icône « Soumettre Liste ».
    REMARQUE: « Analyse Assistant », ouvrira ses portes à la liste de tous les outils qui peuvent DAVID liens hypertextes être exécutés sur la liste des gènes téléchargé (figure 3). Cliquez sur ces liens pour accéder aux modules correspondants pertinents selon l'exigence de l'utilisateur. Identifier les outils appropriés pour une tâche donnée, cliquez sur «Quels outils DAVID à utiliser? « Lien sur le » ; Page « Analyse Assistant. Cliquez sur le lien 'analyse de départ de l'en - tête pour revenir à la page d'accueil « Analyse Assistant » à tout moment au cours de l'analyse.

figure 3
Figure 3: Mise en page de l'Assistant DAVID analyse Web et des exemples de résultats d' exploitation. L'interface utilisateur Web « analyse Wizard » répertorie les outils utilisés pour analyser la liste des gènes uploadé pour l' enrichissement en fonction de divers paramètres. En cliquant sur ces outils rapporte les données analysées dans une nouvelle page Web. Des exemples de rapports tabulaires générés par Gene Classification fonctionnelle », « Tableau fonctionnel Annotation » et « Clustering Annotation fonctionnelle » sont présentés comme EISN (flèches).> S'il vous plaît cliquer ici pour voir une version plus grande de ce chiffre.

  1. Outil d'annotation fonctionnelle 1: fonctionnelle Clustering Annotation
    1. Cliquez sur le module « fonctionnel Annotation Clustering » aller à la page sommaire. Gardez les catégories d'annotation par défaut et cliquez sur « fonctionnelle Clustering Annotation » pour générer des clusters de termes d'annotation similaires classés selon leur note d' enrichissement.
    2. Cliquez sur le nom de chaque terme hyperlié pour lire les détails à ce sujet et « RT » (Termes liés) à la liste d' autres termes similaires liés à la catégorie.
    3. Cliquez sur la barre violette à la liste des gènes associés à un terme et le « G » rouge à la liste de tous les gènes associés à tous les termes au sein d'un cluster.
    4. Cliquez sur l'icône verte pour voir une vue en deux dimensions de tous les gènes et les termes d'un cluster.
      NOTE: Les trois dernières colonnes présentent les résultats d'analyse et de statistiques pour chaqueterme. Les résultats pour cette année et toutes les autres analyses peuvent être téléchargés en format txt en cliquant sur le lien « Télécharger le fichier ».
  2. Outil d'annotation fonctionnelle 2: Tableau fonctionnel Annotation
    1. Retour à la page sommaire et cliquez sur « Tableau fonctionnel Annotation » pour identifier les termes biologiques (par exemple surreprésentés d'activité du facteur de transcription ou de l' activité kinase) associée à la liste des gènes.
    2. Cliquez sur le nom à long terme pour obtenir des informations plus détaillées et « RT » (Termes liés) à la liste d' autres termes connexes.
    3. Cliquez sur la barre violette pour répertorier tous les gènes associés de correspondants catégorie individuelle.
      REMARQUE: Les deux dernières colonnes liste des résultats des tests de statistique pour chaque catégorie.
  3. Outil d'annotation fonctionnelle 3: Table fonctionnelle Annotation
    1. Retour à la page sommaire et cliquez sur 'FunctioTableau final Annotation 'pour voir une liste de toutes les annotations associées aux gènes sur une liste sans aucun calcul statistique.
      NOTE: Cet outil peut être utile pour l'analyse génétique par gène d'une liste ou de regarder des gènes spécifiques, très intéressants.
  4. Outil de classification fonctionnelle des gènes
    1. Retour à « Analyse Assistant » et cliquez sur « Gene Classification fonctionnelle » module pour séparer la liste des gènes d'entrée en groupes de gènes liés fonctionnellement classés selon leur « enrichissement Score », une mesure d'enrichissement global du groupe de gènes dans la liste.
    2. Cliquez sur le nom terme pour obtenir des informations plus détaillées et « RG » pour révéler les gènes fonctionnellement apparentés du groupe de gènes
    3. Cliquez sur le (rapports terme) « T » rouge à la liste associée biologie et l'icône verte pour voir une vue en deux dimensions de tous les gènes et les termes.
  5. Gene nomlot Viewer
    1. Retour à « Analyse Assistant » et cliquez sur « Gene nom de lot Viewer » pour traduire « WormBase ID Gene » dans leurs noms de gènes correspondants. (WBGene00022855 = tCER-1).
    2. Cliquez sur le nom du gène pour obtenir plus d'informations spécifiques au gène.
    3. Cliquer sur le lien « RG » (gènes liés) à côté de chaque gène à révéler des gènes prévu pour être fonctionnellement lié au gène d'intérêt.

4. Les données RAW sur Uploading la séquence NCBI Lire Archive (SRA)

  1. Accédez à la page Web arobase SRA pour lier « NCBI ou enregistrer un nouveau compte.
  2. Cliquez sur « Bioproject ».
  3. Cliquez sur « Soumission » sous la « Utilisation Bioproject » cap sur la gauche.
  4. Sélectionnez l'option « Nouvelle soumission ». les détails de mise à jour du demandeur. Continuer à travers les sept autres onglets, Remplissant les détails de l'expérience et les données en cours de téléchargement. Cliquez sur « Soumettre » une fois rempli.
    NOTE: Dans le cinquième onglet « bioéchantillon », laissez la fente pour « bioéchantillon » vide.
  5. Actualisez la page résultant en cliquant sur le lien « Mes conclusions ». Les données fournies seront listées avec un numéro de soumission attribué, une brève description et l'état de téléchargement.
  6. Cliquez sur « échantillon biologique » en haut de cette page, dans la case « commencer une nouvelle soumission » et de créer une « nouvelle soumission ». Envoyer des soumissions pour chaque échantillon.
  7. Comme dans le cas « Bioproject » en 4.4, mettez à jour les détails de l' initiateur et continuer le reste des onglets de remplissage dans les détails de chaque onglet. Une fois terminé l' examen et cliquez sur « Soumettre ».
  8. Accédez à http: //www.ncbi.nlm.nih.gov / sra pour créer la finale 'séquence de lecture Archive (SRA)' soumission.
  9. Cliquez sur « Connectez - vous pour SRA » sous « Mise en route ».
  10. Sur la page suivante, cliquez sur le lien 'NCBI PDA. Un lien « Préférences de mise à jour » ouvrira. Remplissez le formulaire et cliquez sur « Enregistrer les préférences ».
  11. Sur la page suivante, cliquez sur le lien «Créer une nouvelle soumission. Entrez un nom approprié sous « Alias » et cliquez sur « Enregistrer ». Une table avec l'ID de soumission et d'autres détails seront créés.
  12. Cliquez sur « Nouvelle expérience » et inscrivez -vous au moins une bibliothèque de séquençage unique pour chaque « échantillon biologique ».
  13. Désigner et lier la soumission précédemment créé « Bioproject » et « bioéchantillon » ID de. Une « nouvelle expérience » sera créé.
  14. Cliquez sur « New Run » au bas de la pageaprès l'expérience a été faite SRA et d'identifier les fichiers de données qui doivent être liées à elle.
  15. Calculer la somme MD5 de chaque fichier de données. Pour ce faire , sur un terminal MacIntosh, accédez à Applications / Utilitaires / Terminal. Dans terminal, tapez « md5 » (sans les guillemets) suivi d'un espace. Glissez-déposez les fichiers qui doivent être téléchargés dans le terminal du viseur et cliquez sur « Entrée ».
  16. Terminal renverra une somme MD5 alphanumérique. Entrez ce dans le cadre du processus de soumission pour le téléchargement de fichiers. Utilisez le nom d'utilisateur et mot de passe fourni par le système pour télécharger des fichiers via FTP.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Dans C. elegans, l' élimination des cellules souches de lignée germinale (les CSS) étend la durée de vie, améliore la résistance au stress, et élève la graisse du corps 24, 28. Perte de CSS, soit provoquée par une ablation au laser ou par des mutations telles que le GLP-1, provoque l' extension de la durée de vie grâce à l' activation d'un réseau de 29 facteurs de transcription. Un de ces facteurs, TCER-1, code pour l'homologue de la vis sans fin de l'allongement de la transcription humaine et le facteur d' épissage, TCERG1 30. Les résultats représentatifs suivants illustrent comment l' ARN-Seq a été utilisé pour identifier les gènes dont l' expression est modulée par TCER-1 / TCERG1 suite à une perte germinale dans notre étude récemment publiée 31. Les transcriptome de appariés selon l' âge, le jour 2 adultes de GLP-1 et URCE-1, GLP-1 mutants ont été comparés. Pour chaque souche, l'ARNm a été isolé à partir de deux réplique biologiquetes (quatre échantillons totalement) en utilisant le protocole décrit dans la section 1. Les échantillons d'ARN ont été expédiés à un fournisseur de service commercial qui a préparé des banques d'ADNc à partir des quatre échantillons et effectué 50 pb unique séquençage d'extrémité. Les données brutes NGS a été téléchargé comme décrit dans la section 2.1.

séquençage évaluation des données post

Le tableau 1 est une compilation des résultats des tests pour évaluer la qualité de lit séquençage brut. Analyse de contrôle qualité « FASTQ » met en évidence le nombre de séquences de lecture sans « mauvaise qualité » se lit en même temps que 48 à 49% de teneur en GC et une séquence constante de longueur lecture de 51 pb. Cette étape vérifie également les données de séquençage pour de nombreuses autres fonctionnalités telles que le contenu Kmer et collectivement composé de 11 essais au total. Le génome C. elegans est ~ 100 Mbp. Sur la base du nombre de séquençage lit à partir de chaque échantillon mis en correspondance avec le génome, le gcouverture enome (dernière colonne) a été estimée en utilisant l'équation Lander / Waterman « C = LN / G », dans lequel, C représente la couverture, G est la longueur du génome haploïde, L est la longueur de lecture et N est le nombre de lectures. Nous avons utilisé les paramètres par défaut pour toutes les étapes et obtenu 48 - 49% de teneur en GC dans tous les échantillons. Comme on peut le voir, la couverture du génome était entre 9x à 11x dans les échantillons.

Identification des TCER-1 / TCERG-1-régulée des gènes par l'analyse d'expression différentielle gène sur Galaxy

A travers les étapes décrites dans les sections 2.2 à 2.4, le pipeline Galaxy 3 a été utilisé pour obtenir une liste de gènes exprimés de manière différentielle entre GLP-1 et tCER-1; glp-1 mutants. Galaxy nous a permis de combiner l'analyse différentielle des données NGS des deux répétitions pour chaque souche et réalisée pour générer des fichiers tabulaires mettant en évidence le génome large expression prOFIL. L' utilisation d' un seuil d'au moins une fois le changement d'amplitude et une valeur P d'au moins 0,05, une liste des 835 gènes qui étaient différentiellement exprimés entre les deux souches a été généré 31. La liste est divisée sur la base de si l' expression des gènes a été régulée à la baisse dans tCER-1 mutants de GLP-1 (359 UP gènes dont la transcription est probablement amélioré par TCER-1 / TCERG1) ou régulée à la hausse (476 gènes DOWN dont la transcription est réprimée probablement par TCER-1 / TCERG1) par rapport au GLP-1 (Figure 4).

Figure 4
Figure 4: Identification de gènes TCER-1 / TCERG1 réglementées dans la lignée germinale-less C. elegans mutants en utilisant l' ARN-Seq: Résultats de Galaxy (A) et DAVID (B) Analyses. (A) d'analyse de l' expression génique différentielle de données d'ARN-seq sont comparésles transcriptomes de GLP-1 et tCER-1, GLP-1 a donné un total de 835 gènes, dont 359 ont été identifiés comme étant régulée à la hausse par TCER-1 / TCERG1 (UP) et 476 comme down-régulé par TCER-1 / TCERG1 (DOWN). (B) Les résultats de l' analyse 'fonctionnelle Annotation Clustering' des gènes identifiés comme tCER-1 / TCERG1 cibles en utilisant DAVID. Enrichissement en pourcentage des processus biologiques aussi bien pour les Up Réglementé (UP) et régulés à la baisse (BAS) Classes de tCER-1 / TCERG1 cibles. Le graphique représenté ici est obtenue en traçant les groupes de gènes enrichis (axe X) et leur enrichissement en pour cent respectif (axe Y) obtenus en tant que sortie de l'analyse DAVID. Figure modifiée à partir de Amrit et al. 31 et Reproduit avec la permission. S'il vous plaît cliquer ici pour voir une version plus grande de ce chiffre.

Pour obtenir un aperçu des classes de gènes cibles enrichis en TCER-1 / TCERG1, nous avons effectué une analyse à long terme de l'ontologie génétique (GO) en utilisant DAVID. Le TCER-1 / TCERG1 régulée UP et des listes de gènes BAS ont été téléchargés de façon indépendante sur DAVID et analysé comme décrit dans la section 3. On savait peu sur les gènes et les processus cellulaires ciblés par TCER-1 / TCERG1 précédemment 30, nous avons donc trouvé le DAVID analyse être particulièrement révélatrice et utile. Analyse d'annotation fonctionnelle des gènes UP a révélé cinq groupes d'annotation avec un enrichissement Score de> 1,3, le plus élevé , y compris des gènes codant pour des enzymes du cytochrome P450 et des gènes de réponse xénobiotiques, suivis par des gènes impliqués dans des modifications lipidiques. Cela a été renforcé par les résultats de l'analyse génétique de la classification fonctionnelle qui a identifié les groupes attribués à Molecula similairesactivités r avec des scores d'enrichissement significatif. En utilisant une feuille de calcul, les groupes identifiés ont été tracées en fonction de leurs scores respectifs d'enrichissement (figure 4). Nos données antérieures suggéré que TCER-1 / TCERG1 a fonctionné avec le facteur de transcription de la longévité Confit, DAF-16 / FOXO3a, de promouvoir la longévité de la CGC-moins 30 adultes. DAF-16 / FOXO3a, à son tour, a été impliqué dans la modulation du métabolisme des lipides dans les études récentes 27, 32, 33. Sur la base de ces éléments de preuve, et l'identification des gènes de lipides métaboliques et les voies que le potentiel tCER-1 / TCERG1 cibles dans la DAVID analyses, nous nous sommes concentrés sur les gènes du métabolisme des graisses identifiés dans l'étude de l'ARN-Seq pour des études mécanistiques détaillées. À la suite de ce fil, et par une expérimentation ultérieure génétique moléculaire, biochimique et fonctionnel, nous avons démontré que TCER-1 / TCERG1 avec DAF-16 / FOXO3a coordonnée Enhanced tant catabolique lipides et des processus anabolisants en réponse à la perte germinale 31. De même, Clustering Annotation fonctionnelle du BAS TCER-1 / TCERG1 cibles identifiées grappes d'annotation enrichis pour les fonctions du cytosquelette, une régulation positive de la croissance, la reproduction et le vieillissement (Figure 4). Ces observations et nos preuves à l' appui expérimentales suggèrent que lors de la perte germinale, TCER-1 / TCERG1 réprime également la croissance et la physiologie de la reproduction dans les cellules somatiques, ainsi que l'expression des gènes anti-longévité 31.

Échantillon séquences totales Longueur % GC Nombre de lectures (Galaxy) Les lectures cartographié (Galaxy) La couverture du génome
GLP-1 4000000 51 49 20700539 ~ 16000000 11x
GLP-1; tCER-1 4000000 51 49 18055444 ~ 13000000 9x
GLP-1 4000000 51 48 18947463 ~ 14000000 10x
GLP-1; tCER-1 4000000 51 48 13829643 ~ 10000000 7x

Tableau 1: ARN-Seq Détails de l' échantillon. Compilation des attributs de données brutes évaluées post-séquençage pour confirmer le succès de la course de séquençage. Les données de séquençage de l'expérience représentative est constituée de deux conditions biologiques, une souche témoin (GLP-1 (tCER-1, GLP-1) avec deux répétitions biologiques séquencées pour chacun. Analyse de contrôle de la qualité « FastQC » met en évidence le nombre de séquences lu sans « mauvaise qualité » se lit, 48 - 49% de teneur en GC et une séquence constante longueur de lecture 51bp. Modifié et reproduit avec l' autorisation de Amrit et al. 31.

Fichier supplémentaire: la chaîne de commandement en bref pour les outils fonctionnent sur le pipeline Galaxy pour l' analyse de données ARN-Seq. S'il vous plaît cliquer ici pour télécharger ce fichier.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Importance de la plate-forme de séquençage Galaxy en biologie moderne

Le projet Galaxy est devenu un instrument pour aider les biologistes sans formation de bio-informatique pour traiter et analyser les données de séquençage à haut débit de manière rapide et efficace. Une fois considéré comme une tâche herculéenne, cette plate-forme accessible au public a fait des algorithmes en cours d'exécution de bio-informatique pour analyser les données complexes NGS un processus simple, fiable et facile. En plus d'accueillir un large éventail d'outils de bio-informatique, la clé du succès pour Galaxy est aussi la simplicité de son interface utilisateur lacets ensemble les différents aspects de l'analyse de séquençage complexe d'une manière intuitive et transparente. Grâce à ces caractéristiques, le pipeline Galaxy a acquis une large utilisation parmi les biologistes, y compris les chercheurs C. elegans. En plus de familiariser l'utilisateur avec le pipeline d'analyse ARN-Seq, Galaxy contribue également à jeter les bases pour les biologistes de base à saisir laconcept d'analyse des données et comprendre les outils impliqués. Cette connaissance des nombres premiers à l'utilisateur peut encore poursuivre les plates-formes de bio-informatique plus complexes tels que « R » et « Python ». En plus de Galaxy, d'autres outils et forfaits sont disponibles dans le commerce et que des solutions open source, qui peuvent être utilisés pour l'analyse de l'ARN-Seq. Les options commerciales sont souvent des logiciels autonomes qui sont conviviaux, mais peut être coûteux pour les chercheurs individuels qui n'utilisent pas NGS souvent. Alternativement, les plates - formes open source telles que BioWadrobe 34 et 35 ArrayExpressHTS exigent une connaissance pratique de la ligne de commande et les scripts en cours d' exécution, ce qui pose d' importants défis pour les non-bioinformaticiens. Par conséquent, Galaxy reste une ressource populaire et indispensable.

Les étapes critiques au sein du protocole

Les avantages sans effort de Galaxy et David, malgré une expérience ARN-Seq succès encorerepose fondamentalement sur une conception soignée et l'exécution de l'étape expérimentale. Par exemple, il est essentiel d'assurer l'homogénéité génétique avant de comparer deux souches par l'ARN-Seq, et pour déterminer s'il y a des différences dans les taux de développement. ARN Isoler à partir de souches d'âge correspondant est essentiel aussi bien. De même, pour tenir compte de la variabilité de l'expression génique au sein de la même souche, il est important d'exécuter deux ou plusieurs « répétitions biologiques » de chaque souche. Cela signifie essentiellement la croissance et les vers de récolte des souches en cours de séquençage dans des expériences au moins twoindependent, bien que trois répétitions biologiques est la norme recommandée. Galaxy unifie les données provenant de multiples répétitions biologiques de sorte que les différences d'expression génique entre les souches rapportées ne sont pas simplement une conséquence de la variabilité «intra-échantillon.

Une décision de conception critique est de l'utilisation de contre-end unique séquençage à extrémité appariée. Avecséquençage simple effet, chaque fragment est séquence unidirectionnelle de sorte que le procédé est plus rapide, moins cher et adapté pour le profilage de la transcription. Dans séquençage à extrémité appariée, une fois que le fragment est séquence à partir d'une extrémité à l'autre, une deuxième série de séquençage est repris dans la direction opposée. Il fournit des données plus approfondies et des informations de positionnement supplémentaire du génome, est donc plus adapté pour l' assemblage du génome de novo, nouvelle identification SNP et pour identifier les modifications épigénétiques, des suppressions, des insertions et inversions. De même, le nombre total de lectures et de l'étendue de la couverture du génome requis pour les études d'expression différentielle adéquates dépend du contexte. Pour les petits génomes, comme les bactéries et les champignons, ~ 5 millions de lectures est suffisante, alors que, dans les vers et les mouches ~ 10 millions de lectures fournir une couverture adéquate. Pour les organismes avec de grands génomes tels que les souris et les humains, 15-25000000 lit est la plage requise. De plus, le numéro de lecture et de la couverture, il est également diablotinortant que la plupart des NGS lit aligner au génome de référence. Un alignement de <70% est une indication de lit pauvres NGS ou la présence de contaminants. Dans l' ensemble, pour C. elegans études d'ARN-Seq, trois répétitions biologiques séquences avec le séquençage unidirectionnel 50 pb résultant en ~ 10-15000000 lit et ~ 5-10x couverture du génome de chaque échantillon est un objectif idéal.

Malgré la facilité d'utilisation Galaxy, il y a quelques points à retenir afin d'assurer une expérience d'analyse de données lisse et sans pépin. Il est nécessaire pour l'utilisateur d'avoir une compréhension de base dans le but et le fonctionnement des différents outils utilisés. Chaque outil Galaxy nécessite une sélection de paramètres et la compréhension de l'outil permettra à l'utilisateur d'optimiser les paramètres en fonction des besoins de l'expérience. Les pages d'aide Galaxy expliquent tous les paramètres et il est recommandé que l'utilisateur Lisez attentivement ces informations pour décider des variables de test.

La liste de gènes obtenue post analyse de l'ARN-Seq est simplement une liste de gènes jusqu'à ce qu'il soit extrait des données pertinentes à l'aide DAVID biologiquement. Ceci est un exercice important qui convertit les données à base de gènes individuels dans les résultats basés sur processus biologique. Explorer la liste des gènes ARN-Seq en utilisant les différentes analyses DAVID fournit donc une partie intégrante et importante du protocole.

Les modifications, le dépannage et les limites

Un petit problème commun avec l'analyse des données NGS est des tâches ou des tests qui échouent, en particulier aux étapes de contrôle de la qualité. Des tests qui FastQC fonctionne sur un échantillon, quelques pourrait arriver comme un échec. Cependant, cela ne signifie pas forcément l'échantillon ne répond pas aux normes de qualité de fastq. L'échec pourrait avoir une autre explication qui devrait être explorée avec soin.

Par exemple, si le test « par la teneur en séquence de base » ne parvient pas ( ce qui suggère qu'il y a une différence supérieure à 10% entredes bases dans une position quelconque), vérifier le procédé pour la préparation de bibliothèque de oligodT. Des travaux antérieurs ont montré que les bibliothèques Illumina NGS peuvent avoir une propension à la base 13 e étant séquencée d'avoir un parti pris pour certaines bases provoquant l'échantillon à l' échec du test. De même, un échec du test « contenu Kmer » peut parfois être attribuée au fait que les bibliothèques dérivées d'amorçage aléatoire montreront presque toujours parti pris Kmer au début en raison d'un échantillonnage incomplet des amorces aléatoires. Il est donc important d'examiner ces facteurs et d'autres obstacles dans la conduite d'analyse avant de déterminer le sort de l'expérience.

Une autre caractéristique importante qui peut influer sur l'analyse des données ARN-Seq est les progrès rapides et exponentielles qui se produisent dans les méthodes et NGS logiciel d'analyse. Idéalement, on attend une liste de gènes identiques aux résultats de l'analyse d'un échantillon de données de l'END sur deux pipelines ou de deux versions du même tuyauligne. Cependant, alors que les algorithmes en constante amélioration sont la diminution des aberrations dans l'analyse de l'ARN-Seq et produire des listes de gènes d'une plus grande précision, ce qui conduit souvent à des disparités. Par exemple, l' analyse d' un échantillon de données NGS en utilisant une ancienne version plus récente par rapport à la même gamme d' outils peut produire des listes de gènes sensiblement différentes. On prévoit une variation modeste, mais les utilisateurs doivent être conscients que les grandes différences peuvent refléter des faiblesses dans la conception ou l'exécution de l'expérience.

Collectivement, les outils d'analyse du projet Galaxy et David ont transformé la façon dont les données NGS peuvent être mises à profit pour extraire des informations pertinentes biologiquement. Cela a ouvert des niveaux entièrement nouveaux d'indépendance et d' enquête à la communauté scientifique, y compris les chercheurs C. elegans. Par exemple, le coût de la réduction constante séquençage couplé avec une meilleure et la technologie de séquençage plus rapide sont inaugurant une ère de transcriptomique au niveau des vers simples,les tissus individuels de vers et même sélectionner quelques cellules de ver. Ces efforts impliquent une augmentation spectaculaire de données NGS générées. Garder le contact avec la fin d' analyse de ce flux de travail sera un défi, mais en raison de sa polyvalence, Galaxy est susceptible de jouer un rôle dans l' autonomisation de la transition de l' organisme entier transcriptomique à l' ARN-Seq au niveau cellulaire unique C. elegans. Les progrès résultant des connaissances sont susceptibles de fournir des indications extraordinaires en biologie fondamentale.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n'ont rien à dévoiler.

Acknowledgments

Les auteurs tiennent à exprimer leur gratitude aux laboratoires, les groupes et les individus qui ont développé Galaxy et David, et donc en NGS largement accessibles à la communauté scientifique. L'aide et les conseils fournis par des collègues de l'Université de Pittsburgh au cours de notre formation de bio-informatique est reconnue. Ce travail a été soutenu par une fondation médicale Ellison nouveau chercheur en récompense le vieillissement (AG-NS-0879-12) et une subvention des National Institutes of Health (R01AG051659) à AG.

Materials

Name Company Catalog Number Comments
RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

DOWNLOAD MATERIALS LIST

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
  18. Consortium, C. eS. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, Web Server issue W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
  32. Wang, M. C., O'Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans' lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).

Tags

Génétique numéro 122 le séquençage de l'ARN l'ARN-Seq transcriptomique expression génique du projet Galaxy Tuxedo Base de données pour l'annotation la visualisation et la découverte intégrée (DAVID), Séquençage de nouvelle génération (NGS) Transcription de profilage génomique
Analyse transcriptomique de<em&gt; C</em&gt;.<em&gt; elegans</em&gt; RNA séquençage des données par le Tuxedo Suite sur le projet Galaxy
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Amrit, F. R. G., Ghazi, A.More

Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter