Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Analyse informatique des données de séquence d’écrans de 2-hybride de levure lot

Published: June 28, 2018 doi: 10.3791/57802

Summary

Séquençage en profondeur des populations de levures sélectionnées pour les interactions 2-hybride de levure positive potentiellement donne une mine de renseignements sur les protéines qui interagissent de partenaire. Nous décrivons ici l’exploitation d’outils bioinformatiques précis et à jour de logiciels sur mesure pour analyser les données de séquençage de ces écrans.

Abstract

Nous avons adapté le dosage 2-hybride de levure pour découvrir en même temps des dizaines statique et transitoire des interactions de protéine au sein d’un seul écran utilisant le séquençage de l’ADN court-lecture haut-débit. Les ensembles de données de séquence qui en résulte peut non seulement suivre quels gènes dans une population qui se sont enrichis au cours de choix pour les interactions 2-hybride de levure positive, mais également donner des informations détaillées sur les sous-domaines pertinentes des protéines permettant de l’interaction. Nous décrivons ici une suite complète de logiciels autonomes qui permettent à des non-spécialistes d’exécuter toutes la bioinformatique et les mesures statistiques pour traiter et d’analyser les fichiers de fastq de séquence ADN d’un dosage de 2-hybride de levure par lots. Les étapes de traitement visés par ces logiciels comprennent : 1) cartographie et comptage lectures de séquence correspondant à chaque candidat de protéine codée dans une bibliothèque de prey 2-hybride de levure ; 2) un programme d’analyse statistique qui évalue les profils d’enrichissement ; et 3) outils pour examiner le cadre translationnelle et la position au sein de la région codante de chaque enrichi plasmide codant pour les protéines qui interagissent d’intérêt.

Introduction

Une des façons de découvrir les interactions de protéine sont le dosage (Y2H) 2-hybride de levure, qui exploite d’ingénierie des cellules de levure qui se développent seulement quand une protéine d’intérêt se lie à un fragment d’une interaction partenaire1. Détection des multiples interactions Y2H est possible maintenant avec l’aide de séquençage massif à haut débit parallèle. Plusieurs formats ont été décrites,2,3,4,5 , y compris celle que nous avons développés où les populations sont cultivées en traitement par lots dans des conditions qui choisir pour la levure contenant des plasmides qui produisent une positive de l’interaction Y2H6. Le flux de travail nous développé, appelé DEEPN (dynamique d’enrichissement pour les réseaux d’évaluation des protéines), identifie les interactomes différentiels des bibliothèques proies même d’identifier les protéines qui interagissent avec une protéine (ou domaine) vs. une autre protéine ou un domaine de mutant conformationnellement distinct. Une des étapes principales dans ce flux de travail est un traitement convenable et l’analyse des données du séquençage de l’ADN. Certaines informations peuvent être glanées par seulement compter le nombre de lectures pour chaque gène avant et après sélection des interactions Y2H de façon analogue à une expérience de RNA-seq. Toutefois, des informations beaucoup plus détaillées peuvent être extraites de ces ensembles de données précisant le sous-domaine d’une protéine donnée qui est capable de produire une interaction Y2H. En outre, alors que l’approche DEEPN est précieuse, analysant les nombreuses répétitions d’échantillon peut être lourdes et coûteuses. Ce problème est atténué en utilisant un modèle statistique qui a été développé spécifiquement pour les ensembles de données DEEPN où le nombre de répétitions est limitée6. Pour rendre traitement et analyse des données de séquençage ADN fiable, robuste, complet et accessible pour les chercheurs sans expertise bio-informatique, nous avons développé une suite de logiciels qui couvrent toutes les étapes de l’analyse.

Cette suite de logiciels autonomes qui s’exécutent sur des ordinateurs de bureau inclut MAPster, DEEPN et Stat_Maker. MAPster est une interface utilisateur graphique qui permet à que chaque fichier fastq en file d’attente pour le mappage vers le génome en utilisant le programme de HISAT27, produisant un fichier .sam standard pour les applications en aval. DEEPN a plusieurs modules. Il assigne et compte lectures correspondant à un gène particulier semblable à une quantification de type RNA-seq en utilisant le module « Gene Count ». Elle extrait les séquences correspondant à la jonction entre le domaine transcriptional Gal4 et la séquence de proies et rassemble la position de ces jonctions pour permettre leur inspection par les tableaux comparatifs et graphiques (via le module « Junction_Make ») Le module « Blast_Query » permet de simple inspection, quantification et comparaison des séquences jonction Gal4 junction. Stat_Maker évalue les lectures par les données sur l’enrichissement des gènes statistiquement comme un moyen d’établir des priorités susceptibles Y2H hits. Nous décrivons ici la façon d’utiliser ces logiciels et d’analyser entièrement la séquence d’ADN données depuis un DEEPN Y2H experiment. Il existe des versions de DEEPN fonctionner sur les systèmes PC, Mac et Linux. Autres programmes, tels que le programme de mappage MAPster et le module de statistiques DEEPN Stat_Maker s’appuient sur les sous-routines qui fonctionnent sous Unix et sont disponibles uniquement sur les systèmes Mac et linux.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. cartographie des fichiers Fastq

Remarque : DEEPN logiciels ainsi que de nombreux programmes de bio-informatique utilisent données de séquences d’ADN dans laquelle chaque séquence lire a été mappé pour sa position dans l’ADN de référence. Une variété de programmes de cartographie peut être utilisée pour ce, y compris l’interface de MAPster ici qui utilise le programme HISTAT2 pour produire des fichiers .sam utilisés dans les étapes suivantes.

  1. Mapper les données de séquence à la version correcte du génome. Pour les bibliothèques Y2H d’origine de la souris, utilisez le génome de mm10 UCSC ; pour ceux qui utilisent les gènes humains, utilisez le génome de référence hg38 UCSC, gènes de Saccharomyces cerevisiae , utilisez le génome de référence UCSC SacCer3.
  2. Installer MAPster.
    1. Télécharger le logiciel MAPster et installer. Le logiciel se trouve à l’aide d’un navigateur web suivante : https://github.com/emptyewer/MAPster/releases. HISAT2 s’exécute sur les systèmes de type Unix comme un Apple Macintosh. Pour cette raison, le programme MAPster fonctionnera uniquement sur les systèmes compatibles tels que Apple Macintosh et linux.
      NOTE : Configuration requise pour un Mac d’Apple est : OSX 10.10 +, > 4Go de RAM, > 500 Go d’espace disque et un accès internet pour le téléchargement de génomes de référence. Les utilisateurs doivent de le consulter avec un institutionnel personne si leur entreprise a des protocoles de sécurité restreignant les autorisations et les droits d’administrateur.
  3. Entrez les paramètres via l’onglet « Main » (Figure 1) et les fichiers requis. Sélectionnez le bouton « Pairwise » approprié pour entrer les fichiers soit comme paires ou non appariés avec FASTQ le format de fichier par défaut.
    1. Pour l’analyse DEEPN, mettez l’option « Pairwise » sur « Off » pour exécuter en format de lecture unique.
    2. Charger des fichiers dans MAPster par simple glisser-déposer dans la fenêtre appropriée.
    3. Sélectionner une référence de source/génome d’ADN qui correspond à la source des proies Y2H bibliothèque inserts. Indexée des génomes de plusieurs organismes modèles sont répertoriés dans la boîte « Génome » et peuvent être téléchargés automatiquement de la Johns Hopkins University Center for Computational Biology. Les génomes de référence seront stockés localement pour une utilisation ultérieure.
    4. Indiquer le nombre de processus de l’ordinateur sera consacrée au programme de cartographie sous la zone « Threads », depuis HISAT2 supporte multi-threading. MAPster recherchera l’ordinateur et indiquent le nombre maximal de processeurs disponibles par défaut.
    5. Spécifier un nom de fichier de sortie. Ce nom de fichier servira tout au long du processus DEEPN donc un nom court mais descriptif sans espace ni caractères spéciaux est recommandé. Spécifiez un dossier pour les fichiers mappés en utilisant le bouton « Open Output Directory » de sortie.
    6. Une fois que les fichiers appropriés et les paramètres ont été sélectionnés, ajouter le travail de cartographie à la file d’attente de travaux en utilisant le bouton « Add to Queue ». Les noms de fichiers dans la fenêtre principale peuvent être supprimés et remplacés par des fichiers correspondant à un nouvel échantillon et ils peuvent être ajoutés à la file d’attente après avoir fourni un nom de fichier de sortie correspondant.
    7. Cliquez sur le bouton « Lancer la file d’attente » une fois que tous les emplois sont entrées dans la file d’attente de travail.
      Remarque : Une fois un travail de cartographie a été placé dans la file d’attente, la sélection de cet emploi entraîne les paramètres à afficher dans la fenêtre « Paramètres de travail » et l’instruction de ligne de commande avec tous les arguments pour être affiché dans la fenêtre « Commande de Job ». Les options de sortie comprennent la mise en scène que ce soit pour garder les lectures qui ne parviennent pas à aligner et précisant le nombre d’alignements primaires autorisé pour chaque lecture. Le fichier de sortie par défaut de MAPster est au format SAM (par exemple un fichier « .sam »). Il contiendra toutes les lectures de séquence des fichiers fastq spécifié pour cet échantillon, y compris celles qui ont été (mappé) et n’étaient pas (non mappés) correctement mappé à la geome spécifié.

2. traitement de bioinformatique utilisation du logiciel DEEPN

NOTE : Logiciel DEEPN est actuellement compilée pour une utilisation avec des bibliothèques de proies contenant des séquences d’ADNc de souris, ADNc humain séquences ou séquences d’ADN génomique de S. cerevisiae . DEEPN accepte le format de fichier standard .sam et peut accepter un fichier SAM (.sam) contenant des lectures cartographiés et non mappés ou des fichiers séparés pour chacun les lectures non mappés et cartographiées.

  1. Télécharger le logiciel DEEPN et installer. Le logiciel se trouve à l’aide d’un navigateur web suivante : https://github.com/emptyewer/DEEPN/releases. Choisissez quelle version correspond à la plate-forme informatique et les télécharger. Pour l’installer, ouvrez le package d’installation téléchargé.
    Remarque : Les Versions de DEEPN sont disponibles pour PC, Mac et Linux sysrems. Les systèmes Mac et PC doivent avoir > espace de disque dur de 500 Go et > 4 Go de RAM.
  2. Ouvrez le logiciel DEEPN. Dans la fenêtre principale (Figure 2), sélectionnez les informations correspondantes de bibliothèque des proies dans la boîte de sélection supérieure. Sélectionnez un dossier où les fichiers traités peuvent aller en cliquant sur le bouton « Dossier de travail » et naviguer vers le dossier/répertoire. On peut créer un nouveau dossier/répertoire, si nécessaire. Une fois un dossier « travail » est sélectionné, DEEPN créera trois sous-dossiers intitulé unmapped_sam_files, mapped_sam_files et sam_files.
    1. Si à l’aide de fichiers .sam contenant cartographiés et non mappés lectures telles que celles produites avec les paramètres par défaut du programme MAPster, placez-les dans le dossier « sam_files ». Sinon placer fichiers .sam dans l’unmapped_sam_files et le mapped_sam_files en conséquence.
  3. Commencer en cliquant sur le bouton « Gene Count + jonction Make ».
    Remarque : Le traitement commencera avec le module de Gene Count qui utilisera des positions de mappage pour compter combien de lectures correspondent à chaque gène. Faire jonction extraira ensuite des séquences de jonction (les séquences fusionnées directement en aval du domaine Gal4-activation) de la lecture et de les identifier à l’aide de l’algorithme de Blast. Cela créera un ensemble complet de dossiers illustrée à la Figure 3. Temps de traitement dépend de la taille et le nombre de fichiers de données de séquence et de la vitesse de traitement de l’ordinateur utilisé. Fois typiques vont de 12 à 30 h pour un ensemble de données expérimental de 250 millions de lit. La procédure de Gene Count et la procédure de Junction_Make peuvent être démarrés individuellement en cliquant sur le bouton « Gene Count » ou « Faire jonction ».
  4. Téléchargez et installez Stat_Maker (https://github.com/emptyewer/DEEPN/releases). Il s’agit d’un logiciel d’analyse statistique conçu pour les ensembles de données DEEPN qui fonctionne actuellement uniquement sur les systèmes Unix Mac.
    1. Ouvrez Stat_Maker et cliquez sur le bouton « Vérifier l’Installation » (Figure 4). Si en cours d’exécution pour la première fois, Stat_Maker installera automatiquement R, PERLY et Bioconductor en tirant ces ressources de l’internet. Une fois R et JAGS Bioconductor sont détectés, Stat_Maker deviendra actif et permet une entrée d’utilisateur.
    2. Cliquez sur le bouton « Choisir un dossier » pour naviguer vers le dossier de travail DEEPN de traitement. Stat_Maker automatiquement Rechercher et répertorier les fichiers pour l’analyse statistique dans la fenêtre.
    3. Glissez et déposez les fichiers appropriés dans la fenêtre de liste de fichiers ci-dessus dans les fichier windows ci-dessous pour chaque jeu de données vectorielles et appât et pour chaque conditions de croissance : non sélectionnés (son + média) et sélectionné (sa - media). Ce qui est important, Stat_Maker exige des ensembles de données en double pour vide vecteur seul, deux échantillons de populations non sélectionnés et deux échantillons de sélectionné. Cela donne une estimation de la variabilité au sein de l’expérience.
    4. Cliquez sur le bouton « Exécuter ». Selon la vitesse de l’ordinateur, le calcul prendra entre 5 à 15 min.
  5. Résultats de l’examen de la sortie de Stat_Maker, qui sont placés dans un nouveau sous-dossier dans le dossier de travail principal intitulé « Résultats Stat_Maker ».
    Remarque : Les résultats sont trouvent dans un fichier CSV (valeurs séparées par des virgules) qui peut être ouvert en commun tableurs. Stat_Maker se classera hits de gènes qui sont susceptibles d’être enrichies différemment sur la sélection avec l’appât d’intérêt sur le vide pTEF-CMM (Figure 5). Tabulées également est le pourcentage de lectures pour chaque jeu de données où l’insertion du gène se trouve en amont, en aval, ou dans le cadre de lecture ouvert et que le gène se retrouve dans le cadre de lecture translationnelle correcte. Souvent, DEEPN saisiront les interactions Y2H robustes d’un appât avec des portions d’un ADNc donné qui sont hors du cadre de lecture adéquat de la protéine correspondante ou à une partie de l’ADNc qui est en aval de son cadre de lecture ouvert correspondant. Analyse la sortie combinée de Stat_Maker simplifie la détection et élimination de ces visites hors de propos.
  6. Pour passer en revue les données sur chaque candidat potentiel, ouvrez le logiciel DEEPN, sélectionnez les informations de bibliothèque de proies correspondantes, puis le dossier de travail correcte en utilisant le dossier « travail ».
    1. Cliquez sur le bouton de « Blast Query ». Ceci charge une nouvelle fenêtre (Figure 6). Dans la zone de texte du haut, tapez le nom de gène ou le numéro de GenBank NM pour sélectionner le gène d’intérêt. Ces noms de gènes correspondent aux noms répertoriés dans le fichier de sortie StatMaker. Type entrée ou retour, qui initie la récupération du gène d’intérêt.
    2. Sélectionnez les ensembles de données sera utilisée pour l’analyse en utilisant les menus « Sélectionnez le Dataset ». En règle générale, ceux-ci incluent le vecteur seulement et appâts échantillons cultivés dans des conditions non sélectif et l’échantillon d’appât cultivées dans des conditions de sélection. Au début, les ensembles de données prendra quelques instants pour charger, toutefois, une requête subséquente des ensembles de données même avec différents gènes vont rapidement. Blast_Query affiche les points de fusion le long de la séquence d’intérêt et comment abondant chaque point de fusion est. Cela peut être affichée dans un format de tableau à l’aide de l’onglet « Résultats » ou un format graphique à l’aide de l’onglet de « Complot ». Ces résultats peuvent être exportés vers un fichier .csv en cliquant sur le bouton « Save.csv » en haut à droite.

3. vérification des candidats identifiés par DEEPN

Remarque : Le DEEPN et Stat_Maker vise à identifier les gènes candidats qui donnent une interaction Y2H positive. Vérification de telles interactions Y2H peut être fait en utilisant un format traditionnel de Y2H binaire en utilisant le plasmide d’appât d’intérêt jumelé avec le plasmide de domaine « proie » Gal4-activation vide ainsi que jumelé avec le plasmide de proies transportant le fragment de gène/cDNA d’intérêt. Il n’est pas possible d’isoler le plasmide réel d’intérêt dans le mélange de l’ADN isolé de la population de levures soumise à sélection Y2H. Cependant, on peut par le calcul reconstruire ce que le fragment de gène/ADNc est qui produit de l’interaction Y2H, concevoir des amorces pour les 5' et 3' extrémités de ce fragment et amplifier ce fragment de l’ADN isolé de la population de levures. Cette section décrit comment trouver l’extrémité 5' et 3' du candidat proies fragment.

  1. Ouvrez le logiciel DEEPN et choisissez les paramètres « Sélectionner le paramètre » et le dossier de travail « Sélectionnez travailler le dossier » correspondant au projet. Lancer le module de Blast_Query en cliquant sur le bouton « Blast Query ».
  2. Tapez le nom du gène d’intérêt ou sa GenBank « NM » numéro dans la zone de texte en haut. Sélectionnez dans le menu déroulant le dataset qui correspond à la population de levures sélectionnées pour l’appât intéressant pour récupérer le tableau des postes de jonction sous l’onglet « Résultats ». Par défaut, Blast_Query ordonnera les différentes positions selon leur abondance dans le dataset, quantifié par le ppm relatif au nombre total de jonctions trouvés dans la base de données.
    1. Trouver le plus abondant de poste qui est "dans ORF » et «dans le cadre ». La valeur de position correspond à la position de nucléotides du gène avec la séquence de référence NCBI (nombre de « NM ») affichée dans la boîte de texte en haut. Cette séquence peut être Récupérée de GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) ou copiée à partir de la zone de texte inférieure dans la fenêtre de Blast_Query.
      Remarque : Un exemple se trouvent dans la Figure 6, panneau central. Dans le centre dataset, les « résultats » montrent comme la jonction plus abondante : « Position » : 867 ; « #Junctions » : 20033.821 ; « Début de requête », 1 ; CD : Dans ORF ; et « Cadre » : dans le cadre. Nucléotides 867 de la séquence de référence NCBI GenBank NM_019648 est le début du fragment proies.
  3. Si la requête ne démarre est 1, concevoir l’extrémité 5' de l’apprêt pour inclure les nucléotides correspondant au numéro de position et s’étendent de 25 nucléotides en aval de cette position (Figure 7). Si le démarrage de la requête est supérieur à 1, il indique qu’il y a des nucléotides supplémentaires entre le domaine d’activation Gal4 et la séquence de proies d’intérêt et que l’apprêt devrait commencer plu en aval selon la valeur de début de requête.
  4. Depuis la fenêtre DEEPN cliquez sur « Lire la profondeur » sous « Analyser les données ». Une fois que la fenêtre de lecture de profondeur est ouverte, saisissez le NCBI référence séquence (NM) nombre gène nom ou dans la zone de texte en haut. Utilisez le menu déroulant pour sélectionner le groupe de données pertinente qui contient le gène enrichi d’intérêt. Utilisez le tableau à gauche et les graphiques s’affichent sur le droit de déterminer combien de lectures trouvées dans les données qui correspondent au gène d’intérêt (Figure 7B).
  5. Concevoir une amorce d’extrémité 3' qui permettra de saisir la séquence du gène fragment calculé par la profondeur de la lecture. Si l’abondance des lectures va au-delà de l’ORF et arrêtez le codon, concevoir l’apprêt afin qu’il inclue le codon d’arrêt et dans la région juste en amont du codon stop. Si les séquences du gène ne s’étendent pas à passé le codon d’arrêt, utilisez le tableau des résultats pour trouver la région 3' plus lointaine qui peut être détectée et utilise ce poste comme le plus éloigné 3' position pour placer l’apprêt.
    NOTE : Le programme de lecture de profondeur analyse par intermittence pour trouver les séquences qui correspondent à la gène/cDNA spécifié d’intérêt. Cela permet de prédire où l’extrémité 5' et 3' du fragment proies plus abondante est pour le gène en question dans l’échantillon. Les fluctuations de la profondeur sur toute la longueur de la séquence sont normales, comme peut être vu à la Figure 7. Si la profondeur est clairement passé le codon d’arrêt, il indique que le fragment de proies s’étend au-delà du codon d’arrêt et l’apprêt 3' peut correspondent donc simplement la région autour du codon stop.
  6. Effectuer une réaction de PCR 50 µL par gène. Chaque réaction contient 25 pmol de chaque amorce avant et arrière correspondant le plasmide de proies-bibliothèque (voir Table des matières). Réactions aussi contenant 25 µL de haute fidélité 2 x PCR Master Mix, 5 µg d’échantillon d’ADN et de l’eau jusqu'à 50 µL.
    1. Amplifier des réactions pour 25 cycles avec des temps d’extension de 3 min à 72 ° C, recuit température de 55 ° C pendant 30 s et dénaturation à 98 ° C pendant 10 s. Precede cyclisme par une dénaturation de 30 s à 98 ° C et faire suivre par une incubation de 5 min à 72 ° C.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Mappage des données de fastq : la première étape
Dans pratiquement toutes les applications de NGS y compris DEEPN la sortie initiale est un fichier de lectures de courte séquence qui doit être mappée en alignement sur la génomique, transcriptomique, ou autre référence ADN8. Récemment, le programme d’alignement de HISAT2 a été développé qui utilise des algorithmes d’indexation de l’état-of-the-art pour augmenter considérablement la cartographie vitesse7,9. HISAT2 s’exécute efficacement sur un ordinateur de bureau et peut carte une taille généralement lire fichier en quelques minutes. Cela nous a permis à encapsuler HISAT2 dans une interface utilisateur graphique appelée MAPster qui peut mapper fastq fichiers localement, permettant aux utilisateurs de ne pas dépendre des grappes d’ordinateurs distants de haute performance qui fonctionnent généralement avec le langage de ligne de commande (Figure 1). Caractéristiques importantes de MAPster comprennent la présence de paramètres prédéfinis pour RNA-seq et expériences de cartographie du génome entier, la possibilité de plusieurs travaux en file d’attente et l’accès à un ensemble de paramètres de HISAT2 facilement ajustables pour les utilisateurs expérimentés et pour sur mesure applications. Pour illustrer la fonctionnalité de MAPster, un fichier de données disponible publiquement Pascal (andel) cellule RNA-seq a été mappé à la référence GRChg38 Ensemble de génome et transcription ADN. Le fichier FASTQ de Pascal (andel) A11 replicate 1 a été téléchargé à partir de l’Archive de lecture de séquence NCBI et contenus 38,3 millions de lectures. MAPster a été exécuté sur un iMac d’Apple avec un processeur 3,5 GHz Intel Core i7 utilisant par défaut paramètres de RNA-seq pour le fichier de lecture non apparié. La cartographie a été complétée en moins de cinq minutes. Le taux global d’alignement était de 96,6 %. Des résultats similaires sont retrouvent avec des datasets DEEPN typiques de 15 millions de lectures/échantillon, bien que le taux d’alignement global est plus faible en raison de la présence de la séquence de vecteur du plasmide Y2H proies.

Trouver des hits du candidat avec l’aide de Stat_Maker.
Le programme StatMaker produit un fichier excel visible qui résume la plupart des informations pertinentes nécessaires pour identifier les protéines qui interagissent de candidat. Parce que Stat_Maker fait utiliser des sous-routines basé sur unix, il s’exécutera sur un Mac (OS10.10 +) mais pas de PC. Tout d’abord, il résume les lectures en ppm pour chaque gène pour la lutte antivectorielle et appâts les populations et également produit une probabilité de classement si l’enrichissement d’un gène particulier lorsque sélectionné pour Y2H interaction avec l’appât d’intérêt est vraiment supérieure à la enrichissement de ce gène lorsque sélectionné pour l’interaction avec le contrôle de vecteur uniquement (Figure 5). En second lieu, StatMaker effectue les calculs de module BlastQuery sur chaque gène évalué et compile le pourcentage des lectures de jonction qui se trouvent dans la trame translationnelle et la séquence codante qui serait nécessaire pour une bonne foi biologiquement pertinente interacteur. Cette sortie combinée permet de rapidement trier et filtrer les candidats à identifier ceux qui peut être inspecté de plus près par BlastQuery. Avec cette sortie, on peut tout d’abord trier les candidats avec la plus haute probabily de s’enrichir au cours de la sélection pour l’interaction Y2H sur la protéine appât d’intérêt et non lorsque sélectionné pour l’interaction sur le plasmide vecteur seul. Dans la pratique, nous constatons que P > 0,95 fonctionne bien. Ensuite, les candidats peuvent être classés pour ceux qui ont la plupart dispose de jonction qui sont dans la région codante et dans le cadre de lecture adéquat à l’aide d’une simple fonction de tri. Ici, les candidats ayant > 85 % des jonctions qui sont dans la trame translationnelle et se trouvent soit au sein de l’open reading frame/protéine codage région (ORF) ou qui commencent juste en amont du codon start (en amont). Ce dernier filtre élimine 60 – 80 % des candidats qui ont une valeur acceptable de P, produisant une liste qui est beaucoup plus biologiquement pertinente et facile à gérer pour inspection supplémentaire.

Le logiciel DEEPN.
Le noyau logiciel DEEPN regroupe plusieurs modules de calculs pour intégrer toutes les étapes de bio-informatique à l’aide de fichiers de SAM. Gene_Count fournit le nombre de lectures par gène, effectuer un calcul semblable à une quantification de la RNA-seq. Autres programmes qui effectuent ce type de calcul peuvent aussi être utilisés, cependant, le format de fichier devrait être modifiée pour être compatible avec les autres modules DEEPN et le programme Stat_Maker. Par ailleurs, le module Gene_Count pourrait être utilisé pour quantifier la RNAseq expériences, cependant, les autres paquets intégré avec des programmes de statistiques spécifiques ont été développés10. Le processus de faire correspondre une lecture particulière mappée avec son gène correspondant d’intérêt a été amélioré depuis le logiciel DEEPN initial en utilisant une structure de données arborescente pour l’assignation de gène. L’effet a été d’accélérer considérablement la vitesse de traitement tel qu’un dataset typique contenant 10 millions mappé lectures prend 5 à 10 min sur ordinateur de bureau avec la configuration minimale requise. D’autres analyses, en particulier l’analyse des lectures de jonction qui couvrent le domaine de Gal4-activation et le candidat qui interagissent d’intérêt, sont autonomes. Ils sont emballés avec l’alogorithm BLAST qui s’exécute localement et l’analyse des procédures permettant de rassembler correctement toutes les lectures de la jonction et leurs positions pour tous les gènes donnés. Un des inconvénients du logiciel DEEPN c’est qu’il fait usage des bases de données mises en forme spéciales qui définissent quels exons dans le génome de référence sont utilisées pour définir des ADNc ou régions codantes et mise en forme des bases de données qui spécifient la séquence et les départ et les arrêts de chaque cDNA/gènes utilisés. Nous avons trouvé qu’il était difficile de récupérer toutes les informations de base de données que DEEPN nécessaires dans un format fiable qui ne disposaient pas de quelques-unes des fausses erreurs rencontrées avec l’indexation des gènes particuliers. Ainsi, nous avons réuni des nouvelles bases de données que nous qualité contrôlée et eux intégrés dans le logiciel DEEPN pour référence interne cohérente. Actuellement, souris, homme et S. cerevisiae Y2H proies bibliothèques sont supportées par les bases de données inclus pourvu que les fichiers de fastq d’ADN sont mappés avec les mm10, hg38 ou bases de données bibliographiques disponibles de UCSC SacCer3. Y2H bibliothèques de différents organismes peuvent être traitées par DEEPN sous réserve que les bases de données similaires sont construites et placées dans le logiciel DEEPN. Dans l’ensemble, toutefois, l’emballage autonome de tous les modules DEEPN, bases de données et d’autres programmes rendent ces analyses bioinformatiques accessibles aux chercheurs à tous les niveaux d’expertise.

Figure 1
Figure 1 : Interface du MAPster. Capture d’écran de la fenêtre principale de MAPster. Les boîtes pour l’ouverture de formats et les fichiers requis sont indiqués. Désactiver « Pairwise » (A) pour traiter les fichiers de séquence comme lit single-end. Le génome de référence est sélectionné avec le menu « Génome » bar (B). Le nombre de processeurs utilisés par HISAT2 est sélectionné avec le menu « Threads » (C). Le nouveau nom de l’échantillon peut être tapé dans la fenêtre de texte « Nom de fichier de sortie » (D). Le répertoire pour les fichiers de sortie peut être désigné (E). Ci-dessous est une fenêtre montrant la file d’attente du single-end lire les fichiers. Après que échantillon a été ajouté à la file d’attente, le mappage peut être lancée avec le bouton « Lancer la file d’attente » (F). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 2
Figure 2 : Interface de DEEPN. Photo de l’interface utilisateur graphique utilisé pour faire fonctionner les modules DEEPN. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 3
Figure 3 : Fin du traitement. Une fois DEEPN traite les données, les sous-dossiers suivants sont créés. Ceux-ci peuvent être inspectés, mais en aval processus requièrent que ces sous-dossiers restent dans le dossier de travail principal et qu’ils conservent leurs noms et le contenu. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 4
Figure 4 : Analyse de Stat_Maker. Photo de l’interface utilisateur graphique pour Stat_Maker, qui a été chargé avec les fichiers appropriés pour permettre à la transformation. Haut montre la vue initiale de Stat_Maker. Une fois que la présence de données sous-jacentes de soutien ont été vérifiées en cliquant sur le bouton « Vérifier l’Installation » et le dossier de travail approprié identifié après avoir cliqué sur le bouton « Choisir un dossier », le GUI devient actif, permettant le chargement de fichiers. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 5
Figure 5 : Extrait de sortie Stat_Maker. Partie de Stat_Maker sortie en comparant l’enrichissement des proies candidats sur une protéine simple appât de guider seul (vide pTEF-GBD). L’analyse correspondante de savoir si les plasmides correspondant au candidat proies contiennent le châssis ouvert-lecture correct est également présentée. Chaque gène évalué a plusieurs valeurs : Base, Vec, appâts et Enr. La « Base » est la proportion moyenne de lectures (ppm) qui ont été observés pour le gène dans les 2 séries de données correspondant aux populations en double contenant seulement vecteur de seul et cultivés dans des conditions non sélectif. « Vec » fait référence à la proportion moyenne de lectures (ppm) qui ont été observés pour le gène dans les 2 séries de données correspondant aux populations en double contenant seulement vecteur de seul et cultivés dans des conditions sélectives (p. ex.-son). « Appât » fait référence à la proportion de lectures (ppm) qui ont été observées pour le gène dans les ensembles de 2 données correspondant aux 2 populations contenant le plasmide d’appât et cultivées dans des conditions sélectives (p. ex.-son). « Enr » (enrichement) est log2 ((Bs/Bn) / (Vs/Vn)) où Bs est les lectures des appâts sous sélection, Bn est lectures pour appât en vertu de la non sélection, Vs est vecteur seul sous sélection et Vn est vecteur seul dans la sélection. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 6
Figure 6 : Affichage de Blast_Query. Sortie de Blast_Query de 3 vues différentes. Top est la vue initiale de Stat_Maker avant que les ensembles de données de candidats sont sélectionnés. Le panneau central est une vue de l’exemple de la table de données, affichage d’informations sur un candidat donné pour deux ensembles de données différents. Bas affiche une vue graphique des données tabulaires, traçant le nombre de points de jonction particulière le long de l’ADNc du gène / d’intérêt. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 7
Figure 7 : Trouver les 5' et 3' amorces pour amplifier. (A) montre une séquence hypothétique et comment concevoir les 5' oligo pour capturer la trame et la fusion point entre le domaine de Gal4-activation et la séquence de proies d’intérêt. Dans l’exemple 1, la position du point de fusion est à 10 nucléotides avec un départ de Q de 1th . À l’aide de l’offset ci-dessus tableau, 0 nucléotides doivent être ajoutés pour trouver la 5' position de l’amorce de départ. Le point de fusion de plasmide proies reconstituées montre que le domaine d’activation Gal4 est fondu directement à la proie au nucléotide 10. Dans l’exemple 2, le démarrage de la requête est 3, qui nécessite un décalage de 1 nucléotides afin de capturer le bon point de départ et le cadre de l’insertion de la proie. Le schéma de la proie reconstituée montre qu’il y a 2 nucléotides entre le domaine d’activation Gal4 et la position connue de l’insert de proies qui doit être prises en compte. (B) montre la fenêtre de lecture de profondeur. La zone de texte en haut est utilisée pour entrer le numéro de séquence de référence NCBI et le menu déroulant sous « fichier .sam Select » permet de sélectionner les données de l’échantillon contenant le gène interaction enrichi si intérêt. Profondeur de lecture montre combien de séquences (axe Y) ont été trouvées dans les données qui correspondent aux positions nucléotidiques de la séquence d’intérêt (axe x). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La suite logicielle décrite ici permet de complètement traiter et analyser les données de séquençage ADN à haut débit d’une expérience DEEPN. Le premier programme utilisé est MAPster, qui prend les lectures de séquence d’ADN dans les fichiers standard fastq et cartes de leur position sur une référence ADN pour le traitement en aval par une multitude de programmes informatiques, y compris le logiciel DEEPN. L’utilité de l’interface de MAPster et sa capacité à faire la queue plusieurs travaux, combiner des fichiers d’entrée, coveniently nom de fichiers, couplés avec la vitesse de la HISAT2 sous-jacente programme7 qu'il contrôle fournit un mappage d’outil facile à utiliser pour une variété de sortie applications au-delà de DEEPN. MAPster peut accéder à plusieurs paramètres du programme HISAT2 qui conviennent pour les autres types d’analyse de données en dehors de DEEPN. Certaines de ces fonctionnalités incluent des paramètres prédéfinis pour RNA-seq et expériences de cartographie du génome entier et accéder à un ensemble complet des paramètres réglables de HISAT2 pour les utilisateurs expérimentés et pour des applications personnalisées. Par exemple, le bouton de RNA-seq ajoute mise en forme qui faciliteraient l’Assemblée de la transcription. L’alignement de blocs bouton CRISPR au strand comme complément inverse serait approprié pour un fichier ADN de référence provenant de séquences d’ARN guide. Les paramètres facultatifs sont trouvent sous quatre étiquettes marquées, « Input, alignement, Scoring et sortie ». Les options d’entrée incluent la capacité de modifier les formats de fichier d’entrée et pour spécifier les options de base de troncation lire. L’alignement et la notation des onglets incluent les options pour ne sélectionner qu’un seul brin sur la référence de l’ADN et de définir les sanctions gap et décalage pour les scores de l’alignement. La capacité à faire la queue idéalement plusieurs travaux de cartographie, que chacune avec la définition d’un paramètre distinct devrait faire MAPster d’intérêt pour les utilisateurs experts et non experts, poursuivant des applications complexes de NGS.

Les logiciels DEEPN et Stat_Maker sont dédiées à l’analyse bioinformatique spécifique des données à partir des écrans de lot Y2H. C’est accessible à un large éventail de chercheurs et constitue un ensemble de logiciels de bioinformatique contigus exécuter via une interface utilisateur graphique. Ce paquet a été optimisé et intégré depuis sa description originale de6 afin qu’il tourne plus vite et d’analyse du candidat hits est simplifiée. Toutes les étapes de la bio-informatique peuvent être exécutés sur un ordinateur de bureau. Le principal prend de logiciel DEEPN que ces carte postes pour calculer combien de lit correspondre à chaque gène formant ainsi la base pour comment un gène donné est enrichi après la sélection. Ce logiciel recherche également la « jonction » les séquences qui correspondent à l’insert d’intérêt car elle est fondue dans le domaine de l’activation transcriptionnelle du plasmide proies et compile ces résultats alors qu’on peut visualiser toutes les parties différentes d’un ORF particulier ou cDNA c’est suffisant pour l’interaction. En outre, il fournit également des informations pour vérifier le cadre de lecture de chaque insertion. Le troisième bras du logiciel bioinformatique est Stat_Maker, qui utilise des fichiers de sortie transformés par DEEPN pour calculer la pertinence statistique des enrichissements de gène résultant d’interactions avec une protéine donnée appât vs le (seul) vecteur Gal4-DNA-binding domain vide pTEF-GBD). Une amélioration récente est que Stat_Maker fournit non seulement un classement statistique de chaque candidat, mais aussi compile les informations extraites les séquences de jonction correspondante, en les rendant disponibles dans un seul fichier rend beaucoup plus facile pour les chercheurs d’étudier et d’examiner les résultats.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer

Acknowledgments

Ce travail a été soutenu par les National Institutes of Health : NIH R21 EB021870-01 a 1 et de subvention de projet de recherche FNS : 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

Génétique numéro 136 Interaction protéine prochaine génération séquençage analyse des séquences ADN 2-hybride de levure
Analyse informatique des données de séquence d’écrans de 2-hybride de levure lot
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter