Here, we present phenomic approaches for the functional characterization of putative phage genes. Techniques include a developed assay capable of monitoring host anabolic metabolism, the Multi-phenotype Assay Plates (MAPs), in addition to the established method of metabolomics, capable of measuring effects to catabolic metabolism.
Les enquêtes actuelles sur les interactions hôte-phage sont tributaires de l'extrapolation de la connaissance (méta) génomes. Fait intéressant, 60 – 95% de toutes les séquences de phage part aucune homologie avec des protéines annotées actuelles. En conséquence, une grande partie des gènes de phage annotés comme hypothétique. Cette réalité affecte lourdement l'annotation des deux gènes métaboliques structurelles et auxiliaires. Ici, nous présentons les méthodes Phenomic conçus pour capturer la réponse (s) physiologique d'un hôte sélectionné pendant l'expression de l'un de ces gènes de phages inconnus. Multi-phénotype Assay Plates (MAP) sont utilisés pour surveiller l'utilisation de la diversité de substrat d'accueil et la formation subséquente de la biomasse, alors que la métabolomique fournit une analyse bi-produit en surveillant l'abondance et la diversité des métabolites. Ces deux outils sont utilisés simultanément pour fournir un profil phénotypique associée à l'expression d'un cadre de lecture ouvert de phage putative unique (ORF). Les résultats représentatifs pour les deux méthodes sont comparées, highlighting profil différences phénotypiques d'un hôte portant soit des gènes de structure ou métaboliques putatives phages. En outre, les techniques de visualisation et haut débit pipelines de calcul qui ont facilité l'analyse expérimentale sont présentés.
Les virus qui infectent les bactéries (aka bactériophage ou phage) sont estimés à exister à plus de 10 31 pseudo particules virales (VLP) à l'échelle mondiale et plus nombreux que tous les autres organismes dans un environnement 1,2. La première étude métagénomique enquêter sur les communautés virales associées aux environnements marins concentre sur la quantification de la diversité au sein de la fraction vu virale 3. En outre, Breitbart et ses collègues ont constaté que plus de 65% des séquences virales communautaires partagé aucune homologie avec des séquences disponibles dans les bases de données publiques. Des études ultérieures ont trouvé des preuves de métagénomique similaire: métagénomes de sédiments marins à San Diego, en Californie contiennent 75% de séquences virales inconnues 4; métagénomes des lacs hypersalines de la Salton Sea contiennent 98% de séquences virales inconnues 5; et métagénomes coralliens associée contiennent 95 à 98% de séquences virales inconnues 6. Cette accumulation d'informations non annoté a donné lieu àphage matériel génétique étant «la matière noire de l'univers biologique" 7.
Caractérisation génomique du phage repose sur l'identification de la similarité de séquence par comparaison des bases de données existantes nucléiques de protéines et acides. Parce que l'information génétique codée phage est essentiellement inconnue, les méthodes reposant sur l'homologie sont inefficaces. Au sein de leur génome, phages codent généralement trois types principaux de gènes: les gènes de transcription et de réplication, les gènes métaboliques, et des gènes de structure. La transcription et la réplication des gènes (classe I / II gènes 8) comprennent polymérases, primases, endo / exo-nucléases, et kinases. Ces gènes sont hautement conservées en raison de leur importance dans l'infection par le phage, la transcription et la replication du matériel génétique du phage. polymérases de phages sont facilement identifiés en utilisant des méthodes d'homologie de séquence traditionnels en raison de leur conservation mondiale et 9 ont été montré pour servir de marqueurs phylogénétiques efficaces 10.En revanche, phage métabolique et gènes de structure (classe de gènes II / III 8) sont de plus en plus divergentes et souvent annoté gènes hypothétiques.
gènes métaboliques de phages affectent la capacité métabolique de l'hôte et ne sont pas nécessairement requises pour la réplication virale. Ces gènes, souvent appelés gènes métaboliques comme auxiliaires 11 (AMG), semblent moduler le métabolisme de l'hôte et de permettre la progression optimale de l'infection et le succès de la maturation des virions. AMG ont été associés à l'utilisation et l'absorption des nutriments limitant ou dans les voies de production d'énergie. Quelques exemples incluent les gènes de photosystèmes trouvés dans les génomes de différents cyanophage 12-16, gènes reliés à et réglementés par le métabolisme du phosphate 17,18, et l'utilisation de la voie des pentoses phosphates pour le phage dNTP biosynthèse 18,19. En comparaison, les gènes de structure sont parmi les milieu à la fin des gènes produites au cours de l'infection et varient selon les différents phage-hosystèmes st. La production de protéines structurelles sont tributaires de la disponibilité de dNTP virale, et les piscines de l'énergie pour leur transcription, la traduction et l'assemblage 8. Les protéines de la capside et la queue fibres structurelles sont considérées comme étant les plus divergents de l'ensemble des gènes codant pour des protéines virales et sont nécessaires pour le succès de la production de virion. Leur divergence est généralement attribué au rôle actif qu'ils jouent dans la coévolution virus-hôte 20. Protéines divergentes, indépendamment de la classe de gènes, sont facilement négligés lors de l'utilisation des techniques d'homologie de séquence et d'alignement traditionnelles. Un effort pour corriger les limites observés avec des comparaisons de séquences strictes a abouti à outils bioinformatiques capables d'utiliser les caractéristiques de séquence pour déterminer association, tels que les réseaux de neurones artificiels 21. Les réseaux de neurones artificiels (RNA) de permettre la prédiction de gènes structurels et métaboliques, cependant, nécessite une validation expérimentale aval à caractériser directementla fonction des gènes.
L'objectif de ce manuscrit est de fournir les protocoles de Phenomic capables de contrôler à la fois le métabolisme catabolique et anabolique d'une bactérie hôte lors de l'expression d'un gène de phage roman, prédit fonctionnellement par RNA. Le domaine de la phénomique, la biologie associée à des phénotypes cellulaires, est bien établi dans la biologie des systèmes pour aider à l'enquête de protéines de fonction inconnue ou pléiotropique. Phenomic outils sont utilisés pour relier l'information phénotypique à l'information génotypique. Nous émettons l'hypothèse de gènes de phages putatifs que leur fonction (s) peut être déterminé par observation accueil effets physiologiques au cours de l'expression du gène de phage. Pour vérifier cette hypothèse, deux méthodes quantitatives ont été choisis. Multi-phénotype Assay Plates (MAP) ont été utilisés pour surveiller l'utilisation de l'hôte substrat et la formation subséquente de la biomasse pendant la métabolomique mesurées diversité des métabolites de l'hôte et l'abondance relative pendant la croissance dans des environnements spécifiquesconditions mentales. Les protéines structurales et métaboliques putatifs ont été surexprimés dans Escherichia coli et des résultats représentatifs de deux expériences sont comparés. De nombreuses techniques visuelles et haut débit pipelines de traitement sont présentés pour faciliter la reproduction expérimentale. Enfin, la reproductibilité et la précision des méthodes présentées sont examinées dans le contexte des effets physiologiques prévus pour une protéine de capside et annoté phage protéine métabolique, la thiorédoxine, ainsi que deux AMG putatifs.
Ici, nous présentons les approches Phenomic pour la caractérisation fonctionnelle des gènes de phages putatifs. Les techniques comprennent développé un dosage capable de métabolisme anabolique de l'hôte de contrôle, les plaques multi-phénotype dosage (MAP), en plus de la méthode établie de la métabolomique, capable d'effets de métabolisme catabolique de mesure. Nous avons fourni des outils supplémentaires pour gérer les grands ensembles de données résultant de ces technologies, qui permet un traitement à haut débit et de l'analyse 24. Enfin, à travers la comparaison d'une protéine annotée de capside de phage, phage thiorédoxine, deux gènes de phages métaboliques putatives, et la réponse expérimentale moyenne, nous proposons diverses stratégies pour interpréter les deux ensembles de données et classes de gènes, en mettant l'accent sur l'identification des tendances phénotypiques et l'identification des valeurs aberrantes.
Comme mentionné, les deux approches mesurer quantitativement la moitié seulement du métabolisme de l'hôte. Pour interpréter la fonction relative de l'un desnouvelles protéines visées par l'enquête, les données des deux méthodes est nécessaire de fournir des preuves de la fonction. Bien que ce soit pas un objet de notre manuscrit actuel, sorties de données de chaque méthode Phenomic est mis à travers des analyses combinatoires qui se concentrent sur des techniques de clustering comme la forêt aléatoire et analyse en composantes principales. En outre, les hypothèses résultant de l'analyse combinée doivent ensuite être validés par des méthodes génétiques traditionnelles.
Enfin, les méthodes présentées sont fortement influencées par la physiologie bactérienne et donc suivre les mêmes normes. Lors de la réalisation ou l'autre méthode, des considérations doivent être prises pour assurer, des groupes de clones indépendants sont expérimenté; contamination est évitée; une seule variable est testé; et les contrôles appropriés sont tournent simultanément. Le défaut de tenir compte de ces points se traduira par des résultats peu claires, semblables à tout dosage physiologique.
Multi-phénotype Assay Plaques(MAP)
Le développement des cartes fournit un haut débit et le dosage adaptable par rapport aux technologies actuellement disponibles (figure 5A et tables 1,2). Le test utilise des consommables, l'équipement et les techniques fondamentales disponibles dans tous les laboratoires de microbiologie. L'incorporation d'un pipeline de calcul, PMAnalyzer 24, pour le traitement et l'analyse subséquente des données assure l'interprétation rapide des données. En outre, les deux aspects expérimentaux et analytiques de l'approche peuvent être facilement réglés ou réglés à des fins personnalisés. Par exemple, si une grande partie des données ne parvient pas à passer le filtrage dans la section 4, on peut tamiser manuellement à travers les courbes de croissance pour identifier les problèmes. Si le problème se pose en raison de paramètres de filtrage strictes, des ajustements au script peuvent être faites. Alternativement, si les problèmes sont associés à la démarche expérimentale (c.-à condensation prolongée; le transfert abusif des cel bactériennels, etc.), puis répétitions supplémentaires peuvent être facilement répétés.
Comme décrit dans Cuevas et al. 24, l'PMAnalyzer est un programme bash single écrit comme un script qui exécute les scripts d'analyse et d'analyse comme une cohésion, d'un pipeline automatisé. Tous les scripts sont librement accessibles à partir d'un dépôt Git à 25 en prenant la valeur médiane pour chaque point de temps à travers les données de trois exemplaires, et paramétrise ensuite la courbe logistique pour obtenir le temps de latence, taux de croissance maximum, asymptote, et un terme roman, Niveau croissance. La valeur médiane a été choisie sur la moyenne dans notre étude pour réduire l'effet de grandes valeurs aberrantes, cependant, le script peut être facilement adapté pour calculer la moyenne des données répliquées. En raison de la variation réduite (SE) vu à travers les données répliquées (figure 2A) nous avons maintenu l'utilisation de la médiane dans la PMAnalyzer pour ajuster une courbe logistique. En outre, le coupé de la croissance dans cette étude (GL ≥ 0,4) était determined en comparant comment les données séparées pour Niveau de croissance et le taux de croissance maximal (figure 1A, B). Selon le modèle instruments et système utilisé ce terme peut varier, ce qui nécessite une redéfinition de ce coupé valeur.
Un avantage majeur de notre analyse est la capacité de comparer les phénotypes en utilisant un seul paramètre caractérisant la croissance microbienne dans l'ensemble, que nous définissons comme niveau de croissance (GL). GL est une moyenne harmonique, et par conséquent atténue les effets de grandes valeurs aberrantes dans les données. L'utilisation d'une moyenne harmonique avec des valeurs de logistique équipée décalés de fournir un résumé de la croissance en est arrivé à par essai et erreur. D'autres procédés ont tenté de différencier croissance contient: temps nécessaire pour accéder à des paramètres spécifiques de la courbe (de moitié μ max, μ max, et la capacité de transport), le coefficient de détermination (R 2), et des combinaisons de R 2, multiplié par des paramètres spécifiques de la courbe. L'utilisation d'une moyenne harmonique avec décalévaleurs logistique-fit pour le GL à condition que la plus grande gamme dans l'évaluation de la croissance, donc il est devenu la méthode de choix. Une considération à noter est que les modèles dynamiques de la courbe de croissance ont le potentiel d'être perdu lors de l'utilisation d'un seul paramètre ou d'un modèle ajusté. Par exemple, les paramètres de la courbe individuels de la courbe logistique et GL sont incapables d'en croissance biphasique. Dans un environnement de carbone unique, cet effet sur la croissance implique la médiation de la protéine virale de chaque conversion du substrat ou de décalage de l'utilisation du substrat. D'autres effets potentiellement perdus lors ne pas considérer les paramètres de croissance multiples comprennent: temps de latence prolongée, proposant une charge accrue de machines ou produits virale; accélération rapide phase exponentielle, suggérant protéines virales couplés à accueillir les filières de production d'énergie; ou des niveaux plus élevés de formation de la biomasse, ce qui implique support viral dans l'absorption des nutriments de l'hôte et l'anabolisme (données non présentées). Ainsi, le traçage des courbes de croissance naissantes ( <strong> Figure 2A, B) fournit des informations sur les tendances au fil du temps alors que le GL prend en compte les principales variables du modèle logistique, en fournissant un certain nombre quantitative unique pour représenter le succès global d'un clone.
Lorsque l'on considère les différentes réponses apportées par les gènes structurels et métaboliques dans les cartes, il est observé que les différentes classes de substrat en question fournissent la plus grande preuve de la fonction des protéines. Par exemple, les protéines métaboliques sont souvent associés à l'acquisition de nutriments limitants, qui sont non spécifiques à l'hôte métabolisme central 16,32. Expériences de carte préliminaire révèle que les clones hébergeant des gènes de phages métaboliques putatifs ont une phase de latence accrue lorsqu'il est cultivé sur des sources métabolisme de carbone centraux (figure 2A). Inversement, des clones portant des gènes putatifs structurelles, qui nécessitent de grandes proportions de l'énergie de l'hôte et dNTP piscines, entraînent une réponse faux positif sur la croissance pour centmétabolisme des substrats natu- carbone et d'acides aminés. Cela est probablement dû à l'accumulation de protéines insolubles dans filamentation résultant d'accueil et / ou des corps d'inclusion, comme observé par microscopie (figure 2A et données non présentées). Alors une analyse plus approfondie est nécessaire pour valider ces résultats préliminaires, les cartes sont capables de récupérer réponses phénotypiques qui se rapportent à l'hypothèse fonctions de classes spécifiques de gènes de phage.
En plus de l'élucidation de protéines virales inconnues, les cartes sont un roman ressources pour enquêter sur la diversité fonctionnelle et métabolique d'une bactérie individu ou une communauté de bactéries. les composantes du PAM sont conçus pour la modification facile de soutenir la croissance d'une gamme de bactéries; y compris maritime, auxotrophe, et les microbes anaérobies. Pour faciliter ces efforts, la base et pré-croissance milieux définis exigent espèces chimiques supplémentaires ou réglés devant un genre bactérien différent peut être pris en charge dans les cartes.Une note dans cette utilisation des cartes est de maintenir des milieux définis, interdisant l'utilisation d'ingrédients tels que la tryptone, extrait de levure et de peptone.
Métabolomique
Le domaine de la métabolomique dépend de bases de données, qui comprennent des metabolites métabolites isolés identifiés par spectrométrie de masse. L'installation de base choisie ici a une des plus grandes bases de données de la métabolomique. Fait intéressant, plus de la moitié des métabolites résultant de nos expérimentations étaient non identifiables (~ 65%), tandis que d'autres avaient jamais été enregistrée dans notre hôte, Escherichia coli (des exemples comprennent: indole 3 acide acétique 33, l'acide salicylique 34, et de l'acide dihydroabiétique 35). Ce fait peut être attribué soit à une forte polarisation de la base de données vers métabolites végétaux, ou les protéines spécifiques visés par l'enquête. Peu importe, le résultat est un nombre limité de métabolites connus disponibles pour la représentation et l'analyse des données. Dans le future, de multiples méthodes de métabolomique utilisant diverses bases de données permettrait une plus grande couverture de métabolite.
Actuellement, à la fois connus et inconnus métabolites sont utilisés lorsque l'on compare et contraste nos nouvelles protéines virales. En utilisant cette approche, nous faisons l'hypothèse que les clones hébergeant protéines fonctionnellement similaires se partageront une similitude augmenté dans leur profil métabolomique complète. Analyse de la métabolomique préliminaire a révélé que, bien que des gènes de structure et ne se séparent pas métaboliques clairement les uns des autres, les gènes présentant des effets similaires sur l'hôte lorsque surexprimé ne corréler (Figure 6). Par exemple, les groupes de gènes de capside annotés en étroite collaboration avec les gènes métaboliques putatives mis en évidence dans cette étude, EDT2440 et EDT2441. Investigations en utilisant un programme de prédiction transmembranaire de la topologie et la disposition du public peptide signal ont montré des preuves que les deux gènes putatifs métaboliques abritent un seul domaine transmembranaire. Il est intéressant de 5 èmee 9 clones dans le premier groupe de cluster (plus partie du dendrogramme de gauche) ont prédit domaines transmembranaires utilisant le même programme de topologie. D'autres études sont nécessaires, toutefois, il est probable que les métabolites présents au cours de la surexpression de ces clones sont associés à la réponse au stress cellulaire résultant de membrane ou les charges structurelles. Ces données confirment que, bien que les données de métabolomique possède une quantité accrue de bruit, la méthode est capable de mettre en évidence des signaux qui différencient effets généraux de gènes, tant au sein d'une classe de gènes. Pour déterminer si le procédé est capable d'extraire des informations spécifiques de la fonction des gènes, les métabolites ont été regroupés dans des voies métaboliques spécifiques. L'hypothèse étant, si un clone affecte métabolites spécifiques à une seule voie, alors le gène surexprimé est actif dans cette voie. Avant la création de notre pipeline d'assurance de la qualité de la métabolomique, les données préliminaires ont révélé que sur uned métabolites étaient généralement sous-représentés "inconnu", fournissant peu d'information sur les voies auxquelles ils sont associés (données non présentées). Données de métabolomique prétraités, cependant, révèle que la majorité des profils de métabolites sont similaires et seul un nombre restreint d'abondances de métabolites connus et inconnus varient selon les clones, par exemple putrescine et l'uracile (figure 6). Pour assurer une plus grande résolution de protéines efforts de fonction sont en cours pour comparer expérimentalement les nouveaux gènes de phages contre les gènes de phages connus, qui peuvent être utilisés pour combler les «trous» de métabolite base caractérisation fonctionnelle. En utilisant cette technique, la fonction assignée de gènes viraux connus fournit une référence pour la fonction de gènes inconnus. Néanmoins, le facteur limitant de l'analyse métabolomique est la taille et la pertinence de la base de données. Pour pallier à ces limites, les bases de données métabolomique relatable à cette recherche doivent être élaborés; telcomme une base de données de métabolites et de leurs abondances spécifiques à la collecte de ASKA E. coli clones dans lesquels un seul ORF 36 est surexprimé. Preuve de la nécessité de ces bases de données a été fournie en 2013, lorsque des chercheurs de l'Lawerence Berkeley National Laboratory compilées la première base de données complète des métabolites spécifiques pour bibliothèques entières mutantes de bactéries modèles 37. Cette recherche a fourni un nouvel aperçu gènes nécessaires à l'utilisation des métabolites spécifiques, révélant le lien évident entre génotype et phénotype.
Lorsque l'on considère la métabolomique comme un outil, il est important de définir le régime de traitement suivi à l'installation de base. Un artefact de la plupart des procédures expérimentales est la variance au jour le jour, associée à des instruments d'utilisation. A ce jour toutes les analyses GC-MS implémente l'utilisation de normes internes qui sont inclus dans chaque série d'analyses; Cependant, plus d'échantillons internes spécifiques du projet </ Em> a couru chaque jour de l'expérimentation supprime variance additionnelle. Ces considérations doivent être abordées tôt pour éviter les problèmes de normalisation et les préjugés. Une autre solution consiste à traiter tous les échantillons dans une installation de base sur la même machine et en un seul lot, une option disponible à toute installation de base.
Les différents outils à la fois introduites et ré-exploré dans ce manuscrit fournir de nouveaux moyens pour dépister et caractériser les gènes de phages fonctionnellement inconnus. La simplicité et l'adaptabilité des techniques expérimentales avec l'utilisation de rationaliser des pipelines de calcul assure ces méthodes sont applicables à un large éventail d'activités et des champs de recherche. Notre objectif est que les approches Phenomic présentés ici aideront d'autres enquêtes de nouvelles protéines de phage en plus des systèmes qui sont tout aussi fonctionnellement définie.
The authors have nothing to disclose.
We thank Benjamin Knowles, Yan Wei Lim, Andreas Haas, and members of the Viral Dark Matter consortium for their help and constructive input on this manuscript. This research is funded by the National Science Foundation (DEB-1046413) and is part of the Dimensions: Shedding Light on Viral Dark Matter project.
0.22µm Sterivex Filter | Fisher Scientific | SVGP01050 | Millipore |
0.22µm Millex Filters | Fisher Scientific | SLGV033RS | Millipore |
0.22µm SteriCap Filter | Fisher Scientific | SCGPS02RE | Millipore |
0.22 µm Omnipore membrane filters | Millipore | JHWP02500 | Millipore |
96 well micro-titer plates | VWR | 82050-764 | Standard F-Bottom 96 well Microplates |
2 mL 96 well plate | Fisher Scientific | ||
Adhesive Seal Plate Film | Sigma-Aldrich | Z369667 | |
2 L Nalgene square bottles | Cole Parmer | T-06040-70 | |
125 mL Nalgene square bottles | Cole Parmer | T-06040-50 | |
1/4inch Panel Mount Lock Nut, black nylon | Cole Parmer | EW-45509-04 | |
Female Luer Thread Style Panel Mount to 200 Series Barb 1/16inch | Cole Parmer | EW-45500-30 | |
Female Luer Thread Style Panel Mount to 200 Series Barb, 1/8inch | Cole Parmer | EW-45500-34 | |
Male Luer Integral Lock Ring to 500 Series Barb, 1/16inch ID tubing | Cole Parmer | EW-45505-31 | |
Male Luer with Lock Ring x Female Luer Coupler | Cole Parmer | T-45508-80 | |
Barbed Bulkhead Fittings 1/4inch OD | Fisher Scientific | 6149-0002 | |
Sanipure Tubing 1/16inch ID x 1/8inch OD | SaniPure | AR400002 | |
Sanipure Tubing 1/4inch OD x 1/8inch ID | SaniPure | AR400007 | |
Variable Flow Mini Pump (Peristaltic pump) | Fisher Scientific | 13-876-1 | |
Magnetic Stirrer | Velp Scientifica | F203A0160 | |
Forceps | Fisher Scientific | 14-512-141 | Millipore* Filter Forceps |
Multi-plate spectrophotometer plate reader | Molecular Devices Analyst GT | ||
Filter manifold | Fisher Scientific | XX10 025 02 | |
Software: | |||
Python version 2.7.5 | http://www.python.org/ | ||
PyLab module | http://wiki.scipy.org/PyLab | ||
R version 3.0.1 | http://www.r-project.org/ | ||
reshape2 library | http://had.co.nz/reshape | ||
ggplot2 library | http://ggplot2.org/ | ||
Gene Composer | PSI Tech Portal | http://www.genecomposer.net | |
Services: | |||
West Coast Metabolomics Center | UC Davis | http://metabolomics.ucdavis.edu | |
DNA 2.0 | https://www.dna20.com |