Here, we present phenomic approaches for the functional characterization of putative phage genes. Techniques include a developed assay capable of monitoring host anabolic metabolism, the Multi-phenotype Assay Plates (MAPs), in addition to the established method of metabolomics, capable of measuring effects to catabolic metabolism.
Investigações em curso em interações fago-hospedeiro são dependentes de extrapolar o conhecimento a partir de (meta) genomas. Curiosamente, 60-95% de todas as sequências de fagos partes sem homologia com proteínas anotados actuais. Como resultado, uma grande proporção de genes de fagos são anotados como hipotética. Esta realidade afeta fortemente a anotação dos dois genes metabólicos estruturais e auxiliares. Apresentamos aqui os métodos Phenomic concebidos para capturar a resposta fisiológica (s) de um hospedeiro seleccionado durante a expressão de um destes genes de fago desconhecidos. Multi-fenótipo placas de ensaio (MAPs) são utilizados para monitorizar a diversidade de utilização do substrato de acolhimento e formação subsequente de biomassa, enquanto fornece metaboloma análise bi-produto através da monitorização abundância e diversidade metabolito. Ambas as ferramentas são utilizadas simultaneamente para proporcionar um perfil fenotípico relacionado com a expressão de um único fago putativo enquadramento de leitura aberto (ORF). Os resultados representativos para os dois métodos são comparadas, highlighting as diferenças perfil fenotípico de uma série transportar tanto genes de fago estruturais ou metabólicas putativos. Além disso, as técnicas de visualização e de alto rendimento condutas computacionais que facilitaram a análise experimental são apresentados.
Os vírus que infectam bactérias (aka bacteriófago ou fago) são estimados de existir em mais do que 10 31, como partículas de vírus (VLP) globalmente e ultrapassam todos os outros organismos no ambiente de um 1,2. O primeiro estudo a investigar metagenômica as comunidades virais associadas a ambientes marinhos focada na quantificação da diversidade visto dentro da fração viral 3. Além disso, Breitbart e seus colegas descobriram que mais de 65% das sequências virais da comunidade compartilhada nenhuma homologia com as seqüências disponíveis em bases de dados públicas. Metagenomic estudos posteriores encontraram evidências semelhantes: metagenomes de sedimentos marinhos em San Diego, Califórnia conter 75% desconhecidos sequências virais 4; metagenomes de lagos hipersalinas do Mar Salton conter 98% desconhecidos sequências virais 5; e metagenomes associado de corais contêm 95-98% desconhecidos sequências virais 6. Esta acumulação de informação não anotadas resultou emmaterial genético do fago ser "a matéria escura do universo biológico" 7.
Caracterização genômica de fago se baseia na identificação de similaridade de sequência através da comparação em bases de dados de ácidos nucleicos e de proteínas existentes. Porque a informação genética codificada-fago é predominantemente desconhecido, os métodos baseados em homologia são ineficazes. Dentro do seu genoma, fagos codificam tipicamente três tipos principais de genes: genes de transcrição e de replicação, genes do metabolismo, e os genes estruturais. Os genes de transcrição e replicação (classe I / II genes 8) incluem polimerases, primases, endo / exo-nucleases, e cinases. Estes genes são altamente conservadas devido à sua importância na infecção pelo fago, transcrevendo e replicar material genético do fago. Polimerases de fago são prontamente identificados utilizando métodos tradicionais de homologia de sequência, devido à sua conservação global 9 e ter sido mostrado para servir como marcadores filogenéticos eficazes 10.Em contraste, o fago metabólica e genes estruturais (genes II / III de classe 8) estão cada vez mais frequentemente divergente e anotada como genes hipotéticos.
Fago genes metabólicos afectar a capacidade metabólica do hospedeiro e não são necessariamente necessário para a replicação virai. Estes genes, muitas vezes referidos como genes metabólicos auxiliares (11), AMGs parecem modular o metabolismo de acolhimento e permitir que a progressão óptima da infecção e do sucesso da maturação do virião. AMGs têm sido associados com a utilização e absorção de nutrientes limitantes ou em vias de produção de energia. Alguns exemplos incluem genes fotossistema encontrados nos genomas de vários cyanophage 12-16, os genes ligados ao metabolismo e regulados pelo fosfato de 17,18, e a utilização da via da pentose fosfato de fago dNTP biossíntese 18,19. Em comparação, os genes estruturais estão entre os meados de genes tardios produzidos durante a infecção e variam entre diferentes fago-hosistemas de st. A produção de proteínas estruturais são dependentes da disponibilidade de dNTP viral, e piscinas de energia para a sua transcrição, tradução e montagem 8. As proteínas da cápside de fibra e cauda estrutural são considerados como os mais divergentes de todos os genes que codificam proteínas virais e são necessárias para produção de viriões de sucesso. Sua divergência é tipicamente atribuído ao papel activo que desempenham na formação vírus-anfitrião coevolução 20. Proteínas divergentes, independentemente da classe de genes, são facilmente esquecido quando usando técnicas de homologia e alinhamento de sequências tradicionais. Um esforço para corrigir as limitações observadas com os rigorosos comparações de sequência resultou em ferramentas da bioinformática capazes de utilizar as características de sequências para determinar associação, tais como redes neurais artificiais 21. Redes neurais artificiais (RNAs) permitir a predição de genes estruturais e metabólicas, no entanto, necessitam de validação experimental jusante para caracterizar diretamentea função do gene.
O objetivo deste artigo é o de fornecer protocolos Phenomic capazes de monitorar tanto o metabolismo anabólico e catabólico de uma bactéria hospedeira durante a expressão de um gene fago novela, funcionalmente previu através de RNAs. O campo de phenomics, a biologia associado com fenótipos celulares, está bem estabelecida na biologia de sistemas para ajudar na investigação de proteínas com função desconhecida ou pleiotrópico. Phenomic ferramentas são usadas para conectar informação fenotípica à informação genotípica. Nossa hipótese de genes de fago putativos que a sua função (s) podem ser determinadas através da observação de acolhimento efeitos fisiológicos durante a expressão do gene fago. Para investigar essa hipótese, foram escolhidos dois métodos quantitativos. Placas de multi-fenótipo de ensaio (MAPs) foram utilizados para monitorizar a utilização do substrato de acolhimento e a formação subsequente de biomassa, enquanto metaboloma medido diversidade metabolito hospedeiro e abundância relativa durante o crescimento em Environ específicacondições mentais. Proteínas estruturais e metabólicas putativos foram sobre-expressos em Escherichia coli e os resultados representativos de ambas as experiências são comparados. Inúmeras técnicas visuais e dutos de processamento de alto rendimento são apresentados para facilitar a replicação experimental. Por último, a reprodutibilidade e a precisão dos métodos apresentados são discutidos no contexto de efeitos fisiológicos esperado para uma proteína da cãpside e anotada proteína metabólica fago, tioredoxina, mais dois AMGs putativos.
Aqui, apresentamos abordagens Phenomic para a caracterização funcional de genes de fago putativos. As técnicas incluem um ensaio desenvolvido capaz de metabolismo anabólico monitorização hospedeiro, as placas multi-fenótipo de ensaio (MAPs), em adição ao método estabelecido de metaboloma, capaz de efeitos no metabolismo catabólico de medição. Nós fornecemos ferramentas adicionais para gerenciar os grandes conjuntos de dados resultantes destas tecnologias, permitindo uma alta taxa de transferência de processamento e análise 24. Por último, através da comparação de uma proteína capsídeo anotada fago, fago thioredoxin, dois genes metabólicos fagos putativos, e que a resposta experimental média propomos várias estratégias para interpretar ambos os conjuntos de dados e categorias de genes, com ênfase na identificação de tendências fenotípicas e identificação de outliers.
Como mencionado, as duas abordagens medir quantitativamente apenas metade do metabolismo de acolhimento. Para interpretar a função relativa de qualquer um dosnovas proteínas sob investigação, os dados de ambos os métodos é obrigado a fornecer provas de função. Enquanto isso não é um foco de nosso manuscrito atual, saídas de dados de cada método phenomic é colocada através de análises combinatórias que se concentram em técnicas de agrupamento, como floresta aleatório e análise de componentes principais. Além disso, as hipóteses resultantes da análise combinada deve ser posteriormente validada por metodologias genéticas tradicionais.
Finalmente, os métodos apresentados são fortemente influenciados pela fisiologia bacteriana e, portanto, seguir as mesmas normas. Ao proceder a qualquer método, considerações devem ser feitas para garantir grupos independentes, clonais são experimentadas; evite a contaminação; uma única variável está sendo testado; e controles apropriados estão sendo correu simultaneamente. A falha em conta para esses pontos irá resultar em resultados pouco claros, semelhante a qualquer ensaio fisiológico.
Multi-placas de ensaio fenótipo(Mapas)
O desenvolvimento de mapas proporciona um elevado rendimento e adaptável ensaio em comparação com as tecnologias actualmente disponíveis (Figura 5A e Tabelas 1,2). O ensaio utiliza suprimentos, equipamentos e técnicas fundamentais disponíveis em todos os laboratórios de microbiologia. A incorporação de um oleoduto computacional, PMAnalyzer 24, para posterior processamento e análise de dados assegura uma leitura de dados rápido. Além disso, ambos os aspectos experimentais e analíticas de a abordagem pode ser facilmente ajustado ou sintonizado para fins personalizados. Por exemplo, se uma grande proporção dos dados não passar de filtragem descrito no ponto 4, pode-se peneirar manualmente através das curvas de crescimento para identificar problemas. Se o problema surge devido a rigorosos parâmetros de filtro, ajustes no script pode ser feita. Em alternativa, se os problemas estão associados com o processo experimental (isto é, a condensação prolongada; imprópria transferência de cel bacterianals, etc), então repetições adicionais podem ser facilmente repetido.
Conforme descrito na Cuevas et al. 24, o PMAnalyzer é um único programa festança escrito como um script que executa os certificados de análise e de análise como um gasoduto coesa, automatizado. Todos os scripts são livremente acessível a partir de um repositório Git a 25 por determinar o valor médio para cada ponto de tempo através de dados triplicado, e, posteriormente, parametriza a curva logística para obter o tempo de latência, taxa de crescimento máxima, asymptote, e um romance prazo, nível de crescimento. O valor médio foi escolhido em detrimento do significativo no nosso estudo para reduzir o efeito de grandes valores aberrantes, no entanto, o certificado pode ser facilmente adaptado para calcular a média de dados em duplicado. Devido à reduzida variação (SE) visto através de dados em duplicado (Figura 2A) que manteve o uso da mediana no PMAnalyzer para ajuste de uma curva logística. Além disso, o ponto de corte para o crescimento neste estudo (GL ≥ 0,4) foi determined comparando como dados separados entre nível de crescimento e taxa de crescimento máximo (Figura 1A, B). Dependendo do modelo de instrumentos e sistema utilizado este termo pode variar, requerendo redefinição deste cortado valor.
Uma grande vantagem do nosso ensaio é a capacidade para comparar fenótipos usando um único parâmetro que caracteriza o crescimento microbiano em geral, que definimos como nível de crescimento (OG). GL é uma média harmónica, e portanto mitiga os efeitos de grandes valores extremos nos dados. A utilização de uma média harmônica com os valores-equipados logísticos deslocado para fornecer um resumo de crescimento foi formada através de tentativa e erro. Outros métodos tentou diferenciar crescimento foram: tempo que levou para chegar a parâmetros específicos de curva (meia μ max, μ max, e capacidade de carga), o coeficiente de determinação (R 2), e combinações de R 2 multiplicado por parâmetros da curva específicos. Usando uma média harmônica com deslocouvalores logística-fit para o GL proporcionou a maior gama na avaliação de crescimento, assim, tornou-se o método de escolha. Uma consideração a ser observado é que os padrões da curva de crescimento dinâmicos têm o potencial de se perder quando se utiliza um único parâmetro ou um modelo ajustado. Por exemplo, os parâmetros da curva individuais da curva logística e GL sejam incapazes de representar crescimento bifásica. Em um ambiente único de carbono, este efeito sobre o crescimento implica mediação da proteína virai em qualquer conversão do substrato ou mudança de utilização do substrato. Efeitos adicionais potencialmente perdidos ao não considerar vários parâmetros de crescimento incluem: tempo de latência prolongada, propondo um aumento da carga de máquinas ou produtos viral; rápida aceleração fase exponencial, sugerindo proteínas virais acoplados a sediar vias de produção de energia; ou níveis mais elevados de biomassa, o que implica a formação de apoio viral no hospedeiro e a absorção de nutrientes anabolismo (dados não mostrados). Assim, traçando curvas de crescimento nascentes ( <strong> Figura 2A, B) fornece informações sobre as tendências ao longo do tempo enquanto o GL tem em conta as principais variáveis do modelo logístico, fornecendo um único número quantitativo para representar o sucesso global de um clone.
Ao considerar as diferentes respostas contribuíram por genes estruturais e metabólicas nos mapas, observa-se que as diferentes classes de substrato em questão fornece a maior evidência para a função da proteína. Por exemplo, as proteínas metabólicas são frequentemente associados com a aquisição de nutrientes limitantes, que são inespecíficos para sediar 16,32 metabolismo central. MAP experiências preliminares revelam que os clones ancorando genes de fago metabólicas putativos têm um aumento da fase de retardamento quando cultivada em fontes de carbono metabolismo central (Figura 2A). Por outro lado, os clones portadores de genes estruturais putativas, que exigem grandes proporções de piscinas de energia anfitrião e dNTP, resultar em uma resposta falso positivo no crescimento de centosubstratos metabolismo de carbono ral e de aminoácidos. Isto é provavelmente devido à acumulação de proteínas insolúveis resultantes filamentação no hospedeiro e / ou corpos de inclusão, tal como observado por microscopia (Figura 2A e dados não mostrados). Enquanto uma análise mais aprofundada é necessária para validar estes resultados preliminares, os mapas são capazes de recuperar as respostas fenotípicas que se correlacionam com a hipótese de funções das classes de genes de fagos específicos.
Em adição para a elucidação das proteínas virais desconhecidos, os mapas são um romance recurso para investigar a diversidade funcional e metabólica de uma bactéria indivíduo ou uma comunidade de bactérias. MAP componentes são concebidos para alteração fácil de suportar o crescimento de uma gama de bactérias; incluindo marinho, auxotróficas, e os micróbios anaeróbicos. Para facilitar estes esforços a basal e pré-definido de crescimento media exigem espécies químicas adicionais ou ajustados antes de um género de bactérias diferentes podem ser apoiados nos mapas.Uma nota nesta uso dos mapas é manter a mídia definidas, que proíbe a utilização de ingredientes tais como triptona, extrato de levedura e peptona.
Metabolomics
O campo de metaboloma é dependente de bases de dados de metabolitos, que incluem metabolitos isolados identificados por espectrometria de massa. A instalação do núcleo aqui escolhido tem um dos maiores bancos de dados de metabolômica. É interessante notar que mais de metade dos metabolitos resultantes das nossas experimentações foram não identificável (~ 65%), enquanto outros nunca antes tinha sido registado na nossa hospedeiro, Escherichia coli (exemplos incluem: Indolo 3 ácido acético 33, ácido salicílico 34, e o ácido di-hidroabiético 35). Este facto pode ser atribuído a qualquer uma forte tendência no sentido da base de dados de metabolitos de planta, ou as proteínas específicas em investigação. Independentemente disso, o resultado é um número limitado de metabolitos conhecidos disponíveis para a representação de dados e análise. No future, vários métodos de metabolômica usando vários bancos de dados permitiria uma maior cobertura metabolito.
Atualmente, ambos conhecidos e desconhecidos metabólitos são usados quando comparando e contrastando as nossas proteínas virais novos. Usando essa abordagem, nós supor que os clones que albergam proteínas funcionalmente semelhantes compartilharão uma maior semelhança em seu perfil metabolômica completa. Análise metaboloma preliminares revelaram que enquanto que os genes estruturais e metabólicas não se separam claramente uns dos outros, os genes que exibem efeitos semelhantes no hospedeiro quando superexpresso se correlacionam (Figura 6). Por exemplo, os agrupamentos de genes Cápside anotados em estreita colaboração com os genes metabólicos putativos destaque neste estudo, EDT2440 e EDT2441. As investigações com um programa preditor topologia transmembranar e o péptido de sinal disponíveis publicamente mostrou evidência de que ambos os genes putativos metabólicas abrigar um único domínio transmembranar. Curiosamente 5 out of the nove clones no primeiro grupo de cluster (mais à esquerda da porção de dendrograma) previram domínios de transmembrana usando o mesmo programa de topologia. Investigações adicionais são necessárias, no entanto, é provável que os metabolitos presentes durante a sobre-expressão destes clones estão associados a resposta ao stress resultante da membrana celular ou cargas estruturais. Esta evidência suporta que, embora os dados de metabolômica possui uma maior quantidade de ruído, o método é capaz de destacar os sinais que diferenciam efeitos gerais de genes, dentro e através de uma classe de genes. Para determinar se o método é capaz de extrair a informação específica da função do gene, metabolitos foram agrupados em vias metabólicas específicas. O ser hipótese, se um clone afecta metabolitos específicos para um único percurso, em seguida, o gene sobre-expresso é activa em que via. Antes da criação do nosso pipeline de garantia de qualidade metabolômica, dados preliminares revelou que mais de umd metabolitos eram tipicamente sub-representados "desconhecido", proporcionando pouca informação sobre os percursos que estão associados com (dados não mostrados). Metabolômica dados pré-processados, no entanto, revela que a maioria dos perfis de metabolitos são semelhantes e somente um número restrito de abundâncias metabolitos desconhecidos e conhecidos variar entre os clones, por exemplo, a putrescina e uracilo (Figura 6). Para proporcionar maior resolução de esforços a função da proteína são feitas experimentalmente para comparar os genes de fago contra novos genes de fago conhecidos, que podem ser utilizados para preencher os "buracos" de metabolito baseados caracterização funcional. Usando esta técnica, a função atribuída de genes virais conhecidos fornece uma referência para a função dos genes desconhecidos. No entanto, o fator limitante de análise metabolômica é o tamanho ea importância do banco de dados. Para corrigir essas limitações, bases de dados metabolômica relacionáveis a esta pesquisa precisam ser desenvolvidas; talcomo uma base de dados de metabolitos e seus abundâncias especificamente a recolha de E. ASKA Os clones de E. coli, em que um único ORF 36 é sobre-expresso. Evidência para a necessidade de tais bancos de dados foi fornecido em 2013 quando pesquisadores da Lawerence Berkeley National Laboratory compilou o primeiro banco de dados abrangente de metabólitos específicos para bibliotecas inteiras de bactérias mutantes modelo 37. Esta pesquisa forneceu novos insights sobre genes necessários para a utilização de metabólitos específicos, revelando a clara conexão entre fenótipo e genótipo.
Ao considerar metabolômica como uma ferramenta, é importante para definir o regime de processamento seguido na instalação do núcleo. Um artefacto de a maioria dos procedimentos experimentais é a variância do dia-a-dia, associada com os instrumentos de utilização. Até à data todas as análises GC-MS implementa a utilização de normas internas que estão incluídos em cada corrida analítica; no entanto, a adição de amostras internos específicos do projeto </ Em> correu cada dia de experimentação remove variância adicional. Estas considerações devem ser abordadas com antecedência para evitar problemas de normalização e preconceitos. Outra solução é a processar todas as amostras em uma instalação de núcleo na mesma máquina e, como um único lote, uma opção disponível, em qualquer instalação de núcleo.
As várias ferramentas ambos introduzidos e re-explorados neste manuscrito fornecer novos meios para rastrear e caracterizar genes de fago funcionalmente desconhecidos. A simplicidade e capacidade de adaptação das técnicas experimentais com o uso de dutos agilizar computacionais garante esses métodos são aplicáveis a uma ampla gama de esforços de pesquisa e campos. Nosso objetivo é que as abordagens Phenomic apresentados aqui vai ajudar outras investigações de proteínas de fagos novos, além de sistemas que são igualmente funcionalmente indefinido.
The authors have nothing to disclose.
We thank Benjamin Knowles, Yan Wei Lim, Andreas Haas, and members of the Viral Dark Matter consortium for their help and constructive input on this manuscript. This research is funded by the National Science Foundation (DEB-1046413) and is part of the Dimensions: Shedding Light on Viral Dark Matter project.
0.22µm Sterivex Filter | Fisher Scientific | SVGP01050 | Millipore |
0.22µm Millex Filters | Fisher Scientific | SLGV033RS | Millipore |
0.22µm SteriCap Filter | Fisher Scientific | SCGPS02RE | Millipore |
0.22 µm Omnipore membrane filters | Millipore | JHWP02500 | Millipore |
96 well micro-titer plates | VWR | 82050-764 | Standard F-Bottom 96 well Microplates |
2 mL 96 well plate | Fisher Scientific | ||
Adhesive Seal Plate Film | Sigma-Aldrich | Z369667 | |
2 L Nalgene square bottles | Cole Parmer | T-06040-70 | |
125 mL Nalgene square bottles | Cole Parmer | T-06040-50 | |
1/4inch Panel Mount Lock Nut, black nylon | Cole Parmer | EW-45509-04 | |
Female Luer Thread Style Panel Mount to 200 Series Barb 1/16inch | Cole Parmer | EW-45500-30 | |
Female Luer Thread Style Panel Mount to 200 Series Barb, 1/8inch | Cole Parmer | EW-45500-34 | |
Male Luer Integral Lock Ring to 500 Series Barb, 1/16inch ID tubing | Cole Parmer | EW-45505-31 | |
Male Luer with Lock Ring x Female Luer Coupler | Cole Parmer | T-45508-80 | |
Barbed Bulkhead Fittings 1/4inch OD | Fisher Scientific | 6149-0002 | |
Sanipure Tubing 1/16inch ID x 1/8inch OD | SaniPure | AR400002 | |
Sanipure Tubing 1/4inch OD x 1/8inch ID | SaniPure | AR400007 | |
Variable Flow Mini Pump (Peristaltic pump) | Fisher Scientific | 13-876-1 | |
Magnetic Stirrer | Velp Scientifica | F203A0160 | |
Forceps | Fisher Scientific | 14-512-141 | Millipore* Filter Forceps |
Multi-plate spectrophotometer plate reader | Molecular Devices Analyst GT | ||
Filter manifold | Fisher Scientific | XX10 025 02 | |
Software: | |||
Python version 2.7.5 | http://www.python.org/ | ||
PyLab module | http://wiki.scipy.org/PyLab | ||
R version 3.0.1 | http://www.r-project.org/ | ||
reshape2 library | http://had.co.nz/reshape | ||
ggplot2 library | http://ggplot2.org/ | ||
Gene Composer | PSI Tech Portal | http://www.genecomposer.net | |
Services: | |||
West Coast Metabolomics Center | UC Davis | http://metabolomics.ucdavis.edu | |
DNA 2.0 | https://www.dna20.com |