Usando a análise filogenética para investigar a origem de genes eucariontes

* These authors contributed equally
Immunology and Infection

Your institution must subscribe to JoVE's Immunology and Infection section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

É descrito um método de construção de uma árvore filogenética baseada em homologia de sequência de doces de eucariontes e SemiSWEETs de procariontes. A análise filogenética é uma ferramenta útil para explicar o parentesco evolutivo entre proteínas homólogas ou genes de grupos de organismo diferente.

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L. Q., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

A análise filogenética usa nucleotídeos ou sequências de aminoácidos ou outros parâmetros, como sequências de domínio e de estrutura tridimensional, para construir uma árvore para mostrar a relação evolutiva entre táxons diferentes (unidades de classificação) o molecular nível. A análise filogenética também pode ser usada para investigar as relações de domínio dentro de um táxon individual, particularmente para os organismos que sofreram substancial alteração na morfologia e fisiologia, mas para que pesquisadores faltam evidência fóssil devido à história evolutiva longas dos organismos ou escassez de fossilização.

Neste texto, um protocolo detalhado é descrito por usando o método filogenético, incluindo o alinhamento de sequências de aminoácidos usando Clustal Omega e construção de árvore filogenética subsequentes usando ambos probabilidade máxima (ML) da genética evolutiva Molecular Análise (MEGA) e inferência Bayesiana via MrBayes. Para investigar a origem de genes eukaryotic Será de açúcares eventualmente ser exportados transportadores (doce), foram analisadas 228 doces, incluindo 35 proteínas doces de eucariontes unicelulares e 57 SemiSWEET proteínas de procariontes. Curiosamente, SemiSWEETs foram encontrados em procariontes, mas doces foram encontrados em eucariontes. Duas árvores filogenéticas construídas usando métodos teoricamente distintos consistentemente sugerem que o primeiro gene doce eucariótico pode derivar da fusão de um gene bacteriano meio amargo e um gene de archaeal meio amargo. É interessante notar que um deve ser cauteloso para desenhar uma conclusão baseada apenas na análise filogenética, embora seja útil explicar a relação subjacente entre táxons diferentes, o que é difícil ou mesmo impossível discernir através de meios experimentais .

Introduction

Sequências de DNA ou RNA carregam informação genética para fenótipos subjacentes que podem ser analisados através de métodos fisiológicos e bioquímicos ou observada através de evidências morfológicas e fósseis. Em certo sentido, a informação genética é mais confiável que avaliar fenótipos externos porque o anterior é a base para o último. No estudo evolutivo, a evidência fóssil é muito direta e convincente. No entanto, muitos organismos, tais como microorganismos, têm pouca chance de formar um fóssil durante o tempo geológicas idades. Portanto, a informação molecular como sequências nucleotídicas e sequências de aminoácidos de organismos existentes relacionados são de valor para explorar as relações evolutivas1. No presente estudo, uma simples introdução de conhecimentos básicos filogenético e um protocolo fácil de aprender foi fornecida para os novatos que precisam construir uma árvore filogenética por conta própria.

ADN (nucleotídeos) e sequências de proteínas (aminoácido) podem ser usadas para inferir relações filogenéticas entre genes homólogos, organelas ou mesmo organismos2. Sequências de DNA são mais susceptíveis de serem afectadas por alterações durante a evolução. Em contraste, as sequências de aminoácidos são muito mais estáveis, dado que mutações sinónimas em sequências nucleotídicas não causam mutações em sequências de aminoácidos. Como resultado, as sequências de ADN são úteis para comparação de genes homólogos de organismos aparentados, Considerando que as sequências de aminoácidos são apropriadas para genes homólogos de organismos distantemente relacionados3.

Uma análise filogenética começa com o alinhamento de aminoácidos ou de sequências de nucleotídeos4 Obtida de um genoma anotado sequenciamento de banco de dados5 listados no formato FASTA, ou seja, proteínas expressas ou putativa sequências, sequências de RNA , ou sequências de DNA. É interessante notar que é fundamental para recolher sequências de alta qualidade para a análise, e sequências homólogas só podem ser usadas para analisar relações filogenéticas. Muitas plataformas diferentes como Clustal W, Clustal X, músculo, T-café, MAFFT, pode ser usado para alinhamento de sequências. O mais amplamente utilizado é o Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), que pode ser usado on-line ou pode ser baixado gratuitamente da carga. A ferramenta de alinhamento tem muitos parâmetros que o usuário pode ajustar antes de iniciar o alinhamento, mas os parâmetros padrão funcionam bem na maioria dos casos. Depois que o processo for concluído, as sequências alinhadas devem ser salvo no formato correto para a próxima etapa. Eles devem ser editados ou aparada usando um software de edição, tais como BioEdit, porque a construção de árvore filogenética por MEGA requer as sequências para ser de igual comprimento (incluindo as abreviações de aminoácido e hifens. Na sequência alinhada, qualquer posição sem um aminoácido ou nucleotídeo é representada por um hífen "-"). Geralmente, todos os aminoácidos salientes ou nucleotídeos em cada extremidade do alinhamento devem ser removidos. Além disso, colunas que contêm sequências mal alinhadas no alinhamento podem ser excluídas porque eles transmitem pouca informação valiosa e às vezes podem dar confusas ou falsas informações3. As colunas que contêm um ou mais hífens podem ser excluídas neste momento ou em fase de construção de árvore mais tarde. Alternativamente, eles podem ser usados para cálculo filogenético. Quando o alinhamento de sequências e aparando for concluído, as sequências alinhadas devem ser salvo no formato FASTA, ou o formato desejado, para uso posterior.

Muitas plataformas de software fornecem funções de construção de árvore usando diferentes métodos ou algoritmos. Em geral, os métodos podem ser classificados como métodos de matriz de distância ou métodos de dados discretos. Métodos de matriz de distância são simples e rápidos para calcular, enquanto métodos de dados discretos são complicadas e demoradas. Para táxons muito estreitamente relacionados com um alto grau de compartilhamento da identidade de sequência de aminoácidos ou nucleótidos, um método de matriz de distância (vizinho ingressar: NJ; Método de grupo de pares não ponderada com média aritmética: UPGMA) é apropriado; para táxons distantemente relacionados, um método de dados discretos (máxima verossimilhança: ML; Máxima parcimônia: MP; Inferência Bayesiana) é ideal3,8. Neste estudo, os métodos de ML em MEGA (6.0.6) e inferência Bayesiana (MrBayes 3.2) foram aplicados para construir árvores filogenéticas9. Idealmente, quando o modelo apropriado e parâmetros são usados, os resultados derivados de métodos diferentes podem ser consistentes, e são, portanto, mais confiável e convincente.

Para uma árvore filogenética ML construída usando MEGA10, o arquivo de sequência alinhada no formato FASTA deve ser carregado no programa. Então, o primeiro passo é escolher o modelo ideal de substituição para os dados enviados. Todos os modelos de substituição disponíveis são comparados com base em sequências de carregado, e sua pontuação final será mostrada em uma tabela de resultados. Selecione o modelo com a menor pontuação BIC Bayesian Information Criterion () (listada primeiro na tabela), definir parâmetros de ML, de acordo com o modelo recomendado e começar a computação. O tempo de computação varia de alguns minutos a vários dias, dependendo da complexidade dos dados carregados (comprimento do número de táxons e sequências) e o desempenho do computador no qual os programas são executados. Quando o cálculo for concluído, uma árvore filogenética será mostrada em uma nova janela. Salve o arquivo como "FileName.mat". Depois de definir parâmetros para especificar a aparência da árvore, salve mais uma vez. Usando esse método, MEGA pode gerar figuras de árvore filogenética de ano de publicação.

Para construção de árvore com MrBayes11, o primeiro passo é transformar a sequência alinhada, que normalmente é listada no formato FASTA, em formato de nexo (.nex como o tipo de arquivo). Transformar arquivos FASTA em formato nexus pode ser processado em MEGA. Em seguida, a sequência alinhada no formato nexus pode ser carregada em MrBayes. Quando o arquivo é carregado com êxito, especifica parâmetros detalhados para o cálculo de árvore. Esses parâmetros incluem detalhes como modelo de substituição de aminoácido, taxas de variação, número de cadeia de Markov chain Monte Carlo (MCMC) acoplamento, número ngen, média desvio-padrão de divisão de frequências e assim por diante. Depois que esses parâmetros foram especificados, inicie a computação. No final, duas figuras de árvore no código ASC II, uma apresentando credibilidade de clado e os outros comprimentos de ramo de apresentando, será exibido na tela.

O resultado da árvore será salvo automaticamente como "FileName.nex.con". Este arquivo de árvore pode ser aberto e editado por FigTree, e a figura exibida no FigTree pode ser modificada ainda mais para torná-lo mais adequado para publicação.

Neste estudo, analisaram-se 228 doces proteínas, incluindo 35 doces de eucariontes unicelulares e 57 SemiSWEETs de procariontes, como exemplo. Os doces e o SemiSWEETs foram caracterizadas como glicose, frutose ou transportadores de sacarose através de membranas12,13. A análise filogenética sugere que os dois domínios MtN3/saliva contendo doces podem ser derivados de uma fusão evolutiva de um SemiSWEET bacteriana e de um archaeon14.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. alinhamento

  1. Recolher o amino-ácido sequências de doce eucariótica e procariótica SemiSWEET em documentos separados e listá-las no formato FASTA. Baixe sequências do centro nacional para Biotechnology Information (NCBI), laboratório Europeu de Biologia Molecular (EMBL) e o banco de dados de DNA de bancos de dados do Japão (DDBJ) pela busca de semelhança com a ferramenta básica Local alinhamento Search Tool (explosão).
    1. Nos arquivos de exemplo, coletar 228 sequências de proteína doce putativo, possuindo dois domínios MtN3/saliva (7 hélices transmembranares) 57 sequências de proteínas SemiSWEET possuindo um único domínio de MtN3/saliva (3 hélices transmembranares) de procariontes e eucariontes 13.
    2. Para simplificar o processo, selecione 35 proteínas doce de candidato de organismos unicelulares eucariontes, entre os 228 doces putativos para construção de árvores filogenéticas. Essas sequências são anexadas para que o leitor pode praticar em um conjunto de dados real.
  2. Alinhar as 35 sequências doces inserindo-os em Clustal Omega (http://www.ebi.ac.uk/Tools/msa/clustalo/).
    1. Copiar e colar as sequências de proteína em formato FASTA na caixa de entrada ou carregar um arquivo de sequência no formato FASTA. Especifique que eles são a sequência de aminoácidos, clicando no ícone no menu suspenso na seção 'STEP 1'.
    2. Especifica o formato de saída e outros parâmetros na seção 'Passo 2', se necessário. Para este estudo, definir o formato de saída como "clustal w/o número" e deixar os outros parâmetros nas configurações padrão. Na maioria dos casos, os parâmetros padrão funcionam bem sem qualquer especificação.
  3. Apresentar e executar o alinhamento na seção 'Passo 3'. Isso pode levar de vários segundos a minutos até que o alinhamento é terminado. No painel "Resumo do resultado", botão direito do mouse no link sob o "alinhamento em formato CLUSTAL" e salve as sequências alinhadas como "35.clustal" (Figura 1).
  4. Abra o arquivo de resultado de alinhamento no BioEdit.
    1. No painel principal do BioEdit, clique "Sequência" e selecione "Editar humor" no primeiro menu suspenso, clique "Editar resíduos" no submenu (Figura 2).
    2. Selecione as sequências salientes no lado esquerdo do alinhamento com o cursor (a sequência selecionada será mostrada em preto) e clique no ícone "Excluir" no menu "Editar" para remover as sequências selecionadas (Figura 3).
    3. Selecione e exclua as sequências salientes no lado direito do primeiro domínio MtN3/saliva e salve as sequências de domínio MtN3/saliva primeiras aparadas como 35-I.fas (Figura 4). Da mesma forma, excluir a esquerda e direita salientes sequências do segundo domínio MtN3/saliva e salve-o como II.fas-35. O primeiro e as segunda sequências de domínio MtN3/saliva podem ser previstas com ritmo (http://proteinformatics.charite.de/rhythm/inndex.php?site=helix) ou TMHMM (http://www.cbs.dtu.dk/services/TMHMM/) com antecedência.
  5. Abra o arquivo 35-I.fas com MEGA e clique em "Alinhar" quando solicitado. Sob o menu "Editar", clique em "Selecionar tudo" e, em seguida, clique em "Selecionar uma"; os nomes e as sequências dos táxons serão selecionadas em preto (Figura 5).
    1. Escolha "Copiar" no menu "Editar" para copiar as sequências para a área de transferência e cole as sequências copiadas em um arquivo doc.
    2. No arquivo doc, substituir todos os "#" com ">" e em seguida, exclua quaisquer caracteres independentes para convertê-los para o formato FASTA. Adicionar "-eu" no final do nome de cada táxon para marcá-los como sequências de domínio de primeiro MtN3/saliva. Processar a segunda sequência de domínio de MtN3/saliva, seguindo o mesmo método e adicione "-II" após o nome de cada táxon.
  6. Combine as sequências de domínio MtN3/saliva primeiras e o segunda no formato FASTA em um arquivo doc.
    1. Carregar as sequências combinadas em Clustal Omega novamente e alinhar as sequências, como descrito acima. Salve o resultado como "35 realigned.clustal".
    2. Abra o arquivo "35 realigned.clustal" no BioEdit, eliminar os resíduos de aminoácidos (saliente) desigual nas extremidades das sequências alinhadas e salve as sequências como "35 realigned.fas". Clique em "Sim" quando advertiu que alguns caracteres não-padrão não podem ser salvo.

2. cálculo da árvore filogenética

  1. Abra "realigned.fas 35" no MEGA.
    1. Clique no menu "Dados" e escolha "Exportar alinhamento" e salve o alinhamento no formato PAUP (nexo) como "35.nex" para uso posterior em MrBayes (Figura 6).
    2. Enquanto isso, clique no ícone de "Modelos" no painel principal do MEGA, escolher "encontrar melhor DNA/proteína modelos (ML)" e clique em "Okey" na janela pop-up. Clique em "Calcular" para começar o modelo busca processo (Figura 7). Vai abrir um novo painel de progresso; Este processo dura vários minutos a vários dias, dependendo da complexidade das sequências carregadas e o desempenho do computador.
      Nota: Uma tabela mostrando que os resultados serão aberto depois de terminar o processo de busca de modelo ( Figura 8). A menor pontuação BIC será listada em primeiro lugar, seguido por uma série de modelos diferentes com aumentando gradualmente o golo de BIC. O primeiro modelo "LG + G + F" com a menor pontuação BIC é o modelo recomendado para ML árvore com base no arquivo "35 realigned.fas".
  2. Clique no ícone "Filogenia" no painel principal do MEGA, clique em "Construção e teste a máxima probabilidade de árvore" e em seguida, clique em "Sim" no painel pop-up. Uma nova janela se abrirá, mostrando diferentes parâmetros que precisam ser especificados (Figura 9).
    1. Primeiro, defina o valor de inicialização no teste da caixa de filogenia; 500 ou 1.000 é suficiente na maioria dos casos. Sob o modelo de substituição, escolha "aminoácido" como o tipo de substituição. O objetivo de escolher um modelo de substituição é estimar a verdadeira diferença entre sequências com base na sua presente Estados3.
    2. Selecione "LG com frequências. Modelo de (+F) "(LG + F) na caixa modelo/método. Nas taxas e caixa padrão, selecione "Gamma distribuído" (G) para descrever as variações da taxa entre sites, i. e., dando mais peso para mudanças no lentamente desenvolvendo sites3. Na caixa subconjunto de dados, selecione "Concluir a exclusão" para remover todas as colunas que contêm hifens.
    3. Manter todos os outros parâmetros em seus Estados padrão (Figura 9). Após a especificação desses parâmetros, clique no ícone de "Compute" para iniciar o cálculo.

3. apresentação da árvore filogenética

Nota: Árvore filogenética ML será apresentada quando for concluída a computação usando MEGA (Figura 10).

  1. Sob o menu pull-down do ícone no painel de árvore do "Arquivo", escolha "Salvar sessão atual" para salvar o resultado (.mas é o tipo de arquivo padrão). No presente estudo, o resultado foi salvo como "35.mas". No painel de árvore, muitos parâmetros, incluindo o comprimento do clado, estilo de árvore, topologia de árvore, fonte do táxon nome, tamanho e cor, são exibidos e podem ser definidas para diferentes opções.
  2. Salve o arquivo de árvore final clicando no ícone de imagem e salve a figura em formatos diferentes ou copiar a imagem como a fonte para edição de fotos.

4. análise da relação de doces e SemiSWEETs usando o alinhamento da sequência

Nota: Este passo pode não ser necessária na análise de sequências comuns.

  1. Alinhe os 228 eucarióticos doces e 57 SemiSWEETs procariotas em Clustal Omega conforme descrito acima. Os resultados do alinhamento podem ser mostrados em Jalview, que é integrado no Clustal Omega e copiado para salvar em um editor de fotos (Figura 11).
    Nota: No alinhamento exemplo, alguns SemiSWEETs de α-proteobactérias são alinhados com o primeiro domínio de MtN3/saliva das sequências de doce, Considerando que SemiSWEETs de Methanobacteria (archaea) estão alinhados com o segundo domínio de MtN3/saliva das sequências de doce.

5. phylogenetic Tree construção com MrBayes

  1. Para inferências Bayesianas com MrBayes, abra o arquivo executável MrBayes e uma interface DOS vai aparecer em uma nova janela. O primeiro passo é ler os arquivos de dados do nexo. Entrada "execute 35.nex" após o prompt (Lembre-se de salvar o arquivo do nex 35 no mesmo diretório do arquivo executável MrBayes, ou apontar o caminho do arquivo antes de enviá-lo). Uma mensagem de "sucesso matriz de leitura" será mostrada após o último dos táxons listados (Figura 12). O arquivo do nex 35 já foi preparado e salvo no MEGA (ver 2.1 acima).
  2. Defina o modelo evolucionista.
    1. Após o prompt, digite "prset aamodelpr = fixed(lg); taxas de LSet = g ". A "lg" e "g" correspondem ao modelo "LG" e "G", que é definido no MEGA. Após a configuração com êxito o modelo, digite "mcmc nchains = 4 ngen = 5.000.000" após o prompt. Utilizar o "nchains = 4" significa um número total de uma cadeia de frio e três correntes quentes para acoplamento de Metropolis. "ngen = 5.000.000" significa executar gerações 5.000.000 de acoplamento da metrópole para convergência das correntes frias e quentes. Neste estudo, a médio desvio-padrão de divisão de frequências abaixo de 0,01 foi considerado como convergência das correntes quentes e frias.
    2. Note-se que o número de ngen não pode ser previsto com precisão no início do processo e geralmente precisa ser ajustada com base na mudança na média desvio-padrão de divisão de frequências. Além disso, o número de ngen de convergência pode ser diferente cada vez que quando executar o programa baseado nos mesmos dados.
  3. Executar a análise: Esta etapa dura de alguns minutos a vários dias, dependendo da complexidade dos dados de entrada e o desempenho do computador. Depois de completar o cálculo predefinido, um prompt pedirá "Continuar com a análise (Sim/não)?" Se "não" é digitado após o prompt, a computação vai parar (Figura 13), caso contrário continuará a calcular após o número de novas gerações é a entrada. Quando o cálculo terminar (com um desvio padrão médio de frequências split < 0,01 ou 0,05), parar a computação digitando "n" após o prompt do inquérito.
    Nota: 0,01 é um critério estrito, 0,05 é moderada e geralmente adequado.
  4. Resumir as amostras: Digite "depósito" após o prompt para resumir as amostras dos parâmetros do modelo (Figura 14). Em seguida, digite "sumt relburnin = Sim burninfrac = 0,25" após o prompt para resumir as amostras de árvore. Informações detalhadas sobre construção de árvore filogenética serão exibidas como na Figura 15, seguido por duas figuras de árvore que irão aparecer no código ASC II na tela, uma mostrando credibilidade de clado e os outros comprimentos de ramo apresentando. Ao mesmo tempo, um arquivo de árvore com o nome de "35.nex.con" será salvo automaticamente.
  5. Para uma melhor apresentação da árvore filogenética, abra o arquivo de árvore "35.nex.con" com a ferramenta FigTree (http://tree.bio.ed.ac.uk/software/figtree/), selecione um estilo ou tamanho para exibir o resultado (Figura 16) ou até mesmo editá-lo em um editor de fotos para torná-lo mais fácil leitura.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Árvores filogenéticas mostram que todos os domínios de MtN3/saliva primeiros das 35 doces sequências de cluster como um clado e os segundo domínios MtN3/saliva das sequências doces agrupados como outro clado. Além disso, os resultados do alinhamento dos doces e SemiSWEETs mostraram que alguns SemiSWEETs de α-proteobactérias alinhado com o primeiro domínio de MtN3/saliva das sequências doces, Considerando que SemiSWEETs de Methanobacteria (archaea) alinhado com o segundo MtN3/saliva domínio das sequências de doce. Juntos, estes resultados sugerem que os dois domínios MtN3/saliva contendo doces podem ser derivados de uma fusão evolutiva de um SemiSWEET bacteriana e de um archaeon14.

Figure 1
Figura 1 : Salve as sequências alinhadas dos 35 doces eucarióticas putativos como "35.clustal" através de Clustal Omega. Clique aqui para ver uma versão maior desta figura.

Figure 2
Figura 2 : Selecione caminho no BioEdit para aparar as sequências alinhadas de "35.clustal", que foi preparado em Clustal Omega. Clique aqui para ver uma versão maior desta figura.

Figure 3
Figura 3 : Selecione e exclua as sequências irregulares no lado esquerdo das sequências primeiros domínio MtN3/saliva dos 35 doces eucarióticas putativos no BioEdit. Clique aqui para ver uma versão maior desta figura.

Figure 4
Figura 4 : As sequências aparadas do primeiro domínio MtN3/saliva dos 35 doces eucarióticos putativos no BioEdit. Clique aqui para ver uma versão maior desta figura.

Figure 5
Figura 5 : Selecione e copie as sequências de domínio MtN3/saliva primeiras dos 35 doces eucarióticas putativos em MEGA. As sequências copiadas serão coladas em um arquivo doc, para a edição. Clique aqui para ver uma versão maior desta figura.

Figure 6
Figura 6 : Converter "realigned.fas 35" em "35.nex" (formato PAUP) para inferência Bayesiana, numa fase posterior. Clique aqui para ver uma versão maior desta figura.

Figure 7
Figura 7 : Pesquisa para o modelo de substituição de melhor ajuste por MEGA para construção de árvore filogenética de probabilidade máxima (ML) com base no arquivo "35 realigned.fas". Clique aqui para ver uma versão maior desta figura.

Figure 8
Figura 8 : Uma tabela do modelo de substituição de melhor ajuste calculado para ML árvore com base no arquivo "35 realigned.fas". Clique aqui para ver uma versão maior desta figura.

Figure 9
Figura 9 : Especifique os parâmetros para cálculo de árvore ML baseado no modelo de substituição de melhor ajuste para "35 realigned.fas" em MEGA. Clique aqui para ver uma versão maior desta figura.

Figure 10
Figura 10 : Uma árvore ML original construída por MEGA baseado no "35 realigned.fas". Nesta fase, muitas opções para a figura de estilo, tamanho, cor, etc., estão disponíveis. Clique aqui para ver uma versão maior desta figura.

Figure 11
Figura 11 : Alinhamento de 228 doces eucarióticas e 57 SemiSWEETs procarióticas por Clustal Omega. Os resultados foram mostrados em Jalview, integrado Clustal Omega. No alinhamento, alguns SemiSWEETs de α-proteobactérias estavam alinhados com o primeiro domínio de MtN3/saliva das sequências doces, Considerando que SemiSWEETs de Methanobacteria (archaea) estavam alinhados com o segundo domínio de MtN3/saliva das sequências de doce. Clique aqui para ver uma versão maior desta figura.

Figure 12
Figura 12 : Carregar o arquivo "35.nex" em MrBayes na janela DOS. A fim de mostrar os resultados globais, o conteúdo que era similar foi excluído para reduzir o comprimento da figura. Clique aqui para ver uma versão maior desta figura.

Figure 13
Figura 13 : Informações exibidas na tela após a computação do arquivo "35.nex" usando MrBayes. Para mostrar os resultados globais, o conteúdo que era similar foi excluído para reduzir o comprimento da figura. Clique aqui para ver uma versão maior desta figura.

Figure 14
Figura 14 : Resumiu amostras dos parâmetros do modelo para o arquivo "35.nex". Por favor clique aqui para ver uma versão maior desta figura. Clique aqui para ver uma versão maior desta figura.

Figure 15
Figura 15 : Resumiu amostras de árvore do arquivo "35.nex". Para mostrar os resultados globais, o conteúdo que era similar foi excluído para reduzir o comprimento da figura. Clique aqui para ver uma versão maior desta figura.

Figure 16
Figura 16 : Árvore filogenética de "35.nex.con", exibido pelo FigTree. Clique aqui para ver uma versão maior desta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Torna-se cada vez mais popular em pesquisas biológicas, para fazer uma árvore filogenética baseada em nucleotídeos ou sequências de aminoácidos8. Geralmente, existem três estágios críticos da prática incluindo alinhamento de sequências, avaliação das sequências alinhadas com o método adequado ou algoritmo e visualização do resultado computacional como uma árvore filogenética. No estudo apresentado, foram realizadas três rodadas de alinhamento da sequência: primeiro, as sequências de proteína doce, incluindo o primeiro e o segundo domínio de MtN3/saliva, estavam alinhadas; em segundo lugar, cada uma das sequências individuais de domínio MtN3/saliva dos doces como um táxon independente foram recolhidos e alinhados juntos; e finalmente, sequências de meio amargo e doces sequências foram alinhadas em conjunto. Apenas uma rodada de alinhamento de sequências geralmente é necessário para a construção da árvore filogenética.

Na fase preliminar, sequências homólogas podem downloaded de NCBI ou outros bancos de dados. Essas sequências baixadas podem precisar de ser rastreados se eles não são bem anotados. Na primeira e segunda fase, alinhamento e computação não podem ser iniciados se o formato de sequência está incorreto. Por exemplo, Clustal Omega irá rejeitar qualquer partida do formato FASTA no arquivo de sequência. Na fase computacional, observe que os comprimentos de sequência incluindo aminoácidos ou nucleótidos e hífens são obrigados a ser igual antes de ser avaliado por MEGA.

Apesar da riqueza de métodos e modelos para construção de árvore que estão disponíveis, nenhum deles é infalível. Robustos e convincentes de resultados são aquelas que são consistentes com os outros quando modelos ou algoritmos diferentes são usados para avaliar os dados mesmo15. O método de ML, a confiabilidade da topologia de árvore depende em grande medida o valor de inicialização de cada clado; um valor de inicialização de 70 ou maior é geralmente considerado como confiável. No presente estudo, todas as sequências de domínio MtN3/saliva primeiras agrupados como um clado grande com um valor de inicialização de 83. O valor do outro clado contendo todas as segunda MtN3/saliva domínio sequências, no entanto, foi apenas 6 (Figura 10). Para verificar a arquitetura da árvore, MrBayes, que emprega um método completamente diferente16 do ML, foi usado para analisar a relação dos táxons. Probabilidades posterior16 dos clados de primeiro e segundo domínio obtido MrBayes foram 100 e 68, respectivamente (Figura 16).

Outra limitação a ML e a computação MrBayes é que ambos são demorados executar. Usar um computador com processadores de vários núcleos e unidades de processamento gráfico (GPU) é útil para melhorar o desempenho computacional e a velocidade de17,18. Para a operação de MrBayes, um computador com uma placa gráfica discreta e os drivers apropriados do CUDA pode acelerar significativamente a probabilidade de cálculos11.

Selecionar o modelo apropriado para computação de árvore filogenética é difícil para aqueles com pouca experiência. A este respeito, MEGA fornece uma maneira fácil de encontrar o melhor modelo, comparando os escores BIC de modelos de candidato. Além disso, o 6.0 MEGA atualizado recentemente integra várias sequência alinhamento ferramentas tais como músculo e Clustal W10, que são muito convenientes usar. Ele também fornece uma sequência de edição e função de construção de árvore filogenética. Esses recursos parcialmente explicam porque este software é tão popular no campo da evolução molecular computacional. Quanto MrBayes, uma significativa vantagem desta ferramenta é que ele pode processar a tipos de dados misturados juntos (ex., dados morfológicos e moleculares)11e, portanto, os resultados são mais abrangentes.

Em conclusão, o presente estudo fornece um método para analisar a origem molecular da proteína-codificação de genes que sofreram variação complexa tais como fusão, após a duplicação ou transferência horizontal de genes (HGT), durante a evolução. Esperançosamente, conclusões mais serão reveladas com ampla aplicação de análise filogenética, no campo de pesquisa evolucionária.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada para divulgar.

Acknowledgments

Este trabalho foi financiado pela Fundação de ciências naturais da província de Jiangsu, China (BK20151424), centro de pesquisa de Bio-tecnologia, China três gargantas University (2016KBC04) e a Fundação Nacional de ciências naturais da China (31371596).

Materials

Name Company Catalog Number Comments
Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4 GB memory, Core 2 or above CPU. Windows 7, Windows 10

DOWNLOAD MATERIALS LIST

References

  1. Nei, M., Kumar, S. Molecular Evolution and Phylogenetics. Oxford University Press. Oxford. (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics