Biology

Um Guia Prático para Phylogenetics para não especialistas

Published: February 5, 2014 doi: 10.3791/50975

¹Department of Biological Sciences and Institute for Neuroscience, The George Washington University

Summary

Aqui nós descrevemos um gasoduto passo-a-passo para a geração de filogenias confiáveis de nucleotídeos ou aminoácidos conjuntos de dados de seqüência. Este guia destina-se a servir os investigadores ou alunos novos para a análise filogenética.

Abstract

Muitos pesquisadores, através de focos extremamente diversificado, estão aplicando filogenia à sua pergunta (s) de pesquisa. No entanto, muitos pesquisadores são novos para este tema e por isso apresenta problemas inerentes. Aqui nós compilamos uma introdução prática ao filogenética para não especialistas. Nós delinear de forma passo-a-passo, de um gasoduto para gerar filogenias confiáveis de conjuntos de dados de seqüência de genes. Começamos com um guia do usuário para ferramentas de busca de similaridade por meio de interfaces online, bem como executáveis locais. Em seguida, vamos explorar os programas de geração de alinhamentos de seqüência múltiplas seguidas de protocolos para a utilização de software para determinar modelos de melhor ajuste de evolução. Nós, então, delinear protocolos para reconstruir as relações filogenéticas via máxima verossimilhança e critérios bayesianos e, finalmente, descrever ferramentas para visualização de árvores filogenéticas. Enquanto isso não é de forma alguma uma descrição exaustiva das abordagens filogenéticas, ele fornece ao leitor prático informat começandoíon em aplicações de software chave comumente utilizadas por filogeneticistas. A visão para este artigo seria que ela poderia servir como uma ferramenta de treinamento prático para os pesquisadores que embarcam em estudos filogenéticos e também servir como um recurso educacional que pode ser incorporado em uma sala de aula ou de ensino-laboratório.

Introduction

A fim de entender como duas (ou mais) espécies evoluíram, primeiro é necessário obter seqüência ou dados morfológicos de cada amostra, estes dados representam quantidades que podemos usar para medir o seu relacionamento através do espaço evolutivo. Assim como quando medir a distância linear, com mais dados disponíveis (por exemplo, milhas, polegadas, microns) vai equivaler a uma medição mais precisa. Ergo, a precisão com que um pesquisador pode deduzir distância evolutiva é fortemente influenciado pelo volume de dados informativos disponíveis para medir relacionamentos. Além disso, porque as diferentes amostras evoluir a taxas diferentes e por diferentes mecanismos, o método que usamos para medir a relação entre dois táxons também influencia diretamente a precisão das medições evolutivas. Portanto, porque as relações evolutivas não são diretamente observados, mas em vez disso são extrapolados a partir de seqüência ou dados morfológicos, o problema de inferir evolutivarelações torna-se uma das estatísticas. Filogenia é o ramo da Biologia que estuda aplicação de modelos estatísticos para padrões de evolução, a fim de reconstruir a história evolutiva de forma otimizada entre táxons. Esta reconstrução entre taxa é conhecida como filogenia da taxa.

Para ajudar a preencher a lacuna no conhecimento entre biólogos moleculares e biólogos evolucionistas que descrevemos aqui um passo a passo gasoduto para inferir filogenias a partir de um conjunto de seqüências. Em primeiro lugar, detalhamos os passos envolvidos no interrogatório de banco de dados usando o Básico Local Alignment Search Tool (BLAST ¹⁾ algoritmo através da interface baseada na web, e também usando executáveis locais, o que é muitas vezes o primeiro passo para a obtenção de uma lista de seqüências similares a um não identificado consulta, embora alguns pesquisadores também pode estar interessado em coleta de dados para um único grupo através de interfaces web, como Phylota (http://www.phylota.net/). BLAST é um algoritmo para cOMPARAÇÃO aminoácido primário ou dados de seqüência de nucleotídeos contra um banco de dados de sequências para procurar "hits" que se assemelham a seqüência de consulta. O programa BLAST foi desenhado por Stephen Altschul et al. no National Institutes of Health (NIH) ^1. O servidor BLAST consiste em uma série de programas diferentes, e aqui está uma lista de alguns dos programas BLAST mais comuns:

i) BLAST nucleotídeo-nucleotídeo (blastn): Este programa requer uma entrada de seqüência de DNA e retorna as seqüências de DNA mais similares do banco de dados de DNA que o usuário especifica (por exemplo, por um organismo específico).

ii) BLAST proteína-proteína (blastp): Aqui o usuário insere uma seqüência de proteína eo programa retorna as seqüências protéicas mais similares do banco de dados de proteínas que o usuário especifica.

iii) BLAST iterativo-Posição Específica (PSI-BLAST) (blastpgp): A entrada do usuário é uma proteem seqüência que retorna um conjunto de proteínas estreitamente relacionados e, a partir deste conjunto de dados é gerado um perfil conservada. Em seguida uma nova consulta é gerada utilizando apenas estes "motivos" conservadas, que é utilizado para interrogar uma base de dados de proteína e esta retorna um grupo maior de proteínas a partir do qual um novo conjunto de "motivos" conservadas são extraídos e, em seguida, utilizada para interrogar um banco de dados de proteínas, até um conjunto ainda maior de proteínas são afinados e outro perfil é gerado eo processo é repetido. Com a inclusão de proteínas relacionadas na consulta em cada etapa deste programa permite ao usuário identificar sequências que são mais divergentes.

iv) Nucleotide 6-frame tradução em proteínas (blastx): Aqui o usuário fornece uma entrada sequência de nucleotídeos que é convertido em os seis quadros conceituais produtos de tradução (ou seja, ambas as vertentes) contra um banco de dados de sequências de proteínas..

v) nucleotídeo 6-frame tradução de nucleotídeoTradução 6-frame (tblastx): Este programa tem uma entrada de seqüência de nucleotídeos do DNA e traduz a entrada em todos os seis quadros conceituais produtos de tradução que se compara contra as traduções de seis quadros de um banco de dados de seqüência de nucleotídeos.

vi) Proteína de nucleotídeo tradução 6-frame (tblastn): Este programa usa uma entrada de seqüência de proteína para comparar com todos os seis quadros de leitura de um banco de dados de seqüência de nucleotídeos.

A seguir, descrevemos programas comumente usados para gerar uma seqüência múltipla de alinhamento (MSA) a partir de um conjunto de dados de seqüência, e isso é seguido por um guia do usuário para programas que determinam os modelos de melhor ajuste de evolução para um conjunto de dados de seqüência. Árvore filogenética é um problema de análise estatística, e por isso, os métodos filogenéticos precisa incorporar um quadro estatístico. Este quadro estatístico torna-se um modelo evolutivo que incorpora mudança seqüência dentro do conjunto de dados. Este mo evolutivadel é composto de um conjunto de hipóteses sobre o processo de substituições de nucleotídeos ou amino-ácidos, eo modelo de melhor ajuste para um conjunto de dados em particular podem ser selecionados por meio de testes estatísticos. O ajuste aos dados de diferentes modelos podem ser comparados através de testes de razão de verossimilhança (LRTS) ou critérios de informação para selecionar o modelo que melhor se ajusta dentro de um conjunto de possíveis. Dois critérios de informação comuns são as informações critério de Akaike (AIC) ² eo critério de informação Bayesiano (BIC) ^3. Uma vez que um alinhamento óptimo é gerado, há muitos métodos diferentes para criar uma filogenia dos dados alinhados. Existem vários métodos de inferir relações evolutivas; amplamente, eles podem ser divididos em duas categorias: métodos baseados em distância e métodos baseados em seqüência. Métodos baseados em Distância calcular distâncias entre pares de sequências, e, em seguida, usar essas distâncias para obter a árvore. Métodos baseados em Sequência utilizar o alinhamento da sequência directa, e geralmente pesquisar a tree espaço usando um critério de otimização. Nós delineamos dois métodos baseados em seqüência para reconstruir as relações filogenéticas: são PhyML ^4, que implementa a estrutura de máxima verossimilhança, e MrBayes ⁵ que usa Bayesian Markov Chain Monte Carlo inferência. Probabilidade e métodos bayesianos fornecer um quadro estatístico para a reconstrução filogenética. Ao fornecer informações do usuário em ferramentas de construção de árvore comumente utilizados, apresentamos ao leitor os dados necessários para inferir relações filogenéticas.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Básico Local Alignment Search Tool (BLAST): interface on-line

Clique neste link para visitar o web server BLAST ¹ do Centro Nacional de Informações sobre Biotecnologia (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figura 1).
Entrada de uma seqüência de texto formatado FASTA (ver Figura 2, por exemplo) na caixa de consulta.
Clique no programa BLAST apropriado e banco de dados relevantes ou espécies individuais de interesse a ser usado na pesquisa e, em seguida, clique em "BLAST".
Nota: seqüência FASTA formatado começa com uma linha de descrição indicado por um sinal ">". A descrição deve seguir imediatamente após o sinal ">", a seqüência (isto é. Nucleotídeos ou aminoácidos) seguem a descrição na linha seguinte. A saída da pesquisa BLAST é visto como HTML, texto simples, XML, ou bater taveis (texto ou csv) com o definido para HTML padrão (Figura 3).

2. Básico Local Alignment Search Tool (BLAST): executáveis locais

Faça o download dos mais recentes da linha de comando executáveis Explosão Explosão através deste link:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
em> Para usuários de PC: clique duas vezes no arquivo mais recente explosão win32.exe e aceite o contrato de licença e clique em Instalar.
Nota: O diretório de instalação padrão é C: NCBI-BLAST-2.2.27 +.
Configure a variável de ambiente PC da seguinte forma:
1. Clique no PC botão "Iniciar" e, em seguida, clique direito "computador",
2. Clique em "Propriedades" e no pop-up, clique na aba "Avançado"
3. Clique no botão "Variáveis de Ambiente" e no novo pop-up, clique no botão "novo" em diae "Variáveis de usuário para usuário" seção
4. No pop-up adicionar o nome da variável "Path" e valor da variável "C: NCBI-BLAST-2.2.27 + bin.
  Nota: o diretório bin contém o executável (ou seja blastp, etc.)..
em> Para usuários de Mac: Abra o aplicativo Terminal (para fazer isso basta abrir "Finder" e procure "Terminal" e isso vai exibir o ícone do "terminal"). Para o tipo de janela de terminal:
> Ftp ftp.ncbi.nih.gov
Nota: Também é possível digitar a URL usada acima no exemplo para PC
Para acessar o NCBI Tipo de site ftp "anônimo" para nome e senha, e em seguida, digite:
> Cd explosão / executáveis / ÚLTIMAS
Listar os arquivos executáveis, digitando:
> ls
Obtenha a última versão, digitando o seguinte (ou seja qual for a versão mais recente é atualmente):
2; obter NCBI-BLAST-2.2.7-macosx.tar.gz
Saia site do servidor ftp do NCBI, digitando "exit".
Descompacte os arquivos baixados, digitando:
> Tar-xzf NCBI-BLAST-2.2.7-macosx.tar.gz
Adicionar a localização dos binários para o executável explosão de seu caminho para que o shell pode pesquisar este diretório quando se olha para os comandos, digitando:
> PATH = $ PATH: new_folder_location
Verifique se isso somado a localização para o seu caminho, digitando:
> Echo $ PATH
Download de uma base de dados pré-formatados BLAST (que são atualizadas diariamente) clicando aqui:
ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Coloque o banco de dados para a pasta "db".
em> Em um PC: abra um prompt do MS-DOS (para fazer isso, clique em "Iniciar" e digite "cmd" na barra de pesquisa) e altere o diretório para a pasta NCBI-explosão, digitando:
C: Users> cd .. [movimentos-se uma pasta]
C: > cd NCBI-BLAST-2.2.27 +
Isso irá alterar o diretório para:
C: NCBI-BLAST-2.2.27 +>
Criar o banco de dados usando o comando "makedb" seguinte:
> Makedb-in db / briggsae.fasta-dbtype prot-out db / briggsae
Nota: No exemplo abaixo (Figura 4), o banco de dados é chamado de "briggsae" e é composto de um grupo de ligação a partir do organismo de Caenorhabditis briggsae.
Crie uma seqüência de proteína consulta chamado "teste" através da inserção de uma seqüência de texto formatado proteína FASTA para a pasta "db".
Interrogar o banco de dados através de uma pesquisa blastp, digitando o seguinte comando:
> Db blastp-query / db teste.txt-db / text.txt briggsae-out
em> Em um Mac: o download de um banco de dados para pesquisas Explosão locais acessando o site ftp do NCBI conforme as instruções acima (passo 2.4) e dodo tipo n:
> Lcd .. / bancos de dados /
Faça o download do genoma ou seqüência de interesse, digitando:
> Se NC_ [Adesão #]. Fna
Nota: ". Fna" refere-se à sequência de nucleótidos FASTA formatado e "faa." Refere-se às sequências de aminoácidos FASTA formatado.
Digite "quit" para sair do site ftp.
Faça o banco de dados, digitando:
> Makeblastdb-in db / mouse.faa-out mouse-dbtype prot
Inserir uma seqüência de consulta RÁPIDO formatado para a pasta "bin" e interrogar o banco de dados com o seguinte comando:
> Blastp-query "seu query.fasta"-db "seu banco de dados" results.txt-out

3. Gerando vários alinhamentos de seqüência

Clique nos links abaixo para acessar programas comumente usados múltiplas seqüência de alinhamento (MSA):
ClustalW ⁶ http://www.clustal.org/
Barrilhagn ⁷ http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT ^8,9 http://mafft.cbrc.jp/alignment/software/
MÚSCULO ¹⁰ http://www.drive5.com/muscle/
T-Coffee ¹¹ http://www.tcoffee.org/Projects/tcoffee/
PROBCONS ¹² http://toolkit.tuebingen.mpg.de/probcons
Clique neste link - http://tcoffee.crg.cat/apps/tcoffee/do:regular - e FASTA entrada de dados de seqüência formatados na caixa de consulta
Nota: Um exemplo de saída a partir de T-Coffee pode ser visto na Figura 5, resíduos semelhantes são codificados por cores.
Faça o download do Clustal MSA como uma versão de linha de comando (ClustalW) ou um v gráficaersão (ClustalX), clicando neste link: http://www.clustal.org/clustal2/ - clique no executável apropriado (ou seja, vitória, Linux, Mac OS X).
Envie os dados como texto formatado seqüência FASTA e alinhar (Figura 6).

4. Determinar Modelos de melhor ajuste da Evolução

Clique aqui para baixar o programa ProtTest ^13:
http://darwin.uvigo.es/our-software/
Uma vez ProtTest é baixado, clique duas vezes no arquivo ProtTest.jar
Uma vez ProtTest é lançado, clique em "Selecionar arquivo" e carregar os dados da seqüência (Figura 7).
Em seguida, clique em "start" eo programa vai começar (Figura 8).
Nota: Após a finalização da execução (Figura 8), o programa irá indicar o melhor modelo baseado em critérios p.ex. "Melhor modelo de acordo com a AIC: WAG + I + G"

5. Inferindo seqüência com base Filogenias por máxima verossimilhança ou Inferência Bayesiana

Transferido PhyML ⁴ aqui:
https://code.google.com/p/phyml/
Inicie o arquivo executável, clicando duas vezes no aplicativo apropriado (ie phyml do Windows, phyml Linux, etc.) E janela de interface irá aparecer (Figura 9).
Coloque a seqüência de entrada como uma seqüência PHYLIP formatado digitando:
> "Nome do arquivo". Phy
Nota: Para converter entre formatos de seqüência, use o programa "Readseq" web disponível em - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
Inicie o programa, digitando "Y".
Baixe MrBayes ⁵ aqui:
rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
Para iniciar o programa clique no arquivo executável e ler NEXUS formatado dados de seqüência para o programa, digitando:
> Executar "nome do arquivo". Nex
Defina o modelo evolutivo.
Selecione o número de gerações para executar, digitando:
> Mcmcp ngen = 1000000 [este define o número de gerações 1000000]
> Cárter queimando = 10000 [isso define o queimando a 10000]
Salve os comprimentos dos ramos no arquivo de resultados, digitando:
> Mcmcp savebrlens = yes
Executar a análise, digitando:
> Mcmc
Resuma as árvores usando o comando "SUMT".

6. Visualizando Filogenias

Veja uma lista de programas para ver as árvores aqui:
http://www.treedyn.org/overview/editors.html
Faça o download do TreeView ¹⁴ progrestou aqui:
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Encontrar semelhanças a uma consulta permite que os pesquisadores atribuem uma identidade potencial para novas seqüências e também inferir relações entre seqüências. O tipo de entrada de arquivo para BLAST é ^uma seqüência FASTA texto formatado ou GenBank número de acesso. Seqüência FASTA formatado começa com uma linha de descrição indicado por um sinal ">" (Figura 2). A descrição deve seguir imediatamente após o sinal ">", a seqüência (isto é. Nucleotídeos ou aminoácidos) seguem a descrição na linha seguinte. Ao salvar e editar arquivos de seqüência, o melhor é usar um editor de texto, como o "Bloco de Notas" no PC ou TextWrangler ( http://www.barebones.com/products/textwrangler/ ) para Mac. O algoritmo BLAST realiza alinhamentos "locais", que procura trechos curtos de similaridade de seqüência. Depois que o algoritmo tenha olhou possível stretche "s "a partir da seqüência de consulta e maximamente estendida estas seqüências, que, em seguida, reúne alinhamentos para cada par de seqüência de consulta. É então importante compreender como estes jogos são bons, e assim por BLAST aplica estatísticas a cada hit que compreendem um valor de esperar (E) e uma contagem de bits. O valor E dá uma indicação da significância estatística para um jogo. Quanto menor for o valor de E, o mais significativo o acerto, por exemplo, um alinhamento de sequências com um valor de E de 0,05 significa que a probabilidade de esta jogo ocorrer ao acaso é de 5 em 100. A pontuação bit usa uma matriz de pontuação específica para fornecer uma indicação de quão bom é o alinhamento. Quanto maior a pontuação bit, melhor o alinhamento. Semelhante à versão online do BLAST, existem uma série de parâmetros que podem ser definidos através de comandos usando o executável BLAST local, um recurso abrangente que descreve esses comandos podem ser encontradas aqui -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. A saída da busca local é um ficheiro de texto assim como a saída do interface de linha do BLAST (Figura 4).

Uma sequência de alinhamento múltiplo (MSA) é um alinhamento de sequências de três ou mais sequências primárias compostas por aminoácidos, DNA ou RNA. ClustalW ⁶ lançado em 1994, é uma das ferramentas mais populares para MSA biólogos. A interface online de fácil utilização que permite o acesso one-stop para várias ferramentas MSA populares podem ser encontrados no servidor EMBL-EBI aqui - http://www.ebi.ac.uk/Tools/msa . A entrada para cada programa podem ser FASTA formatado dados da seqüência (ver Figura 2), embora muitos formatos diferentes também são aceitas, e numerosos sites espelhos para cada um pode ser encontrado online. Numerosos parâmetros como penalidades gap e formatos de saída podem ser facilmente escolhido. Um exemplo de saída do MSA T-O café pode ser visto na Figura 5, em que os resíduos semelhantes são color codificada. Em alguns casos, a ferramenta MSA também pode ser baixado e executado localmente. Clustal pode ser baixado como uma versão de linha de comando (ClustalW) ou uma versão gráfica (ClustalX) a partir deste site - http://www.clustal.org/clustal2/ . Para fazer o download, basta clicar sobre o executável apropriado (ie. Vitória, Linux, Mac OS X). Para o Windows o executável do programa irá baixar e um menu pop-up irá exigir que o usuário clique em "Executar" e, em seguida, a instalação começará. O programa é muito intuitivo, as sequências podem ser carregados a partir de um arquivo de texto contendo seqüências formatados como NBRF / PIR, FASTA, EMBL / Swiss-Prot, Clustal, GCC / MSF, GCG9 RSF e GDE. As seqüências são alinhadas, clicando em "não alinhamento completo" no menu "alinhamento". Um alinhamento da amostra de seis sequências proteicas alinhadas utilizando ClustalX pode ser visto na Figura 6. Vários parâmetros como tamanho da fonte e cor pode ser facilmente modificado, e editing de seqüências é feito clicando no menu "Editar". Alinhamentos refinados manualmente são muitas vezes superiores aos métodos totalmente automatizado e, por isso, o desenvolvimento de ferramentas de MSA é uma área muito activa de investigação. Alguns editores de alinhamento comuns podem ser encontrados nos seguintes links: Se-Al - http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ; SeaView - http://pbil.univ-lyon1.fr/software/seaview.html .

Para alinhamentos de aminoácidos do programa ProtTest ¹³ é utilizado para determinar a selecção de modelos de melhor ajuste de substituições de aminoácidos, dentro dos dados. ProtTest faz esta seleção por encontrar o modelo a partir da lista de modelos candidatos com o menor Akaike Information Criterion (AIC), Bayesian Informação Criterion (BIC) pontuação, ou Teoria da Decisão Criterion (DT). A última versão do ProtTest (versão 3.2) inclui 15 matrizes de taxa diferentes que resultam em 120 modelos diferentes. O usuário deve ter o Java Runtime em seu sistema para executar ProtTest. Java Runtime está disponível gratuitamente aqui - http://www.java.com/en/download/chrome.jsp . As seqüências são inseridos no formato NEXUS PHYLIP ou. Para converter entre formatos de seqüência, use o programa "Readseq" web disponível em - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . Clique em "Selecionar arquivo" e carregar os dados em seqüência. Em seguida, clique em "start" eo programa começará. Para modificar o número de modelos selecionados, você pode clicar no botão "modelos". Uma vez que o programa começa ele irá mostrar uma barra de progresso na parte inferior e listar os modelos de como eles estão sendo analisados (Figura 8 https://code.google.com/p/prottest3/wiki/Background . Há também uma interface web on-line para ProtTest que funciona exatamente como a versão baixada, exceto que ele só pode lidar com um número limitado de seqüências. Esta interface web pode ser acessado clicando aqui - http://darwin.uvigo.es/software/prottest2_server.html . Para conjuntos de dados de nucleotídeos do programa jModelTest ¹⁵ é usado para examinar a seleção estatística de modelos de melhor ajuste de substituições de nucleotídeos com a implementação do AIC, BIC e critérios DT descritos acima e também teste de probabilidade ração hierárquica e dinâmicas (hLRT e dLRT). jModelTest é otimizado para Mac OS X. Para a entrada, são permitidos vários formatos. Um guia passo-a-passo claro está disponível pelos desenvolvedores aqui - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML é um programa que calcula filogenias de máxima verossimilhança de alinhamentos de seqüências de nucleotídeos ou aminoácidos. PhyML irá incorporar um grande número de modelos de substituição juntamente com várias opções para pesquisar espaço topologia em árvore (Figura 10). O programa irá salvar os resultados em dois arquivos de texto. O primeiro arquivo conterá a árvore ML em formato Newick que pode ser facilmente visualizado através de um visualizador da Árvore (ver protocolo 6), eo outro arquivo conterá as estatísticas (filename, modelo, dezenas de log-verossimilhança, etc.) Da análise . Todos os parâmetros são muito facilmente fixado de acordo com os itens do menu. Descrições mais detalhadas de cada op menução são explicados no manual PhyML disponível na página de download PhyML - https://code.google.com/p/phyml/downloads/list . MrBayes ⁵ é um programa que utiliza a inferência bayesiana MCMC através de uma série de modelos evolutivos para reconstruir as relações filogenéticas. O programa se comporta da mesma em todas as plataformas e uma vez baixado o instalador irá instalar o executável. Para iniciar o programa, basta clicar sobre o executável. Existem inúmeros modelos que podem ser definidas e os detalhes de cada modelo e seus comandos podem ser encontradas aqui - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . Outra opção ajuda é digitar "help LSet" - isto irá fornecer detalhes sobre configuração do modelo. Por exemplo, "pRSET aamodelpr = misto" permitirá modelagem mista ou "pRSET aamodelpr = fixo (wag)" irá definir o modelo de aminoácidos para a WA Modelo G. Um grupo externo pode ser facilmente configurado especificando o número Taxon "outgroup 30", o programa lista automaticamente a seqüências / Taxa pelo número. Se um grupo externo não é especificado a árvore será não enraizadas. Uma vez que o programa está em execução (Figura 11), o progresso pode ser visto em intervalos específicos que podem ser definidas usando o comando "printfreq = X". Mais detalhes sobre quando parar a análise (ie. Quantas gerações para concorrer) pode ser encontrado no manual do usuário. Valores clado em um cladograma são fornecidos nos resultados ao lado de um filograma que também é fornecido em formato Newick que pode ser facilmente visualizado através de um visualizador de árvore (ver protocolo 6).

Uma vez que uma árvore filogenética é gerado, a topologia precisa ser visualizado. Existem muitas ferramentas on-line e download de aplicativos usados para visualizar as topologias de árvores. Uma lista parcial de programas populares pode ser visto aqui -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , e uma lista mais abrangente pode ser encontrada aqui - http://www.treedyn.org/overview/editors.html . TreeView ¹⁴ e ¹⁶ TreeDyn são duas escolhas populares. Ambos são muito amigável e fácil de se familiarizar com as várias opções. TreeView roda em Mac e Windows, usando interfaces de quase idênticos. A entrada pode ser um dos vários formatos, incluindo NEXUS, PHYLIP, Hennig86, MEGA e ClustalW / X. TreeView (Figura 12) também inclui um editor de árvore que permite ao utilizador deslocar ramos, árvores reroot, e rearranjar a aparência de árvore.

Figura 1. > NCBI BLAST página da web. O servidor web BLAST contém um conjunto de programas BLAST e é hospedado pelo Centro Nacional de Informações sobre Biotecnologia (NCBI). Clique aqui para ver imagem ampliada.

FASTA formatado sequência da Figura 2.. Formato FASTA começa com uma linha de descrição indicada por um ">". A descrição deve seguir imediatamente após o sinal ">", a seqüência (isto é. Nucleotídeos ou aminoácidos) seguem a descrição na linha seguinte. Clique aqui para ver imagem ampliada.

nt "fo: manter-together.within-page =" always ">

Saída Figura 3. HTML de uma pesquisa BLAST. A saída do BLAST pesquisa ilustra as áreas de identidade dentro da seqüência de consulta, e também fornece bit-scores, esperam valores e alinhamentos de pares com cada jogo. Clique aqui para ver imagem ampliada.

Figura 4. Um exemplo de saída a partir de uma pesquisa executável BLAST local. A saída desta busca é um ficheiro de texto assim como a saída do interface de linha BLAST, que incluir o valor esperar e pontuação bit, bem como descrição jogo. Clique aqui para ver imagem ampliada.

Figura 5. Saída de um MSA usando T-Coffee. A saída destaca sites semelhantes e pesos a partida por cor. Lacunas são inseridos como "-" sinais e a posição resíduo ou nucleótido é preservada em cada taxon. Clique aqui para ver imagem ampliada.

ig6.jpg "/>
Figura 6. Um alinhamento amostra usando ClustalX. Jogos semelhantes são codificados por cores e lacunas são inseridos como um sinal "-". A barra de menu é visto no canto superior esquerdo. Clique aqui para ver imagem ampliada.

Figura 7. A interface do programa ProtTest. Clique aqui para ver imagem ampliada.

Figura 8. ProtTest O console. ProtTest console enquanto se executa uma análise. A barra de progresso indica quantos modelos foram concluídos, ea janela principal exibe a pontuação verossimilhança para cada modelo. Clique aqui para ver imagem ampliada.

Figura 9. A interface PhyML. Clique aqui para ver imagem ampliada.

O menu Figura 10. PhyML interface. Uma vez que as sequências são carregados na PhyML o primeiro menu aparece, o que pode ser navegado, digitando a letra ou símbolo no colchete. Submenus pode ser alcançado, digitando o sinal "+". Clique aqui para ver a imagem maior.

Figura 11. MrBayes Interface. MrBayes Quando é lançado o progresso pode ser visto em intervalos específicos definidos usando o "= printfreq X" de comando. Embora o programa não pode ser interrompido durante uma corrida, após o número especificado de gerações são computados o usuário será perguntado se deseja executar mais gerações.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> Clique aqui para ver imagem ampliada.

Figura 12. A interface TreeView. Nesta figura janela TreeView exibe uma árvore de amostra de proteínas a partir de FlyBase (http://flybase.org/). Os arquivos são importados, clicando na opção "Abrir", e selecionar um tipo de arquivo apropriado (formato Newick eg.). Clique aqui para ver imagem ampliada.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Nossa esperança para este artigo é que ele vai servir como um ponto de partida para orientar pesquisadores ou estudantes que são novos para filogenia. Projetos de seqüenciamento do genoma tornaram-se menos caro ao longo dos últimos anos e, como conseqüência, a demanda do usuário para esta tecnologia é cada vez maior, e agora a produção de grandes conjuntos de dados de seqüência é comum em pequenos laboratórios. Esses conjuntos de dados, muitas vezes fornecer pesquisadores com conjuntos de genes que exigem uma estrutura filogenética para começar a entender a sua função. Além disso, como a filogenética é encontrar uma casa, em um número cada vez maior de laboratórios de pesquisa, pretendemos também para este artigo para servir como um dispositivo educacional para os estudantes interessados em geral na pesquisa biológica. Ao fornecer informações do usuário sobre o "por que", "como" e "onde" para ferramentas de construção de árvore comumente usados, que proporcionam um quadro para o leitor começar a se familiarizar com estas aplicações e como eles funcionam. However, aconselhamos o leitor a brincar com todas as configurações dentro de cada ferramenta na tentativa de entender como os vários parâmetros podem influenciar os seus dados de seqüência, e para assegurar a compatibilidade entre a plataforma e software em cada caso. A análise apresentada anteriormente, foi calculado usando um Dell Optiplex 990 com processador Intel Core i7 e um laptop MacBook com processador Intel Core 2 Duo, no entanto, a velocidade de análise e também os binários específicos (por exemplo,. 32 bits ou 64 bits) dependerá na plataforma do usuário.

Um desafio ao compilar um guia do usuário como um presente para a filogenia, é que o campo da filogenia, bioinformática e como um todo, é uma área em rápida expansão de pesquisas que constantemente lança novo software que visa proporcionar melhores alinhamentos, as previsões de similaridade, ou árvores filogenéticas . Para atenuar esse problema, tentamos concentrar em programas que já existem há vários anos e ainda são populares em conta of quão bem eles trabalham. Dito isto, quero salientar que existem muitas outras ferramentas disponíveis para enfrentar os problemas que temos descritas neste artigo, e assim incentivar o leitor a explorar este e incorporar múltiplas aplicações em suas análises.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Não temos nada a divulgar.

Acknowledgments

Agradecemos a membros do laboratório O'Halloran para comentários sobre o manuscrito. Agradecemos a The George Washington University Departamento de Ciências Biológicas e colombiana Faculdade de Artes e Ciências de financiamento para D. O'Halloran.

Materials

Name	Company	Catalog Number	Comments
BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Biology

Um Guia Prático para Phylogenetics para não especialistas

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.