Una guía práctica para Phylogenetics para no expertos

Biology

Your institution must subscribe to JoVE's Biology section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Aquí se describe una tubería de paso a paso para generar filogenias confiables desde el nucleótido o secuencia de aminoácidos conjuntos de datos. Esta guía tiene como objetivo servir a los investigadores o estudiantes nuevos para el análisis filogenético.

Cite this Article

Copy Citation | Download Citations

O'Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Muchos investigadores, a través de muy diversa focos, están aplicando la filogenética a su pregunta (s) de investigación. Sin embargo, muchos investigadores son nuevos en este tema y por lo que presenta problemas inherentes. Aquí compilamos una introducción práctica a la filogenética para los no expertos. Nos planteamos de una manera paso a paso, una tubería para generar filogenias confiables de los conjuntos de datos de secuencias de genes. Comenzamos con una guía de usuario para las herramientas de búsqueda de similitud a través de interfaces en línea, así como ejecutables locales. A continuación, exploramos los programas para la generación de múltiples alineamientos de secuencias seguidas de protocolos para el uso de software para determinar los modelos de mejor ajuste de la evolución. A continuación, describimos protocolos para la reconstrucción de relaciones filogenéticas a través de máxima verosimilitud y criterios bayesianas y, finalmente, describe herramientas para la visualización de los árboles filogenéticos. Si bien esto no es de ninguna manera una descripción exhaustiva de los estudios filogenéticos, proporciona al lector con informat comenzando prácticaiones en las aplicaciones de software clave comúnmente utilizados por filogenetistas. La visión de este artículo sería que podría servir como una herramienta de formación práctica para los investigadores que emprenden estudios filogenéticos y también sirven como un recurso educativo que se podrían incorporar en un salón de clases o la enseñanza-lab.

Introduction

Con el fin de entender cómo evolucionaron dos (o más) especies, es necesario primero obtener la secuencia o los datos morfológicos de cada muestra, estos datos representan cantidades que podemos utilizar para medir su relación a través del espacio evolutivo. Al igual que en la medición de distancia lineal, tener más datos disponibles (por ejemplo, millas, pulgadas, micras) equivaldrán a una medición más precisa. Ergo, la precisión con la que un investigador puede deducir la distancia evolutiva está fuertemente influenciado por el volumen de datos informativos disponibles para medir las relaciones. Además, debido a que diferentes muestras evolucionan a diferentes velocidades y por diferentes mecanismos, el método que se utiliza para medir la relación entre dos taxones también influye directamente en la precisión de las mediciones evolutivos. Por lo tanto, debido a las relaciones evolutivas no se observan directamente, sino que en lugar se extrapolan de secuencia o los datos morfológicos, el problema de inferir evolutivarelaciones se convierte en una de las estadísticas. Phylogenetics es la rama de la biología que se trate con la aplicación de modelos estadísticos para los patrones de evolución con el fin de reconstruir de manera óptima la historia evolutiva entre los taxones. Esta reconstrucción entre los taxones que se conoce como la filogenia de los taxones.

Para ayudar a cerrar la brecha de conocimientos entre los biólogos moleculares y los biólogos evolutivos que describimos aquí un paso a paso de tuberías para inferir filogenias a partir de un conjunto de secuencias. En primer lugar, se detallan los pasos a seguir en la interrogación de bases de datos utilizando el Basic Local Alignment Search Tool (BLAST 1) algoritmo a través de la interfaz basada en la web y también mediante el uso de archivos ejecutables locales, lo que es a menudo el primer paso para obtener una lista de secuencias similares a una no identificada consulta, aunque algunos investigadores también pueden estar interesados ​​en la recopilación de datos para un solo grupo a través de interfaces web como Phylota (http://www.phylota.net/). BLAST es un algoritmo para Comparing primaria de aminoácidos o de datos de secuencias de nucleótidos contra una base de datos de secuencias para buscar "hits" que se asemejan a la secuencia problema. El programa BLAST fue diseñado por Stephen Altschul et al. en los Institutos Nacionales de Salud (NIH) 1. El servidor de BLAST consiste en una serie de programas diferentes, y aquí está una lista de algunos de los programas BLAST más comunes:

i) BLAST de nucleótidos del nucleótido (blastn): Este programa requiere una entrada de secuencia de ADN y devuelve las secuencias de ADN más similares a partir de la base de datos de ADN que especifica el usuario (por ejemplo, para un organismo específico).

ii) BLAST-proteína-proteína (BLASTP): Aquí el usuario introduce una secuencia de la proteína y el programa vuelve las secuencias de proteína más similares a partir de la base de datos de proteínas que el usuario especifica.

iii) BLAST iterativo-posición específica (PSI-BLAST) (blastpgp): La entrada del usuario es una proteen la secuencia que devuelve un conjunto de proteínas estrechamente relacionadas, ya partir de esta base de datos se genera un perfil conservado. A continuación, una nueva consulta se genera utilizando sólo estos "motivos" conservados que se utiliza para interrogar a una base de datos de proteínas y esto devuelve un grupo mayor de proteínas a partir de los cuales se extraen de un nuevo conjunto de "motivos" conservados y luego se usa para interrogar a una base de datos de proteínas hasta un conjunto aún mayor de proteínas vuelven a sintonizarse y se genera otro perfil y se repite el proceso. Mediante la inclusión de proteínas relacionadas en la consulta en cada paso de este programa permite al usuario identificar secuencias que son más divergentes.

iv) nucleótidos traducción de la proteína 6-marco (BLASTX): Aquí el usuario proporciona una entrada de secuencia de nucleótidos que se convierte en los productos de traducción conceptual de seis marcos (es decir, ambas cadenas) contra una base de datos de secuencias de proteínas..

v) Nucleótido 6-bastidor de traslación-nucleótidoTraducción 6-marco (TBLASTX): Este programa toma una secuencia de nucleótidos de ADN de entrada y traduce la entrada en todos los productos de traducción conceptual de seis marcos que se compara contra las traducciones de seis marcos de una base de datos de secuencia de nucleótidos.

vi) La proteína-nucleótido traducción 6-frame (tblastn): Este programa utiliza una entrada de secuencia de proteínas con el que comparar los seis marcos de lectura de una base de datos de secuencias de nucleótidos.

A continuación se describen los programas más utilizados para generar una alineación de secuencias múltiples (MSA) de un conjunto de datos de secuencias, y esto es seguido por una guía de usuario para programas que determinan los modelos de mejor ajuste de la evolución de un conjunto de datos de secuencias. La reconstrucción filogenética es un problema estadístico, y debido a esto, los métodos filogenéticos necesidad de incorporar un marco estadístico. Este marco estadístico se convierte en un modelo evolutivo que incorpora el cambio de secuencia en el conjunto de datos. Este mo evolutivodel se compone de un conjunto de hipótesis sobre el proceso de nucleótidos o amino-ácidos sustituciones, y el modelo de mejor ajuste para un determinado conjunto de datos se puede seleccionar a través de pruebas estadísticas. El ajuste de los datos de los diferentes modelos se pueden comparar a través de pruebas de coeficiente de riesgo (LRTs) o criterios de información para seleccionar el modelo que mejor se ajusta dentro de un conjunto de posibles. Dos criterios de información comunes son el criterio de información de Akaike (AIC) 2 y el criterio de información bayesiano (BIC) 3. Una vez que se genera un alineamiento óptimo, hay muchos métodos diferentes para crear una filogenia de los datos alineados. Hay numerosos métodos de inferir relaciones evolutivas; en términos generales, que se pueden dividir en dos categorías: métodos basados ​​en la distancia y métodos basados ​​en la secuencia. Métodos basados ​​en la distancia calculan distancias por parejas de secuencias y, a continuación, utilizar estas distancias para obtener el árbol. Métodos Secuencia basada utilizan la secuencia de alineación directa, y por lo general buscar en la tespacio ree utilizando un criterio de optimalidad. Planteamos dos métodos basados ​​en la secuencia para la reconstrucción de las relaciones filogenéticas: son PhyML 4 que implementa el marco de máxima verosimilitud, y MrBayes 5 que utiliza bayesiano Markov Chain Monte Carlo inferencia. Verosimilitud y métodos bayesianos ofrecen un marco estadístico para la reconstrucción filogenética. Al proporcionar la información del usuario en las herramientas de creación de árboles de uso común, se introduce al lector a los datos necesarios para inferir las relaciones filogenéticas.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Basic Local Alignment Search Tool (BLAST): Interfaz de línea

  1. Haga clic en este enlace para visitar el BLAST 1 servidor web en el Centro Nacional de Información Biotecnológica (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figura 1).
  2. Introduzca una secuencia de texto con formato FASTA (véase la figura 2, por ejemplo) en el cuadro de consulta.
  3. Haga clic en el programa BLAST apropiado y base de datos pertinente o especies individuales de interés para usar en la búsqueda y haga clic en "BLAST".
    Nota: secuencia FASTA formato comienza con una línea de descripción se indica por un signo ">". La descripción debe seguir inmediatamente después del signo ">", la secuencia (es decir. Nucleótidos o aminoácidos) seguir la descripción que figura en la siguiente línea. La salida de la explosión de búsqueda se ve como HTML, texto plano, XML, o golpear tables (de texto o csv) con el ajuste predeterminado a HTML (Figura 3).

2. Basic Local Alignment Search Tool (BLAST): Ejecutables locales

  1. Descargue las últimas BLAST de línea de comandos ejecutables BLAST desde este enlace:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. em> Para los usuarios de PC: haga doble clic en el último archivo win32.exe explosión y aceptar el acuerdo de licencia y haga clic en instalar.
    Nota: El directorio de instalación por defecto es C: NCBI-BLAST-2.2.27 +.
  3. Configure la variable de entorno PC como sigue:
    1. Haga clic en el PC botón "Inicio" y haga clic derecho en "Equipo",
    2. Haga clic en "Propiedades" y en la ventana emergente, haga clic en la pestaña "avanzado"
    3. Haga clic en el botón "Variables de entorno" y en la nueva ventana emergente, haga clic en el botón "nuevo" en the "Variables de usuario para el usuario" sección
    4. En la ventana emergente añadir el nombre de la variable "Path" y el valor de la variable "C: NCBI-BLAST-2.2.27 + bin.
      Nota: el directorio bin contiene el archivo ejecutable (es decir blastp, etc.)..
  4. em> Para los usuarios de Mac: Abra la aplicación Terminal (para ello "Finder" recién abierto y busque "Terminal" y esto mostrará el icono de "terminal"). En la ventana de terminal:
    > Ftp ftp.ncbi.nih.gov
    Nota: También puede escribir la dirección URL utilizada anteriormente en el ejemplo para PC
  5. Para acceder a la NCBI tipo "anónimo" de nombre y contraseña, y luego tipo de sitio ftp:
    > Hornos cd / ejecutables / MAS RECIENTES
  6. Enumerar los ejecutables escribiendo:
    > ls
  7. Obtenga la versión más reciente al escribir lo siguiente (o lo que sea la última versión actualmente es):
    2; obtener NCBI-BLAST-2.2.7-macosx.tar.gz
  8. Salga del sitio del servidor ftp NCBI escribiendo "exit".
  9. Descomprimir los archivos descargados escribiendo:
    > Tar-xzf NCBI-BLAST-2.2.7-macosx.tar.gz
  10. Añada la ubicación de los binarios para el ejecutable explosión para su ruta para que el shell puede buscar a través de este directorio en la búsqueda de comandos, escriba:
    > PATH = $ PATH: new_folder_location
  11. Compruebe si este añadió la ubicación a la ruta de acceso, escriba:
    > Echo $ PATH
  12. Descargar una bases de datos BLAST con formato previo (que se actualizan todos los días) haciendo clic aquí:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. Coloque la base de datos en la carpeta "db".
  14. em> En un PC: abrir una ventana de MS-DOS (para ello haga clic en "Inicio" y escribe "cmd" en la barra de búsqueda) y cambie el directorio a la carpeta ncbi-blast escribiendo:
    C: Users> cd .. [muevehasta una carpeta]
    C: > cd NCBI-BLAST-2.2.27 +
    Esto va a cambiar el directorio a:
    C: NCBI-BLAST-2.2.27 +>
  15. Cree la base de datos utilizando el comando "makedb" siguiente:
    > Makedb en db / briggsae.fasta-dbtype prot Salida db / briggsae
    Nota: En el siguiente ejemplo (Figura 4) la base de datos se denomina "briggsae" y se compone de un grupo de enlace del organismo Caenorhabditis briggsae.
  16. Crear una secuencia de proteínas de consulta llamado "prueba" mediante la inserción de una secuencia de texto con formato FASTA proteína en la carpeta "db".
  17. Interrogar a la base de datos a través de una búsqueda blastp escribiendo el siguiente comando:
    > Db blastp-query / test.txt-db db / text.txt briggsae Salida
  18. em> En un Mac: descargar una base de datos para búsquedas locales por onda expansiva mediante el acceso a la página web de NCBI ftp de acuerdo con las instrucciones de arriba (paso 2.4) y eltipo n:
    > Lcd .. / bases de datos /
  19. Descarga el genoma o secuencia de interés, escribiendo:
    > Obtener NC_ [Adhesión #]. Fna
    Nota: ". Fna" se refiere a la secuencia de nucleótidos formato FASTA y "FAA." Se refiere a las secuencias de aminoácidos formato FASTA.
  20. Escriba "quit" para salir del sitio ftp.
  21. Hacer la base de datos, escriba:
    > Makeblastdb en db / mouse.faa Salida ratón dbtype prot
  22. Introduzca una secuencia de consulta de FAST formateado en la carpeta "bin" e interrogar a la base de datos con el siguiente comando:
    > Blastp-query "su query.fasta"-db "base de datos" Salida results.txt

3. Generación de múltiples alineamientos de secuencias

  1. Haga clic en estos enlaces para acceder a los programas más utilizados alineación de secuencias múltiples (MSA):
    ClustalW 6 http://www.clustal.org/
    Kalign 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    MÚSCULO 10 http://www.drive5.com/muscle/
    T-Café 11 http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. Haga clic en este enlace - http://tcoffee.crg.cat/apps/tcoffee/do:regular - y de FASTA formato de entrada de datos de secuencia en el cuadro de consulta
    Nota: Un ejemplo de salida de T-Café se puede ver en la Figura 5, residuos similares están codificados por color.
  3. Descargue el Clustal MSA como una versión de línea de comandos (ClustalW) o una gráfica de versión (ClustalX) haciendo clic en este enlace: http://www.clustal.org/clustal2/ - a continuación, haga clic en el ejecutable correspondiente (es decir, ganar, Linux, Mac OS X).
  4. Carga de datos como texto con formato FASTA secuencia y alinear (Figura 6).

4. La determinación de mejores modelos de ajuste de la Evolución

  1. Haga clic aquí para descargar el programa ProtTest 13:
    http://darwin.uvigo.es/our-software/
  2. Una vez ProtTest se descarga, haga doble clic en el archivo ProtTest.jar
  3. Una vez que se puso en marcha ProtTest, haga clic en "Seleccionar archivo" y cargar los datos de la secuencia (Figura 7).
  4. Luego haga clic en "start" y el programa comenzará (Figura 8).
    Nota: Después de la finalización de la carrera (Figura 8), el programa le indicará el mejor modelo basado en criterios por ejemplo "Mejor modelo según AIC: WAG + I + G"

5. Inferir filogenias secuencia basada en máxima verosimilitud o inferencia bayesiana

  1. Descargado PhyML 4 aquí:
    https://code.google.com/p/phyml/
  2. Inicie el ejecutable haciendo doble clic en la aplicación apropiada (es decir phyml de Windows, phyml Linux, etc.) Y la ventana de la interfaz aparecerá (Figura 9).
  3. Cargue la secuencia de entrada como una secuencia con formato PHYLIP escribiendo:
    > "Nombre de archivo". Phy
    Nota: Para convertir entre formatos de secuencia, utilice el programa web "Readseq" disponible en - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. El lanzamiento del programa, escriba "Y".
  5. Descarga MrBayes 5 aquí:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. Para iniciar el programa, haga clic en el archivo ejecutable y leer NEXUS formato de datos de secuencia en el programa escribiendo:
    > Ejecutar "nombre de archivo". Nex
  7. Establecer el modelo evolutivo.
  8. Seleccione el número de generaciones para ejecutar escribiendo:
    > Mcmcp ngen = 1000000 [esto establece el número de generaciones 1000000]
    > Sumidero burnin = 10000 [esto establece el burnin 10000]
  9. Guarde las longitudes de rama en el archivo de resultados escribiendo:
    > Mcmcp savebrlens = sí
  10. Ejecute el análisis escribiendo:
    > Mcmc
  11. Resuma los árboles con el comando "SUMT".

6. Visualizar Phylogenies

  1. Ver una lista de programas visores de árboles aquí:
    http://www.treedyn.org/overview/editors.html
  2. Descargue el TreeView 14 progrEstoy aquí:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Encontrar similitudes a una consulta permite a los investigadores atribuyen una identidad potencial de nuevas secuencias y también inferir relaciones entre secuencias. El tipo de entrada de archivo para BLAST FASTA 1 es la secuencia de texto con formato o número de acceso GenBank. Secuencia FASTA formato comienza con una línea de descripción se indica por un signo ">" (Figura 2). La descripción debe seguir inmediatamente después del signo ">", la secuencia (es decir. Nucleótidos o aminoácidos) seguir la descripción que figura en la siguiente línea. Al guardar y archivos de secuencia de edición, lo mejor es utilizar un editor de texto como el "Bloc de notas" en la PC o TextWrangler ( http://www.barebones.com/products/textwrangler/ ) para Mac. El algoritmo BLAST realiza alineamientos "locales", que busca tramos cortos de similitud de secuencias. Después de que el algoritmo ha mirado posible stretche "s "de la secuencia de consulta y máximamente extendido estas secuencias, que luego ensambla las alineaciones para cada par de secuencias de consulta. Entonces es importante entender lo bueno que estos partidos son, y así BLAST aplica la estadística para cada golpe que comprenden un valor de esperar (E) y una puntuación de bits. El valor E da una indicación de la significación estadística para un partido. Cuanto menor sea el valor E, el más significativo es el éxito, por ejemplo, una secuencia de alineación con un E-valor de 0,05 significa que la probabilidad de que esto partido que ocurren por azar es de 5 a 100. La puntuación bits utiliza una matriz específica de puntuación para dar una indicación de lo bien que la alineación es. A mayor puntuación de bits, mejor será la alineación. Similar a la versión online de BLAST, hay una serie de parámetros que se pueden establecer a través de comandos utilizando el ejecutable de BLAST local de un recurso completo que describe estos comandos se puede encontrar aquí -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. El resultado de la búsqueda local es un archivo de texto al igual que la salida de la interfaz de línea BLAST (Figura 4).

Una alineación de secuencias múltiples (MSA) es una alineación de secuencia de tres o más secuencias primarias compuestas de aminoácidos, ADN, o ARN. ClustalW 6 lanzado en 1994, es una de las herramientas más populares para MSA biólogos. Una interfaz en línea fácil de usar que proporciona acceso integrado a diversas herramientas de MSA populares se puede encontrar en el servidor EMBL-EBI aquí - http://www.ebi.ac.uk/Tools/msa . La entrada para cada programa se puede formatear los datos de secuencias FASTA (véase la Figura 2), aunque también se aceptan muchos formatos diferentes, y numerosos sitios espejo para cada uno se puede encontrar en línea. Numerosos parámetros como la brecha sanciones y formatos de salida puede ser elegida fácilmente. Un ejemplo del resultado del MSA T-Café se puede ver en la Figura 5, donde los residuos similares son coLor codificado. En algunos casos, la herramienta MSA también puede ser descargado y ejecutado a nivel local. Clustal se pueden descargar como una versión de línea de comandos (ClustalW) o una versión gráfica (ClustalX) de este sitio web - http://www.clustal.org/clustal2/ . Para descargar, haga clic en el ejecutable correspondiente (es decir, la victoria., Linux, Mac OS X). Para Windows el ejecutable programa descargará y un menú emergente que le requieren que el usuario haga clic en "Ejecutar", y luego comenzará la instalación. El programa es muy intuitivo, las secuencias se pueden cargar desde un archivo de texto que contiene secuencias con formato NBRF / PIR, FASTA, EMBL / Swiss-Prot, Clustal, GCC / MSF, GCG9 RSF, y GDE. Las secuencias se alinean mediante clic en "no alineación completa" en el menú "alineación". Una alineación de la muestra de seis secuencias de proteínas alineadas utilizando ClustalX se puede ver en la Figura 6. Varios parámetros tales como el tamaño de fuente y el color se pueden modificar fácilmente, y Editing de secuencias se realiza haciendo clic en el menú "Editar". Alineaciones refinados manual son a menudo superiores a los métodos automatizados completamente y debido a esto, el desarrollo de herramientas de MSA es un área de investigación muy activa. Algunos editores de alineación comunes se pueden encontrar en los siguientes enlaces: Se-Al - http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ; Seaview - http://pbil.univ-lyon1.fr/software/seaview.html .

Para las alineaciones de aminoácidos del programa ProtTest 13 se utiliza para determinar la selección de los mejores modelos de ajuste de sustituciones de aminoácidos dentro de los datos. ProtTest hace esta selección por encontrar el modelo en la lista de modelos candidatos con el más pequeño de Información Akaike Criterio (AIC), bayesiano Información Criterion (BIC) Resultado, o Teoría de la Decisión Criterio (DT). La última versión de ProtTest (versión 3.2) incluye 15 matrices de tipos diferentes que se traducen en 120 modelos diferentes. El usuario debe tener en tiempo de ejecución de Java en su sistema para ejecutar ProtTest. Tiempo de ejecución de Java está disponible gratuitamente aquí - http://www.java.com/en/download/chrome.jsp . Las secuencias se introducen en formato NEXUS PHYLIP o. Para convertir entre formatos de secuencia, utilice el programa web "Readseq" disponible en - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . Haga clic en "Seleccionar archivo" y cargar los datos de la secuencia. Luego haga clic en "start" y el programa comenzará. Para modificar el número de los modelos seleccionados, puede hacer clic en el botón de "modelos". Una vez iniciado el programa, se mostrará una barra de progreso en la parte inferior y la lista de los modelos que están siendo analizados (Figura 8 https://code.google.com/p/prottest3/wiki/Background . También existe una interfaz web en línea para ProtTest que funciona igual que la versión descargada excepto que sólo puede manejar un número limitado de secuencias. Esta interfaz web se puede acceder haciendo clic aquí - http://darwin.uvigo.es/software/prottest2_server.html . Para los conjuntos de datos de nucleótidos del programa jModelTest 15 se utiliza para examinar la selección estadística de los mejores modelos de ajuste de las sustituciones de nucleótidos mediante la implementación del AIC, BIC, y los criterios DT descritos anteriormente y también prueba ración probabilidad jerárquica y dinámicas (hLRT y DLRT). jModelTest está optimizado para Mac OS X. Para obtener la entrada, se permiten múltiples formatos. Una guía clara paso a paso está disponible por los desarrolladores aquí - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML es un programa que calcula las filogenias de máxima verosimilitud de alineaciones de secuencias de nucleótidos o de aminoácidos. PhyML incorporará un gran número de modelos de sustitución acoplados a varias opciones para buscar espacio de topología de árbol (Figura 10). El programa guardará los resultados en dos archivos de texto. El primer archivo contendrá el ML árbol en formato Newick que fácilmente se pueden ver utilizando un visor de árbol (véase el protocolo 6), y el otro archivo contendrá las estadísticas (nombre, modelo, las puntuaciones de probabilidad logarítmica, etc.) De los análisis . Todos los parámetros se configuran muy fácilmente siguiendo los elementos del menú. Descripciones más detalladas de cada op Menúción se explican en el manual PhyML disponible en la página de descarga PhyML - https://code.google.com/p/phyml/downloads/list . MrBayes 5 es un programa que utiliza la inferencia bayesiana MCMC a través de una serie de modelos evolutivos para reconstruir relaciones filogenéticas. El programa se comporta igual en todas las plataformas, y una vez descargado el instalador instalará el ejecutable. Para iniciar el programa, simplemente haga clic en el ejecutable. Existen numerosos modelos que se pueden configurar y los detalles de cada modelo y sus comandos se pueden encontrar aquí - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . Otra opción de ayuda es teclear "help LSet" - esto proporcionará detalles sobre el ajuste del modelo. Por ejemplo, "pRSET aamodelpr = mixta" permitirá modelado mixto o "pRSET aamodelpr = (WAG) fijo" establecerá el modelo de aminoácido a la WA Modelo de G. Un grupo externo se puede configurar fácilmente mediante la especificación del número Taxón "grupo externo de 30", el programa muestra automáticamente las secuencias / taxa por número. Si no se especifica un grupo afuera del árbol será unrooted. Una vez que el programa está en ejecución (Figura 11) el progreso se puede ver en intervalos específicos que se pueden configurar con el comando "printfreq = X". Más detalles sobre cuándo dejar el análisis (es decir. Cuántas generaciones para postularse para) se puede encontrar en el manual del usuario. Valores del clado en un cladograma se proporcionan en los resultados junto a un phylogram que también se proporciona en formato Newick que se pueden ver fácilmente con un visor de árboles (véase el protocolo 6).

Una vez que se genera un árbol filogenético, la topología tiene que ser visualizado. Hay muchas herramientas en línea y aplicaciones descargables que se utilizan para visualizar topologías de árboles. Una lista parcial de los programas más populares se puede ver aquí -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , y una lista más completa se puede encontrar aquí - http://www.treedyn.org/overview/editors.html . TreeView 14 y TreeDyn 16 son dos opciones populares. Ambos son muy fáciles de usar y fácil de familiarizarse con las diversas opciones. TreeView funciona en Mac y Windows, utilizando interfaces casi idénticos. La entrada puede ser uno de varios formatos, incluyendo NEXUS, PHYLIP, Hennig 86, MEGA y ClustalW / X. TreeView (Figura 12) también incluye un editor de árbol que permite al usuario mover ramas, árboles reroot, y reorganizar la apariencia del árbol.

Figura 1
Figura 1. > NCBI BLAST página web. El servidor web BLAST contiene un conjunto de programas BLAST y es organizado por el Centro Nacional de Información Biotecnológica (NCBI). Haga clic aquí para ver la imagen más grande.

Figura 2
Figura 2. Secuencia de formato FASTA. Formato FASTA comienza con una línea de descripción se indica mediante un ">". La descripción debe seguir inmediatamente después del signo ">", la secuencia (es decir. Nucleótidos o aminoácidos) seguir la descripción que figura en la siguiente línea. Haga clic aquí para ver la imagen más grande.

nt "fo: keep-together.within-page =" always "> Figura 3
Figura 3. Salida HTML a partir de una búsqueda BLAST. El resultado de la búsqueda BLAST ilustra las áreas de identidad dentro de la secuencia de consulta, y también proporciona a los resultados poco, esperar que los valores y los alineamientos de pares con cada partido. Haz clic aquí para ver la imagen más grande.

Figura 4
Figura 4. Un ejemplo del resultado de una búsqueda BLAST ejecutable local. El resultado de esta búsqueda es un archivo de texto al igual que la salida de la interfaz de BLAST en línea, que incluir el valor de esperar y la puntuación de bits, así como la descripción del partido. Haga clic aquí para ver la imagen más grande.

La figura 5
Figura 5. Salida de una MSA utilizando T-café. La salida se destacan los sitios y un peso similar al de los partidos por el color. Las lagunas se insertan como "-" los signos y la posición del residuo o nucleótido se conserva para cada taxón. Haz click aquí para ver la imagen más grande.

ig6.jpg "/>
Figura 6. Una alineación de la muestra utilizando ClustalX. Resultados similares están codificadas por color y las lagunas se insertan como un signo "-". La barra de menú se ve en la parte superior izquierda. Haga clic aquí para ver la imagen más grande.

La figura 7
Figura 7. La interfaz del programa ProtTest. Haz clic aquí para ver la imagen más grande.

Figura 8
Figura 8. La consola ProtTest. consola ProtTest durante la ejecución de un análisis. La barra de progreso indica el número de modelos se ha completado, y la ventana principal muestra la puntuación de probabilidad log para cada modelo. Haga clic aquí para ver la imagen más grande.

Figura 9
Figura 9. La interfaz PhyML. Haz clic aquí para ver la imagen más grande.

Figura 10
Figura 10. El menú PhyML interfaz. Una vez que las secuencias se cargan en PhyML aparece el primer menú, que puede ser navegado escribiendo la letra o símbolo en el corchete. Los submenús se puede llegar escribiendo el signo "+". Haga clic aquí para ver la imagen más grande.

Figura 11
Figura 11. Interfaz MrBayes. Cuando MrBayes se lanza el progreso se puede ver en intervalos específicos ajusta con el "printfreq = X" de comandos. Aunque el programa no se puede detener durante la carrera, después se calcula el número especificado de generaciones se le pedirá al usuario si desea ejecutar más generaciones.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> Haga clic aquí para ver la imagen más grande.

Figura 12
Figura 12. La interfaz TreeView. En esta figura la ventana TreeView muestra un árbol de muestras de proteínas a partir Flybase (http://flybase.org/). Los archivos se importan al hacer clic en la opción "abierta", y seleccionar un tipo de archivo apropiado (por ejemplo. Formato Newick). Haga clic aquí para ver la imagen más grande.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Nuestra esperanza para este artículo es que sirva como punto de partida para guiar a los investigadores o estudiantes que son nuevos en la filogenética. Proyectos de secuenciación del genoma han vuelto menos costosos en los últimos años y como consecuencia de la demanda de los usuarios de esta tecnología es cada vez mayor, y ahora la producción de grandes conjuntos de datos de secuencias es un lugar común en pequeños laboratorios. Estos conjuntos de datos proporcionan a menudo los investigadores con conjuntos de genes que requieren un marco filogenético para empezar a entender su función. Además, debido a la filogenética es encontrar un hogar en un número cada vez mayor de laboratorios de investigación, también tenemos la intención de este artículo para servir como un dispositivo educativo para los estudiantes interesados ​​en general en la investigación biológica. Al proporcionar la información del usuario en el "por qué", "cómo" y "dónde" para instrumentos de creación de árboles de uso común, proporcionamos un marco para que el lector comience a familiarizarse con estas aplicaciones y cómo funcionan. Hin embargo, le aconsejamos al lector a jugar con todos los ajustes dentro de cada herramienta en un intento de entender cómo los distintos parámetros pueden influir en sus datos de la secuencia, y para asegurar la compatibilidad entre la plataforma y el software en cada caso. El análisis expuesto anteriormente se calculó utilizando un Dell Optiplex 990 con el procesador Intel Core i7 y un portátil MacBook con un procesador Intel Core 2 Duo, sin embargo, la velocidad de análisis y también los binarios específicos (p. ej. 32 bits o 64 bits) dependerán en la plataforma del usuario.

Un reto al compilar una guía de usuario como éste para la filogenética, es que el campo de la filogenética y la bioinformática en su conjunto, es una zona de rápida expansión de la investigación que libera constantemente nuevo software destinado a la prestación de mejores alineaciones, las predicciones de similitud o árboles filogenéticos . Para mitigar este problema, hemos tratado de centrarse en programas que han estado alrededor por un número de años y siguen siendo populares en cuenta of qué tan bien funcionan. Dicho esto, queremos señalar que hay muchas otras herramientas disponibles para hacer frente a los problemas que hemos señalado en este artículo, y así animar al lector a explotar este e incorporar múltiples aplicaciones en sus análisis.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

No tenemos nada que revelar.

Acknowledgments

Damos las gracias a los miembros del laboratorio O'Halloran para comentarios sobre el manuscrito. Damos las gracias a El Departamento de la Universidad George Washington de Ciencias Biológicas y Columbian Facultad de Artes y Ciencias de la financiación para D. O'Halloran.

Materials

Name Company Catalog Number Comments
BLAST webpage  http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables  ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal http://www.clustal.org/
Kalign http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT http://mafft.cbrc.jp/alignment/software/
MUSCLE http://www.drive5.com/muscle/
T-Coffee http://www.tcoffee.org/Projects/tcoffee/
PROBCONS http://toolkit.tuebingen.mpg.de/probcons 
Se-Al  http://tree.bio.ed.ac.uk/software/seal/
BSEdit  http://www.bsedit.org/
JalView http://www.jalview.org/
SeaView http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest  https://code.google.com/p/prottest3/
Java Runtime  http://www.java.com/en/download/chrome.jsp
Readseq http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest https://code.google.com/p/jmodeltest2/
PhyML https://code.google.com/p/phyml/
MrBayes http://mrbayes.sourceforge.net/download.php
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207, (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19, (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6, (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52, (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17, (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33, (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30, (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302, (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15, (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27, (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12, (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9, (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics