Immunology and Infection

Utilizando el análisis filogenético para investigar origen de genes eucariotas

Published: August 14, 2018 doi: 10.3791/56684

Dechun Zhang*¹, Xianzhao Kan*², Sarah Elizabeth Huss³, Lan Jiang², Li-Qing Chen³, Yibing Hu⁴

¹Key Laboratory of Three Gorges Regional Plant Genetics and Germplasm Enhancement (CTGU)/Biotechnology Research Center, China Three Gorges University, ²The Institute of Bioinformatics, College of Life Sciences, Anhui Normal University, ³Department of Plant Biology, University of Illinois at Urbana-Champaign, ⁴College of Resources & Environmental Sciences, Nanjing Agricultural University

* These authors contributed equally

Summary

Se describe un método de construir un árbol filogenético basado en la homología de la secuencia de dulces de eucariotas y SemiSWEETs de procariotas. El análisis filogenético es una herramienta útil para explicar la relación evolutiva entre genes o proteínas homólogas de grupos de organismo diferente.

Abstract

El análisis filogenético utiliza nucleótido o aminoácido secuencias u otros parámetros, tales como secuencias de dominio y estructura tridimensional, para construir un árbol para mostrar la relación evolutiva entre diferentes taxones (unidades de clasificación) en el molecular nivel. El análisis filogenético puede utilizarse también para investigar las relaciones de dominio dentro de un taxón individual, particularmente para los organismos que han sufrido importantes cambian en morfología y fisiología, pero para que los investigadores carecen de evidencia fósil debido a la organismos larga historia evolutiva o escasez de fosilización.

En este texto, se describe un protocolo detallado para el método filogenético incluyendo alineamiento de secuencias de aminoácidos usando Clustal Omega y construcción subsecuente árbol filogenético usando ambos máxima probabilidad (ML) de la genética evolutiva Molecular Análisis (MEGA) y la inferencia bayesiana través de MrBayes. Para investigar el origen de genes eucarióticos Azúcares será eventualmente ser exportado transportadores (dulce), se analizaron 228 dulces incluyendo 35 dulce proteínas de eucariotas unicelulares y 57 semidulces proteínas de procariotes. Curiosamente, SemiSWEETs se encuentra en procariotas, pero dulces se encuentran en eucariotas. Dos árboles filogenéticos construidos mediante métodos teóricamente distintos han sugerido consistentemente que el primer eucariota gen dulce podría provienen de la fusión de un gen bacteriano semidulce y un gen de archaeal semidulce. Cabe señalar que uno debe ser cauteloso al sacar una conclusión basada solo en el análisis filogenético, aunque es útil explicar la relación subyacente entre diferentes taxones, que es difícil o incluso imposible de discernir a través de medios experimentales .

Introduction

Secuencias de ADN o ARN llevan la información genética de fenotipos subyacentes que pueden ser analizados mediante métodos fisiológicos y bioquímicos u observada a través de pruebas morfológicas y fósiles. En cierto sentido, la información genética es más confiable que evaluar fenotipos externos porque el primero es la base para el último. En el estudio evolutivo, la evidencia fósil es muy directa y convincente. Sin embargo, muchos organismos, tales como microorganismos, tienen pocas posibilidades para formar un fósil durante edades del tiempo geológicas. Por lo tanto, información molecular como secuencias del nucleotide y del aminoácido secuencias de organismos existentes relacionados son de valor para explorar relaciones evolutivas¹. En el presente estudio, una simple introducción de un protocolo fácil de aprender y conocimientos filogenéticos básicos fue proporcionada para los recién llegados que necesitan para construir un árbol filogenético por cuenta propia.

ADN (nucleótidos) y secuencias de la proteína (aminoácidos) pueden utilizarse para inferir relaciones filogenéticas entre genes homólogos, organelos o incluso organismos². Secuencias de ADN son más propensos a ser afectados por los cambios durante la evolución. Por el contrario, secuencias de aminoácidos son mucho más estables ya que sinónimo de mutaciones en secuencias de nucleótidos no causan mutaciones en secuencias de aminoácidos. Como resultado, las secuencias de ADN son útiles para la comparación de genes homólogos de organismos estrechamente relacionados, mientras que secuencias de aminoácidos son apropiadas para los genes homólogos de organismos distante relacionados³.

Un análisis filogenético se inicia con la alineación de aminoácidos o nucleótidos secuencias⁴ Obtenido de un genoma anotado secuenciación base de datos⁵ listados en formato FASTA, es decir, expresa o supuesta proteína secuencias, secuencias de ARN , o secuencias de ADN. Cabe destacar que es fundamental reunir secuencias de alta calidad para el análisis y secuencias homólogas sólo pueden utilizarse para analizar las relaciones filogenéticas. Muchas plataformas diferentes como Clustal W, Clustal X, músculo, T-coffee, MAFFT, puede ser utilizado para alineamiento de secuencias. El más ampliamente utilizado es Clustal Omega⁶^,⁷ (http://www.ebi.ac.uk/Tools/msa/clustalo/), que puede ser utilizado en línea o puede descargarse gratis de forma gratuita. La herramienta de alineación tiene muchos parámetros que el usuario puede ajustar antes de comenzar la alineación, pero los parámetros predeterminados funcionan bien en la mayoría de los casos. Una vez finalizado el proceso, las secuencias alineadas se guardará en el formato correcto para el siguiente paso. Que entonces deben ser editados o recortan utilizando un software de edición, como BioEdit, porque la construcción del árbol filogenético por MEGA requiere las secuencias de igual longitud (incluyendo las abreviaturas del aminoácido y guiones. En la secuencia alineada, cualquier posición sin aminoácidos o nucleótidos es representado por un guión "-"). En general, todos los que sobresalen los aminoácidos o nucleótidos en los extremos de la alineación se deben retirar. Además, se pueden eliminar columnas que contienen secuencias mal alineadas en la alineación porque transmiten poca información valiosa y a veces puede dar información confusa o falsa³. En este momento o en la posterior etapa de construcción de árbol se pueden eliminar las columnas que contienen uno o más guiones. Alternativamente, puede utilizarse para cómputo filogenética. Cuando termine el alineamiento de secuencias y el ajuste, las secuencias alineadas se guardará en formato FASTA, o en el formato deseado, para su uso posterior.

Muchas plataformas de software proporcionan funciones de construcción de árbol utilizando diferentes métodos o algoritmos. En general, los métodos se pueden clasificar como métodos de matriz de distancia o métodos de datos discretos. Métodos de matriz de distancia son sencillos y rápidos de calcular, mientras que los métodos de datos discretos son complicados y lentos. Para taxa estrechamente relacionados con un alto grado de intercambio de identidad de secuencia de aminoácidos o nucleótidos, un método de la matriz de distancia (Neighbor Joining: NJ; Método de grupo par no ponderado con la media aritmética: UPGMA) es apropiado; para taxa lejanamente relacionados, un método de datos discretos (máxima verosimilitud: ML; Máxima parsimonia: MP; Inferencia bayesiana) es optimo³^,⁸. En este estudio, se aplicaron los métodos de ML en MEGA (6.0.6) y la inferencia bayesiana (MrBayes 3.2) para construir árboles filogenéticos⁹. Idealmente, cuando el modelo correcto y los parámetros se utilizan, los resultados derivados de métodos pueden ser consistentes, y son así más fiable y convincente.

Un árbol filogenético de ML construidos con MEGA¹⁰, debe cargarse en el archivo de alineación de la secuencia en formato FASTA en el programa. Entonces el primer paso es seleccionar el modelo de sustitución óptima de los datos cargados. Todos los modelos de sustitución disponible se comparan en base a las secuencias subidas, y sus puntuaciones finales se mostrarán en una tabla de resultados. Seleccione el modelo con el menor puntaje de criterio de información Bayesiano (BIC) (aparece primero en la tabla), ajustar parámetros de ML según el modelo recomendado y comenzar el cómputo. El tiempo de cálculo varía desde varios minutos a varios días, dependiendo de la complejidad de los datos cargados (longitud de las secuencias y el número de taxones) y el rendimiento de la computadora en la cual se ejecutan los programas. Cuando haya terminado el cómputo, un árbol filogenético se mostrará en una ventana nueva. Guarde el archivo como "FileName.mat". Tras la configuración de parámetros para especificar el aspecto del árbol, excepto una vez más. Usando este método, MEGA puede generar cifras de publicación grado árbol filogenético.

Para la construcción del árbol con MrBayes¹¹, el primer paso es transformar la secuencia alineada, que generalmente aparece en formato FASTA, en formato nexus (.nex como el tipo de archivo). Transformar archivos FASTA en formato nexus puede ser procesado en MEGA. A continuación, la secuencia alineada en formato nexus puede cargarse en MrBayes. Cuando el archivo es cargado con éxito, especificar parámetros detallados para el cómputo del árbol. Estos parámetros incluyen detalles como el modelo de sustitución de aminoácido, tasas de variación, número de cadena de cadena de Markov Monte Carlo (MCMC), enganche, número de ngen, promedio desviación estándar de división de frecuencias y así sucesivamente. Después de han sido especificados estos parámetros, iniciar el cómputo. Al final, dos figuras de árbol en código ASC II, un mostrando clade credibilidad y las otras longitudes de rama de mostrar, aparecerá en la pantalla.

El resultado del árbol se guardará automáticamente como "FileName.nex.con". Este archivo de árbol puede ser abierto y editado por FigTree, y la cifra que se muestra en FigTree puede modificarse para que sea más conveniente para su publicación.

En este estudio, se analizaron 228 proteínas dulces, incluyendo 35 dulces de eucariotas unicelulares y 57 SemiSWEETs de procariotas, por ejemplo. Los dulces y SemiSWEETs fueron caracterizados como glucosa, fructosa o sacarosa transportistas a través de las membranas¹²^,¹³. Análisis filogenético sugiere que los dos dominios MtN3/saliva que contiene dulces podrían ser derivados de una fusión evolutiva de un SemiSWEET bacteriana y de un archaeon¹⁴.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. alineación de la secuencia

Recoge secuencias de aminoácidos de dulce eucariótico y procariótico SemiSWEET en documentos separados y lista en formato FASTA. Descargar secuencias del centro nacional para información biotecnológica (NCBI), laboratorio de Biología Molecular europeo (EMBL) y el Banco de datos de ADN de bases de datos de Japón (DDBJ) por la búsqueda de similitud con la herramienta básica Local herramienta alineación de la búsqueda (BLAST).
1. En los archivos de ejemplo, recoger secuencias de proteína dulce supuesta 228 que poseen dos dominios de MtN3/saliva (7 hélices transmembranales) de 57 secuencias de proteína semidulce que posee un único dominio MtN3/saliva (3 hélices transmembranales) de procariotas y eucariotas ¹³.
2. Para simplificar el proceso, seleccione 35 proteínas dulces de candidato de organismos eucariotas unicelulares entre los 228 dulces putativos para la construcción del árbol filogenético. Estas secuencias se unen para que el lector puede practicar en un conjunto de datos real.
Alinear las secuencias dulce 35 por introducir en Clustal Omega (http://www.ebi.ac.uk/Tools/msa/clustalo/).
1. Copiar y pegar las secuencias de la proteína en formato FASTA en el cuadro de entrada o cargar un archivo de secuencia en formato FASTA. Especificar que son secuencia de aminoácidos haciendo clic en el icono en el menú desplegable en la sección de 'Paso 1'.
2. Especificar el formato de salida y otros parámetros en la sección "Paso 2", si es necesario. Para este estudio, ajuste el formato de salida como "clustal sin número" y dejar los demás parámetros por defecto. En la mayoría de los casos, los parámetros por defecto funcionan bien sin ninguna especificación.
Presentar y ejecutar la alineación en la sección "Paso 3". Puede llevar en cualquier lugar de varios segundos a minutos, hasta que haya terminado la alineación. En el panel de "Resumen de resultado", haga clic en el enlace bajo "Alineación en formato CLUSTAL" y guardar las secuencias alineadas como "35.clustal" (figura 1).
Abra el archivo de resultado de la alineación en BioEdit.
1. En el panel principal de BioEdit, "Secuencia" y seleccionar "Editar humor" en el primer menú desplegable, haga clic en "Editar residuos" en el submenú (figura 2).
2. Seleccionar las secuencias que sobresale en el lado izquierdo de la alineación con el cursor (la secuencia seleccionada se mostrará en negro) y haga clic en el icono "Eliminar" en el menú "Editar" para quitar las secuencias seleccionadas (figura 3).
3. Seleccionar y eliminar las secuencias que sobresale en el lado derecho del primer dominio MtN3/saliva y guardar las secuencias de dominio MtN3/saliva primer recortadas como 35-I.fas (figura 4). Asimismo, eliminar la izquierda y derecha que sobresalen las secuencias del segundo dominio MtN3/saliva y guárdelo como II.fas 35. La primera y las segunda secuencias de dominio MtN3/saliva pueden predecirse con ritmo (http://proteinformatics.charite.de/rhythm/inndex.php?site=helix) o TMHMM (http://www.cbs.dtu.dk/services/TMHMM/) de antemano.
Abra el archivo 35-I.fas con MEGA y haga clic en "alinear" cuando se le solicite. Bajo el menú "Edición", "Seleccionar todo", haga clic en "Seleccionar secuencias"; los nombres y las secuencias de los taxa, se seleccionarán en negro (figura 5).
1. Elija "Copiar" del menú "Editar" para copiar las secuencias en el portapapeles y luego pegar las secuencias copiadas a un archivo doc.
2. En el archivo doc, reemplace todas "#" ">" y luego borrar los caracteres sin relación para convertirlos a formato FASTA. Añadir "-I" al final de cada nombre del taxón para marcarlos como las primeras secuencias de dominio MtN3/saliva. La segunda secuencia de dominio MtN3/saliva siguiendo el mismo método de procesar y agregar "-II" después de cada nombre de taxón.
Combinan las primeras y segunda MtN3/saliva dominio las secuencias en formato FASTA en un archivo doc.
1. Cargar las secuencias combinadas en Clustal Omega otra vez y alinear las secuencias como se describió anteriormente. Guarde el resultado como "35 realigned.clustal".
2. Abra el archivo "35 realigned.clustal" en BioEdit, eliminar los residuos de aminoácidos (saliente) desigual en cualquier extremo de las secuencias alineadas y guarde las secuencias como "35 realigned.fas". Haga clic en "Sí" cuando advirtió que no se pueden guardar algunos caracteres no estándar.

2. cómputo del árbol filogenético

Abrir "realigned.fas 35" en MEGA.
1. Haga clic en el menú "Datos" y elija "Exportar la alineación" y guardar la alineación en el formato PAUP (nexus) como "35.nex" para su uso posterior en MrBayes (figura 6).
2. Mientras tanto, haga clic en el icono de "Modelos" en el panel principal de MEGA, elija "buscar mejor ADN/proteína modelos (ML)" y haga clic en "Aceptar" en la ventana emergente. Haga clic en "Calcular" para iniciar el modelo de búsqueda proceso (figura 7). Se abrirá un nuevo panel de progreso; Este proceso dura varios minutos a varios días, dependiendo de la complejidad de las secuencias de carga y rendimiento del equipo.
  Nota: Una tabla que muestra que los resultados se abrirán después de que termine el proceso de búsqueda de modelo ( figura 8). La menor puntuación de BIC figurarán en primer lugar, seguido por una serie de diferentes modelos con aumentando poco a poco las partituras BIC. El primer modelo "LG + G + F" con la menor puntuación de BIC es el modelo recomendado para ML árbol basado en el archivo "35 realigned.fas".
Haga clic en el icono de "Filogenia" en el panel principal de MEGA, haga clic en "Prueba de construir la máxima probabilidad árbol" y luego haga clic en "Sí" en el panel emergente. Una nueva ventana abrirá mostrando diferentes parámetros que deben ser especifican (figura 9).
1. En primer lugar, establecer el valor de bootstrap en la prueba de la caja de la filogenia; 500 o 1000 es adecuado en la mayoría de los casos. Bajo el modelo de sustitución, seleccione "aminoácido" como el tipo de sustitución. El propósito de elegir un modelo de sustitución es estimar la verdadera diferencia entre secuencias basadas en sus Estados presentes³.
2. Seleccione "LG con Freqs. (+F) modelo "(LG + F) en el cuadro de modelo o método. En el cuadro patrón y tarifas, seleccione "Gamma distribuida" (G) para describir las variaciones de la tasa en todos los sitios, es decir., dando más peso a los cambios en evolución lentamente sitios³. En el cuadro de subconjunto de datos, seleccione "Eliminación completa" para eliminar todas las columnas que contienen guiones.
3. Mantenga todos los otros parámetros en su estado por defecto (figura 9). Después de la especificación de estos parámetros, haga clic en el icono de "Calcular" para iniciar el cálculo.

3. presentación del árbol filogenético

Nota: Un árbol filogenético de ML se presentará cuando termine el cómputo usando MEGA (figura 10).

En el menú desplegable del icono de "Archivo" en el panel de árbol, elija "Guardar sesión" para guardar el resultado (.mas es el tipo de archivo por defecto). En el presente estudio, el resultado se guarda como "35.mas". En el panel de árbol, muchos parámetros incluyendo longitud de clade, estilo árbol, topología de árbol, fuente del nombre del taxón, tamaño y color, se muestran y pueden ajustarse a diferentes opciones.
Guarde el archivo final del árbol haciendo clic en el icono de imagen y guardar la figura en diferentes formatos o copiar la imagen como fuente para edición de fotos.

4. Análisis de la relación de dulces y SemiSWEETs con alineamiento de secuencias

Nota: Este paso no necesite en el análisis de la secuencia ordinaria.

Alinee los 228 dulces eucariotas y 57 SemiSWEETs procariotas Clustal Omega como se describió anteriormente. Los resultados de la alineación se pueden demostrar en Jalview, que está integrada en Clustal Omega y copiado para guardar en un editor de fotos (figura 11).
Nota: En la alineación de ejemplo, algunos SemiSWEETs de α-proteobacterias se alinean con el primer dominio MtN3/saliva de las secuencias del dulce, mientras que SemiSWEETs de Methanobacteria (archaea) se alinean con el segundo dominio MtN3/saliva de las secuencias del dulce.

5. construcción de árbol filogenético con MrBayes

Inferencias bayesianas con MrBayes, abra el archivo ejecutable de MrBayes y una interfaz de DOS surgirá una nueva ventana. El primer paso es leer el archivo de datos de nexus. Entrada "execute 35.nex" después del símbolo del sistema (recuerda guardar el archivo de nex 35 en el mismo directorio del archivo ejecutable MrBayes, o señalar el camino del archivo antes de cargarlo). Se mostrará un mensaje de "éxito leer matriz" tras el último de los taxa mencionados (figura 12). El archivo de nex 35 ha sido preparado y guardado en MEGA (véase 2.1 supra).
Establecer el modelo evolutivo.
1. Después el símbolo del sistema, escriba "prset aamodelpr = fixed(lg); LSet tarifas = g ". El "lg" y "g" corresponden al modelo "LG" y "G" que se encuentra en MEGA. Después de configurar correctamente el modelo, tipo "nchains mcmc = 4 ngen = 5.000.000" después el símbolo del sistema. El uso de la "nchains = 4" significa de entrada un número de una cadena de frío y tres cadenas calientes para el acoplamiento de la metrópoli. "ngen = 5.000.000" significa ejecutar generaciones 5.000.000 de acoplamiento de la metrópoli para la convergencia de las cadenas de frías y calientes. En este estudio, promedio desviación estándar de dividir las frecuencias por debajo de 0.01 fue mirado como la convergencia de las cadenas de frías y calientes.
2. Tenga en cuenta que el número de ngen no se puede predecir con precisión el comienzo del proceso y generalmente es necesario ajustarse basado en el cambio en la desviación estándar promedio de las frecuencias de split. Además, el número de ngen de convergencia puede ser diferente cada vez cuando ejecuta el programa basado en los mismos datos.
Realizar el análisis: Este paso dura desde varios minutos a varios días, dependiendo de la complejidad de los datos de entrada y el rendimiento del ordenador. Después de completar el cómputo preestablecido, un mensaje preguntará "Continuar con el análisis (sí/no)?" Si "no" se ha escrito después del símbolo del sistema, la informática se detiene (figura 13), de lo contrario seguirá calcular después de entrada el número de generaciones más. Terminado el cómputo (con una desviación estándar promedio de frecuencias de split < 0.01 o 0.05), parar el cómputo escribiendo "no" después de la indicación de consulta.
Nota: 0.01 es un criterio estricto, 0.05 es moderado y generalmente adecuada.
Resumir las muestras: Tipo "sumidero" después el símbolo del sistema para resumir muestras de parámetros del modelo (figura 14). Escriba "sumt relburnin = sí burninfrac = 0.25" después el indicador para resumir las muestras del árbol. Toda la información sobre la construcción del árbol filogenético se mostrará como en la figura 15, seguido por dos figuras de árbol que aparecen en la pantalla, un mostrando clade credibilidad y las otras longitudes de rama de Mostrar código ASC II. Al mismo tiempo, se guardarán automáticamente un archivo de árbol con el nombre de "35.nex.con".
Para una mejor presentación del árbol filogenético, abra el archivo de árbol de "35.nex.con" con la herramienta de FigTree (http://tree.bio.ed.ac.uk/software/figtree/), seleccione un estilo o el tamaño para mostrar el resultado (figura 16) o incluso editar en un editor de fotos para que sea más fácil de leer.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Árboles filogenéticos muestran que todos los dominios MtN3/saliva primera de las secuencias dulce 35 agrupan como un clado y los dominios MtN3/saliva segundo de las dulces secuencias agrupadas como otro clado. Además, resultados de alineación de los dulces y SemiSWEETs muestran que algunos SemiSWEETs de α-proteobacterias alineación con el primer dominio MtN3/saliva de las secuencias del dulce, mientras que SemiSWEETs de Methanobacteria (archaea) alineación con la segunda MtN3/saliva dominio de las secuencias del dulce. Juntos, estos resultados sugieren que los dos dominios MtN3/saliva que contiene dulces podrían ser derivados de una fusión evolutiva de un SemiSWEET bacteriana y de un archaeon¹⁴.

Figura 1 : Guardar las secuencias alineadas de los 35 supuestos dulces eucariotas como "35.clustal" por Clustal Omega. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2 : Seleccione la ruta en BioEdit para recortar las secuencias alineadas de "35.clustal", que fue preparado en Clustal Omega. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3 : Seleccionar y eliminar las secuencias irregulares en el lado izquierdo de las secuencias de dominio MtN3/saliva primera de los 35 supuestos dulces eucariotas BioEdit. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4 : Las secuencias cortadas del primer dominio MtN3/saliva de los 35 supuestos dulces eucariotas BioEdit. Haga clic aquí para ver una versión más grande de esta figura.

Figura 5 : Seleccione y copie las secuencias de dominio MtN3/saliva primera de los 35 supuestos dulces eucariotas en MEGA. Las secuencias de copiado se pega en un archivo doc para la edición. Haga clic aquí para ver una versión más grande de esta figura.

Figura 6 : Convertir "35 realigned.fas" "35.nex" (formato de PAUP) para inferencia bayesiana más adelante. Haga clic aquí para ver una versión más grande de esta figura.

Figura 7 : La búsqueda para el modelo de sustitución más adecuada por MEGA para la construcción del árbol filogenético de máxima verosimilitud (ML) basado en el archivo "35 realigned.fas". Haga clic aquí para ver una versión más grande de esta figura.

Figura 8 : Una tabla del modelo de sustitución más adecuada computa para ML árbol basado en el archivo "35 realigned.fas". Haga clic aquí para ver una versión más grande de esta figura.

Figura 9 : Especifique los parámetros para el cómputo de árbol ML basado en el modelo de sustitución más adecuada para "realigned.fas 35" en MEGA. Haga clic aquí para ver una versión más grande de esta figura.

Figura 10 : Un árbol ML original construido por MEGA basado en "realigned.fas 35". En esta etapa, muchas opciones de estilo de figura, tamaño, color, etcetera., están disponibles. Haga clic aquí para ver una versión más grande de esta figura.

Figura 11 : Alineación de 228 dulces eucariotas y 57 SemiSWEETs procariotas por Clustal Omega. Los resultados se muestran en Jalview, integrado en Clustal Omega. En la alineación, algunos SemiSWEETs de α-proteobacterias se alinearon con el primer dominio MtN3/saliva de las secuencias del dulce, mientras que SemiSWEETs de Methanobacteria (archaea) se alinearon con el segundo dominio MtN3/saliva de las secuencias del dulce. Haga clic aquí para ver una versión más grande de esta figura.

Figura 12 : Cargar el archivo "35.nex" en MrBayes en la ventana de DOS. Para mostrar los resultados generales, se ha eliminado contenido similar para reducir la longitud de la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figura 13 : Información que aparece en la pantalla después de cómputo del archivo "35.nex" con MrBayes. Para mostrar los resultados generales, se ha eliminado contenido similar para reducir la longitud de la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figura 14 : Resumen muestras de parámetros del modelo para el archivo "35.nex". Haga clic aquí para ver una versión más grande de esta figura. Haga clic aquí para ver una versión más grande de esta figura.

Figura 15 : Resumen muestras de árbol del archivo "35.nex". Para mostrar los resultados generales, se ha eliminado contenido similar para reducir la longitud de la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figura 16 : El árbol filogenético de "35.nex.con" de FigTree. Haga clic aquí para ver una versión más grande de esta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Es cada vez más popular en la investigación biológica para hacer un árbol filogenético basado en nucleótido o aminoácido secuencias⁸. Generalmente, hay tres etapas críticas de la práctica incluyendo la alineación de la secuencia, evaluación de las secuencias alineadas con el método apropiado o algoritmo y visualización de los resultados computacionales como un árbol filogenético. En el estudio presentado, se llevaron a cabo tres rondas de la alineación de la secuencia: en primer lugar, se alinearon las secuencias de la proteína dulce, incluido el dominio de primer y segundo MtN3/saliva, en segundo lugar, cada una de las secuencias de dominio MtN3/saliva individuales de los dulces como un taxón independiente fueron reunidos y alineados juntos; y por último, secuencias semidulces y dulce secuencias fueron alineadas conjuntamente. Sólo una ronda de alineamiento de secuencias es generalmente necesario para la construcción del árbol filogenético.

En la etapa preliminar, secuencias homólogas pueden descargarse NCBI u otras bases de datos. Estas secuencias descargadas deba someterse a si no son bien anotados. En la primera y segunda etapa, la alineación y el cómputo no se puede iniciar si el formato de la secuencia es incorrecta. Por ejemplo, Clustal Omega rechazará cualquier salida del formato FASTA en el archivo de la secuencia. En la etapa computacional, tenga en cuenta que las longitudes de la secuencia incluyendo aminoácidos o nucleótidos y guiones deben ser iguales antes de evaluarse por MEGA.

A pesar de la riqueza de métodos y modelos para la construcción del árbol que están disponibles, ninguno de ellos es infalible. Robustos y convincentes los resultados son los que son consistentes entre sí cuando se utilizan diferentes algoritmos o modelos para evaluar el mismo datos¹⁵. En el método de ML, la fiabilidad de la topología de árbol depende en gran medida el valor de arranque de cada clado; un valor de bootstrap de 70 o mayor se considera generalmente como confiable. En el presente estudio, todas las secuencias de dominio MtN3/saliva primer cluster como un grupo grande con un valor de bootstrap del 83. El valor de la otra clade que contiene todas las segunda MtN3/saliva dominio secuencias, sin embargo, fue sólo 6 (figura 10). Para verificar la arquitectura del árbol, MrBayes, que emplea un método totalmente diferente¹⁶ a ML, se utilizó para analizar la relación de los taxa. Probabilidades posteriores¹⁶ de los clados de dominio primero y segundo de MrBayes fueron 100 y 68, respectivamente (figura 16).

Otra limitación de la ML y el cómputo de MrBayes es que ambos son desperdiciadores de tiempo ejecutar. Utilizando un ordenador con múltiples procesadores y unidades de procesamiento gráfico (GPU) es útil para mejorar el rendimiento computacional y velocidad¹⁷^,¹⁸. Para la operación de MrBayes, un ordenador con una tarjeta de gráficos discretos y los controladores apropiados de CUDA puede acelerar significativamente los cálculos de probabilidad¹¹.

Seleccionar el modelo correcto para el cómputo del árbol filogenético es difícil para aquellos con poca experiencia. En este sentido, MEGA proporciona una manera fácil de encontrar el mejor modelo comparando las puntuaciones BIC de modelos candidatos. Además, la recientemente actualizada 6.0 MEGA integra varias herramientas de alineación secuencia como músculo de Clustal W¹⁰, que están muy cómodos de usar. También proporciona una edición de secuencia y función de la construcción de árboles filogenéticos. Estas características explican en parte por qué es tan popular este software en el campo de la evolución molecular computacional. En cuanto a MrBayes, una importante ventaja de esta herramienta es que puede procesar tipos de datos mezclados juntos (ej., datos morfológicos y moleculares)¹¹y, por tanto, los resultados son más completos.

En conclusión, el presente estudio ofrece un método para analizar el origen molecular de los genes codifican proteínas que han sufrido variaciones complejas tales como fusión después de la duplicación o transferencia horizontal del gene (HGT) durante la evolución. Que se revelará más resultados con el uso amplio del análisis filogenético en el campo de la investigación evolutiva.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

Este trabajo fue apoyado por la Fundación Nacional de Ciencias naturales de China (31371596), el centro de investigación de biotecnología, Universidad de China tres gargantas (2016KBC04) y la Fundación de Ciencias naturales de la provincia de Jiangsu, China (BK20151424).

Materials

Name	Company	Catalog Number	Comments
Adobe Illustration			a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit			a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega			a package for making multiple sequence alignments of amino acid or nucleotide sequences. http://www.clustal.org/
CorelDRAW			a graphic design software. Copyright © 2017 Corel Corporation
FigTree			a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA			MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes			an Bayesian phylogenetic inference tool
NVIDIA			a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP			Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop			a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM			a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009
TMHMM			a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter			4 GB memory, Core 2 or above CPU. Windows 7, Windows 10