Behavior

Creando y aplicando una referencia para facilitar la discusión y clasificación de las proteínas en un grupo diverso

Published: August 16, 2017 doi: 10.3791/56107

¹Department of Microbiology and Immunology, Arizona College of Osteopathic Medicine, Midwestern University

Summary

El objetivo de este protocolo es desarrollar una referencia para proteínas divergentes en un grupo que carece de criterios coherentes para la nomenclatura y clasificación. Esta referencia facilitará el análisis y la discusión del grupo como un todo y puede ser utilizada además de nombres establecidos.

Abstract

Relacionados con proteínas que han sido estudiadas en diferentes laboratorios utilizando diferentes organismos pueden carecer de un sistema uniforme de nomenclatura y clasificación, lo que hace difícil discutir el grupo como un todo y poner nuevas secuencias en el contexto adecuado. Desarrollar una referencia que da prioridad a las características de secuencia importante relacionados con la estructura o actividad puede utilizarse además de nombres establecidos para agregar cierta coherencia a un grupo diverso de proteínas. Este papel utiliza la superfamilia cisteína estabiliza hélice de la alfa (CS-αβ) como ejemplo para mostrar cómo una referencia generada en software de hoja de cálculo puede aclarar las relaciones entre las proteínas existentes en la superfamilia, así como facilitar la incorporación de nuevos secuencias. También muestra cómo la referencia puede ayudar a refinar las alineaciones de la secuencia generadas en el software utilizado, que afecta la validez de los análisis filogenéticos. El uso de una referencia probablemente sea más útil para los grupos de proteínas que incluyen secuencias altamente divergentes de una amplia gama de taxa, con características que no son adecuadamente capturados por los análisis moleculares.

Introduction

Nombre de la proteína debe reflejan características y relación con otras proteínas. Desafortunadamente, los nombres se asignan generalmente en el momento del descubrimiento y, como la investigación continúa, puede cambiar la comprensión de un contexto más amplio. Esto puede conducir a varios nombres si una proteína fue identificada independientemente por más de un laboratorio, cambios de nomenclatura o en las características probablemente definitivo al asignar el nombre y el nombre no más suficientemente diferenciando la proteína de los demás.

Defensinas invertebrados proporcionan un buen ejemplo de la degeneración en la nomenclatura y clasificación. Los primeros invertebrados defensinas se informaron de los insectos, y el nombre "insectos Defensina" fue propuesto en base a la homología percibida a mamíferos defensinas¹^,². La Defensina del término todavía se utiliza, aunque es claro defensinas invertebrados y mamíferos no comparten un ancestro común³^,⁴. Dependiendo de la especie, un invertebrado "Defensina" puede tener seis u ocho cisteínas (que forman tres o cuatro enlaces disulfuro) y una variedad de actividad antimicrobiana. Para complicar la situación, las proteínas con las mismas características como defensinas no se llaman siempre "defensinas", como el recientemente identificado cremycins de Caenorhabditis remanei⁵. Además, son más probables ser evolutivamente relacionados con vertebrados β-defensinas que a otros invertebrados defensinas⁶defensinas grandes invertebrados. A pesar de ello, los investigadores dependen a veces el nombre "Defensina" al determinar que secuencias deben incluirse en el análisis.

Estudios estructurales revelaron la similitud entre insectos defensinas y toxinas de escorpión⁷, y el doblez del CS-αβ fue establecido como la característica definitoria de la estructural de defensinas insectos⁸. Este pliegue define la superfamilia de (CS-αβ) similar a la toxina de escorpión en la clasificación estructural de las proteínas (SCOP) base de datos⁹, que actualmente incluye cinco familias: insectos defensinas, las toxinas de escorpión de cadena corta, toxinas de escorpión de cadena larga, MGD-1 (a partir de un molusco) y defensinas de plantas. Esta superfamilia es sinónimo con el recientemente descrito cis-defensinas⁴ y Superfamilia 3.30.30.10 en la Gene Cateterismo 3D base de datos¹⁰^,¹¹. Estudios de una variedad de taxones invertebrados, plantas y hongos mostrar que los nombres de las proteínas que contienen este redil no están claramente relacionados con número de cisteína o patrón de la vinculación, actividad antimicrobiana o historia evolutiva¹².

La falta de coherencia y criterios claros hacen difícil de nombrar y clasificar secuencias identificados recientemente en esta superfamilia. Un obstáculo importante para la comparación de proteínas en esta superfamilia es que cisteínas están numeradas con respecto a cada secuencia individual (la primera cisteína en cada secuencia es C1), sin posibilidad para tener en cuenta la función estructural. Esto significa que se pueden comparar solamente las secuencias con el mismo número de cisteínas. Hay poca conservación de secuencia que no sea de las cisteínas forman el pliegue CS-αβ, que dificulta el análisis filogenéticos y alineaciones. Mediante el desarrollo de un sistema de numeración que prioriza las características estructurales, secuencias de la superfamilia más fácilmente comparables y alineadas. Características conservadas, como los definen los subgrupos, se pueden visualizar rápidamente, y nuevas secuencias se pueden colocar más fácilmente en el contexto adecuado.

Este papel utiliza un software de hoja de cálculo (por ejemplo, Excel) para generar una referencia del sistema para la superfamilia CS-αβ de numeración. Muestra cómo esto aclara las comparaciones entre secuencias y lo aplica a nuevas secuencias de CS-αβ identificadas de tardígrados. Usando la superfamilia CS-αβ como ejemplo, el protocolo fue escrito para proporcionar orientación al utilizar secuencias de interés; sin embargo, no se pretende ser específico a esta superfamilia o a secuencias ricas en cisteína. Este método probablemente sea más útil para los grupos de proteínas que se han investigado independientemente en taxones divergentes o tienen poca homología de secuencia general, con características discretas que no puede ser reconocido fácilmente por el software de análisis molecular. Este método requiere algunas decisiones a priori acerca de características importantes, por lo que será de utilidad limitada si no hay características importantes han sido identificadas. El objetivo principal es mostrar cómo se puede lograr una simple visualización de las relaciones de secuencia. Esto puede usarse entonces para informar a alineamiento de secuencias y análisis, pero si la alineación y el análisis son los objetivos primarios, un método de código de barras sería una alternativa adecuada que tiene más capacidad para automatización¹³. El método actual muestra las características de cada péptido en una forma lineal, por lo que no será útil para la visualización directa de la estructura 3D.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. determinar las características de la definición del grupo de proteínas de interés

consultar publicaciones anteriores para determinar si existe un consenso en relación con las características necesarias ser considerado parte del grupo. Tomar nota de las inconsistencias o diferencias de opinión entre grupos de investigación e incluyen características que pueden servir para distinguir un subgrupo de otro.
Si la literatura no responde a características definitorias, utilizar secuencias que se consideran representante del grupo como punto de partida para identificar características conservados.

2. Recoger las secuencias

si se han escrito comentarios que incluyen análisis de las secuencias que representan el grupo, incluir estas secuencias en el conjunto de datos crudo. Recuperar secuencias usando números referenciados en la literatura y guardar en una secuencia estándar de programa de edición (por ejemplo, EditSeq en el paquete Lasergene o uno de los muchos disponibles para libre en línea).
Si el grupo en cuestión ha sido definido en una de las bases de datos estructurales, incluyen las secuencias de que la base de datos enumera como parte del grupo recuperar secuencias con números en la base de datos y guardar en una secuencia estándar de edición programa, como el anterior.
Nota: por ejemplo, las secuencias en la superfamilia CS-αβ (similar a la toxina del escorpión) en la base de datos SCOP pueden encontrarse aquí: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html.
realizar básicos locales Búsquedas de ¹⁴ de herramienta de búsqueda (BLAST) de alineación de bases de datos públicos, en línea disponibles a través del centro nacional para información biotecnológica (NCBI) para encontrar secuencias que pueden no se han incluido en la literatura o estructurales bases de datos. Para más resultados completos, utilizar tanto la proteína BLAST (blastp) y traducido ráfaga con programas de consulta (tblastn) de proteína; Estos están disponibles en: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
1. Secuencias de uso conocidas por ser parte del grupo de interés como secuencias de consulta. Copiar y pegar la secuencia en el cuadro de búsqueda en la parte superior o proporcionar un GenBank accesión número o gi identificador, si está disponible.
2. Elegir la base de datos en el menú desplegable. Seleccionar secuencias de proteínas no redundantes (nr) para blastp y expresó etiquetas de secuencia de tblastn.
3. Búsqueda de resultados en taxones específicos en el organismo por escribir el nombre de taxón u organismo y elegir de la lista que aparece al escribir. Para agregar más organismos o taxa para excluir, haga clic en el " + " botón y otro campo aparecerá. Excluir cualquier taxa no deseados en el cuadro de organismo escribiendo el nombre del organismo o de dicho taxón, eligiendo de la lista que aparece al escribir y comprobar el " excluir " cuadro de la derecha.
4. Acceder a parámetros adicionales haciendo clic en " parámetros de algoritmo " cerca de la parte inferior de la página. Deja en predeterminado a menos que haya una razón para cambiar un parámetro de.
5. Haga clic en el " BLAST " botón para ejecutar el análisis, puede tomar algún tiempo para que los resultados aparezcan. En general, recuperar hits con un valor de esperar (o e-valor) de " -05 " o mejor y guardar en una secuencia estándar de edición de programa.
  1. Si los golpes son por encima de este umbral, vuelva a ejecutar la búsqueda con un número creciente de secuencias diana (en la sección de parámetros de algoritmo) para obtener todas las secuencias relevantes.
Si es necesario, ajuste las secuencias para excluir la información irrelevante (por ejemplo, el pliegue de αβ CS sólo se aplica al péptido maduro). Identificar péptidos de señal y pro-péptidos para quitar utilizando apoyo ¹⁵ (disponible en línea), o SignalP para más sofisticados de predicción de péptido señal ¹⁶ (disponible en línea).

3. Generar una referencia en una hoja de cálculo basada en las importantes características que identificaron

identificar las características definitorias del grupo de interés. Por ejemplo, usar el pliegue de CS-αβ definitivamente establecido por la estructura de la solución de insecto Defensina A Phormia terraenovae ( figura 1) ⁸.
1. Este redil incluye un pequeño motivo llamado la hélice estabilizada por cisteína (CSH) ¹⁷; identificar este motivo por un CXXXC (donde X es cualquier aminoácido) aguas arriba de una CXC que forman dos enlaces de disulfuro ( figura 1 sólidas líneas de color rosa).
  Nota: Para completar el adorno del CS-αβ, un tercer enlace de disulfuro se forma por cisteínas adicionales antes de cada mitad del motivo CSH ( figura 1, con líneas de color rosa).
Entre estos rasgos definitorios en una hoja de cálculo. Vea la figura 2.
1. Columnas de uso para las características de conservación y para representar los espacios entre estas características. Mantener las columnas suficientemente amplia como para colocar números y asegurarse que tengan una anchura constante. Ajustar el ancho con el " formato | Ancho de columna " función ( figura 2, flecha rosa).
2. Utilizar las filas para los nombres de la secuencia.
3. Cuando una secuencia tiene la característica, rellena el cuadro con la función de llenado ( figura 2, Plaza de la rosa). Para el espaciado entre los elementos, escriba el número de aminoácidos en el cuadro entre y dejarla vacía. Por ejemplo, usando el insecto Defensina secuencia da una referencia que incluye seis cisteínas, con espaciamientos definidos entre C2 y C3 y C5 y C6.
Añadir secuencias representativas que han sido previamente establecidas como miembros del grupo basado en las bases estructurales y literatura de.
Nota: por ejemplo, la literatura anterior y la base de datos SCOP identifican varios grupos de inclusión: insectos defensinas, las toxinas de escorpión de cadena corta, toxinas de escorpión de cadena larga, MGD-1, planta defensinas, nematodo de la ABF, drosomycins de Drosophila, y macins. La literatura también identifica una secuencia bacteriana con sólo cuatro cisteínas que pudo representar al antepasado de esta superfamilia ¹⁸. La adición de estas secuencias aumenta el número de cisteínas en la referencia de seis a diez pero mantiene la alineación de las características estructurales importantes ( figura 3).
1. Para agregar una característica que pueda definir un subgrupo de secuencias (por ejemplo, una cisteína extra), utilice el " Insert " función ( figura 3, flecha rosa).
2. Si hay características que falta en una secuencia dada, deje el cuadro vacío y combinan con cuadros que representan los aminoácidos intervinientes. Si es necesario, combinar las celdas mediante la función merge y centro ( figura 3, cuadro de color de rosa).
Continuar agregando secuencias a los grupos para obtener una mejor imagen de la variación en cada grupo de la superfamilia más grande. Resumir las características del grupo para facilitar las comparaciones ( figura 4).
1. Cuando varía el número de aminoácidos entre las principales características, utilizar un guión para indicar un rango, por ejemplo 6-12 (6 a 12 aminoácidos) y una barra para indicar ya sea / o, como el 7/10 (7 ó 10 aminoácidos).
2. Elegir una manera de anotar las características de las secuencias que pueden ser pertinentes pero no ocurren con suficiente frecuencia para incluir en la referencia. Por ejemplo, puesto que son importantes en esta superfamilia cisteínas, etiqueta adicionales cisteínas ( figura 4, cajas de color de rosa).
Añadir newlsecuencias identificados y a la hoja de cálculo utilizando las secuencias establecidas como guía. Por ejemplo, añadiendo secuencias de tardígrados (amarillo) muestra que las secuencias tardigrade caen en varios grupos diferentes de la superfamilia ( la figura 5 muestra los resúmenes en vez de una fila por secuencia para fines de espacio).
Mostrar variabilidad dentro de un grupo taxonómico por reordenar las filas ( figura 6).

4. Utilice la referencia a refinar aminoácido alineaciones

Nota: hay muchos programas que pueden utilizarse para múltiples alineaciones de la secuencia, pero esta demostración utilizará análisis evolutivo Molecular de la genética (MEGA6) ¹⁹ porque está disponible para descargar gratis.

Descargar e instalar el software.
Empezar un nuevo alineamiento en MEGA seleccionando " alineación de edición y construcción " debajo de la ficha alinear selección " crear una alineación nueva " en el cuadro que aparece y haga clic en " OK. " a continuación, seleccione " proteína. "
Select " secuencia insertar desde archivo " en la " edición " menú para importar las secuencias de.
Nota: Necesitará secuencias en formato FASTA para la importación en MEGA. Colores de fondo que reflejan los tipos diferentes de aminoácidos son utilizados por default, pero esta opción puede desactivarse en la " pantalla " menú.
Una vez que se introducen todas las secuencias, haga clic en el icono flexión de brazo y " proteína Alinee " para alinear las secuencias mediante el algoritmo de músculo ²⁰.
Nota: ClustalW también está disponible.
1. Si un mensaje diciendo que nada ha sido seleccionada de la aparece arriba y le pide que seleccione, haga clic en " OK. "
2. Nota: se abrirá una ventana que permite cambiar algunos parámetros, pero sólo se debe cambiar no hay razón para hacerlo. Este análisis utiliza un subconjunto de las secuencias analizadas en un papel anterior de ¹².
Compruebe la alineación basado en las características importantes, tenga en cuenta que la barra superior por encima de las secuencias muestra las columnas donde el aminoácido está totalmente conservado (*). Ver figura 7. Ver que la alineación inicial muestra sólo tres de los cuatro cisteínas conservadas ( figura 7, cajas de color de rosa); mirando hacia abajo la columna, la secuencia AlCRP es claramente desalineada ( figura 7, flecha rosa).
Deshacerse de la enorme brecha entre el yo y el C conservado, destacan los guiones y prensa el " eliminar " clave. Destacar cualquier aminoácidos, o se eliminarán así.
Para mover los aminoácidos a la derecha, seleccionar y presione el espacio bar
1. Nota que el AlCRP tiene ahora las cisteínas estructurales alineados y que el último C del motivo CXXXC se conserva a lo largo de la alineación ( figura 8). Ajustar la alineación si es necesario dar prioridad a las características más importantes de las secuencias de.

5. Comparar los grupos identificados usando la referencia con los resultados de los análisis filogenéticos

de alineaciones preliminares, determinar qué secuencias se deben incluidas en un análisis filogenético; para un pequeño número de secuencias, este paso puede ser innecesarios.
1. Guardar un archivo de alineación que incluye todas las secuencias, pero para un análisis filogenético, quitar secuencias redundantes ( figura 9, rosa casillas Mostrar pares de secuencias redundantes).
2. Si el conjunto de datos incluye un gran número de secuencias, realizar un análisis preliminar y seleccionarlos representantes de grupos que siempre forman un clade.
Determinar el modelo de sustitución de aminoácidos mejor.
1. Exportar la alineación en formato MEGA (en la ficha de datos).
2. Ir al menú de modelos y seleccionar " encontrar mejor ADN/proteína modelo. " elija el archivo que acaba de guardar y abrir, se abrirá una ventana con algunos parámetros que pueden cambiarse.
3. Utilizar los parámetros por defecto a menos que haya una razón para cambiarlas. Haga clic en " calcular " para comenzar el análisis.
Realizar un análisis de máxima verosimilitud (ML) en MEGA.
1. Elegir " árbol de probabilidad máxima de construcción/prueba " en el menú Phylogeny.
2. Elegir el modelo determina que el mejor ajuste para los datos del paso 5.2 (la salida se dará el modelo de sustitución así como la mejor " entre sitios " parámetro).
3. Bootstrap elegir 1.000 repeticiones para obtener las medidas de apoyo para el árbol de.
4. Clic " calcular " para ejecutar el análisis; MEGA tiene una " árbol explorador " para visualizar el árbol de.
Realizar un análisis Bayesiano en MrBayes software libre ²¹.
Nota: Un manual de MrBayes también está disponible desde este sitio. Esto está destinado a proporcionar pasos básicos y no es una guía completa a la realización de análisis filogenético Bayesiano.
1. La alineación de MEGA en formato PAUP (Nexus) de exportación en la misma carpeta que el programa MrBayes.
2. Abierto MrBayes y tipo " exe nombre del archivo " (por ejemplo, " exe Alignment.nex ").
3. Especificar los parámetros del modelo y análisis. Elegir bien el modelo especificado en el paso 5.2 o elegir la " mixta " que se trate de varios modelos e informar la frecuencia del modelo en los árboles con las mejores probabilidades posteriores (prset aamodelpr = mixto). Tipo " showmodel " para informar de la configuración actual del modelo y " ayudar a mcmc " para mostrar la configuración actual del parámetro, con una breve explicación de cada uno.
4. Establecer el número de generaciones con el " mcmcp ngen = " comando (1 millón es típico).
5. Tipo " mcmc " para comenzar el análisis.
6. Cuando se haya completado el número de generaciones, el programa le pedirá agregar más generaciones. Si la desviación estándar promedio de las frecuencias de split está a menos de 0.1, escriba no. Si está por encima de 0.1, el análisis se debe continuar o deben cambiar algunos parámetros (véase el manual).
7. Uso el " sumt " comando para generar el árbol de archivos.
8. Después de que el análisis es completo y se genera un árbol de consenso, el árbol puede ser visto en FigTree (disponible en línea).
Comparar los árboles para ver si los métodos de generan resultados.
Nota: Algunas secuencias no proporcionan mucha información: los árboles pueden no resolverse bien y las ramas pueden tener un mínimo soporte ( figura 10).
Comparar árboles a los grupos identificados con la referencia para ver si los análisis filogenéticos apoyan estos grupos.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Grupos de secuencias en la superfamilia CS-αβ divulgado en la literatura se muestran en la figura 4. Los maridajes de cisteína basados en la numeración para cada secuencia sugieren cinco grupos básicos (cuadro 1, columna media). Grupo 1 tiene seis cisteínas que de disulfuro tres bonos e incluye secuencias de insectos, arácnidos, moluscos, nemátodos y hongos. Grupos 2, 3 y 4 tienen 8 cisteínas que forman 4 enlaces disulfuro. Grupo 2 incluye insectos, arácnidos y secuencias de la planta; Grupo 3 incluye a arácnidos, moluscos y NEMATODAS secuencias; y grupo 4 incluye secuencias de Cnidarios, anélidos, moluscos y hongos. Grupo 5 incluye las 10 macins de cisteína. Algunas secuencias no cupo absolutamente estos patrones pero eran generalmente más cercanos de un grupo que los demás.

Grupos 1 y 2 parecen compartir dos enlaces: C2-C5 y C3-C6; sin embargo, empezando la numeración de cada secuencia con su primera cisteína no reconoce el contexto estructural de los bonos. C2-C5 en el grupo 1 secuencias de formas uno de los dos enlaces en el adorno de la CSH, mientras que C2-C5 en grupo 2 secuencias forma el vínculo final necesario para estabilizar el pliegue CS-αβ. El vínculo homólogo para el grupo 1 C2-C5 grupo2 C3-C6, que no es obvio de la numeración. También, no es obvio que en el grupo 3, el enlace C2-C6 juega el mismo papel estructural.

Utilizando secuencias de la literatura genera una referencia con un total de diez cisteínas. El motivo CSH está formado por bonos C8 C3 y C4-C9, con completar el pliegue αβ CS C2-C6. Cambiar la numeración de los pares de cisteína, basados en los números de referencia aclara los vínculos presentes en cada secuencia (tabla 1, columna de la derecha). Ahora es evidente que todas las secuencias de C2-C6 y C3-C8, C4-C9, reflejando el pliegue estructural que define la superfamilia. El uso de una referencia permite la comparación fácil entre las secuencias que tienen nomenclatura inconsistente y criterios de clasificación ambiguo. También puede ayudar a identificar las características que definen un subgrupo de secuencias. Por ejemplo, el enlace de C1-C7 puede distinguir macins de otros miembros de la superfamilia, haciéndolo apropiado para clasificar secuencias con este bono como "macins" en lugar de "defensinas" (tabla 1 y figura 4).

Búsquedas de bases de datos públicas en línea revelaron dieciséis secuencias de tardígrados que claramente tienen el CS-αβ doble, ocho por cada uno de Hypsibius dujardini y Milnesium tardigradum. Cuatro de las nuevas secuencias tienen seis cisteínas, nueve tienen ocho, uno tiene nueve, y dos con diez. Esto le da muy poca información, pero alineando las secuencias de la referencia, resulta claro que tardigrade secuencias con el mismo número de cisteínas que no siempre tienen las cisteínas estructuralmente importante en el mismo lugar dentro de la secuencia ( Figura 5 y figura 6). La alineación con la referencia también permite la inferencia de patrones (tabla 2, inferir patrones de vinculación aparece entre paréntesis) de la vinculación. Algunas de las secuencias tardigrade encajan claramente patrones 1-4. Otros son más similares al ancestro bacteriano propuesto, escorpión Cl-toxina o a una familia de péptidos de Defensina-como hongos. Patrón 2 tenga dos subgrupos, uno representado por el escorpión Na + toxinas, drosomycin y defensinas de plantas y el otro por Cl-toxinas de escorpión. Para investigar la función de las proteínas tardigrade es necesario determinar si algunos deberían considerarse toxinas en lugar de defensinas.

Los análisis filogenéticos se utilizan a menudo para el estudio de cómo un grupo de proteínas puede haber evolucionado. Las secuencias en la superfamilia CS-αβ son generalmente cortos y altamente divergente; los árboles resultantes son a menudo mal resueltos y ofrecen una visión poco. Árboles el ML y el bayesiano para el subconjunto de secuencias analizadas aquí fueron mal resueltas, con bajo apoyo para muchos clados (figura 10, complementaria archivos 1 - 4). Es una práctica común para sólo mostrar bootstrap niveles mayores de 70 años (o probabilidades posteriores sobre 0,7), pero figura 10 conserva todos los números para demostrar los niveles bajos de apoyo. Cinco grupos fueron apoyados por encima de 70/0.7 en al menos uno de los dos árboles: (a) a C 6 y una toxina de escorpión de 8 C; (b) macins; (c) y defensinas de escorpión; (d) planta defensinas; y (e) 6C defensinas de insectos, arácnidos y moluscos. En el árbol ML, clade e incluye también una toxina C 8 y una Defensina tardigrade 8C, pero el apoyo fue muy baja (figura 10A). En general, éstos reflejan las categorías identificadas con la numeración de la cisteína de referencia pero también Mostrar secuencias con números diferentes de cisteína dentro de un gran grupo taxonómico que más estrechamente relacionadas que las secuencias con el mismo patrón de diferentes grupos. Mientras que sólo un pequeño número de secuencias fueron utilizado en este estudio, un análisis más grande de 250 secuencias no eliminó la falta de resolución (complementaria archivos 5 - 8)¹². La alineación de referencia de hoja de cálculo puede ofrecer mejor visualización de las similitudes con importancia estructural o funcional en comparación con árboles filogenéticos.

Figura 1: Definir la secuencia y características estructurales de la superfamilia de αβ CS. Aminoácidos y estructura 3D están codificadas por colores: lazo (azul), hélice de la alfa (verde), beta-hojas (oro) y disulfuro (rosa). Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Referencia 6-cisteína preliminar basado en la secuencia del insecto Defensina. Columnas indican las cisteínas conservadas (C1-C6) y, para el motivo de la CSH, el número de conservado amino ácidos entre las cisteínas. Los recuadros rellenos indican que la secuencia tiene la cisteína dada y los números indican los aminoácidos entre las cisteínas. Haga clic aquí para ver una versión más grande de esta figura.

Página de ER.Within = "1" >

Figura 3: Refinado diez-cisteína referencia basada en secuencias representativas de grupos de la superfamilia de αβ CS. Las columnas indican cisteínas conservadas y los aminoácidos entre ellos. Cisteínas contribuyendo al motivo CSH (C3, C4, C8 y C9) y el pliegue de la CS-αβ (C2 y C6) se etiquetan. Secuencias son color-coded por grupo taxonómico: Arácnidos (luz naranja), bacterias (negro), Cnidaria (gris), Hexapoda (naranja), Mollusca (azul), Nematoda (púrpura) y Plantae (verde). Haga clic aquí para ver una versión más grande de esta figura.

Figura 4 : Resumen de CS-αβ Superfamilia secuencias alineadas con referencia por características del grupo. Las columnas indican cisteínas conservadas y los aminoácidos entre ellos. Cisteínas contribuyendo al motivo CSH (C3, C4, C8 y C9) y el pliegue de la CS-αβ (C2 y C6) se etiquetan. Secuencias son color-coded por grupo taxonómico: Annelida (rojo oscuro), arácnidos (luz naranja), bacterias (negro), Cnidaria (gris), hongos (verde claro), Hexapoda (naranja), Mollusca (azul), Nematoda (púrpura) y Plantae (verde). Números separados por un guión indican una gama de aminoácidos intervinientes; números separados por una barra diagonal representan ya sea / o. Una "C" indica una cisteína adicional que no ocurren con suficiente frecuencia para justificar la adición a la referencia. Haga clic aquí para ver una versión más grande de esta figura.

Figura 5 : Adición de secuencias Tardigrade CS-αβ Superfamilia alineación con referencia por características del grupo. Las columnas indican cisteínas conservadas y los aminoácidos entre ellos. Cisteínas contribuyendo al motivo CSH (C3, C4, C8 y C9) y el pliegue de la CS-αβ (C2 y C6) se etiquetan. Secuencias son color-coded por grupo taxonómico: Annelida (rojo oscuro), arácnidos (luz naranja), bacterias (negro), Cnidaria (gris), hongos (verde claro), Hexapoda (naranja), Mollusca (azul), Nematoda (púrpura), Plantae (verde) y Tardigrada (amarillo). Números separados por un guión indican una gama de aminoácidos intervinientes; números separados por una barra diagonal representan ya sea / o. Una "C" indica una cisteína adicional que no ocurren con suficiente frecuencia para justificar la adición a la referencia. Haga clic aquí para ver una versión más grande de esta figura.

Figura 6: Adición de secuencias Tardigrade CS-αβ Superfamilia alineación con referencia por grupo taxonómico. Las columnas indican cisteínas conservadas y los aminoácidos entre ellos. Cisteínas contribuyendo al motivo CSH (C3, C4, C8 y C9) y el pliegue de la CS-αβ (C2 y C6) se etiquetan. Secuencias son color-coded por grupo taxonómico: Annelida (rojo oscuro), arácnidos (luz naranja), bacterias (negro), Cnidaria (gris), hongos (verde claro), Hexapoda (naranja), Mollusca (azul), Nematoda (púrpura), Plantae (verde) y Tardigrada (amarillo). Números separados por un guión indican una gama de aminoácidos intervinientes; números separados por una barra diagonal representan ya sea / o. Una "C" indica una cisteína adicional que no ocurren con suficiente frecuencia para justificar la adición a la referencia. Haga clic aquí para ver una versión más grande de esta figura.

Figura 7: Secuencia desalineada usando automatizado alineación. Conservado en todas las secuencias de aminoácidos se indican con * en la fila encima de la primera secuencia (descrita en cuadros de color de rosa). AlCRP está bien alineado. El espacio debe ser extirpado para alinear correctamente el C (flecha rosa). Haga clic aquí para ver una versión más grande de esta figura.

Figura 8: Manual refinamiento de la alineación conserva las características estructural importantes de las secuencias de. AlCRP ahora está alineado correctamente (flecha rosa), y el motivo CXXXC completamente se conserva para las secuencias (cuadros rosa). Haga clic aquí para ver una versión más grande de esta figura.

Figura 9 : Secuencias redundantes en una alineación. Si hay pares de secuencias casi idénticas (caja rosa), uno se puede quitar, ya que estas probablemente siempre se agrupan juntos en y contribuyen poco a la topología general del árbol. Haga clic aquí para ver una versión más grande de esta figura.

Figura 10 : Comparación de los árboles generados a partir de los análisis filogenéticos. Máximo (A) análisis de la probabilidad en MEGA, con 1.000 bootstrap Replica usando el WAG + G + I modelo. (B) análisis Bayesiano con 1.000.000 generaciones usando el modelo mixto. Clados en 70/0.7 se muestran en líneas de color rosa sólidas; líneas discontinuas de color rosa muestran clades en 70/0,7 en el otro árbol. (a) a C 6 y una toxina de escorpión de 8 C; (b) macins; (c) y defensinas de escorpión; (d) planta defensinas; y (e) 6C defensinas de insectos, arácnidos y moluscos. Haga clic aquí para ver una versión más grande de esta figura.

Table 1
Tabla 1: grupos dentro de la superfamilia CS-αβ basan en patrones de emparejamiento cisteína. Cinco patrones básicos de la formación del enlace se muestran con números internos (columna media) o números de referencia (columna derecha). Scorpion Cl, ASABF 6Cys-alfa y un grupo de péptidos hongos se colocan con el patrón que mOst se parezca. Una cisteína no incluida en la referencia se indica con un superíndice de las cisteínas antes y después de (p. ej., C^3/4está entre C3 y C4).

Table 2
Tabla 2: secuencias de adición de Tardigrade CS-αβ para emparejamiento de cisteína patrón grupos. Defensinas Tardigrade y macins (negrita) se ponen en los grupos previamente establecidos siempre que sea posible. Algunas secuencias tardigrade pueden mostrar un patrón específico de grupo. Una cisteína no incluida en la referencia se indica con un superíndice de las cisteínas antes y después de (p. ej., C^3/4está entre C3 y C4). La notación "C 2¹" indica que hay dos cisteínas aguas arriba de la referencia C1.

Archivo complementario 1 (S1): alineación de este conjunto de datos en MEGA. Haga clic aquí para descargar este archivo.

Archivo complementario 2 (S2): archivo MEGA árbol de probabilidad máxima para este conjunto de datos. Haga clic aquí para descargar este archivo.

Archivo complementario 3 (S3): alineación de este conjunto de datos en formato Nexus de MrBayes. Haga clic aquí para descargar este archivo.

Archivo complementario 4 (S4): archivo de consenso del análisis de este conjunto de MrBayes. Haga clic aquí para descargar este archivo.

Archivo complementario 5 (S5): alineamiento de secuencias de αβ CS 250 en MEGA. Haga clic aquí para descargar este archivo.

Complementarios archivo 6 (S6): árbol de máxima verosimilitud de 250 secuencias αβ CS. Haga clic aquí para descargar este archivo.

Archivo complementario 7 (S7): alineación de 250 CS-αβ secuencias en nexo formato de MrBayes. Haga clic aquí para descargar este archivo.

Archivo complementario 8 (S8): archivo de consenso a partir del análisis de MrBayes de 250 secuencias αβ CS. Haga clic aquí para descargar este archivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Los criterios para nombrar una proteína dentro de un grupo deben ser claros, pero esto no es siempre el caso. Secuencias que tienen la CS-αβ doble han sido estudiadas en muchos laboratorios usando una variedad de organismos, dando lugar a diferentes sistemas de nomenclatura, así como diferentes niveles de caracterización. Intentar imponer una nueva nomenclatura no es razonable y daría lugar a una gran confusión cuando se consulta la literatura anterior. Una referencia del sistema de numeración puede utilizarse además del nombre de una proteína para aclarar sus características en relación con la superfamilia.

Grupos de proteínas con criterios claros para la nomenclatura y clasificación de voluntad no se benefician de generar una referencia en una hoja de cálculo, aunque puede ser útil para resumir grandes cantidades de secuencias y visualizar características importantes. Logos y alineaciones de la secuencia son útiles para investigar el nivel de conservación en cada sitio, pero no activamente priorizar características de secuencia importantes para la estructura o función. El ejemplo CS-αβ se centró en la estructura, pero también podría incorporar aminoácidos específicos que constituyen un sitio de Unión como un rasgo definitorio. Características de la secuencia que confieren las actividades específicas de tóxicos antimicrobianos de péptidos CS-αβ son identificados, estos podrían añadirse a la referencia a aclarar grupos basados en la actividad. Aunque sólo los péptidos maduros previstos fueron utilizados en este ejemplo, si la presencia de un péptido señal o Pro-péptido es importante, puede añadirse que la información para cada secuencia. Específica inserción o canceladura eventos, así como lugares del intrón, también se pueden incluidas si se piensa que ser informativo. Una ventaja del uso de MrBayes para el análisis filogenético es que no se limita a datos molecular-it puede analizar datos codificación de otras características que puedan tener importancia evolutiva. Estos pueden codificarse como presente o ausente, proporcionar más información que la secuencia solamente.

Recoger las secuencias relevantes es un paso crítico del protocolo. Dependiendo del alcance del estudio y la distribución de los miembros del grupo, este puede abarcar grandes grupos taxonómicos. Si el objetivo es entender un conjunto de proteínas, considere la posibilidad de que algunas secuencias pueden encontrarse fuera de las especies que generalmente se informan de. Si un taxón está ya bien representado y secuencias adicionales son redundantes o poco probable, excluyendo de la búsqueda puede ser apropiado. Una regla de oro básica para recuperar los éxitos en la búsqueda de una explosión es utilizar un atajo de -05 para el e-value. El valor de e es el número de golpes que lo esperado por azar. Aunque esto es adecuado para algunas situaciones, si hay un grupo de secuencias que es altamente divergente pero las características específicas de las acciones, puede ser menos fiable-it puede recuperar secuencias similares pero no han las características quería, y no puede volver a las secuencias que tienen las características claves pero que son altamente divergentes. Hay algunas maneras posibles de abordar esta cuestión. El primero es mirar las secuencias identificadas en la búsqueda por debajo de la corte-05 para ver si cumplen con los criterios de inclusión. En segundo lugar, si hay suficiente información, utilice posición específica iterado BLAST (PSI-BLAST)²² o patrón-golpe iniciado BLAST (PHI-BLAST)²³. PSI-BLAST utiliza los resultados de una búsqueda inicial para generar un nuevo modelo para la siguiente ronda y puede a veces encontrar secuencias divergentes que no identificó la búsqueda inicial. PHI-BLAST requiere un patrón para ser presentados junto con la secuencia de consulta. Esto restringe las secuencias obtenidas a los que contiene el patrón de interés. Esta herramienta es especialmente útil si un motivo único para el grupo puede ser claramente identificado.

Una alineación precisa es crítica para el análisis filogenético; interpretaciones de los árboles sólo son válidas si se generan con buena alineación. Usando la referencia a la alineación puede ayudar a evitar errores que sólo son evidentes cuando se considera la estructura o actividad. Redundancia de secuencia tendrá que ser definido para el proyecto. Dos secuencias que parecen redundantes no sean con fines filogenéticos de taxones ampliamente divergentes o son casi idénticas en secuencia pero tienen diferentes propiedades estructurales o funcionales. Si hay ambigüedad con respecto a qué deben incluirse secuencias, alineamientos múltiples pueden ser generados y analizan por separado para ver cómo la alineación cambia inferencias filogenéticas de impacto. El método presentado aquí no elimina la necesidad de ajuste manual de alineaciones, pero puede ayudar a aclarar cómo las secuencias deben estar alineados y posiblemente podrían ser utilizadas en conjunción con una técnica más sofisticada de código de barras que se ha descrito previamente¹³.

Para que la referencia a ser útil, es importante identificar las características fundamentales que no son actualmente obvias de la secuencia solo. Por ejemplo, considere la incapacidad para comparar patrones entre secuencias con diferentes números de cisteínas cuando se numera cada secuencia con respecto a sí mismo de la vinculación de la cisteína. El objetivo es facilitar la comparación y la discusión, no para añadir otro nivel de confusión. Esto puede implicar varias iteraciones de la referencia y llama a juicio al decidir que características incluir. Se espera que la adopción de un método común de discutir secuencias divergentes en un grupo aumentará la comprensión del grupo como un todo.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

El autor no tiene nada que revelar.

Acknowledgments

Péptido antimicrobiano tardigrade continua investigación es apoyada por fondos intramuros de la oficina de investigación de la Universidad de Midwestern y programas patrocinados (ORSP). La ORSP no tuvo ningún papel en el diseño del estudio, recopilación de datos, análisis, interpretación o preparación del manuscrito.

Materials

Name	Company	Catalog Number	Comments
BLAST webpage			https://blast.ncbi.nlm.nih.gov/Blast.cgi
EditSeq (Lasergene suite)	DNASTAR		https://www.dnastar.com/t-allproducts.aspx
Excel 2013	Microsoft
FigTree			http://tree.bio.ed.ac.uk/software/figtree/
MEGA			www.megasoftware.net
MrBayes			http://mrbayes.sourceforge.net/
SCOP database			http://scop.mrc-lmb.cam.ac.uk/scop/

DOWNLOAD MATERIALS LIST

References

Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
Dimarcq, J. -L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
Bonmatin, J. -M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, (Database issue) 376-381 (2015).
Lam, S. D., et al. Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, (Database issue) 404-409 (2016).
Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).

Behavior

Creando y aplicando una referencia para facilitar la discusión y clasificación de las proteínas en un grupo diverso

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.