Optimización de las proteínas sintéticas: Identificación de interposicional Dependencias de indicación Estructuralmente y / o Residuos Funcionalmente Vinculados

Chemistry
JoVE Journal
Chemistry
AccessviaTrial
 

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Rumpf, R. W., Ray, W. C. Optimization of Synthetic Proteins: Identification of Interpositional Dependencies Indicating Structurally and/or Functionally Linked Residues. J. Vis. Exp. (101), e52878, doi:10.3791/52878 (2015).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Alineaciones de proteínas se utilizan comúnmente para evaluar la similitud de los residuos de proteínas, y la secuencia de consenso derivada utilizan para la identificación de las unidades funcionales (por ejemplo, dominios). Los modelos tradicionales de creación de consenso no dan cuenta de las dependencias interposicionales - funcionalmente covariación requerido de residuos que tienden a aparecer de manera simultánea durante la evolución y en todo el árbol filogenética. Estas relaciones pueden revelar pistas importantes sobre los procesos de plegamiento de proteínas, termoestabilidad, y la formación de sitios funcionales, que a su vez se pueden utilizar para informar a la ingeniería de proteínas sintéticas. Por desgracia, estas relaciones esencialmente forman sub-motivos que no puede ser predicho por simple "regla de la mayoría" o modelos de consenso incluso basados ​​en HMM, y el resultado puede ser un "consenso" biológicamente no válido que no sólo no se ve en la naturaleza, pero es menos viable que cualquier proteína existente. Hemos desarrollado un una visualherramienta alytics, StickWRLD, lo que crea una representación interactiva 3D de una alineación de proteínas y claramente muestra covarying residuos. El usuario tiene la capacidad de desplazarse y hacer zoom, así como dinámicamente cambiar el umbral estadístico subyacente a la identificación de los covariantes. StickWRLD previamente ha sido utilizado con éxito para identificar los residuos covarying funcionalmente necesarios-en proteínas tales como la adenilato quinasa y en las secuencias de ADN, tales como sitios diana de la endonucleasa.

Introduction

Alineaciones de proteínas han sido utilizados para evaluar la similitud de los residuos en una familia de proteínas. Con frecuencia las características más interesantes de una proteína (por ejemplo, los sitios de unión catalíticos u otros) son el resultado de plegamiento de proteínas trayendo regiones distales de la secuencia lineal en contacto, y como resultado de estas regiones aparentemente no relacionados en la alineación tienden a evolucionar y cambiar en de manera coordinada. En otros casos, la función de una proteína puede ser dependiente de su firma electrostática, y las mutaciones que afectan a la electrónica dipolo son compensadas por cambios en residuos cargados distantes. Efectos alostéricos también pueden inducir a largo plazo dependencias secuenciales y espaciales entre las identidades de residuos. Independientemente de su origen, estas covariaciones funcionalmente necesarios, de residuos - dependencias inter-posicionales (IPDS) - no pueden ser obvios con el examen visual de la alineación (Figura 1). Identificación de IPDs - así como deque los residuos específicos dentro de esas posiciones tienden a covariar como unidad - puede revelar pistas importantes sobre los procesos de plegamiento de proteínas y la formación de sitios funcionales. Esta información puede ser utilizada para optimizar (ingeniería) proteínas sintéticas en términos de termoestabilidad y actividad. Durante mucho tiempo se ha sabido que no todas las mutaciones puntuales hacia el consenso proporcionan una estabilidad mejorada o actividad. Más recientemente, las proteínas diseñadas para tomar ventaja de IPDs conocidos en su secuencia se ha demostrado que resultará en una mayor actividad que la misma proteína diseñada estrictamente de consenso 1,2 (manuscrito en preparación), similar a la idea de la estabilización de 3 mutaciones puntuales.

Por desgracia, los modelos tradicionales de creación de consenso (por ejemplo, gobierno de la mayoría) sólo capturan IPDs por accidente. Métodos de consenso y Matrix posición de anotar específico ignoran IPDs y sólo "correctamente" los incluyen en los modelos, cuando los residuos dependientestambién son los residuos más populares para esas posiciones en la familia. Modelos de cadena de Markov pueden capturar IPDs cuando están secuencialmente proximal, pero su implementación típica ignora todo excepto vecinos secuenciales inmediatos, e incluso en su mejor momento, los cálculos Hidden Markov Model (ver Figura 2) se vuelven intratables cuando dependencias están separados en la secuencia de más de una docena de posiciones 4. Desde estas IPDs esencialmente forman "sub-motivos" que no puede ser predicho por simple "regla de la mayoría" o modelos de consenso incluso basados ​​en HMM-5,6 el resultado puede ser un "consenso" biológicamente inválida que no es sólo no se ve en la naturaleza, pero es menos viables que cualquier proteína existente. Los sistemas basados ​​en Markov Random Fields, como GREMLIN 7, intentan superar estos problemas. Además mientras que las técnicas biológicas / bioquímicas sofisticadas, tales como 3,8 recombinación no contiguo se pueden utilizar para ideelementos de proteínas esenciales ntify por región, requieren mucho tiempo y trabajo de banco para un solo par de bases de precisión a alcanzar.

StickWRLD 9 es un programa basado en Python que crea una representación interactiva 3D de una alineación de proteína que hace IPDs clara y fácil de entender. Cada posición en la alineación se representa como una columna en la pantalla, donde cada columna se compone de una pila de esferas, uno para cada uno de los 20 aminoácidos que podrían estar presentes en esa posición dentro de la alineación. El tamaño de la esfera depende de la frecuencia de ocurrencia del aminoácido, de tal manera que el usuario puede recoger inmediatamente el residuo consenso o la distribución relativa de los aminoácidos dentro de esa posición con sólo mirar el tamaño de las esferas. Las columnas que representan a cada posición se envuelven alrededor de un cilindro. Esto le da a cada esfera que representa un posible aminoácido en cada posición en la alineación, una "línea de visión" claraa cualquier otra posibilidad de aminoácido en cada otra posición. Antes de visualización, StickWRLD calcula la fuerza de la correlación entre todas las combinaciones posibles de residuos para identificar la IPDs 9. Para representar IPDs, las líneas se dibujan entre los residuos que se coevolving en un mayor o menor de lo que se esperaría si los residuos presentes en las posiciones eran independientes (IPDs).

Esto no sólo muestra la visualización que las posiciones de secuencia interactúan evolutivamente, pero como las líneas de borde IPD se dibujan entre las esferas de aminoácidos en cada columna, el usuario puede determinar rápidamente qué aminoácidos específicos tienden a ser coevolving en cada posición. El usuario tiene la capacidad de rotar y explorar la estructura IPD visualizado, así como dinámicamente cambiar los umbrales estadísticos que controlan la visualización de correlaciones, haciendo StickWRLD una herramienta poderosa para el descubrimiento IPDs.

Aplicaciones como GREMLIN 7 similarly mostrar compleja información relacional entre los residuos - pero estas relaciones se calculan a través de modelos de Markov más tradicionales, que no están diseñados para determinar las relaciones condicionales. Como tales, estos son capaces de ser visualizado como proyecciones 2D. Por el contrario, StickWRLD puede calcular y mostrar las dependencias condicionales de múltiples nodos, que pueden ser ofuscado si representa como un gráfico 2D (un fenómeno conocido como oclusión borde).

Vista de StickWRLD 3D también tiene varias otras ventajas. Al permitir a los usuarios manipular los visuales - características que pueden ser ofuscado o poco intuitivos en una representación 2D se puede observar más fácilmente en el cilindro 3D de StickWRLD - paneo, rotación y zoom. StickWRLD es esencialmente una herramienta visual de análisis, aprovechando el poder de la capacidad de reconocimiento de patrones del cerebro humano a ver patrones y tendencias, y la posibilidad de explorar los datos desde diversas perspectivas se presta a ello.

Protocol

1. Descarga de software e instalación

  1. Use un equipo tiene un procesador Intel Core i5 o mejor procesador con al menos 4 GB de RAM, y está ejecutando Mac OS X o GNU / Linux (por ejemplo, Ubuntu) OS. Además, se requieren Python 2.7.6 10 y el wxPython 2.8 11, SciPy 12 y 13 bibliotecas PyOpenGL python - descargar e instalar cada uno de sus respectivos repositorios.
  2. Descarga StickWRLD como un archivo zip que contiene todos los scripts de Python pertinentes. Descarga el script "fasta2stick.sh" para la conversión de ADN FASTA secuencia de alineaciones / proteína estándar a formato StickWRLD.
  3. Extrae el archivo y poner la carpeta StickWRLD resultante en el escritorio. Coloque el guión "fasta2stick.sh" en el escritorio también.

2. Prepare la alineación

  1. Crear una alineación de las secuencias de proteínas utilizando cualquier Stansoftware de alineación Dard (por ejemplo, ClustalX 14). Guarde la alineación en el escritorio en formato FASTA.
  2. Abra la aplicación de terminal en el ordenador Mac o GNU / Linux y navegue hasta el escritorio (la ubicación del "fasta2stick.sh" shell script) escribiendo cd ~ / Desktop y presionando regreso. Ejecutar la secuencia de comandos "fasta2stick.sh" escribiendo ./fasta2stick.sh en la terminal. Si el script no se ejecuta, asegúrese de que es ejecutable - en el tipo de terminal chmod + x fasta2stick.sh para hacer el script ejecutable.
  3. Siga las instrucciones en pantalla proporcionadas por la secuencia de comandos para especificar el nombre del archivo de entrada (el archivo creado en 1.2 anterior) y el nombre de salida deseada. Guarde el archivo de salida (que ahora está en el formato correcto para StickWRLD) en el escritorio.

3. Lanzamiento StickWRLD

  1. Navegue en los ejecutables StickWRLD carpeta mediante la aplic terminalesación de la computadora Mac o GNU / Linux. Por ejemplo, si la carpeta StickWRLD está en el escritorio, escriba cd ~ / Desktop / StickWRLD / exec en el terminal.
  2. Lanzamiento StickWRLD escribiendo python-32 stickwrld_demo.py en la terminal.
  3. Compruebe que el panel StickWRLD Data Loader es visible en la pantalla (Figura 3).

4. Cargando los Datos

  1. Cargue el convertida secuencia de la proteína alineación pulsando el botón "Cargar Proteína ...".
  2. Seleccione el archivo creado en el paso 3 anterior y pulse "Abrir". StickWRLD abrirá varias ventanas nuevas, incluyendo "Control StickWRLD" (Figura 4) y "StickWRLD - OpenGL" (Figura 5).
  3. Seleccione la - ventana "StickWRLD OpenGL". Seleccione la opción "Cambiar Vista" en el menú "OpenGL" para mostrar la visualización StickWRLD defecto en un "top-down"Vista a través del cilindro que representa los datos en las ventanas de tamaño variable OpenGL ..

5. Ver las opciones

  1. Seleccione las casillas para "Etiquetas de columna" y "etiquetas Ball" en el "StickWRLD control" panel (Figura 4) para mostrar los valores para las columnas y las bolas.
  2. Desactive la casilla de "Bordes de columna" en el panel "Control StickWRLD" para ocultar las líneas de borde de la columna.
  3. Ajuste el "Grosor Columna" a 0.1 en el panel "Control StickWRLD" trazar una línea delgada a través de las columnas, por lo que es más fácil de navegar la vista 3D. Pulse RETURN para aceptar el cambio.
  4. Cambiar la vista en el "StickWRLD - OpenGL" ventana como en el paso 5.3 anterior, a continuación, pulse el botón de "pantalla completa" para maximizar la vista.

6. Navegación

  1. Gire la pantalla 3D StickWRLD manteniendo pulsado el botón izquierdo del ratón while mueve el ratón en cualquier dirección.
  2. Ampliar la pantalla 3D StickWRLD manteniendo pulsado el botón derecho del ratón mientras se mueve el ratón hacia arriba o hacia abajo.

7. Encontrar interposicional Dependencias (IPD)

  1. Echa un vistazo a la vista por la panorámica y zoom como se describe en el paso 6. residuos coevolving superiores a los requisitos mínimos de tanto p como residual están conectados a través de líneas de borde como se ve en la figura 6. Si hay demasiados o demasiado pocos bordes que conectan los residuos, cambie el Residual umbral (en el panel "Control StickWRLD") para mostrar menos, o más, bordes.
  2. Aumentar el umbral residual sobre el Control Panel StickWRLD hasta que no haya líneas de borde IPD se muestran y rampa lentamente hacia abajo hasta que aparezcan las relaciones. Continúa aumentando el residual hasta que tenga un número suficiente de relaciones examinar.
  3. Identificar las relaciones que implican cualquiera de los residuos de interés conocida (por ejemplo, dentro de un motivo o vinculante / diversiónsitio ficticio) o residuos que son distal entre sí dentro de la alineación (que sugiere que son proximal en la proteína plegada)

8. Selección y Almacenamiento de resultados

  1. Mediante el comando + clic izquierdo sobre cualquier borde de interés. El panel de control StickWRLD indicará las columnas y conectar residuos específicos, por ejemplo, "(124 | G) (136 | H)" (Figura 7). Las líneas continuas representan asociaciones positivas; líneas discontinuas representan asociaciones negativas.
  2. Pulse el botón "Bordes de salida" en el panel "StickWRLD de control" para guardar un archivo con formato de texto plano (edge_residual.csv) de todos los bordes visibles, incluyendo los residuos acumulados y sus valores residuales reales, en el / StickWRLD / exec / directorio.

Representative Results

StickWRLD se ha utilizado anteriormente para detectar dependencias de interposición (IPDS) entre los residuos en ambos ADN y la proteína 3 15-17 alineaciones. Estos residuos co-evolución, mientras que a menudo distal uno de otro en la secuencia de alineación, son a menudo proximal uno al otro en la proteína plegada. StickWRLD permite un rápido descubrimiento de residuos específicos de co-ocurrencia en dichos sitios, por ejemplo., Una alanina en la posición "x" está fuertemente correlacionada con una treonina en la posición "y". Estas correlaciones pueden ser indicativos de relaciones estructurales demostrables, y por lo general son los sitios que, por necesidad, co-evolucionan. StickWRLD es capaz de detectar estas relaciones, incluso cuando más "tradicional" enfoques utilizando HMMs para describir motivos fallan. Por ejemplo, el análisis de la alineación del dominio PFAM tapa ADK usando StickWRLD revela una fuerte correlación positiva entre las cisteínas (C) en las posiciones 4 y 8 y un coordinadapar de C en las posiciones 35 y 38. Al mismo tiempo, StickWRLD mostró una fuerte relación positiva similar entre histidina (H) y serina (S) a las 4 y 8, con unas fuertes relaciones negativas entre estos y el cuarteto C a 4, 8, 35 y 38, y una fuerte relación positiva con ácido aspártico (D) y treonina (T) en las posiciones 35 y 38 respectivamente. Existen IPDs adicionales entre la H, S, D, T motivo y una T y G en la posición 10 y 29 **** en B subtilis **** destacando el carácter condicional de estas IPDs - el motivo tetracisteína no lo hace "cuidado" acerca de las identidades de estas dos posiciones, mientras que el H hidrófila, S, D, T tríada requiere residuos específicos en estas posiciones casi absolutamente. Estos dos motivos residuos dependientes de la posición completamente diferentes pueden cumplir el mismo papel que la tapa ADK. Como puede verse en la Figura 6, un gran grupo de IPDs, incluyendo una asociación de 3-nodo entre G (glicina) en la posición 132, Y (tirosina) en la posición 135, y un P (Proline) en la posición 141, es visible en primer plano (Figura 6A). En la Figura 6B, la vista ha sido sesgada para posicionar al usuario un poco por encima del cilindro, revelando una IPD entre un H (histidina) en la posición 136 y una M (metionina) en la posición 29, 107 residuos distante. Un motivo derivado de HMM PFAM del mismo dominio (Figura 2), por su parte, no sólo no detecta estos como específicamente variantes co-ocurrentes motivo, pero también define los grupos globales en un esquema biológicamente no soportado 16.

Figura 1
Figura 1. "Subway Mapa" representación de la B. subtilis adenosina quinasa estructura de dominio (ADK) Tapa. Las flechas indican IPDs identificados en la alineación de PFAM dominio Tapa ADK por StickWRLD. StickWRLD es capaz de identificar correctamente IPDs dentro de un clúster of residuos que se encuentran en las proximidades de la proteína plegada. De particular interés son la T y G par en las posiciones 9 y 29, que sólo forman una IPD cuando la tétrada de residuos en 4, 7, 24, y 27 no es C, C, C, C). Número de residuos que se muestra representa B. subtilis posiciones de alineación posición y no PFAM. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2
Figura 2. Skylign 18 Hidden Markov Model (HMM) Logo Secuencia del dominio tapa ADK. Mientras HMMs son herramientas poderosas para determinar las probabilidades en cada posición, así como la contribución de cada sitio al modelo general, la independencia posicional de HMMs los hace inadecuado para la detección de IPDs. Este modelo no sugiere ninguna de lasdependencias visto en las representaciones StickWRLD (Figura 6). Haga clic aquí para ver una versión más grande de esta figura.

Figura 3
Figura 3. El cargador de datos StickWRLD. Los usuarios pueden elegir a partir de datos de demostración existentes o cargar sus propios datos en forma de secuencia de ADN o de proteínas alineaciones.

Figura 4
Figura 4. La ventana Control StickWRLD. El panel de control permite al usuario cambiar varias propiedades de la vista, así como regular los umbrales que controlan la visualización de líneas de borde que indican las relaciones entre los residuos (IPDS). Un círculo en rojo son los valores predeterminados que normalmente necesitan t o ajustarse para optimizar la visión de cualquier conjunto de datos. El valor residual establece el umbral de (esperado observados) para los que se dibujan líneas conector / asociación. Los controles para la columna y Bolas etiquetas controlan si la posición de la columna y los valores de residuos (por ejemplo, "A" para arginina) se muestran. Las palancas de control de la línea de borde de columna dentro y fuera de la pantalla de líneas de borde de conexión columnas - para los conjuntos de datos densos Esto es mejor apagados. Los controles de espesor de la columna si la columna en sí o no se muestra -. Ajuste a un valor muy pequeño (por ejemplo, 0,1) se traza una línea a través de las esferas de la columna, por lo que es fácil distinguir las columnas entre sí por favor haga clic aquí para ver una versión más grande de esta figura.

ghres.jpg "width =" 600 "/>
Figura 5. Vista inicial de la ventana StickWRLD OpenGL con la adenilato quinasa dominio tapa conjunto de datos proteína cargada. La perspectiva inicial se ve "abajo" a través del cilindro compuesto por las posiciones de alineación de secuencias. El usuario puede girar el cilindro utilizando izquierda-clic del ratón y arrastre, y hacer zoom in / out usando el botón derecho del ratón, haga clic y arrastre. La vista inicial es bastante denso porque la pantalla por defecto muestra incluso pequeñas tasas de co-evolución. Para muchas proteínas, en esta configuración, módulos distintos pueden ser detectados, pero incluso en densamente co-evolución de las proteínas de la pantalla se puede simplificarse con rapidez y de forma interactiva para encontrar los IPDs más importantes utilizando la interfaz StickWRLD. Haga clic aquí para ver una versión más grande de esta figura.

ghres.jpg "width =" 700 "/>
Figura 6. Vista de cerca de una visualización StickWRLD de la proteína de dominio tapa adenilato quinasa. Aquí hemos cambiado el valor por defecto residual a 0,2. Esto aumenta el umbral para la visualización de los bordes inter-residuos, mostrando un menor número de bordes. Los bordes que quedan indican IPDs fuertemente asociados. Además de la vista se ha girado y ampliada para permitir una mejor visualización de los bordes. (A) Un gran grupo de IPDs es visible en el primer plano, incluyendo una asociación de 3-nodo entre G (glicina) en la posición 132, Y (tirosina) en la posición 135, y un P (prolina) en la posición 141. (B) La vista ha sido sesgada para posicionar al usuario un poco por encima del cilindro, revelando una IPD entre un H (histidina) en la posición 136 y una M (metionina) en la posición 29, 107 residuos lejano. Por favor, haga clic aquí para ver una versión más grande de esta figura.

Figura 7
Figura 7. Ventana Control StickWRLD inferior derecha vista de información. CTRL + clic izquierdo sobre un objeto (por ejemplo, la esfera o borde) en la ventana OpenGL muestra la información para el objeto en la parte inferior derecha de la ventana de Control StickWLRD. Aquí vemos la información para un borde IPD entre una metionina en la posición 29 y una histidina en la posición 136.

Discussion

StickWRLD ha sido utilizado con éxito para identificar tales IPDs en el dominio de la tapa adenilato quinasa 16, así como bases de ADN asociadas en terminadores Rho-dependiente 9, y una novela especificidad empalme de sitio en Arqueales tRNA endonucleasa intrón 6 sitios diana. Estos IPDs no eran detectables a través de un examen directo de las alineaciones.

StickWRLD muestra cada posición de una alineación como una columna de 20 "esferas", donde cada esfera representa uno de los residuos de aminoácidos 20 y el tamaño de la esfera indica la frecuencia de ocurrencia de ese residuo en particular dentro de esa columna (Figura 4). Las columnas se disponen en un cilindro, con líneas de borde que conecta los residuos en diferentes columnas (que indica una IPD). Estas líneas de borde solamente se dibujan si los residuos correspondientes se covarying a una frecuencia superando tanto el valor p (significado) y (- esperados observados) residuales umbrales.

La detección de co-produciendo residuos interdependientes, o IPDs, en las regiones distales de una secuencia de ADN o de proteínas alineación es difícil el uso de herramientas de alineación de secuencia estándar de 6. Si bien estas herramientas generan un consenso, o motivo, la secuencia, este consenso es en muchos casos un simple promedio de mayoría regla y no expresa las relaciones de covariación que pueden formar una o más sub-motivos - grupos de residuos que tienden a co-evolucionan. Incluso los modelos HMM, que son capaces de detectar las dependencias vecinas, no puede con precisión modelo motivos de secuencia con IPDs distales 5. El resultado es que el consenso calculada puede de hecho ser una secuencia "sintético" no encontrado en la naturaleza - y las proteínas de ingeniería basados ​​en tales consenso computacional no puede, de hecho, ser óptima. De hecho, el HMM para ADK Pfam sugiere que una proteína quimérica que contiene medio del motivo de tetracisteína, y la mitad de la H, S, D, T motivo, es funcionalmente igual de aceptablescomo cualquier ADK realmente existente. Este no es el caso, ya que tales quimeras (y muchos otros blendings de estos motivos) son catalíticamente muertos 4,19.

Al buscar correlaciones, es crítico que se puede modificar el umbral residual para permitir el descubrimiento de correlaciones pertinentes estableciendo el umbral por encima del nivel en el que los bordes se ven y luego rampa gradualmente el umbral hacia abajo. Esto asegura que sólo los bordes más significativos se consideran inicialmente.

Un enfoque alternativo es comenzar con el umbral fijado residual extremadamente bajo. Esto da como resultado la visualización de todos los bordes significativos. Desde aquí el umbral residual lentamente se puede aumentar, permitiendo bordes para abandonan hasta que los patrones emergen. Si bien este enfoque es menos útil cuando se busca la inclusión de los nodos específicos (por ejemplo, aplicación de los conocimientos de dominio), que permite el descubrimiento de relaciones inesperadas usando StickWRLD como un visherramienta analítica ual para descubrir patrones emergentes en la visualización de datos.

StickWRLD está limitada principalmente por la memoria disponible del sistema en el que se ejecuta, así como la resolución del dispositivo de visualización. Aunque no hay límite teórico para el número de puntos de datos StickWRLD puede examinar, y secuencias de hasta 20.000 posiciones han sido probados, en la práctica StickWRLD realiza mejor con secuencias de hasta alrededor de 1000 posiciones.

La principal ventaja de StickWRLD reside en su capacidad para identificar grupos de residuos que covarían uno con el otro. Esta es una ventaja significativa sobre el enfoque tradicional de la secuencia de consenso estadístico, que es un promedio estadístico simple y no toma en cuenta la coevolución. Si bien en algunos casos los residuos covarying pueden simplemente ser un artefacto de la filogenia, incluso estos residuos han resistido la "prueba de la selección", y como tal, no es probable que en detrimento de la functionadad de cualquier proteína diseñada para incluirlos.

Durante el uso de StickWRLD para identificar IPDs en una secuencia de ADN o proteína canónica consenso / motivo antes de variantes de ingeniería sintéticos reducirá el potencial de error y apoyar la optimización rápida de la función, hay que señalar que StickWRLD se puede utilizar como una herramienta de identificación de correlación generalizada y no se limita exclusivamente a los datos de proteínas. StickWRLD se puede utilizar para descubrir visualmente la co-ocurrencia de cualquier variable en cualquier conjunto de datos correctamente codificada.

Materials

Name Company Catalog Number Comments
Mac or Ubuntu OS computer Various Any Mac or GNU/Linux (e.g., Ubuntu) computer capable of running Python & associated shell scripts
Python programming language python.org Python version 2.7.6 or greater recommended
wxPython library wxpython.org Latest version recommended
SciPy library scipy.org Latest version recommended
PyOpenGL library pyopengl.sourceforge.net Latest version recommended
StickWRLD Python scripts NCH BCCM Available from http://www.stickwrld.org
fasta2stick.sh file converter NCH BCCM Available from http://www.stickwrld.org
Protein and/or DNA sequence data Samples available at http://www.stickwrld.org

DOWNLOAD MATERIALS LIST

References

  1. Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202 (2014).
  2. Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
  3. Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
  4. Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1 (2014).
  5. Eddy, S. R. What is a hidden Markov model? Nature biotechnology. 22, 1315-1316 (2004).
  6. Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity - when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. IEEE Press. New York, NY. 51-56 (2009).
  7. Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030 (2014).
  8. Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
  9. Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
  10. Python Language Reference v.2.7.6. Available from: https://www.python.org/download/releases/2.7.6/ (2014).
  11. Talbot, H. wxPython, a GUI Toolkit. Linux Journal. Available from: http://www.linuxjournal.com/article/3776 (2000).
  12. Jones, E., Oliphant, T., Peterson, P., et al. SciPy: Open Source Scientific Tools for Python. Available from: http://www.scipy.org/ (2001).
  13. PyOpenGL The Python OpenGL Binding. Available from: http://pyopengl.sourceforge.net/ (2014).
  14. Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
  15. Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
  16. Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
  17. Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. Ohio State Univ. Biophys. Program. Columbus, OH. 249-250 (2010).
  18. Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7 (2014).
  19. Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please sign in or create an account.

    Usage Statistics