Summary

Investigación de la secuencia de la proteína-estructura-dinámica Relaciones con Bio3D-web

Published: July 16, 2017
doi:

Summary

Se presenta un protocolo para la investigación en línea de relaciones de secuencia-estructura-dinámica de proteínas usando Bio3D-web.

Abstract

Demostramos el uso de Bio3D-web para el análisis interactivo de datos de estructura biomolecular. La aplicación Bio3D-web proporciona funcionalidad en línea para: (1) La identificación de conjuntos de estructuras de proteínas relacionados con los umbrales de similitud especificados por el usuario; (2) Su superposición de alineación y estructura múltiple; (3) Análisis de la secuencia y la conservación de la estructura; (4) Cartografía de la relación interconformidad con el análisis del componente principal y (5) comparación de la dinámica interna predicha mediante el análisis del modo normal del conjunto. Esta funcionalidad integrada proporciona un flujo de trabajo en línea completo para investigar las relaciones dinámicas de secuencia-estructura dentro de familias de proteínas y superfamilias.

Introduction

El banco de datos de proteínas (PDB) contiene ahora más de 120.000 estructuras de proteínas – muchas de las cuales son de la misma familia de proteínas pero resueltas bajo diferentes condiciones experimentales. Estas estructuras múltiples representan un recurso invaluable para entender las complejidades de la forma y de la función de la proteína. Por ejemplo, la comparación rigurosa de estos conjuntos de estructuras puede revelar importantes mecanismos moleculares 1 , 2 , 3 e informar sobre la dinámica conformacional involucrados en procesos que incluyen ligando ligando, catálisis enzimática y reconocimiento bi-molecular 4 , 5 , 6 , 7 . A menudo se pueden obtener nuevas ideas a partir del detallado análisis a gran escala de la secuencia, estructura y dinámica de las familias de proteínas. Sin embargo, esto requiere típicamenteOrmatics y experiencia de programación de la computadora junto con la familiaridad con los sistemas de la proteína bajo estudio. Por ejemplo, paquetes de software como Bio3D, ProDy y Maven requieren la programación en R, python y Matlab, respectivamente 8 , 9 , 10 . Por el contrario, las herramientas en línea para el análisis de la flexibilidad estructural se limitan generalmente a la investigación de las estructuras individuales [ 11 , 12] . Una excepción a este respecto es el recientemente desarrollado WebNM @ servidor, que permite la comparación de los patrones de flexibilidad obtenidos a partir de análisis de modo normal (NMA) de varias estructuras precalíneas usuario especificado 13 . Sin embargo, este servidor carece de un procedimiento automatizado para la identificación de estructuras para comparación, su alineación o análisis posterior más allá de NMA. Otra contribución reciente es la base de datos en línea PDBFlex, que presenta pre-cOmputed análisis de las estructuras de PDB que comparten el 95% o más de la secuencia de identidad [ 14] . Sin embargo, el análisis de conjuntos de estructuras más diversos no está actualmente disponible.

Anteriormente hemos presentado Bio3D-web – una aplicación web fácil de usar para el análisis de la proteína de la secuencia de estructura dinámica relaciones [ 15] . Bio3D-web es único en proporcionar funcionalidad integrada fácil de usar para la identificación, comparación y análisis detallado de grandes conjuntos de estructuras homólogas en línea. Aquí presentamos un protocolo detallado para la investigación en línea de proteína relación secuencia-estructura-dinámica utilizando Bio3D-web. Bio3D-web proporciona una variedad de funciones para soportar los cinco pasos principales del análisis de datos mostrados en la Figura 1 y discutidos en detalle a continuación. Estos pasos constituyen un flujo de trabajo que abarca desde la secuencia de consulta o entrada de estructura, a través de múltiples niveles de secuencia-estructura-análisis dinámico, hasta resumirGeneración de informes. Los resultados están disponibles de inmediato a través de extensa visualización en el navegador y dispositivos de trazado, así como a través de la descarga de archivos de resultados en formatos comúnmente utilizados. Además de una interfaz dinámica fácil de usar para explorar los efectos de las opciones de parámetros y métodos, Bio3D-web también registra la entrada completa del usuario y los resultados gráficos subsiguientes de la sesión de un usuario como un informe reproducible compartible en formatos PDF, DOC y HTML. Las sesiones de usuario se pueden guardar y volver a cargar en el futuro y completar los resultados descargados e interpretados por el paquete Bio3D R en la máquina local de un usuario.

Bio3D-web es impulsado por el Bio3D R paquete para el análisis de la estructura biomolecular, la secuencia y la simulación molecular de datos [ 8 , 16] . En particular, los algoritmos Bio3D para la identificación de núcleos rígidos 8 , superposición, análisis de componentes principales(PCA) 8 y el análisis de modo normal de conjunto (eNMA) 16 forman la base de la aplicación. También utilizamos protocolos Bio3D que dependen de pHMMER 17 para la identificación de estructuras proteicas relacionadas, y MUSCULO 18 para la alineación de múltiples secuencias. Las anotaciones de estructura y secuencia se derivan a través de las utilidades de Bio3D de las bases de datos 19 del PDSB de RCSB y PFAM 20 . Bio3D-web puede ser ejecutado desde nuestro servidor en línea o instalado localmente en cualquier computadora que ejecute R. Bio3D-web está abierto a todos los usuarios y se ofrece de forma gratuita bajo una licencia de código abierto GPL-3 desde http: // thegrantlab. Org / bio3d / webapps

Protocol

NOTA: Una sesión Bio3D-web típica continúa a través de cinco pasos consecutivos y dependientes (vea la Figura 1 para una representación esquemática). Cada paso se implementa como una pestaña de navegación consecutiva de la aplicación web es decir, SEARCH, ALIGN, FIT, PCA y eNMA. 1. Búsqueda y selección de estructuras (SEARCH) Estructura de entrada Obtener el PDB ID de adenilato quinasa (Adk), por ejemplo , buscando en el PDB [http://www.rcsb.org/pdb]. Alternativamente, obtenga la secuencia de aminoácidos de proteína de interés, por ejemplo , de UniProt [http://uniprot.org]. Introduzca el ID de PDB de cuatro caracteres para Adk ( por ejemplo, 1AKE) o pegue una secuencia de proteínas en el cuadro de texto en el panel "Estructura o secuencia de entrada". Selección de pulsaciones Haga clic en el botón azul "Siguiente" (Hit selection) en el primer panel o simplemente desplácese hasta el panel B) "Hit selection"Para su posterior análisis. Asegúrese de que el control deslizante "Limitar el número total de estructuras incluidas" se establece en su valor máximo para incluir todas las estructuras por encima del límite. Baje la opción "Ajustar el límite de inclusión de BitScore" para incluir resultados más lejanos relacionados, o aumentarlo para excluir. Filtrado de aciertos opcionales Haga clic en el botón azul "Siguiente" (Hit selection) en el primer panel o simplemente desplácese hacia abajo hasta el panel C) "Filtrado opcional de estructuras relacionadas para un análisis posterior". Asegúrese de que los resultados seleccionados representan las estructuras relevantes mediante la inspección de detalles de la tabla, por ejemplo , el nombre del AP, la especie y los ligandos unidos. Perfile manualmente el subconjunto seleccionado de estructuras si es necesario haciendo clic en las filas de la tabla. NOTA: Las filas resaltadas con un color azul representan ID de PDB seleccionadas para análisis posterior en pestañas posteriores. 2. Análisis de Alineación de Secuencias Múltiples (ALIGN) Haga clic en la ficha ALINEAR para realizar la alineación de secuencias de las estructuras seleccionadas desde la pestaña SEARCH. Resumen de alineación Revise el resumen de alineación en el panel A) "Resumen de alineación". Asegúrese de que las regiones de interés están alineadas y no enmascaradas por espacios en una o más estructuras. Si es necesario, cambie la opción "Mostrar opciones de edición de alineación" y elimine los ID PDB no deseados, por ejemplo , PDBs con residuos ausentes. Análisis de alineación de secuencias Haga clic en el botón azul "Siguiente" (Análisis) para realizar un análisis de agrupación basado en secuencias de las estructuras recogidas. Seleccione la opción de diagrama Dendrograma. Ajuste el control deslizante de Cluster en grupos K para dividir las estructuras en k grupos. Si lo desea, cambie el método de clúster alternativamente cambiando la casilla de verificación Más clusters y opciones de salida. </oL Análisis de conservación de residuos Haga clic en el botón "Siguiente" (Conservación) azul para calcular la conservación de residuos en columnas. Seleccione los conjuntos de estructuras Alineadas para generar un gráfico de la conservación de residuos en cada posición de alineación. Seleccione Estructuras alineadas con la alineación de semillas de PFAM para mostrar la conservación calculada con respecto a la alineación de semillas de PFAM asociada que contiene miembros representativos de la familia. Visualización de alineación de secuencia Haga clic en el botón azul "Siguiente" (Alineación) para mostrar la alineación completa de secuencia con la herramienta de visualización de alineación dentro del navegador. 3. Ajuste y análisis de la estructura (FIT) Realice superposición de estructuras entrando en la ficha FIT. Superposición de estructura Active la casilla de verificación "Mostrar PDBs" para visualizar laN estructuras en el navegador. Asegúrese de que las estructuras de proteínas se superponen a las regiones correspondientes y relevantes mediante inspecciones visuales. Haga clic y arrastre el ratón sobre las estructuras para girar y desplácese para ampliar. Ajuste el color de las estructuras haciendo clic en "Opciones de color". Las opciones de color incluyen la posición de alineación, la variabilidad estructural por posición, los grupos de grupos de RMSD, los grupos de grupos de secuencia, las regiones alineadas y la estructura secundaria. Descargue las estructuras superpuestas como archivos PDB convencionales o como un solo archivo de sesión PyMOL para su visualización en un programa especializado de visualización molecular. Análisis de la estructura Haga clic en el botón azul "Siguiente" (Análisis) para realizar el agrupamiento basado en estructura de las estructuras de PDB recopiladas. Active el mapa de calor RMSD en el menú desplegable Opciones de trazado. Ajuste las opciones de agrupación, incluido el método de agrupación en sí, Cambiando la casilla de verificación "Más clústeres y opciones de salida". NOTA: Los datos RMSD de pares también se pueden visualizar como un dendrograma, un histograma o un mapa de calor. Fluctuaciones de los residuos Haga clic en el botón azul "Siguiente" (RMSF) para ver la variabilidad estructural de cada residuo (se muestra como un gráfico RMSF) con elementos principales de la estructura secundaria se muestra en las regiones marginales del eje x. Active la casilla de verificación Mostrar los factores B para superponer los factores B cristalográficos de la estructura de referencia en el gráfico RMSF. 4. Análisis de Componentes Principales (PCA) Realice el análisis del componente principal entrando en la pestaña "PCA". Visualización de los componentes principales Active la casilla de verificación "Mostrar PC trayectoria" para visualizar los movimientos descritos por los PC con la herramienta de visualización dentro del navegador. Asegúrese de que "PrinCipal Component 1 "se selecciona en el primer menú desplegable. Para visualizar los movimientos descritos por otros ordenadores, elija el PC deseado en el menú desplegable "Elegir componente principal". Cambie el color de la trayectoria desde el menú desplegable "Opciones de color". Elija "Variabilidad por posición" de "Opciones de color" a color por magnitud de desplazamiento. Haga clic en el botón "Descargar PDB trayectoria" en el panel "Visualización de componente principal" para obtener una vista de trayectoria del movimiento descrito por los PC. Haga clic en el botón "Descargar PyMOL" archivo de sesión para generar un archivo de sesión PyMOL dando los movimientos como un campo vectorial. Análisis de Conformer Proyecte las estructuras individuales en dos PCs seleccionadas haciendo clic en el botón azul "Siguiente" (Plot). Asegúrese de que "PC en el eje X" esté ajustado a 1, y "PC oN eje Y "a 2. Para proyectar las estructuras en otros ordenadores, ajuste la numeración de PC de forma correspondiente. Elija "Cluster by PC Subspace" para colorear las estructuras de la trama mediante agrupaciones basadas en PC; "RMSD" a color por "basado en RMSD" agrupación; Y "Secuencia" para colorear por agrupación basada en secuencia. Haga clic en los puntos individuales de la trama para etiquetar las estructuras. Alternativamente, resalte una o más estructuras en la tabla "Anotación del diagrama conformador PCA" debajo de la gráfica. Deslice las PCs en el control deslizante de subespacio hasta incluir PC más / menos para el algoritmo de agrupación. Contribuciones a los residuos Calcule las contribuciones de los residuos a las PC individuales haciendo clic en el botón azul "Siguiente" (contribuciones de residuos). Trace las contribuciones para PCs adicionales incluyendo el número de PC en el cuadro de texto "Elegir componente principal". Alternar el "Spread liNes ", evite trazar las contribuciones de residuos una encima de la otra. Desactive la casilla de verificación "Trama multilínea" para trazar las contribuciones de residuos en parcelas separadas. Alternar el "Show RMSF" para incluir los valores RMSF (desde la ficha FIT). 5. Análisis de modo normal Ensemble (eNMA) Haga clic en la pestaña eNMA para iniciar el cálculo de modos normales (NMs). Estructura del filtro Ajuste el número de estructuras reduciendo o aumentando el "Cutoff" para la inclusión / exclusión de la estructura. Haga clic en el verde "Run Ensemble NMA" para iniciar el cálculo NMA. Visualización de modos normales Desplácese hacia abajo hasta el segundo panel de la pestaña eNMA (Normal Modes Visualization) para visualizar los NMs. NOTA: Por defecto, el NM con la superposición más alta (similitud) a PC-1 se muestra en elVentana de visualización. Para visualizar los movimientos descritos por otros NMs u otras estructuras PDB, elija el NM y la estructura deseados de los menús desplegables "Elegir modo" y "Mostrar NMs para estructura" , respectivamente. Fluctuaciones de los residuos Haga clic en el botón azul "Siguiente" (fluctuaciones) para calcular las fluctuaciones de las estructuras seleccionadas para eNMA en función de los residuos. Cambie el "Cluster por RMSD" para colorear los perfiles de fluctuación mediante agrupación basada en RMSD. Cambie el "Cluster por RMSIP" para colorear los perfiles de fluctuación mediante agrupación basada en RMSIP. Active la casilla de verificación "Líneas extendidas" para trazar los perfiles de fluctuación agrupados aparte unos de otros. Comparación de NMA y PCA Haga clic en el botón azul "Siguiente" (PCA-vs-NMA) para calcular la similitud entre los NMs individuales y PCs. Seleccione un PDB ID desde el menú desplegable "Comparar NMs de estructura" para calcular la similitud entre los NMs de esta estructura con los PCs calculados en la pestaña PCA. Análisis de superposición Haga clic en el botón azul "Siguiente" (Análisis de superposición) para calcular la superposición entre NM calculados y el vector de diferencia de estructura entre dos estructuras seleccionadas. Seleccione una ID de PDB "de referencia" en el menú desplegable "Comparar NMs de estructura" y una o más ID de PDB en la tabla de estructura para la comparación de pares con la PDB de referencia. Análisis de agrupación Haga clic en el botón azul " Siguiente" (Clustering) para realizar el agrupamiento de estructuras basado en la semejanza de pares NM (RMSIP).

Representative Results

La adenilato quinasa (Adk) es una enzima ubicua que funciona para mantener el equilibrio entre los nucleótidos citoplásmicos esenciales para muchos procesos celulares. Adk opera catalizando la transferencia reversible de un grupo fosforilo de ATP a AMP. Esta reacción se acompaña de muy bien estudiado límite de la tasa de conformación transiciones [ 3 , 21] . Aquí analizamos todas las estructuras disponibles de Adk con Bio3D-web para revelar características detalladas y principios mecanísticos de estas transiciones esenciales. Podemos comenzar nuestro análisis Bio3D-web de Adk ingresando el código PDB RCSB de cualquier estructura conocida de Adk. Por ejemplo, al ingresar la PDB ID 1AKE en el panel A de la pestaña SEARCH se devuelven 167 secuencias de estructuras similares a partir de las cuales se seleccionan automáticamente las 26 superiores para un análisis posterior (véase el panel B). La anotación presenteEd en el panel C indica que estas estructuras seleccionadas son todas de E. coli, se resolvieron mediante difracción de rayos X en un intervalo de grupos espaciales; Tienen un intervalo de resolución de 1,63 a 2,8 Å y se co-cristalizaron con un intervalo de ligandos diferentes (sin ligandos, AMP, ADP, MG y el inhibidor AP5). Tenga en cuenta que los detalles de anotación adicionales se pueden mostrar haciendo clic en la opción "Mostrar / ocultar columnas" en el panel C. La alineación de secuencias múltiples se realiza al entrar en la pestaña ALIGN. El primer panel de la ficha ALIGN muestra un resumen de la alineación que proporciona detalles sobre el número de filas de secuencia (equivalente al número de estructuras PDB), así como el número de posiciones ( es decir, columnas de alineación). Esto incluye una especificación del número de columnas que contienen huecos y no huecos. La figura del lado derecho de la primera fila proporciona una representación esquemática de la alineación de secuencia. AquíE las áreas grises representan posiciones no-gap, mientras que las áreas blancas en la alineación corresponden a las brechas. Una representación de la conservación de la secuencia se muestra por encima de la alineación con las zonas rojas que indican las posiciones bien conservadas, y blanco que indica menos conservadas. Observe que las secuencias en esta figura se ordenan basándose en su similitud proporcionada por el dendrograma de agrupamiento en el lado izquierdo. El segundo panel de esta lengüeta facilita además el agrupamiento de los PDB seleccionados basándose en su similitud de secuencias en pares, que puede visualizarse bien como un dendrograma o como un mapa de calor. Por defecto, se muestra un dendrograma (o diagrama de árbol) que representa la disposición de los clústeres. El eje y del dendrograma representa la distancia (en términos de identidad de secuencia) entre los conglomerados. La superposición de la estructura se realiza automáticamente al entrar en la pestaña FIT. Las estructuras superpuestas, presentadas interactivamente en el panel A, indicaTe la presencia de una región central relativamente rígida (que abarca los residuos 1-29, 68-117 y 161-214), vea el panel 'detalles opcionales del núcleo y detalles RMSD en la parte inferior de la lengüeta FIT para más detalles). También son claramente visibles dos regiones de unión a nucleótidos más variables (residuos 30-67 y 118-167) ( Figura 2 ). El agrupamiento basado en RMSD agrupa estas estructuras en dos conformaciones distintas. Al hacer clic en la pestaña PCA se muestra más claramente la relación entre las estructuras en términos de los desplazamientos de estas regiones que cierran efectivamente sobre las especies de nucleótidos unidas en estructuras relacionadas ( Figura 2B y 2C ). La mayoría de las estructuras están en la forma "cerrada" (azul en la Figura 2C ) y están asociadas con un ligando o inhibidor unido. En contraste, las conformaciones más 'abiertas' son libres de nucleótidos y inhibidores. Esto es coherente conEl extenso cuerpo de investigación sobre la estructura y la dinámica de Adk indica que se requiere una configuración abierta de estas regiones para la unión de nucleótidos y una conformación cerrada para la transferencia eficiente de fosforilo y la supresión de eventos de hidrólisis perjudiciales. Es notable que una sola PC captura el 97% del desplazamiento cuadrático medio total en este conjunto de estructuras de Adk y proporciona una descripción clara y convincente de la transición abierta a cerrada junto con las contribuciones individuales de residuos a este desplazamiento funcional (panel C de la aplicación Y Figura 2 ). La visita a la pestaña NMA y el aumento del número de estructuras consideradas para el cálculo (a través de la disminución del corte para filtrar estructuras similares) indica que las estructuras de estado abierto muestran dinámicas locales y globales mejoradas en comparación con las estructuras de forma cerrada ( Figura 2D y panel C de app) . Comparando resultados de PCA y NMA para(Panel D) indica que el primer modo de todas las estructuras de forma abierta muestra una superposición relativamente alta con PC1 (con un valor medio de 0,37 ± 0,04). Por el contrario, las estructuras de forma cerrada muestran valores más bajos (con una media de 0,30 ± 0,01). RMSIP valores para las estructuras de forma abierta (0,62 ± 0,003) son también más altos que los de estructuras cerradas (0,56 ± 0,008). Además, el análisis de superposición muestra que los primeros modos del estado abierto están en buen acuerdo con el cambio conformacional que describe la diferencia de los estados abierto y cerrado (panel E). El agrupamiento basado en valores RMSIP muestra de nuevo una partición consistente de estructuras de estado abierto y cerrado (panel F). Colectivamente estos resultados indican la existencia de dos estados conformacionales distintos para Adk. Éstos difieren por un desplazamiento colectivo de baja frecuencia de dos regiones de sitio de unión a nucleótidos que muestran una flexibilidad distintaSobre la unión de nucleótidos. Figura 1: Visión general de Bio3D-web con capturas de pantalla de las fichas PCA y NMA. Bio3D-web toma una estructura o secuencia de proteínas proporcionada por el usuario como entrada en la pestaña SEARCH ( 1 ). El servidor proporciona una lista de estructuras relacionadas, que se pueden seleccionar para un análisis posterior. ( 2 ) La pestaña ALIGN proporciona la alineación de secuencias y el análisis de las estructuras seleccionadas en la pestaña SEARCH. ( 3 ) En la pestaña FIT se superponen todas las estructuras y se visualizan en 3D junto con los resultados del análisis de estructura de pares convencional. ( 4 ) El análisis de componentes principales del conjunto de estructuras se realiza en la pestaña PCA para caracterizar las relaciones interconformidad. ( 5 ) El análisis de modo normal en cada estructura se puede llevar a cabo en la pestaña eNMAPara explorar tendencias dinámicas para los estados estructurales disponibles. Haga clic aquí para ver una versión más grande de esta figura. Figura 2: Resultados del análisis Bio3D-web de adenilato quinasa. ( A ) Estructuras PDB disponibles de adenilato quinasa superpuestas sobre el núcleo invariante identificado. Las estructuras se colorean de acuerdo con el agrupamiento basado en RMSD proporcionado en la ficha FIT. ( B ) La visualización de los componentes principales está disponible en la pestaña PCA para caracterizar las principales variaciones conformacionales en el conjunto de datos. Aquí, la trayectoria correspondiente al primer componente principal se muestra en representación en tubo que muestra el movimiento de cierre a gran escala de la proteína. ( C ) Las estructuras son prOjetado sobre sus dos primeros componentes principales en un diagrama de conformer que muestra una representación de baja dimensión de la variabilidad conformacional. Cada punto (o estructura) se colorea según los criterios especificados por el usuario, en este caso los resultados de agrupación basados ​​en PCA. ( D ) El análisis de modo normal en la pestaña eNMA sugiere dinámicas locales y globales mejoradas para estructuras en estado abierto (rojo) en comparación con las estructuras de forma cerrada (azul). Haga clic aquí para ver una versión más grande de esta figura.

Discussion

Bio3D-web puede ser utilizado para explorar interactivamente y mapear los estados estructurales, dinámicos y funcionales de las proteínas de las estructuras cristalográficas disponibles. Además, los resultados de agrupación basados ​​en NMA y PCA, junto con las anotaciones y el análisis basado en secuencias, pueden ser particularmente útiles para seleccionar estructuras representativas para análisis más largos tales como acoplamiento de moléculas pequeñas o simulaciones de dinámica molecular. Por lo tanto Bio3D-web facilita el análisis avanzado de la bioinformática estructural para un rango más amplio de investigadores al reducir el nivel requerido de experiencia técnica. El diseño actual de Bio3D-web enfatiza la simplicidad sobre la inclusión exhaustiva de los muchos métodos de análisis disponibles en el paquete completo Bio3D autónomo. En muchos casos se prevé que los investigadores utilizarán Bio3D-web para comprender las tendencias generales en su familia de proteínas o superfamilia de interés, lo que podría informar a más análisis especializados. Bio3D-web es elPor lo tanto, diseñados para explorar rápidamente conjuntos de datos de estructura biomolecular y actuar como una herramienta generadora de hipótesis. Animamos a los usuarios a seguir explorando sus datos proporcionando un ejemplo de código Bio3D en el informe reproducible que también almacena todos los detalles de la consulta y los resultados del análisis.

En el protocolo de ejemplo representativo anterior, mostramos la capacidad de Bio3D-web para revelar las características estructurales de las transiciones conformacionales funcionales de Adk. Las aplicaciones adicionales de Bio3D-web incluyen análisis estructural y dinámico de estructuras de PDB cargadas por usuarios. Por ejemplo, el usuario puede cargar nuevas estructuras o incluso secuencias de proteínas para su análisis. Los pasos de análisis mencionados anteriormente, especialmente el paso eNMA, pueden revelar las tendencias locales y globales en movimientos de proteínas, con movimientos colectivos de importancia funcional. La comparación con las estructuras de apo también puede revelar características de uniones no unidas a transiciones conformacionales unidas. Ejemplos adicionales de aplicación aUna gama de diferentes familias de proteínas se proporcionan en línea.

Aunque todas las proteínas son entidades flexibles y dinámicas, no todas las proteínas tienen estructuras de resolución atómica disponibles en una gama de estados diferentes ( por ejemplo, estados activos e inactivos). Nuestra visión del espacio de la estructura de proteínas es, por tanto, limitada y, por lo tanto, la percepción obtenida a partir de herramientas como Bio3D-web es necesariamente también limitada para ciertas proteínas. Sin embargo, con los avances tecnológicos actuales y las nuevas iniciativas para la genómica estructural, el protocolo presentado aquí se convertirá cada vez más en una ruta importante para conocer mejor las relaciones estructura-función. Un paso crítico, que es particularmente importante cuando se analizan proteínas más distantes, es la aparición potencial de errores de alineación en la pestaña ALIGN. Los errores de alineación inevitablemente se producirán cuando la similitud de secuencia cae por debajo del 30% y el usuario debe, en tales casos, verificar y corregir la alineación de secuenciaEn la pestaña ALINEAR. Los errores de alineación posiblemente resultarán en estructuras superpuestas incorrectas en la pestaña FIT y enmascararán las variaciones conformacionales más relevantes para el PCA subsiguiente. Además, el usuario debe ser consciente de los residuos que faltan en las estructuras de PDB seleccionadas, como en la implementación actual PCA sólo se puede realizar en residuos de proteínas en el que todas las estructuras tienen su correspondiente átomo de carbono alfa resuelto. En consecuencia, si un PDB seleccionado tiene residuos no resueltos para una región particular de la proteína, esta región se omitirá de PCA.

Bio3D-web se limita actualmente al análisis de estructuras de PDB de cadena única. En consecuencia, los movimientos funcionales que ocurren en el nivel cuaternario no pueden ser explorados usando el protocolo actual. Aunque actualmente estamos desarrollando nuevos algoritmos para incluir este tipo de análisis en Bio3D-web, la única opción actual es a través del uso convencional de Bio3D.

Bio3D-web es la única aplicación en líneaQue permite consultar e identificar conjuntos de estructuras, interpretar sus patrones de secuencia y variabilidad estructural y extraer información mecanicista tanto del análisis como de la predicción de su plasticidad estructural. Una amplia gama de herramientas de visualización molecular y servidores en línea permiten a los investigadores explorar y analizar estructuras biomoleculares individuales. Sin embargo, las herramientas existentes para el análisis de la secuencia, la estructura y la dinámica de las grandes familias heterogéneas de proteínas a menudo requieren conocimientos computacionales significativos y, por lo general, sólo son accesibles a los usuarios con habilidades de programación relevantes. Por ejemplo, el paquete Bio3D requiere R 8 , ProDy requiere python y Maven requiere conocimientos de Matlab 9 , 10 . Bio3D-web en contraste no requiere ningún conocimiento de programación y, por tanto, aumenta la accesibilidad y disminuye la barrera de entrada a la realización avanzada secuencia comparativa, estructura y dyAnálisis de la calidad. Además, la preparación, curación, anotación y limpieza de estructuras moleculares que es frecuentemente necesario para un análisis eficiente se incluye con el servicio Bio3D-web. Además, la restricción para realizar este análisis en recursos computacionales capaces se ve aliviada por nuestra instancia de servidor que permite el análisis a gran escala de muchas estructuras que pueden ser iniciadas y controladas desde cualquier navegador web moderno.

El desarrollo abierto de Bio3D-web está en curso (ver https://bitbucket.org/Grantlab/bio3d). Continuamos agregando nueva funcionalidad de análisis y mejorando los métodos existentes. El desarrollo futuro se centrará en la adición de PCA basada en la matriz de distancia y PCA torsional, enfoques de conservación de secuencias más extensos que incluyen un componente filogenético, identificación del sitio de unión del conjunto y nuevos enfoques para el análisis dinámico de redes entre familias de proteínas. A este respecto, la aplicación web actual representa el punto de partidaT para muchos otros flujos de trabajo de análisis bioinformático estructural colaborativo permitiendo pasos reproducibles y compartibles en conjuntos de estructura experimental definidos por el usuario. También planificamos el apoyo futuro de conjuntos de coordenadas de unidades biológicas reconstruidas además de cadenas individuales y múltiples de la unidad asimétrica de estructuras de PDB. Las características adicionales incluirán el ahorro y carga mejorados de espacios de trabajo colaborativos junto con una posibilidad de deshacer.

Bio3D-web es una aplicación en línea para el análisis interactivo de datos de estructura biomolecular. Bio3D-web se ejecuta en cualquier navegador Web moderno y proporciona funcionalidad para: (1) La identificación de conjuntos de estructuras de proteínas relacionadas con los umbrales de similitud especificados por el usuario; (2) Su superposición de alineación y estructura múltiple; (3) Análisis de la secuencia y la conservación de la estructura; (4) Cartografía de la relación interconformidad con el análisis del componente principal, y (5) comparación de la dinámica interna predicha a través del conjunto niAnálisis de modo malo. Esta funcionalidad integrada proporciona un flujo de trabajo completo para la investigación de relaciones estructura-secuencia-dinámica dentro de familias de proteínas y superfamilias. Además de una conveniente interfaz dinámica fácil de usar para explorar los efectos de las opciones de parámetros y métodos, Bio3D-web también registra la entrada completa del usuario y los resultados gráficos subsiguientes de la sesión de un usuario. Esto permite a los usuarios compartir y reproducir fácilmente la secuencia de pasos de análisis que crearon sus resultados. Bio3D-web se implementa completamente en el lenguaje R y se basa en los paquetes Bio3D y Shiny R. Puede ejecutarse desde nuestro servidor en línea o instalarse localmente en cualquier computadora que ejecute R. Esto incluye la instalación del servidor local para proporcionar una instancia multiusuario personalizada con acceso a conjuntos de datos estructurales prioritarios como los comunes en la industria farmacéutica. El código fuente completo y la extensa documentación se proporcionan bajo una licencia de código abierto GPL-3 de: http://thegrantlab.org/ Bio3d / webapps

Disclosures

The authors have nothing to disclose.

Acknowledgements

Damos las gracias al Dr. Guido Scarabelli y Hongyang Li para las pruebas extensas durante el desarrollo, así como la comunidad de usuarios de Bio3D y los participantes del taller de bioinformática estructural de la Universidad de Bergen para comentarios y comentarios que han mejorado esta aplicación.

Materials

Bio3D-web
Web-site http://thegrantlab.org/bio3d-web/
Requirements Web browser

References

  1. Kornev, A. P., Taylor, S. S. Dynamics-Driven Allostery in Protein Kinases. Trends Biochem. Sci. 40 (11), 628-647 (2015).
  2. Yao, X. -. Q., Grant, B. J. Domain-opening and dynamic coupling in the α-subunit of heterotrimeric G proteins. Biophys. J. 105 (2), L08-L10 (2013).
  3. Henzler-Wildman, K. A., et al. Intrinsic motions along an enzymatic reaction trajectory. Nature. 450 (7171), 838-844 (2007).
  4. Boehr, D., Nussinov, R., Wright, P. The role of dynamic conformational ensembles in biomolecular recognition. Nat. Chem. Biol. 5 (11), 789-796 (2009).
  5. Teilum, K., Olsen, J. G., Kragelund, B. B. Functional aspects of protein flexibility. Cell Mol Life Sci. 66 (14), 2231-2247 (2009).
  6. Henzler-Wildman, K., Kern, D. Dynamic personalities of proteins. Nature. 450 (7172), 964-972 (2007).
  7. Grant, B. J., Gorfe, A. A., McCammon, J. A. Large conformational changes in proteins: signaling and other functions. Curr. Opin. Struct. Biol. 20 (2), 142-147 (2010).
  8. Grant, B. J., Rodrigues, A. P. C., ElSawy, K. M., McCammon, J. A., Caves, L. S. D. Bio3d: an R package for the comparative analysis of protein structures. Bioinformatics. 22 (21), 2695-2696 (2006).
  9. Bakan, A., Meireles, L. M., Bahar, I. ProDy: protein dynamics inferred from theory and experiments. Bioinformatics. 27 (11), 1575-1577 (2011).
  10. Zimmermann, M. T., Kloczkowski, A., Jernigan, R. L. MAVENs: motion analysis and visualization of elastic networks and structural ensembles. BMC Bioinformatics. 12 (1), 264 (2011).
  11. Yang, L. -. W., et al. oGNM: online computation of structural dynamics using the Gaussian Network Model. Nucleic Acids Res. 34, 24-31 (2006).
  12. Suhre, K., Sanejouand, Y. -. H. ElNemo: a normal mode web server for protein movement analysis and the generation of templates for molecular replacement. Nucleic Acids Res. 32, W610-W614 (2004).
  13. Tiwari, S. P., et al. WEBnm@ v2.0: Web server and services for comparing protein flexibility. BMC Bioinformatics. 15 (1), 427 (2014).
  14. Hrabe, T., et al. PDBFlex: exploring flexibility in protein structures. Nucleic Acids Res. 44, D423-D428 (2016).
  15. Skjærven, L., Jariwala, S., Yao, X. -. Q., Grant, B. J. Online interactive analysis of protein structure ensembles with Bio3D-web. Bioinformatics. , (2016).
  16. Skjærven, L., Yao, X., Scarabelli, G., Grant, B. J. Integrating protein structural dynamics and evolutionary analysis with Bio3D. BMC Bioinformatics. 15 (399), 1-11 (2014).
  17. Eddy, S. R. Accelerated Profile HMM Searches. PLoS Comput. Biol. 7 (10), (2011).
  18. Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  19. Berman, H. M. The Protein Data Bank. Nucleic Acids Res. 28 (1), 235-242 (2000).
  20. Finn, R. D., et al. Pfam: the protein families database. Nucleic Acids Res. 42, D222-D230 (2014).
  21. Kerns, S. J., et al. The energy landscape of adenylate kinase during catalysis. Nat. Struct. Mol. Biol. 22 (2), 124-131 (2015).

Play Video

Cite This Article
Jariwala, S., Skjærven, L., Yao, X., Grant, B. J. Investigating Protein Sequence-structure-dynamics Relationships with Bio3D-web. J. Vis. Exp. (125), e55640, doi:10.3791/55640 (2017).

View Video