Una habilidad clave en el modelado biomolecular es mostrar y anotar sitios activos en proteínas. Esta técnica se demuestra utilizando cuatro programas gratuitos populares para la visualización macromolecular: iCn3D, Jmol, PyMOL y UCSF ChimeraX.
Las habilidades de visualización biomolecular son primordiales para comprender conceptos clave en las ciencias biológicas, como las relaciones estructura-función y las interacciones moleculares. Varios programas permiten a un alumno manipular estructuras 3D, y el modelado biomolecular promueve el aprendizaje activo, desarrolla habilidades computacionales y cierra la brecha entre las imágenes de libros de texto bidimensionales y las tres dimensiones de la vida. Una habilidad crítica en esta área es modelar un sitio activo de proteína, mostrando partes de la macromolécula que pueden interactuar con una molécula pequeña, o ligando, de una manera que muestre interacciones de unión. En este protocolo, describimos este proceso utilizando cuatro programas de modelado macromolecular disponibles gratuitamente: iCn3D, Jmol / JSmol, PyMOL y UCSF ChimeraX. Esta guía está dirigida a estudiantes que buscan aprender los conceptos básicos de un programa específico, así como a instructores que incorporan modelos biomoleculares en su plan de estudios. El protocolo permite al usuario modelar un sitio activo utilizando un programa de visualización específico, o probar varios de los programas gratuitos disponibles. El modelo elegido para este protocolo es la glucoquinasa humana, una isoforma de la enzima hexoquinasa, que cataliza el primer paso de la glucólisis. La enzima se une a uno de sus sustratos, así como a un análogo de sustrato no reactivo, que permite al usuario analizar las interacciones en el complejo catalítico.
Comprender las representaciones del mundo molecular es fundamental para convertirse en un experto en las ciencias biomoleculares1,porque la interpretación de tales imágenes es clave para comprender la función biológica2. La introducción de un alumno a las macromoléculas generalmente viene en forma de imágenes de libros de texto bidimensionales de membranas celulares, orgánulos, macromoléculas, etc., pero la realidad biológica es que estas son estructuras tridimensionales, y una comprensión de sus propiedades requiere formas de visualizar y extraer significado de los modelos 3D.
En consecuencia, el desarrollo de la alfabetización visual biomolecular en los cursos de ciencias de la vida molecular de división superior ha ganado atención, con una serie de artículos que informan sobre la importancia y las dificultades de enseñar y evaluar las habilidades de visualización1,3,4,5,6,7,8,9 . La respuesta a estos artículos ha sido un aumento en el número de intervenciones en el aula, generalmente dentro de un semestre en una sola institución, en el que se utilizan programas y modelos de visualización molecular para apuntar a conceptos difíciles2,10,11,12,13,14,15 . Adicionalmente, los investigadores han buscado caracterizar cómo los estudiantes utilizan programas y/o modelos de visualización biomolecular para abordar un tema específico16,17,18,19. Nuestro propio grupo, BioMolViz, ha descrito un Marco que subdivide temas generales en alfabetización visual en metas y objetivos de aprendizaje para guiar tales intervenciones20,21,y dirigimos talleres que capacitan a los profesores para usar el Marco en el diseño hacia atrás de las evaluaciones para medir las habilidades de alfabetización visual22.
En el centro de todo este trabajo se encuentra una habilidad crítica: la capacidad de manipular estructuras de macromoléculas utilizando programas para la visualización biomolecular. Estas herramientas se desarrollaron de forma independiente utilizando una variedad de plataformas; por lo tanto, pueden ser bastante únicos en su funcionamiento y uso. Esto requiere instrucciones específicas del programa, y la identificación de un programa con el que un usuario se sienta cómodo es importante para facilitar la implementación continua.
Más allá de los conceptos básicos de la manipulación de estructuras en 3D (rotación, selección y alteración del modelo), un objetivo importante es modelar el sitio activo de una proteína. Este proceso permite a un alumno desarrollar su comprensión en tres temas generales descritos por el Marco BioMolViz: interacciones moleculares, ligandos / modificaciones y relaciones estructura-función20,21.
Cuatro opciones populares de programas para la visualización biomolecular incluyen: Jmol / JSmol23, iCn3D24, PyMOL25y UCSF Chimera26,27. Alentamos a los nuevos en Chimera a usar UCSF ChimeraX, la próxima generación del programa de visualización molecular Chimera, que es la versión actualmente compatible del programa.
En este protocolo, demostramos cómo utilizar cada uno de estos cuatro programas para modelar el sitio activo de la glucoquinasa humana con un complejo análogo de sustrato unido (PDB ID: 3FGU), y para mostrar mediciones para ilustrar interacciones de unión específicas28. El modelo representa un complejo catalítico de la enzima. Para capturar el sitio activo en el estado de precatálisis, un análogo no hidrolizable de ATP se unió al sitio activo de la glucoquinasa. Este éster de ácido fosfoaminofosfónico-adenilato (ANP) contiene un enlace fósforo-nitrógeno en lugar del enlace habitual fósforo-oxígeno en esta posición. El sitio activo también contiene glucosa (denotada BCG en el modelo) y magnesio (denotado MG). Además, hay un ion de potasio (K) en la estructura, resultante del cloruro de potasio utilizado en el disolvente de cristalización. Este ion no es crítico para la función biológica y se encuentra fuera del sitio activo.
Figura 1:Estructuras ATP/ANP. Estructura del trifosfato de adenosina (ATP) en comparación con el éster de ácido fosfoaminofosfónico-adenilato (ANP). Haga clic aquí para ver una versión más grande de esta figura.
El protocolo demuestra la selección de los ligandos unidos del complejo análogo de sustrato y la identificación de residuos de sitio activo dentro de 5 Å del complejo unido, que captura aminoácidos y moléculas de agua capaces de realizar interacciones moleculares relevantes, incluidas las interacciones hidrofóbicas y de van der Waals.
La pantalla se manipula inicialmente para mostrar la mayoría de la proteína en una representación de dibujos animados, con los residuos de aminoácidos del sitio activo en la representación de palo para mostrar los átomos relevantes de la proteína y resaltar las interacciones moleculares. Después del paso 3 del protocolo para cada programa, se han aplicado estas representaciones y la vista de la proteína es similar en todos los programas(Figura 2). Al final del protocolo, la caricatura de proteína se oculta para simplificar la vista y centrarse en el sitio activo.
Figura 2: Comparación de estructuras entre programas. Comparación de la estructura de 3FGU en cada programa siguiendo el paso Ajustar la representación (paso 2 o 3 de cada protocolo). Haga clic aquí para ver una versión más grande de esta figura.
La coloración CPK se aplica al sitio activo aminoácidos y ligandos unidos29,30. Este esquema de coloración distingue átomos de diferentes elementos químicos en modelos moleculares que se muestran en línea, palo, bola y palo, y representaciones que llenan el espacio. El hidrógeno es blanco, el nitrógeno es azul, el oxígeno es rojo, el azufre es amarillo y el fósforo es naranja en el esquema de coloración CPK. Tradicionalmente, el negro se usa para el carbono, aunque en el uso moderno, la coloración del carbono puede variar.
Los átomos de hidrógeno no son visibles en las estructuras cristalinas, aunque cada uno de estos programas es capaz de predecir su ubicación. Agregar los átomos de hidrógeno a una gran estructura macromolecular puede oscurecer la vista, por lo que no se muestran en este protocolo. En consecuencia, los enlaces de hidrógeno se mostrarán midiendo desde el centro de dos heteroátomos (por ejemplo, oxígeno a oxígeno, oxígeno a nitrógeno) en estas estructuras.
Descripciones generales del programa
Interfaces gráficas de usuario (GUI) descargables: PyMOL (Versión 2.4.1), ChimeraX (Versión 1.2.5) y Jmol (Versión 1.8.0_301) son herramientas de modelado molecular basadas en GUI. Estas tres interfaces cuentan con líneas de comandos para ingresar código tipado; muchas de las mismas capacidades están disponibles a través de menús y botones en la GUI. Una característica común en la línea de comandos de estos programas es que el usuario puede cargar y volver a ejecutar comandos anteriores utilizando las teclas de flecha arriba y abajo del teclado.
GUI basadas en web: iCn3D (I-see-in-3D) es un visor basado en WebGL para la visualización interactiva de estructuras macromoleculares tridimensionales y productos químicos en la Web, sin la necesidad de instalar una aplicación separada. No utiliza una línea de comandos, aunque la versión web completa cuenta con un registro de comandos editable. JSmol es una versión JavaScript o HTML5 de Jmol para su uso en un sitio web o en una ventana del navegador web, y es muy similar en funcionamiento a Jmol. JSmol se puede utilizar para crear tutoriales en línea, incluyendo animaciones.
Proteopedia31,32, FirstGlance en Jmol33y la interfaz web JSmol (JUDE) en el Centro de Modelado BioMolecular de la Escuela de Ingeniería de Milwaukee son ejemplos de tales entornos de diseño en línea basados en Jmol34. La wiki de Proteopedia es una herramienta didáctica que permite al usuario modelar una estructura de macromoléculas y crear páginas con estos modelos dentro del sitio web35. La herramienta de creación de escenas Proteopedia, creada con JSmol, integra una GUI con características adicionales que no están disponibles en la GUI de Jmol.
Jmol e iCn3D se basan en el lenguaje de programación Java; JSmol utiliza Java o HTML5, y PyMOL y ChimeraX se basan en el lenguaje de programación Python. Cada uno de estos programas carga archivos de banco de datos de proteínas, que se pueden descargar del Banco de Datos de Proteínas RCSB bajo un PDB alfanumérico de 4 dígitos ID36,37. Los tipos de archivo más comunes son los archivos Protein Data Bank (PDB) que contienen la extensión .pdb y el archivo de información cristalográfica (CIF o mmCIF) que contiene la extensión .cif. CIF ha reemplazado a PDB como el tipo de archivo predeterminado para el Protein Data Bank, pero ambos formatos de archivo funcionan en estos programas. Puede haber ligeras diferencias en la forma en que se muestra la secuencia / estructura cuando se usa CIF en lugar de archivos PDB; sin embargo, los archivos funcionan de manera similar y las diferencias no se abordarán en detalle aquí. La Base de Datos de Modelado Molecular (MMDB), un producto del Centro Nacional de Información Biotecnológica (NCBI), es un subconjunto de estructuras de PDB a las que se ha asociado información categórica (por ejemplo, características biológicas, dominios de proteínas conservados)38. iCn3D, un producto del NCBI, es capaz de cargar archivos PDB que contienen los datos MMDB.
Para ver un modelo, el usuario puede descargar el archivo deseado desde la página dedicada del Banco de datos de proteínas para la estructura (por ejemplo, https://www.rcsb.org/structure/3FGU)y luego usar el menú desplegable Archivo del programa para abrir la estructura. Todos los programas también son capaces de cargar un archivo de estructura directamente a través de la interfaz, y ese método se detalla dentro de los protocolos.
Las GUI de ChimeraX, Jmol y PyMOL contienen una o más ventanas de la consola que se pueden cambiar de tamaño arrastrando la esquina. iCn3D y JSmol están completamente contenidos en un navegador web. Al usar iCn3D, es posible que el usuario deba desplazarse dentro de las ventanas emergentes para mostrar todos los elementos del menú, según el tamaño y la resolución de la pantalla.
Los protocolos detallados aquí proporcionan un método simple para mostrar el sitio activo de la enzima utilizando cada programa. Cabe señalar que existen múltiples formas de ejecutar los pasos en cada programa. Por ejemplo, en ChimeraX, la misma tarea se puede ejecutar utilizando menús desplegables, la barra de herramientas en la parte superior o la línea de comandos. Se anima a los usuarios interesados en aprender un programa específico en detalle a explorar los tutoriales en línea, manuales y wikis disponibles para estos programas39,40,41,42,43,44,45,46.
Los manuales y tutoriales existentes para estos programas presentan los elementos de este protocolo como tareas discretas. Para mostrar un sitio activo, el usuario debe sintetizar las operaciones requeridas de los diversos manuales y tutoriales. Este manuscrito aumenta los tutoriales existentes disponibles al presentar un protocolo lineal para modelar un sitio activo etiquetado con interacciones moleculares, proporcionando al usuario una lógica para el modelado activo del sitio que se puede aplicar a otros modelos y programas.
Figura 3: Chimerax GUI. Interfaz GUI de ChimeraX con los menús desplegables, la barra de herramientas, el visor de estructuras y la línea de comandos etiquetados. Haga clic aquí para ver una versión más grande de esta figura.
Figura 4:iCn3D GUI. Interfaz iCn3D GUI con los menús desplegables, barra de herramientas, visor de estructuras, registro de comandos, ventana emergente de conjuntos de selección y menús emergentes de secuencia y anotaciones etiquetados. Haga clic aquí para ver una versión más grande de esta figura.
Figura 5:Jmol GUI. Interfaz GUI de Jmol con los menús desplegables, la barra de herramientas, el visor de estructuras, el menú emergente y la consola / línea de comandos etiquetada. Haga clic aquí para ver una versión más grande de esta figura.
Figura 6:PyMOL GUI. Interfaz GUI de PyMOL con los menús desplegables, el visor de estructuras, el panel de nombres/objetos, el menú de controles del mouse y la línea de comandos etiquetada. Haga clic aquí para ver una versión más grande de esta figura.
Este protocolo describe un proceso de diez pasos para el modelado de un sitio activo enzimático, aplicado a cuatro programas populares para el modelado biomolecular. Los pasos críticos del protocolo son: identificar los ligandos en el sitio activo, seleccionar residuos dentro de 5 Å para definir un sitio activo y mostrar las interacciones de la enzima con los ligandos de sitio activo. Distinguir los ligandos relevantes para la función biológica es primordial, ya que esto permite al usuario definir los residuos de aminoácidos dentro de 5 Å que pueden desempeñar un papel en la unión de los ligandos. Finalmente, el uso del programa para mostrar interacciones moleculares permite al usuario desarrollar las habilidades necesarias para comprender las interacciones moleculares que promueven la unión.
Una limitación de los protocolos de modelado molecular basados en computadora es la dependencia de comandos y sintaxis específicos. Si bien los protocolos bioquímicos pueden ser tolerantes a pequeños cambios en el procedimiento, las investigaciones basadas en computadora pueden producir productos finales muy diferentes si el procedimiento no se cumple estrechamente. Esto es particularmente importante cuando se utilizan interfaces de línea de comandos donde se requiere sintaxis específica del programa para lograr una cierta salida, y un cambio aparentemente insignificante en la puntuación o las mayúsculas puede hacer que un comando falle. Hay varios Wikis y manuales para cada programa, donde un usuario puede encontrar y solucionar problemas de entradas de línea de comandos; el usuario debe prestar mucha atención a los detalles de la sintaxis del comando. Aunque la mayoría de los programas de visualización molecular incluyen comandos de deshacer, debido a la complejidad de las interfaces, el comando deshacer no siempre invierte fielmente el último paso ejecutado. Por lo tanto, a menudo se recomienda guardar el estado de trabajo actual, especialmente para los nuevos usuarios.
Otras limitaciones pueden surgir de los datos utilizados para crear el modelo en sí. Si bien los estándares inherentes al Banco de Datos de Proteínas aseguran un cierto nivel de consistencia, los usuarios de programas de visualización molecular a menudo encontrarán efectos inesperados en una representación de proteínas. En primer lugar, la mayoría de las estructuras se determinan mediante cristalografía de rayos X, que proporciona un modelo único de la proteína; sin embargo, las estructuras de RMN a menudo se componen de múltiples modelos que se pueden visualizar uno a la vez. En segundo lugar, las estructuras determinadas a partir de experimentos de cristalografía o microscopía electrónica criogénica pueden contener átomos cuya posición no se puede dilucidar y aparecer como huecos en ciertas representaciones de la proteína. Las estructuras proteicas pueden tener conformaciones alternativas de cadenas laterales, que, cuando se muestran en la representación en barra, aparecen como dos grupos que sobresalen de la misma columna vertebral de aminoácidos. Incluso las secciones cortas de la columna vertebral pueden tener tales conformaciones alternativas, y a veces los ligandos se superponen en el sitio activo en más de una conformación de unión.
Para una estructura cristalina, las coordenadas 3D depositadas incluyen todos los componentes de la unidad asimétrica, lo que proporciona suficiente información para reproducir la unidad repetitiva de un cristal de proteína. A veces, esta estructura contendrá cadenas de proteínas adicionales en comparación con la forma biológicamente activa de la proteína (por ejemplo, mutante de hemoglobina fetal, PDB ID: 4MQK). Por el contrario, es posible que algunos programas no carguen automáticamente todas las cadenas de la unidad biológicamente activa. Por ejemplo, la proteasa principal del SARS-CoV2 (PDB ID: 6Y2E) carga la mitad del dímero biológicamente activo (compuesto por dos cadenas de proteínas) cuando se obtiene utilizando los comandos descritos en este protocolo en ChimeraX, PyMOL y Jmol. Aunque una ligera modificación del comando cargará el dímero biológicamente activo, esta consideración puede no ser sencilla para el usuario novato del programa de modelado. Un problema diferente que puede surgir es en la identificación del sitio activo o sustrato en sí. Los experimentos cristalográficos se llevan a cabo utilizando una variedad de moléculas, que pueden ser modeladas en la estructura final. Por ejemplo, las moléculas de sulfato pueden unirse a los sitios de unión al fosfato en el sitio activo, o pueden unirse a otras regiones que no son relevantes para el mecanismo. Estas moléculas pueden oscurecer la correcta identificación del sitio activo en sí e incluso pueden sugerir al estudiante que son parte del mecanismo.
Presumiblemente, el usuario querrá aplicar este procedimiento a otros sitios activos / vinculantes. Para aplicar este protocolo en el trabajo futuro que implique el análisis de nuevos sitios activos de proteínas, el usuario deberá identificar cuáles de los ligandos unidos son relevantes para la función. Algunos ligandos no están asociados con la función de la proteína, y en su lugar son el resultado de las condiciones de disolvente o cristalización utilizadas para llevar a cabo el experimento (por ejemplo, el ion potasio presente en el modelo 3FGU). Los ligandos clave deben identificarse consultando el manuscrito original. Con la práctica y, cuando corresponda, una comprensión de la sintaxis del comando de línea, un usuario podrá aplicar el protocolo para el programa de modelado deseado a cualquier sitio activo de enzimas y modelar otras macromoléculas de su elección.
La identificación y el análisis de sustratos y ligandos unidos es fundamental para la elucidación de los mecanismos moleculares y los esfuerzos de diseño de fármacos basados en la estructura, que han llevado directamente a mejoras en los tratamientos para la enfermedad, incluido el síndrome de inmunodeficiencia adquirida (SIDA) yCOVID-19 47,48,49,50,51,52 . Si bien los programas individuales de visualización molecular ofrecen diferentes interfaces y experiencias de usuario, la mayoría ofrecen características comparables. Es importante para el desarrollo de la alfabetización en visualización biomolecular que los estudiantes de bioquímica de nivel superior se familiaricen con la visualización de estructuras y las herramientas para generar tales imágenes4,20,53. Esto permite a los estudiantes ir más allá de la interpretación de imágenes bidimensionales en libros de texto y artículos de revistas y desarrollar más fácilmente sus propias hipótesis a partir de datos estructurales54,lo que preparará a los científicos en desarrollo para abordar futuros problemas de salud pública y mejorar la comprensión de los procesos bioquímicos.
En resumen, este protocolo detalla el modelado de sitios activos utilizando cuatro programas de modelado macromolecular gratuitos líderes. Nuestra comunidad, BioMolViz, adopta un enfoque no específico de software para el modelado biomolecular. Evitamos específicamente una crítica o comparación de las características del programa, aunque un usuario que muestree cada programa probablemente encontrará que prefiere ciertos aspectos del modelado macromolecular en un programa frente a otro. Invitamos a los lectores a utilizar el Marco BioMolViz, que detalla las metas y objetivos de aprendizaje basados en la visualización biomolecular objetivo en este protocolo, y explorar recursos para enseñar y aprender la visualización biomolecular a través del sitio web de la comunidad BioMolViz en http://biomolviz.org.
The authors have nothing to disclose.
La financiación para este trabajo ha sido proporcionada por la Fundación Nacional de Ciencias:
Mejora de la Subvención de Educación STEM de Pregrado (Premio # 1712268)
Redes de Coordinación de Investigación en Pregrado en Educación Biología de Pregrado (Premio # 1920270)
Estamos agradecidos con Karsten Theis, PhD, Westfield University, por las útiles discusiones sobre Jmol.
ChimeraX (Version 1.2.5) https://www.rbvi.ucsf.edu/chimerax/ | |||
Computer | Any | ||
iCn3D (web-based only: https://www.ncbi.nlm.nih.gov/Structure/icn3d/full.html) | |||
Java (for Jmol) https://java.com/en/download/ | |||
Jmol (Version 1.8.0_301) http://jmol.sourceforge.net/ | |||
Mouse (optional) | Any | ||
PyMOL (Version 2.4.1 – educational): https://pymol.org/2 educational use only version: https://pymol.org/edu/?q=educational |