Biology

Simulación basada en la estructura y muestreo de los movimientos de proteínas del factor de transcripción a lo largo del ADN desde el paso a escala atómica hasta la difusión de grano grueso

Published: March 1, 2022 doi: 10.3791/63406

Chao E*¹, Liqiang Dai*^1,2, Jiaqi Tian^3,4, Lin-Tai Da⁴, Jin Yu^5,6,7

¹Beijing Computational Science Research Center, ²Shenzhen JL Computational Science and Applied Research Institute, ³School of Medical Informatics and Engineering, Xuzhou Medical University, ⁴Key Laboratory of Systems Biomedicine (Ministry of Education), Shanghai Center for Systems Biomedicine, Shanghai Jiao Tong University, ⁵Department of Physics and Astronomy, University of California, Irvine, ⁶Department of Chemistry, University of California, Irvine, ⁷NSF-Simons Center for Multiscale Cell Fate Research, University of California, Irvine

* These authors contributed equally

Summary

El objetivo de este protocolo es revelar la dinámica estructural de la difusión unidimensional de la proteína a lo largo del ADN, utilizando una proteína de dominio WRKY del factor de transcripción vegetal como un sistema ejemplar. Para ello, se han implementado simulaciones de dinámica molecular tanto atomísticas como de grano grueso junto con extensos muestreos computacionales.

Abstract

El deslizamiento unidimensional (1-D) de la proteína del factor de transcripción (TF) a lo largo del ADN es esencial para facilitar la difusión del TF para localizar el sitio de ADN objetivo para la regulación genética. La detección de la resolución de par de bases (bp) del TF deslizando o pisando el ADN sigue siendo un desafío experimental. Recientemente hemos realizado simulaciones de dinámica molecular (DM) de todos los átomos que capturan el paso espontáneo de 1 pb de una pequeña proteína TF del dominio WRKY a lo largo del ADN. Basado en la ruta de paso WRKY de 10 μs obtenida de tales simulaciones, el protocolo aquí muestra cómo realizar muestreos conformacionales más extensos de los sistemas TF-DNA, mediante la construcción del modelo de estado de Markov (MSM) para el paso de proteína de 1 pb, con varios números de micro y macro estados probados para la construcción de MSM. Con el fin de examinar la búsqueda de difusión 1-D procesiva de la proteína TF junto con el ADN con base estructural, el protocolo muestra además cómo realizar simulaciones de MD de grano grueso (CG) para muestrear la dinámica a escala a largo plazo del sistema. Tales modelos y simulaciones de CG son particularmente útiles para revelar los impactos electrostáticos proteína-ADN en los movimientos de difusión procesivos de la proteína TF por encima de decenas de microsegundos, en comparación con los movimientos de paso de proteínas de submicrosegundos a microsegundos revelados a partir de las simulaciones de todos los átomos.

Introduction

Los factores de transcripción (TF) buscan que el ADN objetivo se una y regule la transcripción de genes y las actividades relacionadas¹. Aparte de la difusión tridimensional (3D), se ha sugerido que la difusión facilitada de TF es esencial para la búsqueda de ADN objetivo, en la que las proteínas también pueden deslizarse o saltar a lo largo del ADN unidimensional (1D), o saltar con transferencia intersegmental en el ADN 2,3,4,5,6,7.

En un estudio reciente, hemos realizado decenas de simulaciones de dinámica molecular (MD) de equilibrio de todos los átomos (μs) en una planta TF, la proteína del dominio WRKY en el ADN⁸. Se ha capturado un paso completo de 1 pb de WRKY en ADN poli-A en microsegundos. Se han observado los movimientos de la proteína a lo largo del surco del ADN y la dinámica de ruptura-reforma de los enlaces de hidrógeno (HB). Si bien tal trayectoria representa un camino muestreado, todavía falta un panorama general de pasos de proteínas. Aquí, mostramos cómo expandir los muestreos computacionales alrededor de la ruta de paso de la proteína capturada inicialmente con el modelo de estado de Markov (MSM) construido, que se han implementado ampliamente para simular una variedad de sistemas biomoleculares que involucran cambios conformacionales sustanciales y separación a escala de tiempo 9,10,11,12,13,14,15,16, 17,18,19. El propósito es revelar el conjunto conformacional y los estados metaestables de la difusión de la proteína TF a lo largo del ADN durante un paso cíclico.

Si bien la simulación MD anterior revela la resolución atómica de los movimientos de proteínas para 1 pb en el ADN, la dinámica estructural de la difusión procesiva a largo plazo del TF a lo largo del ADN a la misma alta resolución es difícilmente accesible. Sin embargo, la realización de simulaciones de MD de grano grueso (CG) a nivel de residuo es técnicamente accesible. La escala de tiempo de simulación CG se puede extender efectivamente a decenas o cientos de veces más que las simulaciones atómicas 20,21,22,23,24,25,26,27,28,29. Aquí, mostramos las simulaciones CG realizadas mediante la implementación del software CafeMol desarrollado por Takada lab³⁰.

En el protocolo actual, presentamos primero las simulaciones atómicas de la proteína del dominio WRKY a lo largo del ADN poli-A y la construcción de MSM, que se centran en el muestreo de los movimientos de paso de la proteína para solo 1 pb a lo largo del ADN. A continuación presentamos el modelado CG y las simulaciones del mismo sistema proteína-ADN, que extienden el muestreo computacional a la difusión procesiva de proteínas sobre decenas de bps a lo largo del ADN.

Aquí, utilizamos el software GROMACS^31,32,33 para realizar simulaciones de MD y MSMbuilder³⁴ para construir el MSM para instantáneas conformacionales muestreadas, así como para usar VMD³⁵ para visualizar las biomoléculas. El protocolo requiere que el usuario pueda instalar e implementar el software anterior. La instalación e implementación del software CafeMol³⁰ es necesaria para realizar las simulaciones CG MD. También se realizan análisis adicionales de las trayectorias y la visualización en VMD.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Construcción del modelo de estado de Markov (MSM) a partir de simulaciones de MD atómica

Vía de paso espontánea de proteínas y recolección de estructuras iniciales
1. Utilice una trayectoria MD de 10 μs de todo átomo⁸ obtenida previamente para extraer 10000 fotogramas de manera uniforme de un camino de paso "hacia adelante" de 1 pb (es decir, un fotograma por cada nanosegundo). El número total de marcos debe ser lo suficientemente grande como para incluir todas las conformaciones representativas.
2. Prepare la ruta de transición con 10000 fotogramas en VMD haciendo clic en Archivo > Guardar coordenadas, escriba proteína o nucleico en el cuadro átomos seleccionados y elija fotogramas en el cuadro Marcos, haga clic en Guardar para obtener los fotogramas necesarios.
  NOTA: Se utilizó una trayectoria de simulación MD de 10 μs de todos los átomos obtenida previamente (llamada "trayectoria de paso hacia adelante" aquí) para la distancia de paso WRKY de 1 pb en un ADN poli-A^{homogéneo de} 34 pb 8 como la ruta inicial para lanzar más muestreos conformacionales. Tenga en cuenta que en la mayoría de las prácticas, sin embargo, se construye una ruta inicial, mediante la realización de simulaciones de MD dirigidas o dirigidas, o la implementación de métodos generales de generación de rutas, ^{etc.36,37,38,39}.
3. Alinee el eje largo del ADN de referencia (de la estructura cristalina) con el eje x y establezca el centro de masa inicial (COM) del ADN completo de 34 pb en el origen del espacio de coordenadas para la conveniencia de un análisis de datos adicional. Para ello, haga clic en Extensiones > consola de Tk en VMD y escriba en la ventana de comandos de la consola de Tk:
  fuente rotate.tcl
  El script tcl se puede encontrar en el archivo complementario 3.
4. Luego calcule la distancia cuadrática media de la raíz (RMSD) de la columna vertebral de la proteína alineando el ADN central de 10 pb (A 14 a 23 y T 14' a 23') con el de la estructura cristalina⁴⁰, y el RMSD representa medidas geométricas de los sistemas (ver Figura 1A). Para ello, haga clic en VMD > Extensiones > análisis > herramienta de trayectoria RMSD y escriba nucleico y residuo 14 a 23 y 46 a 55 en el cuadro de selección de átomos, haga clic en Alinear y, a continuación, en el cuadro RMSD para calcular los valores RMSD.
5. Calcular el grado de rotación de la proteína alrededor del ADN Θ(t) en el plano y-z en MATLAB escribiendo el comando
  rad2deg(atan(z/y))
  con el posicionamiento angular inicial definido como Θ(0)=0, como se realizó anteriormente⁸.
6. Escriba el siguiente comando en MATLAB⁴¹ para utilizar los métodos K-means 42,43,44 y clasifique las 10000 estructuras en 25 clústeres escribiendo:
  [idx, C]=kmeans( X, 25)
  aquí X es una matriz 2D de RMSD y ángulo de rotación de WRKY en el ADN. Reúna las estructuras de estos 25 centros de clúster para simulaciones de MD adicionales.
  NOTA: Dado que la proteína RMSD muestreada en relación con el ADN cubre un rango de aproximadamente 25 Å, elegimos 25 grupos para tener un grupo por angstrom.
Realización de la^1ª ronda de simulaciones md y los ajustes de simulación
1. Construya sistemas atomísticos para las 25 estructuras utilizando el software GROMACS 5.1.2³² bajo el campo de fuerza parmbsc1⁴⁵ y utilizando el archivo buildsystem.sh del archivo complementario 2 en shell.
2. Realice simulaciones de MD de 60-ns para estos 25 sistemas bajo conjunto NPT con un paso de tiempo de 2 fs escribiendo el siguiente comando en shell:
  gmx_mpi grompp -f md.mdp -c npt.gro -p topol.top -o md.tpr
  gmx_mpi mdrun -deffnm md
Agrupación de los 1^c trayectorias redondas de MD
1. Elimine los primeros 10 ns de cada trayectoria de simulación escribiendo en shell:
  gmx_mpi trjcat -f md.xtc -b 10000 -e 600000 -o newtraj.xtc
  y recolectar conformaciones de las trayectorias de 25 × 50 ns para clustering a fin de preparar las estructuras de entrada para los muestreos posteriores más extensos (simulaciones MD^{de 2ª} ronda).
  NOTA: Para reducir el impacto de la trayectoria inicial y permitir el equilibrio local, se eliminaron 10-ns del período inicial de simulaciones.
2. Elija pares de distancia entre proteína y ADN como parámetros de entrada para la proyección de análisis de componentes independientes del tiempo (tICA)^46,47,48. Utilice el comando make_ndx en GROMACS para hacer esto:
  gmx_mpi make_ndx -f input.pdb -o index.ndx
  NOTA: Aquí, se seleccionaron los átomos de proteína CA y los átomos pesados (NH1, NH2, OH, NZ, NE2, ND2) del residuo Y119, K122, K125, R131, Y133, Q146, K144, R135, W116, R117, Y134, K118, Q121 que pueden formar enlaces de hidrógeno (HB) con el nucleótido de ADN, que se emparejan con los átomos O1P O2P y N6 del nucleótido de ADN (A14-20, T19-23). Los aminoácidos seleccionados pueden formar HB estables o puentes de sal con ADN.
3. Copie el índice de átomo seleccionado anteriormente del archivo index.ndx a un nuevo archivo de texto (index.dat). Obtenga la información del par entre estos átomos mediante el script python del archivo complementario 1 generate_atom_indices.py y escriba:
  índice de generate_atom_indices.py python2.6.dat > AtomIndices.txt
  Esto genera los 415 pares de distancia entre la proteína y el ADN.
4. Calcule los 415 pares de distancia de cada trayectoria escribiendo el siguiente comando en la ventana de comandos de MSMbuilder:
  msmb AtomPairsFeaturizer -out pair_features --pair_indices AtomIndices.txt --top references.pdb --trjs "trajectories/*.xtc" --transformed pair_features --stride 5
5. Realice tICA para reducir la dimensión de los datos en los primeros 2 componentes independientes del tiempo (tIC) o vectores escribiendo:
  msmb tICA -i.. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0.05 -t tica_results.h5
  NOTA: tICA es un método de reducción de dimensiones que calcula el valor propio de la matriz de correlación con retraso en el tiempo para determinar los grados de libertad relajantes más lentos del sistema de simulación mediante la ecuación:
  
  donde X_i(t) es el valor de la coordenada de reacción i-ésima en el tiempo t, y X_j(t+Δt) es el valor de la coordenada de reacción j-ésima en el tiempo t+Δt. es el valor esperado del producto de las trayectorias de simulación general X_i(t) y X_j(t + Δt). Las direcciones a lo largo de los grados de libertad relajantes más lentos corresponden a los valores propios más grandes de la matriz de correlación con retraso en el tiempo anterior. Aquí, 2 tIC parecen ser un conjunto mínimo para diferenciar tres macroestados en nuestra construcción de MSM (abordada más adelante). También se puede calcular la puntuación⁴⁹ del cociente de Rayleigh de la matriz generalizada (GMRQ), por ejemplo, para explorar un conjunto óptimo de componentes que se utilizarán.
6. Utilice el comando en MSMbuilder para agrupar los conjuntos de datos proyectados en 100 clústeres mediante el método K-center^43,44 (consulte la Figura 1B):
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 100.
  Seleccione la estructura central de cada clúster como estructura inicial para la^2ª ronda de simulaciones md. Mantener la información de simulación de las 100 estructuras simuladas, incluyendo posiciones, temperaturas, presiones, etc., excepto las velocidades.
  NOTA: Después de la primera ronda de 25 simulaciones, la memoria de la ruta inicial se ha reducido, por lo que generamos más clústeres, por ejemplo, 100 clústeres, en la segunda ronda, para ampliar sustancialmente los muestreos conformacionales.
Realización de la^2ª ronda de extensas simulaciones de MD
1. Realizar simulaciones de 60-ns MD a partir de estas 100 estructuras iniciales después de imponer velocidades iniciales aleatorias en todos los átomos. Agregue las velocidades iniciales aleatorias activando la generación de velocidad en el archivo mdp, es decir, cambiando el archivo md.mdp gen_vel = no a gen_vel = sí.
2. Elimine los primeros 10 ns de cada simulación como se describe en el paso 1.3.1, recopile 2.500.000 instantáneas de las trayectorias de 100 × 50 ns de manera uniforme para construir el MSM.
  NOTA: Tenga en cuenta que en la construcción posterior de macroestados, se encontró un pequeño número de estados fuera de ruta con una población particularmente baja (~ 0.2%, en la parte inferior del plano X-Θ). Estos estados fuera de ruta se clasifican como un macroestado cuando el número total de macroestados se establece como 3 a 6 (Figura 2B). Dado que un macroestado poblacional tan bajo incluye solo 3 trayectorias, que se eliminaron al final, los resultados mostrados en este protocolo se obtuvieron de hecho de 97 × 50 trayectorias ns, con un total de 2.425.000 fotogramas o instantáneas.
Agrupación de las trayectorias de MD^{de la 2ª} ronda
1. Realizar tICA para las trayectorias^{de la 2ª} ronda como se hizo anteriormente. Escriba en MSMbuilder:
  msmb tICA -i.. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0.05 -t tica_results.h5
2. Calcular la escala de tiempo implícita para validar los parámetros para el tiempo de retardo de correlación Δt y los números de microestados (ver Figura 1C),
  
  donde τ representa el tiempo de retraso utilizado para construir la matriz de probabilidad de transición (TPM); μ_k(τ) representa el késimo valor propio del TPM bajo un tiempo de retraso de τ. Utilice el script python del archivo suplementario 1 para este python BuildMSMsAsVaryLagTime.py -d .. / -f.. /trajlist_num -i 50 -m 1000 -t 10 -n 20 -s 500.
3. Varíe el número de tiempo de retraso τ y microestados cambiando los parámetros utilizados anteriormente:
  python BuildMSMsAsVaryLagTime.py -d.. / -f.. /trajlist_num -i 50 -m 1000 -t 5 10 20 30 40 -n 20 -s 20 200 400 500 800 2000
  NOTA: El sistema se considera Markovian cuando las curvas de escala de tiempo implícitas comienzan a nivelarse con la separación de escala de tiempo. Luego, elija el Dt como el tiempo de retraso de correlación, y el τ el tiempo de retraso donde la escala de tiempo implícita comienza a nivelarse para construir MSM.
4. En consecuencia, elija un número comparativamente grande (pero no demasiado grande) de estados, N = 500, y un tiempo de retardo de correlación comparativamente corto Δt = 10 ns. Se encontró que el tiempo de retraso era τ = 10 ns para construir MSM.
5. Clasifique las conformaciones en 500 clústeres (consulte la Figura 1D) mediante el comando:
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 500
Construcción de HSH
1. Agrupe los 500 microestados en 3–6 macroestados para averiguar el número de macroestados que mejor se adapten según el algoritmo PCCA +⁵⁰ en MSMbuilder, utilizando el script python en el archivo suplementario 1 python msm_lumping_usingPCCAplus.py. Identificar una red cinética reducida de modelos para los cambios conformacionales más esenciales de las biomoléculas, mediante la construcción de un pequeño número de macroestados, es decir, sobre la agrupación cinética de cientos de microestados como se describe a continuación^17,51.
2. Mapee las conformaciones de alta dimensión al X (movimiento de la proteína a lo largo del eje largo del ADN) y al ángulo de rotación de la proteína a lo largo del ADN para cada macroestado como se describe en los pasos 1.1.3 y 1.1.4 (por ejemplo, ningún estado con una población demasiado baja < 1%; ver Figura 2C). A continuación, busque los 3 macroestados que mejor representan el sistema (Figura 1E). Consulte la Figura 2D para obtener instantáneas del movimiento de la proteína a lo largo del ADN y el ángulo de rotación de la proteína alrededor del ADN.
  NOTA: En trabajos anteriores que generaron la ruta de paso hacia adelante de la proteína espontánea de 10 μs, también realizamos simulaciones de MD de equilibrio de 5 x 4 μs para expandir moderadamente los muestreos. Mostramos el mapeo de la trayectoria hacia adelante original (ver Figura 2A izquierda) y otras trayectorias de muestreo de 4 μs en la trayectoria hacia adelante realizadas previamente (ver Figura 2A derecha)⁸. Se muestra el mapeo de los 100 × 50 ns originales (ver Figura 2B izquierda)⁸ y las trayectorias de 97 × 50 ns utilizadas en este trabajo (ver Figura 2B derecha).
Cálculo de los tiempos medios de primer paso (MFPT)
1. Realice cinco trayectorias monte carlo (MC) de 10 ms basadas en el TPM del MSM de 500 microestados con el tiempo de retraso de 10 ns establecido como el paso de tiempo de MC. Calcule MFPT⁵² entre cada par de macroestados (Figura 3) mediante el script python en el archivo suplementario 1 python python mfpt_msm3.py.
2. Calcule el error promedio y estándar del MFPT utilizando el archivo bash en el archivo suplementario 2, escriba:
  sh mfpt_analysis.bash

2. Realización de simulación de grano grueso (CG) para muestrear dinámicas a largo plazo

Realice simulaciones CG utilizando el software CafeMol 3.0³⁰. Consulte los ajustes de simulación CG especificados en el archivo de configuración de entrada con una extensión .inp, incluidas las estructuras de entrada, los parámetros de simulación, los archivos de salida, etc. Escriba el siguiente comando en el terminal para ejecutar la simulación CG:
cafemol XXX.inp
Especifique los siguientes bloques en el archivo de entrada, y cada bloque comenzará con la etiqueta < and ending with >>>>.
1. Establezca el bloque de nombres de archivo (obligatorio) para especificar los directorios de trabajo y la ruta del almacén de archivos de entrada/salida. Escriba lo siguiente para el bloque de nombres de archivo para estas simulaciones:
  <<<< nombres de archivo
  ruta = XXXXX (ruta de trabajo)
  filename = wrky (los nombres de archivo de salida)
  SALIDA psf pdb movie dcd rst
  path_pdb = XXXXX (ruta de entrada de estructura nativa)
  path_ini = XXXXX (ruta de la estructura inicial de entrada)
  path_natinfo = XXXXX (ruta de acceso al archivo de información nativa)
  path_para = XXXXX (ruta de acceso de los archivos de parámetros)
  >>>>
  NOTA: Como el modelo^Go-53 se utiliza en el modelado CG, es decir, la proteína estará sesgada a la conformación nativa, por lo que es necesario establecer la estructura modelada como la conformación nativa. Aquí, la estructura cristalina de entrada se estableció como la conformación nativa.
2. Establezca el bloque de control de trabajo (obligatorio) para definir el modo de ejecución de las simulaciones. Escriba el siguiente comando:
  <<<< job_cntl
  i_run_mode = 2 (= 2 la simulación de temperatura constante)
  i_simulate_type = 1 (=1 Dinámica de Langevin)
  i_initial_state = 2 (=2 significa que la configuración inicial es configuración nativa)
  >>>>
  Seleccione las simulaciones de dinámica de Langevin de temperatura constante.
3. Establezca la unidad y el bloque de estado (obligatorio) para definir la información de las estructuras de entrada. Escriba el siguiente comando:
  <<<< unit_and_state
  i_seq_read_style = 1 (=1 significa secuencias leídas desde el archivo PDB)
  i_go_native_read_style = 1 (=1 significa que la estructura nativa es del archivo PDB)
  1 proteína proteína.pdb (unidad y estado molecular_type native_structure)
  ADN 2-3 .pdb (unidad y estado molecular_type native_structure)
  >>>>
  NOTA: Se necesitan los archivos de estructura de entrada iniciales (proteína.pdb y ADN.pdb aquí). Las estructuras están escritas en formato pdb. Aquí se necesitan dos archivos pdb: uno es el archivo de estructura de proteína que contiene las coordenadas del átomo pesado de WRKY (unidad 1), y el otro son las coordenadas del ADN de doble cadena (ds) de 200 pb (unidad 2-3). La proteína se coloca inicialmente a 15 Å del ADN.
4. Establezca el bloque de función de energía (obligatorio) definido en el bloque de energy_function. Escriba el siguiente comando:
  <<<< energy_function
  LOCAL(1) L_GO
  LOCAL(2-3) L_DNA2
  NLOCAL(1/1) GO EXV ELE
  ADN ELE NLOCAL(2-3/2-3)
  NLOCAL(1/2-3) EXV ELE
  i_use_atom_protein = 0
  i_use_atom_dna = 0
  i_para_from_ninfo = 1
  i_triple_angle_term = 2
  >>>>
  NOTA: En las simulaciones de CG, la proteína es de grano grueso por el modelo^Go-53 con cada aminoácido representado por una partícula CG colocada en su posición Cα. La conformación de la proteína estará sesgada entonces hacia la estructura nativa, o estructura cristalina aquí, bajo el potencial Go (Figura 4A izquierda). El ADN está descrito por el modelo⁵⁴ de 3SPN.2, en el que cada nucleótido está representado por 3 partículas CG S, P, N, que corresponden a azúcar, fosfato y base nitrogenada, respectivamente (Figura 4A derecha). Las interacciones electrostáticas y vdW se consideran entre diferentes cadenas. Las interacciones electrostáticas entre proteína y ADN en la simulación CG se aproximan por el potencial de Debye-Hückel⁵⁵. La energía repulsiva vdW toma la misma forma que en el modelo Go.
5. Establezca el bloque md_information (obligatorio) para definir la información de simulación. Escriba el siguiente comando:
  <<<< md_information
  n_step_sim = 1
  n_tstep(1) = 500000000
  tstep_size = 0,1
  n_step_save = 1000
  n_step_neighbor = 100
  i_com_zeroing = 0
  i_no_trans_rot = 0
  tempk = 300,0
  n_seed = -1
  >>>>
  El n_tstep es el paso de simulación. Establezca el tstep_size como la duración de cada paso de MD, cada paso de tiempo de CG Cafemol es de aproximadamente 200 fs³⁰, por lo que cada paso de MD aquí es de 200 × 0.1 fs en principio. Actualice la lista de vecinos cada 100 pasos de MD (n_step_neighbor = 100). Ajuste la temperatura de simulación a 300 K. Controle la temperatura empleando el algoritmo Verlet de tipo velocidad para actualizar la estructura de la proteína con el termostato Berendsen⁵⁶.
  NOTA: El n_step_sim es el número de cuenca del potencial basado en el modelo Go, o el número mínimo local de la curva de energía. Un potencial de cuenca múltiple permite que la conformación de la proteína esté sesgada a diferentes conformaciones, de modo que la conformación de la proteína puede cambiar de un mínimo local a otro. Aquí solo se utiliza el modelo Go de cuenca única, lo que significa solo una conformación sesgada (estructura cristalina) para la proteína en las simulaciones. Mientras tanto, dado que no hay interacción de enlace de hidrógeno proteína-ADN, etc. modelado en el contexto CG, los movimientos moleculares se pueden muestrear aún más rápido, es decir, > 10 veces que en las simulaciones atómicas.
6. Establezca el bloque electrostático (requerido solo cuando se usa la interacción electrostática) ya que la interacción electrostática se considera entre diferentes cadenas, así que use este bloque para definir los parámetros para la interacción electrostática escribiendo:
  <<<< electrostática
  cutoff_ele = 10,0
  ionic_strength = 0,15
  >>>>
  Establezca la longitud de Debye en la interacción electrostática a 10 Å, correspondiente a la condición de la solución. Establezca la fuerza iónica en 0,15 M, como en la condición fisiológica.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Deslizamiento acoplado a rotación o paso a paso de 1 pb de WRKY desde la construcción de MSM
Todas las conformaciones de proteínas en el ADN se asignan al movimiento longitudinal X y al ángulo de rotación de la proteína COM a lo largo del ADN (ver Figura 3A). El acoplamiento lineal de estos dos grados indica un paso acoplado a la rotación de la proteína del dominio WRKY en el ADN. Las conformaciones se pueden agrupar en 3 macroestados (S1, S2 y S3) en el MSM. El paso adelante de WRKY sigue la transición macroestatal S1->S2->S3. S1 se refiere a un estado metaestable iniciado por la estructura modelada (basada en la estructura cristalina del complejo WRKY-DNA⁴⁰), con una población de ~ 6%. Tenga en cuenta que en el modelado actual, la conformación inicial de la proteína se adoptó a partir de la estructura cristalina en la que la proteína se une con la secuencia específica de ADN W-box⁴⁰. Tal complejo de proteína-poli A-ADN modelado conduce así a estructuras iniciales (S1) menos favorables que las estructuras escalonadas o finalmente relajadas (S3). Sin embargo, se puede encontrar que los enlaces de hidrógeno (HB) en la interfaz proteína-ADN se recuperan cerca del centro de S3 como el que está cerca del centro en S1 (ver Figura 3B). Los HB en el estado S1 están bien mantenidos: K125 con A15, R131, Q146 e Y133 con A16, K144 e Y119 con A17, R135 con A18 (Figura 3B arriba a la izquierda). S3 se refiere a un estado metaestable después del paso de la proteína de 1 pb, con casi todos los HB desplazados para la distancia de 1 pb (Figura 3B inferior), y las estructuras parecen estables con la población más alta (63%). El estado intermedio S2 conecta S1 y S3, con una población media-alta (~30%). Encontramos que el R135 y el K144 son bastante flexibles en este estado intermedio y generalmente pueden romper los HB con el nucleótido actual y reformar eso con el siguiente nucleótido (Figura 3B arriba a la derecha). En general, la proteína WRKY COM se movió ~ 2.9 Å y giró ~ 55 ° hasta el paso 1 pb aquí. El paso limitante de velocidad para el paso WRKY es S2->S3, que esencialmente permite la ruptura y reforma colectiva de los HB y requiere ~ 7 μs en promedio. En contraste, S1 a S2 puede transitar muy rápido en un momento de ~0.06 μs o 60-ns (Figura 3B), involucrando principalmente las fluctuaciones com de proteínas (por ejemplo, debido a cambios de orientación de proteínas en el ADN).

Sesgo de cadena simple de WRKY durante la difusión procesiva en el modelo CG
En nuestro estudio reciente, encontramos que la proteína del dominio WRKY se une preferentemente a una hebra del dsDNA, sin importar durante el paso de 1 pb o la unión estática; y el sesgo de una sola hebra se vuelve muy prominente particularmente en la unión específica de la secuencia de ADN⁸. Mientras tanto, no está claro si tal tendencia permanece durante la difusión procesiva de la proteína a lo largo del ADN. Aquí intentamos examinar el posible sesgo de la hebra a través de las simulaciones CG. Curiosamente, se ha identificado una configuración significativa de unión al ADN de una sola hebra en las simulaciones CG del WRKY durante la difusión procesiva. Para ver eso, los números de contacto entre la proteína y el ADN se calcularon en las respectivas hebras de ADN (ver Figura 4B). Se considera un contacto cuando la distancia entre la partícula de proteína CG y la partícula de ADN CG P (grupo fosfato) es menor que 7 Å. De hecho, la proteína muestra sesgo a una de las hebras de ADN (por ejemplo, ~ 4 contactos a una hebra y ~ 1 contacto a la otra), es decir, incluso cuando no se modelan interacciones detalladas como HB en la interfaz proteína-ADN.

La cadena de ADN preferida, sin embargo, puede cambiar de vez en cuando entre las dos hebras del ADN, dependiendo de la orientación de unión o configuración de la proteína en el ADN. En particular, de acuerdo con el número de contacto formado entre la proteína y las respectivas hebras de ADN, hay principalmente 4 estados aquí (como se etiqueta 1, 2, 3 y 4 en la Figura 4B, C). En el estado 1 y 3, una región de dedo de zinc se une hacia la dirección -Y, y la hebra preferida es la azul. En el estado 2 y 3, la región del dedo de zinc se une hacia la dirección +Y, y la hebra preferida se convierte en la roja. También se encuentra que la región de zinc-figner interactúa predominantemente con el ADN (ver Figura 4D). Por lo tanto, la cadena de ADN unida estrechamente con la región del dedo de zinc es de hecho la preferida. De acuerdo con el muestreo anterior, parece que el sesgo de la hebra persiste pero cambia entre las dos hebras de ADN en el modelo CG de la difusión procesiva de proteínas.

Paso residual individual de proteína en las simulaciones de CG
Anteriormente se notó en nuestras simulaciones CG que el tamaño de paso de WRKY puede variar en diferentes secuencias de ADN⁸. La proteína COM tiende a pisar 1 pb sobre el ADN poli-A homogéneo. Mientras que en el ADN poli-AT con periodicidad de 2 pb, la proporción de pasos de 2 pb parece aumentar.

Además, aquí examinamos si los residuos de proteínas individuales se mueven sincrónicamente en la interfaz proteína-ADN. Calculamos el tamaño de paso de cada residuo altamente conservado en el motivo WRKY (WRKYGQK) por cada 1000 pasos de tiempo (Figura 5A). Por lo tanto, el tamaño residual de cada residuo conservado se puede medir a partir de las simulaciones de CG. De hecho, los resultados muestran que los tamaños escalonados de estos residuos individuales están más sincronizados en el ADN poli-A que en las secuencias de ADN poli-AT o aleatorias (Figura 5B).

Figura 1: La generación de conformaciones y la construcción de microestados/macroestados. (A) La trayectoria inicial de paso hacia adelante mapeada en el RMSD proteína-ADN y el ángulo de rotación de proteínas alrededor del ADN. Las 25 estructuras elegidas inicialmente están etiquetadas por círculos rojos. (B) Los 100 centros de clúster de conformación de la^1ª ronda de 25 x 50 ns MD trayectorias de simulación mapeadas en la dirección de los ETI de valor propio más alta. (C) Gráficos de la escala de tiempo implícita en función del tiempo de retraso para la construcción de HSH a través de tICA utilizando pares de distancia elegidos como entrada. Para cada conjunto, MSM se construyó proyectando las conformaciones en los 2 tIC superiores seguidos de agrupamiento de centros K para producir de 20 a 2000 microestados (de la columna izquierda a la derecha) con un tiempo de retardo de correlación para tICA elegido de 5 a 40 ns (de la fila superior a la inferior). (D) Los 500 microestados construidos y (E) los 3 macroestados construidos posteriormente, con los correspondientes centros de microestados mapeados a lo largo de la dirección más alta de los dos TI. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Construcción de los macroestados. (A) El mapeo de la trayectoria inicial de paso hacia adelante (izquierda) y con un pequeño número de muestreos de trayectoria de microsegundos adicionales (derecha) en el movimiento del centro de masa de la proteína (COM) a lo largo del eje largo del ADN (X) y el ángulo de rotación alrededor del ADN (obtenido anteriormente⁸). (B) El mapeo de las trayectorias originales de 100 × 50 ns y las trayectorias de 97 × 50 ns utilizadas en la construcción actual de HSH. (C) La construcción de 3-6 macroestados y sus poblaciones a partir de los HSH construidos están etiquetados en los extensos mapas de muestreo. (D) Se muestran el movimiento de la proteína X y el ángulo de rotación alrededor del ADN, respectivamente. Las conformaciones muestreadas finalmente se agrupan en 3 macroestados, con rojo, azul y gris correspondientes al macroestado 1, 2 y 3, respectivamente. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: El MSM de la proteína del dominio WRKY pisando el ADN poli-A. (A) La proyección de las instantáneas conformacionales MD sobre las coordenadas del movimiento COM de la proteína X y el ángulo de rotación con respecto al ADN. Los 3 macroestados S1, S2 y S3 están coloreados en rojo, azul y gris, respectivamente. (B) Conformaciones representativas y transición media-primer-paso-tiempo (MFPT) de los 3 macroestados construidos. Se muestran los enlaces de hidrógeno clave entre la proteína y el ADN. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: El modelo de grano grueso (CG) y los contactos formados entre las hebras de proteína y ADN en el modelo CG. (A) El grano grueso de la proteína (izquierda) y el ADN (derecha). (B) El número de contacto entre WRKY y cada cadena de ADN a lo largo de la simulación. (C) Las vistas moleculares de los 4 modos de contacto. La región de la proteína cerca del dedo de zinc está coloreada en gris, y la otra región está coloreada en verde. (D) La probabilidad de contacto de cada aminoácido proteico con el ADN. Cuando la distancia entre la partícula CG del aminoácido y cualquier partícula CG de ADN es menor que 7 Å, se considera que el aminoácido está en contacto con el ADN. Haga clic aquí para ver una versión más grande de esta figura.

Figura 5: Los tamaños de los pasos de difusión de aminoácidos proteicos individuales en el motivo WRKY como WRKY moviéndose a lo largo del ADN. (A) Los residuos altamente conservados (WRKYGQK) en la estructura atómica (izquierda) y después del grano grueso (derecha). (B) El tamaño de paso para cada residuo conservado en diferentes secuencias de ADN (poli-A; poli-AT; secuencias aleatorias) Haga clic aquí para ver una versión más grande de esta figura.

Expediente complementario 1: Los códigos python y el software utilizado en este protocolo. MSM se construye principalmente mediante el uso de MSMbuilder, se adjuntan los códigos de Python necesarios. Haga clic aquí para descargar este archivo.

Expediente Complementario 2: Las simulaciones de dinámica molecular atomística son realizadas por GROMACS, también se adjuntan los comandos y archivos necesarios para construir simulaciones de todos los átomos. Las simulaciones de grano grueso son realizadas por el software CafeMol. Los resultados de la simulación son analizados por VMD y MATLAB. Haga clic aquí para descargar este archivo.

Expediente complementario 3: El script tcl para rotar y mover proteínas en VMD. Haga clic aquí para descargar este archivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Este trabajo aborda cómo realizar simulaciones computacionales basadas en la estructura y muestreos para revelar un factor de transcripción o proteína TF que se mueve a lo largo del ADN, no solo en el detalle atómico del paso, sino también en la difusión procesiva, que es esencial para la difusión facilitada de TF en la búsqueda de objetivos de ADN. Para hacer eso, primero se construyó el modelo de estado de Markov o MSM de una pequeña proteína de dominio TF WRKY que avanza para 1-pb a lo largo del ADN poli-A homogéneo, de modo que se pueda revelar un conjunto de conformaciones de proteínas en el ADN junto con el enlace colectivo de hidrógeno o la dinámica HB en la interfaz proteína-ADN. Para obtener el MSM, realizamos dos rondas de extensas simulaciones de MD de todos los átomos a lo largo de una ruta de paso espontánea de proteínas (obtenida de la simulación previa de 10 μs), con muestreos de corriente en agregación de 7,5 μs (125 x 60 ns). Estos muestreos extensos nos proporcionan instantáneas para la agrupación de conformación en cientos de microestados, utilizando distancias de pares interfaciales proteína-ADN como medidas geométricas para la agrupación. La propiedad markoviana de la construcción de MSM se valida parcialmente mediante la detección de la separación de la escala de tiempo de las escalas de tiempo implícitas calculadas para varias longitudes o tiempo de retraso de simulaciones individuales de MD. Luego se probaron entre 20 y 2000 microestados y se compararon para las propiedades de separación de escala de tiempo, con 500 microestados seleccionados para la construcción de MSM. Además, los 500 microestados se agruparon cinéticamente en un pequeño número de macroestados, para lo cual probamos varios números de estados y encontramos que tres macroestados eran suficientes para el sistema actual. El modelo de tres estados simplemente muestra que el estado S1 transita a S2 comparativamente rápido (dentro de decenas de ns), dominado por las fluctuaciones del centro de masa de la proteína (COM) en el ADN, mientras que el estado S2 transita a S3 lentamente y limita la velocidad (~ 7 μs en promedio), dominado por la dinámica colectiva de HB para el paso. Tenga en cuenta que la agrupación cinética de los microestados en un pequeño número de macroestados cinéticamente distintos todavía está sujeta a desarrollos metodológicos, con diferentes algoritmos probados y técnicas de aprendizaje automático para mejoras 57,58,59,60,61,62,63 . Los pasos críticos para construir MSM incluyen la elección de los pares de distancia utilizados en tICA y la determinación de los parámetros utilizados para construir microestados. La elección de los pares de distancia se basa en el conocimiento, y es importante elegir los pares de interacción más esenciales. Los parámetros para construir microestados, como el tiempo de retardo de correlación, el tiempo de retraso, el muber de microestados, deben configurarse adecuadamente para garantizar que el sistema sea markoviano.

Con tales esfuerzos, la dinámica estructural de la proteína submicro-a micro-segundos con detalles atómicos puede ser revelada sistemáticamente para la proteína que pisa 1-pb a lo largo del ADN. En principio, con la matriz de probabilidad de transición obtenida de la construcción de MSM, el sistema puede evolucionar a una escala de tiempo larga más allá de los microsegundos, o digamos, para acercarse a los milisegundos y por encima de 13,17,64. Sin embargo, existen limitaciones intrínsecas del muestreo y la construcción de HSH, que se basan en simulaciones individuales de submicrosegundos alrededor de una cierta ruta inicial, y la propiedad markoviana puede no estar bien garantizada ^65,66. En la mayoría de las prácticas, el camino inicial se construyó bajo forzamiento o aceleración, aunque en el sistema actual aprovechamos un camino espontáneo de paso de proteínas (sin forzamiento ni aceleración) obtenido de una simulación de equilibrio de 10 ms⁸. Los muestreos conformacionales en conjunto todavía están limitados por decenas de microsegundos debido al alto costo computacional de las simulaciones atómicas. Es poco probable que tales muestreos de microsegundos del paso de proteína proporcionen conformaciones suficientes para aparecer en la difusión de TF procesiva a escala prolongada. El problema de la memoria se volvería significativo si se implementa la matriz de probabilidad de transición obtenida actualmente más allá de una cierta escala de tiempo, y no se garantiza que la propiedad markoviana asegure el uso adecuado del MSM actual 14,52,66. Por lo tanto, para muestrear la difusión procesiva a escala a largo plazo de TF a lo largo del ADN, se implementan el modelado y la simulación a nivel de residuos de grano grueso o CG, para equilibrar entre el mantenimiento de la base estructural y la reducción del costo computacional.

En el modelado y simulación de CG, los residuos de proteínas y los nucleótidos de ADN están representados por perlas (es decir, una cuenta para un aminoácido y tres cuentas para un nucleótido), con la conformación de proteínas mantenida a través del modelo Go hacia una configuración nativa o preequilibrada^30,53. Aunque el nivel atómico de las interacciones HB se vuelve ausente en el modelo CG, las interacciones electrostáticas proteína-ADN están bien mantenidas, que parecen ser capaces de capturar las características dinámicas dominantes en la difusión procesiva de la proteína a lo largo del ADN 67,68,69,70. Aquí se presentan protocolos de implementación detallados para modelar y simular el sistema WRKY-DNA. Los resultados representativos muestran curiosamente que, en primer lugar, el sesgo de ADN de cadena única presentado en la simulación atómica anterior del sistema WRKY-DNA persiste en el modelo CG, mientras que una variedad de orientaciones / configuraciones de proteínas muestreadas durante la difusión procesiva conducen al cambio del sesgo entre las dos hebras de vez en cuando. Por lo tanto, tal sesgo de la cadena de ADN no necesariamente se vincula con la asociación de HB, sino que parece depender principalmente de las interacciones electrostáticas proteína-ADN, que varían para varias configuraciones u orientaciones de proteínas en el ADN. A continuación, los aminoácidos individuales en o cerca de la interfaz proteína-ADN, como los motivos WRKQGQK altamente conservados, muestran diferentes tamaños de paso o patrones de sincronización para diferentes secuencias de ADN. En nuestro estudio anterior, las variaciones de tamaño de paso se mostraron solo para la COM de la proteína, ya que la proteína se modeló para difundirse a lo largo de diferentes secuencias de ADN. Tenga en cuenta que el modelo CG actual del ADN admite variaciones de la secuencia de ADN con diferente^{parametrización} 54,71,72, aunque faltan detalles atómicos. Por lo tanto, la parametrización adecuada dependiente de la secuencia de ADN en el modelado basado en la estructura del sistema proteína-ADN es fundamental para revelar los mecanismos de búsqueda y reconocimiento de proteína-ADN en múltiples escalas de tiempo y longitud.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen conflicto de intereses.

Acknowledgments

Este trabajo ha sido apoyado por NSFC Grant #11775016 y #11635002. JY ha sido apoyado por el CMCF de UCI a través de NSF DMS 1763272 y la subvención de la Fundación Simons # 594598 y el fondo de puesta en marcha de UCI. LTD ha sido apoyado por la Fundación de Ciencias Naturales de Shanghai #20ZR1425400 y #21JC1403100. También reconocemos el apoyo computacional del Centro de Investigación de Ciencias Computacionales de Beijing (CSRC).

Materials

Name	Company	Catalog Number	Comments
CafeMol	Kyoto University		coarse-grained (CG) simulations
GROMACS	University of Groningen Royal Institute of Technology Uppsala University		molecular dynamics simulations software
Matlab	MathWorks		Numerical calculation software
MSMbuilder	Stanford University		build MSM
VMD	UNIVERSITY OF ILLINOIS AT URBANA-CHAMPAIGN		molecular visualization program

DOWNLOAD MATERIALS LIST

References

Latchman, D. S. Transcription factors: an overview. The International Journal of Biochemistry & Cell Biology. 29 (12), 1305-1312 (1997).
Berg, O. G., von Hippel, P. H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. Journal of Molecular Biology. 193 (4), 723-750 (1987).
von Hippel, P. H., Berg, O. G. Facilitated target location in biological systems. The Journal of Biological Chemistry. 264 (2), 675-678 (1989).
Halford, S. E., Marko, J. F. How do site-specific DNA-binding proteins find their targets. Nucleic Acids Research. 32 (10), 3040-3052 (2004).
Slusky, M., Mirny, L. A. Kinetics of protein-DNA interaction: facilitated target location in sequence-dependent potential. Biophysical Journal. 87 (6), 4021-4035 (2004).
Bauer, M., Metzler, R. Generalized facilitated diffusion model for DNA-binding proteins with search and recognition states. Biophysical Journal. 102 (10), 2321-2330 (2012).
Shvets, A. A., Kochugaeva, M. P., Kolomeisky, A. B. Mechanisms of Protein Search for Targets on DNA: Theoretical Insights. Molecules. 23 (9), Basel, Switzerland. 2106 (2018).
Dai, L., Xu, Y., Du, Z., Su, X. D., Yu, J. Revealing atomic-scale molecular diffusion of a plant-transcription factor WRKY domain protein along DNA. Proceedings of the National Academy of Sciences of the United States of America. 118 (23), 2102621118 (2021).
Chodera, J. D., Singhal, N., Pande, V. S., Dill, K. A., Swope, W. C. Automatic discovery of metastable states for the construction of Markov models of macromolecular conformational dynamics. The Journal of Chemical Physics. 126 (15), 155101 (2007).
Pan, A. C., Roux, B. Building Markov state models along pathways to determine free energies and rates of transitions. The Journal of Chemical Physics. 129 (6), 064107 (2008).
Bowman, G. R., Huang, X., Pande, V. S. Using generalized ensemble simulations and Markov state models to identify conformational states. Methods. 49 (2), San Diego, California. 197-201 (2009).
Prinz, J. H., et al. Markov models of molecular kinetics: Generation and validation. The Journal of chemical physics. 134 (17), 174105 (2011).
Chodera, J. D., Noé, F. Markov state models of biomolecular conformational dynamics. Current Opinion in Structural Biology. 25, 135-144 (2014).
Malmstrom, R. D., Lee, C. T., Van Wart, A. T., Amaro, R. E. On the Application of Molecular-Dynamics Based Markov State Models to Functional Proteins. Journal of Chemical Theory and Computation. 10 (7), 2648-2657 (2014).
Husic, B. E., Pande, V. S. Markov State Models: From an Art to a Science. Journal of the American Chemical Society. 140 (7), 2386-2396 (2018).
Sittel, F., Stock, G. Perspective: Identification of collective variables and metastable states of protein dynamics. The Journal of chemical physics. 149 (15), 150901 (2018).
Wang, W., Cao, S., Zhu, L., Huang, X. Constructing Markov State Models to elucidate the functional conformational changes of complex biomolecules. WIREs Computational Molecular Science. 8, 1343 (2018).
Peng, S., et al. Target search and recognition mechanisms of glycosylase AlkD revealed by scanning FRET-FCS and Markov state models. Proceedings of the National Academy of Sciences of the United States of America. 117 (36), 21889-21895 (2020).
Tian, J., Wang, L., Da, L. T. Atomic resolution of short-range sliding dynamics of thymine DNA glycosylase along DNA minor-groove for lesion recognition. Nucleic Acids Research. 49 (3), 1278-1293 (2021).
Chu, J. -W., Izveko, S., Voth, G. The multiscale challenge for biomolecular systems: coarse-grained modeling. Molecular Simulation. 32 (3-4), 211-218 (2006).
Marrink, S. J., Risselada, H. J., Yefimov, S., Tieleman, D. P., De Vries, A. H. The MARTINI force field: coarse grained model for biomolecular simulations. The Journal of Physical Chemistry B. 111 (27), 7812-7824 (2007).
Givaty, O., Levy, Y. Protein sliding along DNA: dynamics and structural characterization. Journal of Molecular Biology. 385 (4), 1087-1097 (2009).
Khazanov, N., Levy, Y. Sliding of p53 along DNA can be modulated by its oligomeric state and by cross-talks between its constituent domains. Journal of Molecular Biology. 408 (2), 335-355 (2011).
Riniker, S., Allison, J. R., van Gunsteren, W. F. On developing coarse-grained models for biomolecular simulation: a review. Physical Chemistry Chemical Physics : PCCP. 14 (36), 12423-12430 (2012).
Kmiecik, S., et al. Coarse-Grained Protein Models and Their Applications. Chemical Reviews. 116 (14), 7898-7936 (2006).
Bhattacherjee, A., Krepel, D., Levy, Y. Coarse-grained models for studying protein diffusion along DNA. WIREs Computational Molecular Science. 6, 515-531 (2016).
Wang, J., et al. Machine Learning of Coarse-Grained Molecular Dynamics Force Fields. ACS Central Science. 5 (5), 755-767 (2019).
Joshi, S. Y., Deshmukh, S. A. A review of advancements in coarse-grained molecular dynamics simulations. Molecular Simulation. 47 (10-11), 786-803 (2021).
Bigman, L. S., Greenblatt, H. M., Levy, Y. What Are the Molecular Requirements for Protein Sliding along DNA. The Journal of Physical Chemistry B. 125 (12), 3119-3131 (2021).
Kenzaki, H., et al. CafeMol: A Coarse-Grained Biomolecular Simulator for Simulating Proteins at Work. Journal of Chemical Theory and Computation. 7 (6), 1979-1989 (2011).
Berendsen, H. J. C., vander Spoel, D., van Drunen, R. GROMACS: a message-passing parallel molecular dynamics implementation. Computer Physics Communications. 91 (1-3), 43-56 (1995).
vander Spoel, D., et al. GROMACS: fast, flexible, and free. Journal of Computational Chemistry. 26 (16), 1701-1718 (2005).
Abraham, M. J., et al. GROMACS: High performance molecular simulations through multi-level parallelism from laptops to supercomputers. SoftwareX. 1-2, 19-25 (2015).
Harrigan, M. P., et al. MSMBuilder: Statistical Models for Biomolecular Dynamics. Biophysical journal. 112 (1), 10-15 (2017).
Humphrey, W., Dalke, A., Schulten, K. VMD: visual molecular dynamics. Journal of Molecular Graphics. 14 (1), 33-38 (1996).
Izrailev, S., et al. Steered Molecular Dynamics. Computational Molecular Dynamics: Challenges, Methods, Ideas. 4, Springer. Berlin, Heidelberg. 39-65 (1999).
Schlitter, J., Engels, M., Krüger, P. Targeted molecular dynamics: a new approach for searching pathways of conformational transitions. Journal of Molecular Graphics. 12 (2), 84-89 (1994).
Maragliano, L., Fischer, A., Vanden-Eijnden, E., Ciccotti, G. String method in collective variables: minimum free energy paths and isocommittor surfaces. The Journal of Chemical Physics. 125 (2), 24106 (2006).
Weiss, D. R., Levitt, M. Can morphing methods predict intermediate structures. Journal of Molecular Biology. 385 (2), 665-674 (2009).
Xu, Y. P., Xu, H., Wang, B., Su, X. D. Crystal structures of N-terminal WRKY transcription factors and DNA complexes. Protein. 11 (3), 208-213 (2020).
Higham, D. J., Higham, N. J. MATLAB guide. Society for Industrial and Applied Mathematics. , (2016).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Gonzalez, T. F. Clustering to minimize the maximum intercluster distance. Theoretical Computer Science. 38, 293-306 (1985).
Zhao, Y., Sheong, F. K., Sun, J., Sander, P., Huang, X. A fast parallel clustering algorithm for molecular simulation trajectories. Journal of Computational Chemistry. 34 (2), 95-104 (2013).
Ivani, I., et al. Parmbsc1: a refined force field for DNA simulations. Nature Methods. 13 (1), 55-58 (2016).
Naritomi, Y., Fuchigami, S. Slow dynamics of a protein backbone in molecular dynamics simulation revealed by time-structure based independent component analysis. The Journal of Chemical Physics. 139 (21), 215102 (2013).
Naritomi, Y., Fuchigami, S. Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: the case of domain motions. The Journal of Chemical Physics. 134 (6), 065101 (2011).
Pérez-Hernández, G., Paul, F., Giorgino, T., De Fabritiis, G., Noé, F. Identification of slow molecular order parameters for Markov model construction. The Journal of Chemical Physics. 139 (1), 015102 (2013).
McGibbon, R. T., Pande, V. S. Variational cross-validation of slow dynamical modes in molecular kinetics. The Journal of Chemical Physics. 142 (12), 124105 (2015).
Deuflhard, P., Weber, M. Robust Perron cluster analysis in conformation dynamics. Linear Algebra and its Applications. 398, 161-184 (2005).
Silva, D. A., et al. Millisecond dynamics of RNA polymerase II translocation at atomic resolution. Proceedings of the National Academy of Sciences of the United States of America. 111 (21), 7665-7670 (2014).
Swope, W. C., Pitera, J. W., Suits, F. Describing Protein Folding Kinetics by Molecular Dynamics Simulations. 1. Theory. The Journal of Physical Chemistry B. 108 (21), 6571-6581 (2004).
Clementi, C., Nymeyer, H., Onuchic, J. N. Topological and energetic factors: what determines the structural details of the transition state ensemble and "en-route" intermediates for protein folding? An investigation for small globular proteins. Journal of molecular biology. 298 (5), 937-953 (2000).
Hinckley, D. M., Freeman, G. S., Whitmer, J. K., De Pablo, J. J. An experimentally-informed coarse-grained 3-Site-Per-Nucleotide model of DNA: structure, thermodynamics, and dynamics of hybridization. The Journal of chemical physics. 139 (14), 144903 (2013).
Debye, P., Huckel, E. The theory of the electrolyte II-The border law for electrical conductivity. Physikalische Zeitschrift. 24, 305-325 (1923).
Berendsen, H. J., Postma, J. V., van Gunsteren, W. F., DiNola, A., Haak, J. R. Molecular dynamics with coupling to an external bath. The Journal of Chemical Physics. 81, 3684-3690 (1984).
Bowman, G. R. Improved coarse-graining of Markov state models via explicit consideration of statistical uncertainty. The Journal of Chemical Physics. 137 (13), 134111 (2012).
Jain, A., Stock, G. Identifying metastable states of folding proteins. Journal of Chemical Theory and Computation. 8 (10), 3810-3819 (2012).
Röblitz, S., Weber, M. Fuzzy spectral clustering by PCCA+: application to Markov state models and data classification. Advances in Data Analysis and Classification. 7, 147-179 (2013).
Mardt, A., Pasquali, L., Wu, H., Noé, F. VAMPnets for deep learning of molecular kinetics. Nature Communications. 9 (1), 5 (2018).
Wang, W., Liang, T., Sheong, F. K., Fan, X., Huang, X. An efficient Bayesian kinetic lumping algorithm to identify metastable conformational states via Gibbs sampling. The Journal of Chemical Physics. 149 (7), 072337 (2018).
Chen, W., Sidky, H., Ferguson, A. L. Nonlinear discovery of slow molecular modes using state-free reversible VAMPnets. The Journal of Chemical Physics. 150 (21), 214114 (2019).
Gu, H., et al. RPnet: a reverse-projection-based neural network for coarse-graining metastable conformational states for protein dynamics. Physical Chemistry Chemical Physics :PCCP. 24 (3), 1462-1474 (2022).
Lane, T. J., Bowman, G. R., Beauchamp, K., Voelz, V. A., Pande, V. S. Markov state model reveals folding and functional dynamics in ultra-long MD trajectories. Journal of the American Chemical Society. 133 (45), 18413-18419 (2011).
Konovalov, K. A., Unarta, I. C., Cao, S., Goonetilleke, E. C., Huang, X. Markov State Models to Study the Functional Dynamics of Proteins in the Wake of Machine Learning. JACS Au. 1 (9), 1330-1341 (2021).
Cao, S., Montoya-Castillo, A., Wang, W., Markland, T. E., Huang, X. On the advantages of exploiting memory in Markov state models for biomolecular dynamics. The Journal of Chemical Physics. 153 (1), 014105 (2020).
Brandani, G. B., Takada, S. Chromatin remodelers couple inchworm motion with twist-defect formation to slide nucleosomal DNA. PLoS Computational Biology. 14 (11), 1006512 (2018).
Tan, C., Terakawa, T., Takada, S. Dynamic Coupling among Protein Binding, Sliding, and DNA Bending Revealed by Molecular Dynamics. Journal of the American Chemical Society. 138 (27), 8512-8522 (2016).
Terakawa, T., Takada, S. p53 dynamics upon response element recognition explored by molecular simulations. Scientific reports. 5, 17107 (2015).
Brandani, G. B., Niina, T., Tan, C., Takada, S. DNA sliding in nucleosomes via twist defect propagation revealed by molecular simulations. Nucleic Acids Research. 46 (6), 2788-2801 (2018).
Knotts, T. A., Rathore, N., Schwartz, D. C., de Pablo, J. J. A coarse grain model for DNA. The Journal of Chemical Physics. 126 (8), 084901 (2007).
Freeman, G. S., Hinckley, D. M., Lequieu, J. P., Whitmer, J. K., de Pablo, J. J. Coarse-grained modeling of DNA curvature. The Journal of Chemical Physics. 141 (16), 165103 (2014).

Biology

Simulación basada en la estructura y muestreo de los movimientos de proteínas del factor de transcripción a lo largo del ADN desde el paso a escala atómica hasta la difusión de grano grueso

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.