Biology

Simulazione basata sulla struttura e campionamento dei movimenti proteici del fattore di trascrizione lungo il DNA dallo stepping su scala atomica alla diffusione a grana grossa

Published: March 1, 2022 doi: 10.3791/63406

Chao E*¹, Liqiang Dai*^1,2, Jiaqi Tian^3,4, Lin-Tai Da⁴, Jin Yu^5,6,7

¹Beijing Computational Science Research Center, ²Shenzhen JL Computational Science and Applied Research Institute, ³School of Medical Informatics and Engineering, Xuzhou Medical University, ⁴Key Laboratory of Systems Biomedicine (Ministry of Education), Shanghai Center for Systems Biomedicine, Shanghai Jiao Tong University, ⁵Department of Physics and Astronomy, University of California, Irvine, ⁶Department of Chemistry, University of California, Irvine, ⁷NSF-Simons Center for Multiscale Cell Fate Research, University of California, Irvine

* These authors contributed equally

Summary

L'obiettivo di questo protocollo è quello di rivelare le dinamiche strutturali della diffusione unidimensionale delle proteine lungo il DNA, utilizzando una proteina di dominio WRKY del fattore di trascrizione vegetale come sistema esemplare. Per fare questo, sono state implementate simulazioni di dinamica molecolare sia atomistiche che a grana grossa insieme a vasti campionamenti computazionali.

Abstract

Lo scorrimento unidimensionale (1-D) della proteina del fattore di trascrizione (TF) lungo il DNA è essenziale per facilitare la diffusione del TF per individuare il sito del DNA bersaglio per la regolazione genetica. Rilevare la risoluzione della coppia di basi (bp) del TF che scivola o calpesta il DNA è ancora sperimentalmente impegnativo. Recentemente abbiamo eseguito simulazioni di dinamica molecolare all-atom (MD) catturando il passo spontaneo di 1 bp di una piccola proteina TF del dominio WRKY lungo il DNA. Sulla base del percorso di stepping WRKY da 10 μs ottenuto da tali simulazioni, il protocollo mostra qui come condurre campionamenti conformazionali più estesi dei sistemi TF-DNA, costruendo il modello di stato di Markov (MSM) per lo stepping proteico 1-bp, con vari numeri di micro e macro-stati testati per la costruzione MSM. Al fine di esaminare la ricerca diffusionale 1-D processiva della proteina TF insieme al DNA con basi strutturali, il protocollo mostra inoltre come condurre simulazioni MD a grana grossa (CG) per campionare la dinamica su scala a lungo termine del sistema. Tali modelli e simulazioni CG sono particolarmente utili per rivelare gli impatti elettrostatici proteina-DNA sui movimenti diffusionali processivi della proteina TF superiori a decine di microsecondi, rispetto ai movimenti di stepping proteico da sub-microsecondi a microsecondi rivelati dalle simulazioni di tutti gli atomi.

Introduction

I fattori di trascrizione (TF) cercano il DNA bersaglio per legare e regolare la trascrizione genica e le attività correlate¹. Oltre alla diffusione tridimensionale (3D), la diffusione facilitata del TF è stata suggerita come essenziale per la ricerca del DNA target, in cui le proteine possono anche scivolare o saltare lungo il DNA unidimensionale (1D), o saltare con trasferimento intersegmentale sul DNA 2,3,4,5,6,7.

In un recente studio, abbiamo condotto decine di microsecondi (μs) simulazioni di dinamica molecolare di equilibrio all-atomo (MD) su una pianta TF - la proteina del dominio WRKY sul DNA⁸. È stato catturato un passo completo di 1 bp di WRKY sul DNA poly-A entro microsecondi. Sono stati osservati i movimenti della proteina lungo il solco del DNA e le dinamiche di rottura-reforming dei legami idrogeno (HBs). Mentre una tale traiettoria rappresenta un percorso campionato, un panorama generale di stepping proteico è ancora carente. Qui, mostriamo come espandere i campionamenti computazionali attorno al percorso di stepping proteico inizialmente catturato con il modello di stato di Markov costruito (MSM), che è stato ampiamente implementato per simulare una varietà di sistemi biomolecolari che comportano sostanziali cambiamenti conformazionali e separazione su scala temporale 9,10,11,12,13,14,15,16, 17,18,19. Lo scopo è quello di rivelare l'insieme conformazionale e gli stati meta-stabili della diffusione della proteina TF lungo il DNA per un passo ciclico.

Mentre la simulazione MD di cui sopra rivela la risoluzione atomica dei movimenti proteici per 1 bp sul DNA, la dinamica strutturale della diffusione processiva a lungo termine del TF lungo il DNA alla stessa alta risoluzione è difficilmente accessibile. Condurre simulazioni MD a grana grossa (CG) a livello di residuo è tuttavia tecnicamente accessibile. La scala temporale di simulazione CG può essere efficacemente estesa a decine o centinaia di volte più lunga delle simulazioni atomiche 20,21,22,23,24,25,26,27,28,29. Qui, mostriamo le simulazioni CG condotte implementando il software CafeMol sviluppato da Takada lab³⁰.

Nel protocollo attuale, presentiamo le simulazioni atomiche della proteina del dominio WRKY lungo il DNA poly-A e la costruzione MSM prima, che si concentrano sul campionamento dei movimenti di stepping proteico per solo 1 bp lungo il DNA. Quindi presentiamo la modellazione CG e le simulazioni dello stesso sistema proteina-DNA, che estendono il campionamento computazionale alla diffusione processiva della proteina su decine di bps lungo il DNA.

Qui, utilizziamo il software GROMACS^31,32,33 per condurre simulazioni MD e MSMbuilder³⁴ per costruire MSM per snapshot conformazionali campionati, nonché per utilizzare VMD³⁵ per visualizzare le biomolecole. Il protocollo richiede che l'utente sia in grado di installare e implementare il software di cui sopra. L'installazione e l'implementazione del software CafeMol³⁰ è quindi necessaria per condurre le simulazioni CG MD. Ulteriori analisi delle traiettorie e la visualizzazione sono condotte anche in VMD.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Costruzione del modello di stato di Markov (MSM) da simulazioni MD atomiche

Percorso spontaneo di stepping proteico e raccolta iniziale delle strutture
1. Utilizzare^{una traiettoria} MD all-atom 8 da 10 μs ottenuta in precedenza per estrarre 10000 fotogrammi in modo uniforme da un percorso di stepping "in avanti" da 1 bp (cioè un fotogramma per ogni nanosecondo). Il numero totale di fotogrammi deve essere sufficientemente grande da includere tutte le conformazioni rappresentative.
2. Preparare il percorso di transizione con 10000 fotogrammi in VMD facendo clic su File > Salva coordinate, digitare proteina o nucleico nella casella atomi selezionati e scegliere i fotogrammi nella casella Fotogrammi, fare clic su Salva per ottenere i fotogrammi necessari.
  NOTA: Una traiettoria di simulazione MD all-atom da 10 μs precedentemente ottenuta (chiamata "traiettoria di passo in avanti" qui) per WRKY stepping 1-bp di distanza su un DNA poly-A^omogeneo 34 bp 8 è stata utilizzata come percorso iniziale per lanciare ulteriori campionamenti conformazionali. Si noti che nella maggior parte delle pratiche, tuttavia, viene costruito un percorso iniziale, eseguendo simulazioni MD guidate o mirate, o implementando metodi generali di generazione del percorso, ecc.36,37,38,39.
3. Allineare l'asse lungo del DNA di riferimento (dalla struttura cristallina) all'asse x e impostare il centro di massa iniziale (COM) del DNA completo a 34 bp all'origine dello spazio delle coordinate per la comodità di ulteriori analisi dei dati. A tale scopo, fare clic su Estensioni > console Tk in VMD e digitare nella finestra di comando della console Tk:
  origine rotate.tcl
  Lo script tcl è disponibile nel file supplementare 3.
4. Quindi calcola la distanza media quadrata della radice (RMSD) della spina dorsale proteica allineando il DNA centrale di 10 bp (A da 14 a 23 e T da 14' a 23') a quello della struttura^{cristallina 40}, e l'RMSD rappresenta misure geometriche dei sistemi (vedi Figura 1A). A tale scopo, fare clic su VMD > Extensions > Analysis > strumento traiettoria RMSD e digitare nucleico e residuo da 14 a 23 e da 46 a 55 nella casella di selezione dell'atomo, fare clic su Allinea e quindi su casella RMSD per calcolare i valori RMSD.
5. Calcola il grado di rotazione della proteina attorno al DNA Θ(t) sul piano y-z in MATLAB digitando il comando
  rad2deg(atan(z/y))
  con il posizionamento angolare iniziale definito come Θ(0)=0, come condotto in precedenza⁸.
6. Digita il seguente comando in MATLAB⁴¹ per utilizzare i metodi K-means 42,43,44 e classifica le 10000 strutture in 25 cluster digitando:
  [idx, C]=kmeans( X, 25)
  qui X è una matrice 2D di RMSD e angolo di rotazione di WRKY sul DNA. Raccogli le strutture di questi 25 centri cluster per ulteriori simulazioni MD.
  NOTA: Poiché la proteina RMSD campionata rispetto al DNA copre un intervallo di circa 25 Å, scegliamo 25 cluster per avere un cluster per angstrom.
Condurre il 1^° round di simulazioni MD e le impostazioni di simulazione
1. Costruire sistemi atomistici per le 25 strutture utilizzando il software GROMACS 5.1.2³² sotto parmbsc1 campo di forza⁴⁵ e utilizzando il file buildsystem.sh dal file supplementare 2 in shell.
2. Condurre simulazioni MD 60-ns per questi 25 sistemi sotto insieme NPT con un passo temporale di 2 fs digitando il seguente comando in shell:
  gmx_mpi grompp -f md.mdp -c npt.gro -p topol.top -o md.tpr
  gmx_mpi mdrun -deffnm md
Clustering del 1^San traiettorie MD arrotondate
1. Rimuovere i primi 10 ns di ogni traiettoria di simulazione digitando in shell:
  gmx_mpi trjcat -f md.xtc -b 10000 -e 600000 -o newtraj.xtc
  e raccogliere conformazioni dalle traiettorie 25 × 50 ns per il clustering per preparare le strutture di input per i successivi campionamenti più estesi (simulazioni MD^{di 2 °} round).
  NOTA: Per ridurre l'impatto dal percorso iniziale e consentire l'equilibrio locale, sono stati rimossi 10-ns del periodo iniziale di simulazioni.
2. Scegli coppie di distanza tra proteine e DNA come parametri di input per l'analisi dei componenti indipendenti dal tempo (tICA)46,47,48 proiezione. Utilizzare il comando make_ndx in GROMACS per eseguire questa operazione:
  gmx_mpi make_ndx -f input.pdb -o index.ndx
  NOTA: Qui sono stati selezionati gli atomi di proteina CA e gli atomi pesanti (NH1, NH2, OH, NZ, NE2, ND2) del residuo Y119, K122, K125, R131, Y133, Q146, K144, R135, W116, R117, Y134, K118, Q121 che possono formare legami idrogeno (HBs) con il nucleotide del DNA, che si accoppiano con gli atomi O1P O2P e N6 del nucleotide del DNA (A14-20, T19-23). Gli amminoacidi selezionati possono formare HB stabili o ponti di sale con il DNA.
3. Copiare l'indice atomo selezionato sopra dal file index.ndx in un nuovo file di testo (index.dat). Ottieni le informazioni sulla coppia tra questi atomi dallo script python dal file supplementare 1 generate_atom_indices.py e digitare:
  python2.6 indice generate_atom_indices.py.dat > AtomIndices.txt
  Questo genera le 415 coppie di distanza tra proteina e DNA.
4. Calcolare le 415 coppie di distanza da ogni traiettoria digitando il seguente comando nella finestra di comando di MSMbuilder:
  msmb AtomPairsFeaturizer -out pair_features --pair_indices AtomIndices.txt --top references.pdb --trjs "trajectories/*.xtc" --transformed pair_features --stride 5
5. Condurre tICA per ridurre la dimensione dei dati sui primi 2 componenti indipendenti dal tempo (tIC) o vettori digitando:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0.05 -t tica_results.h5
  NOTA: tICA è un metodo di riduzione dimensionale che calcola l'autovalore della matrice di correlazione ritardata nel tempo per determinare i gradi di libertà rilassanti più lenti del sistema di simulazione mediante l'equazione:
  
  dove X_i(t) è il valore dell'i-esima coordinata di reazione al tempo t, e X_j(t+Δt) è il valore della coordinata di reazione j-esima al tempo t+Δt. è il valore di aspettativa del prodotto delle traiettorie di simulazione complessive X _i(t) e X_j(t + Δt). Le direzioni lungo i gradi di libertà rilassanti più lenti corrispondono ai più grandi autovalori della matrice di correlazione ritardata nel tempo di cui sopra . Qui, 2 tIC sembrano essere un insieme minimo per differenziare tre macrostati sulla nostra costruzione MSM (affrontato più avanti). Si può anche calcolare il punteggio⁴⁹ del quoziente di Rayleigh a matrice generalizzata (GMRQ), ad esempio, per esplorare un insieme ottimale di componenti da utilizzare.
6. Utilizzare il comando in MSMbuilder per raggruppare i set di dati proiettati in 100 cluster con il metodo K-center^43,44 (vedere la Figura 1B):
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 100.
  Selezionare la struttura centrale di ciascun cluster come struttura iniziale per il 2^° round di simulazioni MD. Mantenere le informazioni di simulazione delle 100 strutture simulate, comprese posizioni, temperature, pressioni, ecc., Ad eccezione delle velocità.
  NOTA: Dopo il primo round di 25 simulazioni, la memoria del percorso iniziale è stata ridotta, quindi generiamo più cluster, ad esempio 100 cluster, nel secondo round, per espandere sostanzialmente i campionamenti conformazionali.
Condurre il 2^° round ampie simulazioni MD
1. Condurre simulazioni MD 60-ns partendo da queste 100 strutture iniziali dopo aver imposto velocità iniziali casuali su tutti gli atomi. Aggiungi le velocità iniziali casuali attivando la generazione della velocità nel file mdp, ad esempio modificando il file md.mdp gen_vel = no in gen_vel = yes.
2. Rimuovere i primi 10 ns di ogni simulazione come descritto nel passaggio 1.3.1, raccogliere 2.500.000 istantanee dalle traiettorie 100 × 50 ns in modo uniforme per costruire l'MSM.
  NOTA: Si noti che nella successiva costruzione dei macrostati, è stato trovato un piccolo numero di stati fuori percorso con una popolazione particolarmente bassa (~ 0,2%, sul fondo del piano X-Θ). Questi stati fuori percorso sono classificati come un macrostato quando il numero totale di macrostati è impostato su 3 su 6 (Figura 2B). Poiché un macrostato di popolazione così basso comprende solo 3 traiettorie, che sono state rimosse alla fine, i risultati mostrati in questo protocollo sono stati ottenuti infatti da 97 × 50 traiettorie ns, con un totale di 2.425.000 fotogrammi o istantanee.
Clustering delle traiettorie MD del 2^° round
1. Condurre tICA per le traiettorie del 2^° round come fatto in precedenza. Digitare IN MSMbuilder:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0.05 -t tica_results.h5
2. Calcolare la scala temporale implicita per convalidare i parametri per il tempo di ritardo di correlazione Δt e i numeri dei microstati (vedere figura 1C),
  
  dove τ rappresenta il tempo di ritardo utilizzato per costruire la matrice di probabilità di transizione (TPM); μ_k(τ) rappresenta l'autovalore kth del TPM in un tempo di ritardo di τ. Usa lo script python dal file supplementare 1 per questo python BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 10 -n 20 -s 500.
3. Variare il tempo di ritardo τ e il numero di microstati modificando i parametri utilizzati sopra:
  python BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 5 10 20 30 40 -n 20 -s 20 200 400 500 800 2000
  NOTA: Il sistema è considerato markoviano quando le curve implicite della scala temporale iniziano a stabilizzarsi con la separazione della scala temporale. Quindi, scegli il Dt come tempo di ritardo di correlazione e il τ il tempo di ritardo in cui la scala temporale implicita inizia a livellarsi per costruire MSM.
4. Di conseguenza, scegli un numero relativamente grande (ma non troppo grande) di stati, N = 500, e un tempo di ritardo di correlazione relativamente breve Δt = 10 ns. Il tempo di ritardo è risultato essere τ = 10 ns per costruire MSM.
5. Classificare le conformazioni in 500 cluster (vedere la Figura 1D) utilizzando il comando:
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 500
Costruzione MSM
1. Raggruppa i 500 microstati in 3-6 macrostati per scoprire il numero di macrostati che si adattano meglio secondo l'algoritmo PCCA +⁵⁰ in MSMbuilder, utilizzando lo script python nel file supplementare 1 python msm_lumping_usingPCCAplus.py. Identificare una rete cinetica ridotta di modelli per i cambiamenti conformazionali più essenziali delle biomolecole, costruendo un piccolo numero di macrostati, cioè raggruppando cineticamente centinaia di microstati come descritto sotto^17,51.
2. Mappare le conformazioni ad alta dimensione all'X (movimento proteico lungo l'asse lungo del DNA) e all'angolo di rotazione della proteina lungo il DNA per ciascun macrostato come descritto nei passaggi 1.1.3 e 1.1.4 (ad esempio, nessuno stato con popolazione troppo bassa < l'1%; vedi Figura 2C). Quindi trovare i 3 macrostati che meglio rappresentano il sistema (Figura 1E) . Vedere la Figura 2D per le istantanee del movimento delle proteine lungo il DNA e l'angolo di rotazione delle proteine attorno al DNA.
  NOTA: Nel lavoro precedente che ha generato il percorso di avanzamento della proteina spontanea da 10 μs, abbiamo inoltre condotto simulazioni MD di equilibrio 5 x 4 μs per espandere moderatamente i campionamenti. La Corte ha mostrato la mappatura del percorso in avanti originale (vedere la Figura 2A a sinistra) e ulteriori traiettorie di campionamento di 4 μs sul percorso in avanti condotte in precedenza (vedere figura 2A a destra)⁸. Viene mostrata la mappatura delle traiettorie originali di 100 × 50 ns (vedi Figura 2B a sinistra)⁸ e le traiettorie 97 × 50 ns utilizzate in questo lavoro (vedi Figura 2B a destra).
Calcolo dei tempi medi di primo passaggio (MFPT)
1. Esegui cinque traiettorie Monte Carlo (MC) da 10 ms basate sul TPM del MSM a microstato 500 con il tempo di ritardo di 10 ns impostato come passo temporale di MC. Calcola MFPT⁵² tra ogni coppia di macrostati (Figura 3) dallo script python nel file supplementare 1 python python mfpt_msm3.py.
2. Calcola l'errore medio e standard del MFPT usando il file bash nel file supplementare 2, digita:
  sh mfpt_analysis.bash

2. Condurre simulazioni a grana grossa (CG) per campionare dinamiche di lunga durata

Esegui una simulazione CG utilizzando il software CafeMol 3.0³⁰. Vedere le impostazioni di simulazione CG specificate nel file di configurazione di input con estensione .inp, incluse le strutture di input, i parametri di simulazione, i file di output, ecc. Digitare il seguente comando sul terminale per eseguire la simulazione CG:
cafemol XXX.inp
Specificare i seguenti blocchi nel file di input, con ogni blocco che inizia con l'etichetta < and ending with >>>>.
1. Impostare il blocco dei nomi file (obbligatorio) per specificare le directory di lavoro e il percorso dell'archivio dei file di input/output. Digitare quanto segue per il blocco dei nomi file per queste simulazioni:
  <<<< nomi di file
  path = XXXXX (percorso di lavoro)
  filename = wrky (i nomi dei file di output)
  OUTPUT psf pdb movie dcd rst
  path_pdb = XXXXX (percorso della struttura nativa di input)
  path_ini = XXXXX (percorso iniziale della struttura di input)
  path_natinfo = XXXXX (percorso file di informazioni nativo)
  path_para = XXXXX (percorso dei file dei parametri)
  >>>>
  NOTA: Poiché il go-model⁵³ viene utilizzato nella modellazione CG, cioè la proteina sarà distorta verso la conformazione nativa, quindi è necessario impostare la struttura modellata come conformazione nativa. Qui, la struttura cristallina di input è stata impostata come conformazione nativa.
2. Impostare il blocco di controllo del processo (obbligatorio) per definire la modalità di esecuzione delle simulazioni. Digitare il comando seguente:
  <<<< job_cntl
  i_run_mode = 2 (= 2 la simulazione della temperatura costante)
  i_simulate_type = 1 (=1 dinamica di Langevin)
  i_initial_state = 2 (=2 significa che la configurazione iniziale è la configurazione nativa)
  >>>>
  Selezionare le simulazioni dinamiche di Langevin a temperatura costante.
3. Impostare l'unità e il blocco di stato (obbligatorio) per definire le informazioni per le strutture di input. Digitare il comando seguente:
  <<<< unit_and_state
  i_seq_read_style = 1 (=1 significa sequenze di lettura da file PDB)
  i_go_native_read_style = 1 (=1 significa che la struttura nativa proviene da file PDB)
  1 proteina proteica.pdb (unità&stato molecular_type native_structure)
  DNA a 2-3 DNA.pdb (unità e stato molecular_type native_structure)
  >>>>
  NOTA: sono necessari i file iniziali della struttura di input (proteina.pdb e DNA.pdb qui). Le strutture sono scritte in formato pdb. Qui sono necessari due file pdb: uno è il file di struttura proteica contenente le coordinate atomiche pesanti di WRKY (unità 1), e l'altro sono le coordinate del DNA a doppio filamento (ds) da 200 bp (unità 2-3). La proteina viene inizialmente posizionata a 15 Å di distanza dal DNA.
4. Impostare il blocco funzione di energia (obbligatorio) definito nel blocco energy_function. Digitare il comando seguente:
  <<<< energy_function
  LOCALE(1) L_GO
  LOCALE(2-3) L_DNA2
  NLOCAL(1/1) GO EXV ELE
  NLOCAL(2-3/2-3) ELE DNA
  NLOCAL(1/2-3) EXV ELE
  i_use_atom_protein = 0
  i_use_atom_dna = 0
  i_para_from_ninfo = 1
  i_triple_angle_term = 2
  >>>>
  NOTA: Nelle simulazioni CG, la proteina è a grana grossa dal go-modello⁵³ con ogni amminoacido rappresentato da una particella CG posta nella sua posizione Cα. La conformazione proteica sarà quindi orientata verso la struttura nativa, o struttura cristallina qui, sotto il potenziale Go (Figura 4A a sinistra). Il DNA è descritto dal modello 3SPN.2⁵⁴, in cui ogni nucleotide è rappresentato da 3 particelle CG S, P, N, che corrispondono rispettivamente a zucchero, fosfato e base azotata (Figura 4A a destra). Le interazioni elettrostatiche e vdW sono considerate tra diverse catene. Le interazioni elettrostatiche tra proteina e DNA nella simulazione CG sono approssimate dal potenziale di Debye-Hückel⁵⁵. L'energia repulsiva vdW assume la stessa forma del modello Go.
5. Impostare il blocco md_information (obbligatorio) per definire le informazioni di simulazione. Digitare il comando seguente:
  <<<< md_information
  n_step_sim = 1
  n_tstep(1) = 500000000
  tstep_size = 0,1
  n_step_save = 1000
  n_step_neighbor = 100
  i_com_zeroing = 0
  i_no_trans_rot = 0
  tempk = 300,0
  n_seed = -1
  >>>>
  Il n_tstep è la fase di simulazione. Imposta il tstep_size come lunghezza temporale di ogni passaggio MD, ogni passaggio temporale CG Cafemol è di circa 200 fs³⁰, quindi ogni passaggio MD qui è 200 × 0,1 fs in linea di principio. Aggiorna l'elenco dei vicini ogni 100 passaggi MD (n_step_neighbor = 100). Impostare la temperatura di simulazione a 300 K. Controllare la temperatura utilizzando l'algoritmo Verlet di tipo velocità per aggiornare la struttura delle proteine con il termostato Berendsen⁵⁶.
  NOTA: il n_step_sim è il numero di bacino del potenziale basato sul modello Go o il numero minimo locale della curva di energia. Un potenziale multibacino consente la conformazione proteica distorta a diverse conformazioni in modo che la conformazione proteica possa cambiare da un minimo locale all'altro. Qui viene utilizzato solo il modello Go a bacino singolo, il che significa solo una conformazione distorta (struttura cristallina) per le proteine nelle simulazioni. Nel frattempo, poiché non esiste un'interazione di legame idrogeno proteina-DNA, ecc. modellata nel contesto CG, i moti molecolari possono essere campionati ancora più velocemente, cioè > 10 volte rispetto alle simulazioni atomiche.
6. Impostare il blocco elettrostatico (richiesto solo quando si utilizza l'interazione elettrostatica) poiché l'interazione elettrostatica è considerata tra diverse catene, quindi utilizzare questo blocco per definire i parametri per l'interazione elettrostatica digitando:
  <<<< elettrostatico
  cutoff_ele = 10,0
  ionic_strength = 0,15
  >>>>
  Impostare la lunghezza di Debye nell'interazione elettrostatica su 10 Å, corrispondente alla condizione della soluzione. Impostare la forza ionica a 0,15 M, come alle condizioni fisiologiche.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Scorrimento accoppiato a rotazione o stepping di 1 bp di WRKY dalla costruzione MSM
Tutte le conformazioni proteiche sul DNA sono mappate al movimento longitudinale X e all'angolo di rotazione della proteina COM lungo il DNA (vedi Figura 3A). L'accoppiamento lineare di questi due gradi indica uno stepping accoppiato alla rotazione della proteina del dominio WRKY sul DNA. Le conformazioni possono essere ulteriormente raggruppate in 3 macrostati (S1, S2 e S3) nel MSM. Il passo avanti di WRKY segue quindi la transizione macrostatale S1->S2->S3. S1 si riferisce a uno stato metastabile iniziato dalla struttura modellata (basata sulla struttura cristallina del complesso WRKY-DNA⁴⁰), con una popolazione di ~ 6%. Si noti che nella modellazione attuale, la conformazione proteica iniziale è stata adottata dalla struttura cristallina in cui la proteina si lega con la specifica sequenza di DNA W-box⁴⁰. Un tale complesso modellato proteina-poli-A-DNA porta quindi a strutture iniziali meno favorevoli (S1) rispetto alle strutture a gradini o infine rilassate (S3). Tuttavia, si può scoprire che i legami idrogeno (HBs) all'interfaccia proteina-DNA si riprendono vicino al centro di S3 come quello vicino al centro in S1 (vedi Figura 3B). Gli HB nello stato S1 sono ben mantenuti: K125 con A15, R131, Q146 e Y133 con A16, K144 e Y119 con A17, R135 con A18 (Figura 3B in alto a sinistra). S3 si riferisce a uno stato metastabile dopo lo stepping proteico di 1 bp, con quasi tutti gli HB spostati per una distanza di 1 bp (Figura 3B inferiore) e le strutture appaiono stabili con la popolazione più alta (63%). Lo stato intermedio S2 collega S1 e S3, con una popolazione medio-alta (~30%). Abbiamo scoperto che r135 e K144 sono abbastanza flessibili in questo stato intermedio e di solito possono rompere gli HBs con il nucleotide corrente e riformarlo con il nucleotide successivo (Figura 3B in alto a destra). Nel complesso, la proteina WRKY COM si è spostata di ~ 2,9 Å e ha ruotato di ~ 55 ° al passo di 1 bp qui. Il passaggio limitante per il passo WRKY è S2->S3, che essenzialmente consente la rottura collettiva e il reforming degli HBs e richiede in media ~ 7 μs. Al contrario, da S1 a S2 può transitare molto velocemente in un momento di ~ 0,06 μs o 60-ns (Figura 3B), coinvolgendo principalmente le fluttuazioni COM della proteina (ad esempio, a causa di cambiamenti orientativi proteici sul DNA).

Polarizzazione a singolo filamento di WRKY durante la diffusione processiva nel modello CG
Nel nostro recente studio, abbiamo scoperto che la proteina del dominio WRKY si lega preferenzialmente a un filamento del dsDNA, indipendentemente dal passaggio di 1 bp o dal legame statico; e il bias a singolo filamento diventa molto prominente in particolare su specifici legami di sequenza di DNA⁸. Nel frattempo, non è chiaro se tale tendenza rimanga durante la diffusione processiva della proteina lungo il DNA. Qui abbiamo cercato di esaminare il potenziale strand bias attraverso le simulazioni CG. È interessante notare che una significativa configurazione di legame del DNA a singolo filamento è stata identificata nelle simulazioni CG del WRKY durante la diffusione processiva. Per vedere questo, i numeri di contatto tra proteina e DNA sono stati calcolati sui rispettivi filamenti di DNA (vedi Figura 4B). Un contatto è considerato quando la distanza tra la particella della proteina CG e la particella DNA CG P (gruppo fosfato) è inferiore a 7 Å. La proteina mostra infatti pregiudizi su uno dei filamenti di DNA (ad esempio, ~ 4 contatti a un filamento e ~ 1 contatto all'altro), cioè anche quando interazioni dettagliate come HBs all'interfaccia proteina-DNA non sono modellate.

Il filamento di DNA preferito, tuttavia, può passare di volta in volta tra i due filamenti del DNA, a seconda dell'orientamento di legame o della configurazione della proteina sul DNA. In particolare, in base al numero di contatto formato tra la proteina e i rispettivi filamenti di DNA, ci sono principalmente 4 stati qui (come etichettati 1, 2, 3 e 4 nella Figura 4B, C). Nello stato 1 e 3, una regione di zinco-dito si lega verso la direzione -Y e il filamento preferito è quello blu. Nello stato 2 e 3, la regione del dito di zinco si lega verso la direzione +Y e il filamento preferito diventa quello rosso. Si è anche scoperto che la regione zinco-figner interagisce in modo dominante con il DNA (vedi Figura 4D). Quindi, il filamento di DNA legato strettamente con la regione del dito di zinco è davvero il preferito. Secondo il campionamento di cui sopra, sembra quindi che il bias del filamento persista ma passi tra i due filamenti di DNA nel modello CG della diffusione proteica processiva.

Fase residua individuale della proteina nelle simulazioni CG
In precedenza è stato notato dalle nostre simulazioni CG che la dimensione del passo di WRKY può variare su diverse sequenze di DNA⁸. La proteina COM tende a fare step 1 bp sul DNA poli-A omogeneo. Mentre sul DNA poly-AT con periodicità di 2 bp, la proporzione di stepping di 2 bp sembra aumentare.

Inoltre, qui abbiamo esaminato se i singoli residui proteici si muovono in modo sincrono all'interfaccia proteina-DNA. Abbiamo calcolato la dimensione del passo di ogni residuo altamente conservato nel motivo WRKY (WRKYGQK) per ogni 1000 timestep (Figura 5A). La dimensione residua del gradino di ciascun residuo conservato può quindi essere misurata dalle simulazioni CG. I risultati mostrano infatti che le dimensioni di passo di questi singoli residui sono più sincronizzate sul DNA poly-A che su sequenze di DNA poli-AT o casuali (Figura 5B).

Figura 1: La generazione di conformazioni e la costruzione di microstati/macrostati. (A) Il percorso iniziale di avanzamento in avanti mappato sulla proteina-DNA RMSD e sull'angolo di rotazione della proteina attorno al DNA. Le 25 strutture inizialmente scelte sono etichettate da cerchi rossi. (B) I 100 centri del cluster di conformazione dal 1^° round 25 x 50 ns traiettorie di simulazione MD mappate sulla direzione dei due più alti autovalori tIC. (C) Grafici della scala temporale implicita in funzione del tempo di ritardo per la costruzione MSM tramite tICA utilizzando coppie di distanza scelte come input. Per ogni set, MSM è stato costruito proiettando le conformazioni sui primi 2 tIC seguiti da K-center clustering per produrre da 20 a 2000 microstati (dalla colonna sinistra a destra) con tempo di ritardo di correlazione per tICA scelto da 5 a 40 ns (dalla riga superiore a quella inferiore). (D) I 500 microstati costruiti e (E) gli ulteriori 3 macrostati costruiti, con i corrispondenti centri microstatali mappati lungo la direzione più alta dei due tIC. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 2: Costruzione dei macrostati. (A) La mappatura della traiettoria iniziale del percorso di passo in avanti (a sinistra) e con un piccolo numero di campionamenti aggiuntivi di traiettoria di micro-secondi (a destra) sul movimento del centro di massa della proteina (COM) lungo l'asse lungo del DNA (X) e l'angolo di rotazione attorno al DNA (ottenuto in precedenza⁸). (B) La mappatura delle traiettorie originali da 100 × 50 ns e delle traiettorie 97 × 50 ns utilizzate nell'attuale costruzione MSM. (C) La costruzione di 3-6 macrostati e le loro popolazioni dal MSM costruito sono etichettati sulle ampie mappe di campionamento. (D) Vengono mostrati rispettivamente il movimento X della proteina e l'angolo di rotazione attorno al DNA. Le conformazioni campionate sono infine raggruppate in 3 macrostati, con rosso, blu e grigio corrispondenti rispettivamente al macrostato 1, 2 e 3. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 3: L'MSM della proteina del dominio WRKY che calpesta il DNA poly-A. (A) La proiezione delle istantanee conformazionali MD sulle coordinate del movimento COM della proteina X e dell'angolo di rotazione rispetto al DNA. I 3 macrostati S1, S2 e S3 sono colorati rispettivamente in rosso, blu e grigio. (B) Conformazioni rappresentative e tempo medio di primo passaggio di transizione (MFPT) dei 3 macrostati costruiti. Vengono mostrati i principali legami idrogeno tra proteine e DNA. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 4: Il modello a grana grossa (CG) e i contatti formati tra filamenti proteici e di DNA nel modello CG. (A) La grana grossa di proteine (a sinistra) e DNA (a destra). (B) Il numero di contatto tra WRKY e ciascun filamento di DNA lungo la simulazione. (C) Le viste molecolari delle 4 modalità di contatto. La regione proteica vicino al dito di zinco è colorata in grigio e l'altra regione è colorata in verde. (D) La probabilità di contatto di ciascun amminoacido proteico con il DNA. Quando la distanza tra la particella CG dell'amminoacido e qualsiasi particella di DNA CG è inferiore a 7 Å, l'amminoacido è considerato in contatto con il DNA. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 5: Le dimensioni della fase di diffusione del singolo amminoacido proteico nel motivo WRKY come WRKY che si muove lungo il DNA. (A) I residui altamente conservati (WRKYGQK) nella struttura atomica (a sinistra) e dopo la grana grossa (a destra). (B) La dimensione dello stepping per ogni residuo conservato su diverse sequenze di DNA (poly-A; poly-AT; sequenze casuali) Fare clic qui per visualizzare una versione più grande di questa figura.

Fascicolo complementare 1: I codici python e il software utilizzato in questo protocollo. MSM è costruito principalmente utilizzando MSMbuilder, i codici python necessari sono allegati. Fare clic qui per scaricare questo file.

Fascicolo complementare 2: Le simulazioni di dinamica molecolare atomistica sono condotte da GROMACS, sono allegati anche i comandi e i file necessari per costruire simulazioni all-atom. Le simulazioni a grana grossa sono condotte dal software CafeMol. I risultati della simulazione vengono analizzati da VMD e MATLAB. Fare clic qui per scaricare questo file.

Fascicolo complementare 3: Script tcl per ruotare e spostare le proteine in VMD. Fare clic qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Questo lavoro affronta come condurre simulazioni computazionali basate sulla struttura e campionamenti per rivelare un fattore di trascrizione o una proteina TF che si muove lungo il DNA, non solo al dettaglio atomico del passo, ma anche nella diffusione processiva, che è essenziale per la diffusione facilitata del TF nella ricerca del bersaglio del DNA. Per fare ciò, è stato costruito per la prima volta il modello di stato di Markov o MSM di una piccola proteina di dominio TF WRKY che cammina per 1-bp lungo il DNA poli-A omogeneo, in modo che possa essere rivelato un insieme di conformazioni proteiche sul DNA insieme al legame idrogeno collettivo o alla dinamica HB all'interfaccia proteina-DNA. Per ottenere l'MSM, abbiamo condotto due cicli di estese simulazioni MD all-atom lungo un percorso di stepping proteico spontaneo (ottenuto da una precedente simulazione di 10-μs), con campionamenti attuali in aggregazione di 7,5 μs (125 x 60 ns). Tali campionamenti estesi ci forniscono istantanee per il clustering di conformazione in centinaia di microstati, utilizzando distanze di coppie interfacciali proteina-DNA come misure geometriche per il clustering. La proprietà markoviana della costruzione MSM è parzialmente convalidata rilevando la separazione della scala temporale dalle scale temporali implicite calcolate per varie lunghezze o tempi di ritardo delle singole simulazioni MD. 20-2000 microstati sono stati quindi testati e confrontati per le proprietà di separazione su scala temporale, con 500 microstati selezionati per la costruzione MSM. Inoltre, i 500 microstati sono stati cineticamente raggruppati in un piccolo numero di macrostati, per i quali abbiamo testato vari numeri di stati e abbiamo scoperto che tre macrostati sono sufficienti per il sistema attuale. Il modello a tre stati mostra semplicemente che lo stato S1 transita a S2 relativamente velocemente (entro decine di ns), dominato dalle fluttuazioni del centro di massa proteico (COM) sul DNA, mentre lo stato S2 transita lentamente in S3 ed è limitante la velocità (~ 7 μs in media), dominato dalla dinamica HB collettiva per il passo. Si noti che il raggruppamento cinetico dei microstati in un piccolo numero di macrostati cineticamente distinti è ancora soggetto a sviluppi metodologici, con diversi algoritmi testati e tecniche di apprendimento automatico per miglioramenti 57,58,59,60,61,62,63 . I passaggi critici per costruire MSM includono la scelta delle coppie di distanza utilizzate in tICA e la determinazione dei parametri utilizzati per costruire microstati. La scelta delle coppie a distanza è basata sulla conoscenza ed è importante scegliere le coppie di interazione più essenziali. I parametri per la costruzione di microstati, come il tempo di ritardo di correlazione, il tempo di ritardo, il muber dei microstati, devono essere impostati correttamente per garantire che il sistema sia markoviano.

Con tali sforzi, la dinamica strutturale della proteina da submicro a microsecondi con dettagli atomici può essere sistematicamente rivelata per il passo proteico di 1 bp lungo il DNA. In linea di principio, con la matrice di probabilità di transizione ottenuta dalla costruzione MSM, il sistema può essere evoluto su una scala temporale lunga oltre i microsecondi, o diciamo, per avvicinarsi ai millisecondi e oltre 13,17,64. Tuttavia, ci sono limitazioni intrinseche del campionamento e della costruzione MSM, che si basano su simulazioni individuali inferiori ai microsecondi attorno a un certo percorso iniziale, e la proprietà markoviana potrebbe non essere ben garantita ^65,66. Nella maggior parte delle pratiche, il percorso iniziale è stato costruito sotto forzatura o accelerazione, anche se nel sistema attuale sfruttiamo un percorso di stepping proteico spontaneo (senza forzatura o accelerazione) ottenuto da una simulazione di equilibrio di 10 ms⁸. I campionamenti conformazionali in aggregato sono ancora limitati da decine di microsecondi a causa dell'elevato costo computazionale delle simulazioni atomiche. È improbabile che tali campionamenti di microsecondi dello stepping proteico forniscano conformazioni sufficienti per apparire sulla diffusione del TF processivo su scala temporale. Il problema della memoria diventerebbe significativo se si implementasse la matrice di probabilità di transizione attualmente ottenuta oltre una certa scala temporale e la proprietà markoviana non è garantita per garantire l'uso corretto dell'attuale MSM 14,52,66. Pertanto, per campionare la diffusione processiva su scala a lungo termine del TF lungo il DNA, vengono invece implementati la modellazione e la simulazione a grana grossa o CG, per bilanciare il mantenimento della base strutturale e la riduzione del costo computazionale.

Nella modellazione e simulazione CG, i residui proteici e i nucleotidi del DNA sono rappresentati da perline (cioè una perla per un amminoacido e tre perline per un nucleotide), con la conformazione proteica mantenuta tramite il modello Go verso una configurazione nativa o pre-equilibrata ^30,53. Sebbene il livello atomico delle interazioni HB diventi assente nel modello CG, le interazioni elettrostatiche proteina-DNA sono ben mantenute, che sembrano essere in grado di catturare le caratteristiche dinamiche dominanti nella diffusione processiva della proteina lungo il DNA 67,68,69,70. Qui vengono presentati protocolli di implementazione dettagliati per la modellazione e la simulazione del sistema WRKY-DNA. I risultati rappresentativi mostrano in modo interessante che in primo luogo, il bias del DNA a singolo filamento presentato nella precedente simulazione atomica del sistema WRKY-DNA persiste nel modello CG, mentre una varietà di orientamenti / configurazioni proteiche campionati durante la diffusione processiva portano a cambiare il bias tra i due filamenti di volta in volta. Quindi, un tale bias del filamento di DNA non si collega necessariamente all'associazione HB, ma sembra basarsi principalmente sulle interazioni elettrostatiche proteina-DNA, che variano per varie configurazioni proteiche o orientamenti sul DNA. Successivamente, i singoli amminoacidi in corrispondenza o vicino all'interfaccia proteina-DNA, come i motivi WRKQGQK altamente conservati, mostrano diverse dimensioni di passo o modelli di sincronizzazione per diverse sequenze di DNA. Nel nostro studio precedente, le variazioni delle dimensioni del passo sono state mostrate solo per il COM della proteina, poiché la proteina è stata modellata per diffondersi lungo diverse sequenze di DNA. Si noti che l'attuale modello CG del DNA supporta variazioni di sequenza del DNA con diversa parametrizzazione 54,71,72, anche se mancano dettagli atomici. Una corretta parametrizzazione dipendente dalla sequenza del DNA nella modellazione basata sulla struttura del sistema proteina-DNA è quindi fondamentale per rivelare i meccanismi di ricerca e riconoscimento proteina-DNA su più scale temporali e di lunghezza.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno conflitti di interessi.

Acknowledgments

Questo lavoro è stato supportato da NSFC Grant #11775016 e #11635002. JY è stato supportato dal CMCF dell'UCI tramite NSF DMS 1763272 e dalla simons Foundation grant #594598 e dal fondo di start-up dell'UCI. LTD è stata sostenuta dalla Natural Science Foundation di Shanghai #20ZR1425400 e #21JC1403100. Riconosciamo anche il supporto computazionale del Beijing Computational Science Research Center (CSRC).

Materials

Name	Company	Catalog Number	Comments
CafeMol	Kyoto University		coarse-grained (CG) simulations
GROMACS	University of Groningen Royal Institute of Technology Uppsala University		molecular dynamics simulations software
Matlab	MathWorks		Numerical calculation software
MSMbuilder	Stanford University		build MSM
VMD	UNIVERSITY OF ILLINOIS AT URBANA-CHAMPAIGN		molecular visualization program

DOWNLOAD MATERIALS LIST

References

Latchman, D. S. Transcription factors: an overview. The International Journal of Biochemistry & Cell Biology. 29 (12), 1305-1312 (1997).
Berg, O. G., von Hippel, P. H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. Journal of Molecular Biology. 193 (4), 723-750 (1987).
von Hippel, P. H., Berg, O. G. Facilitated target location in biological systems. The Journal of Biological Chemistry. 264 (2), 675-678 (1989).
Halford, S. E., Marko, J. F. How do site-specific DNA-binding proteins find their targets. Nucleic Acids Research. 32 (10), 3040-3052 (2004).
Slusky, M., Mirny, L. A. Kinetics of protein-DNA interaction: facilitated target location in sequence-dependent potential. Biophysical Journal. 87 (6), 4021-4035 (2004).
Bauer, M., Metzler, R. Generalized facilitated diffusion model for DNA-binding proteins with search and recognition states. Biophysical Journal. 102 (10), 2321-2330 (2012).
Shvets, A. A., Kochugaeva, M. P., Kolomeisky, A. B. Mechanisms of Protein Search for Targets on DNA: Theoretical Insights. Molecules. 23 (9), Basel, Switzerland. 2106 (2018).
Dai, L., Xu, Y., Du, Z., Su, X. D., Yu, J. Revealing atomic-scale molecular diffusion of a plant-transcription factor WRKY domain protein along DNA. Proceedings of the National Academy of Sciences of the United States of America. 118 (23), 2102621118 (2021).
Chodera, J. D., Singhal, N., Pande, V. S., Dill, K. A., Swope, W. C. Automatic discovery of metastable states for the construction of Markov models of macromolecular conformational dynamics. The Journal of Chemical Physics. 126 (15), 155101 (2007).
Pan, A. C., Roux, B. Building Markov state models along pathways to determine free energies and rates of transitions. The Journal of Chemical Physics. 129 (6), 064107 (2008).
Bowman, G. R., Huang, X., Pande, V. S. Using generalized ensemble simulations and Markov state models to identify conformational states. Methods. 49 (2), San Diego, California. 197-201 (2009).
Prinz, J. H., et al. Markov models of molecular kinetics: Generation and validation. The Journal of chemical physics. 134 (17), 174105 (2011).
Chodera, J. D., Noé, F. Markov state models of biomolecular conformational dynamics. Current Opinion in Structural Biology. 25, 135-144 (2014).
Malmstrom, R. D., Lee, C. T., Van Wart, A. T., Amaro, R. E. On the Application of Molecular-Dynamics Based Markov State Models to Functional Proteins. Journal of Chemical Theory and Computation. 10 (7), 2648-2657 (2014).
Husic, B. E., Pande, V. S. Markov State Models: From an Art to a Science. Journal of the American Chemical Society. 140 (7), 2386-2396 (2018).
Sittel, F., Stock, G. Perspective: Identification of collective variables and metastable states of protein dynamics. The Journal of chemical physics. 149 (15), 150901 (2018).
Wang, W., Cao, S., Zhu, L., Huang, X. Constructing Markov State Models to elucidate the functional conformational changes of complex biomolecules. WIREs Computational Molecular Science. 8, 1343 (2018).
Peng, S., et al. Target search and recognition mechanisms of glycosylase AlkD revealed by scanning FRET-FCS and Markov state models. Proceedings of the National Academy of Sciences of the United States of America. 117 (36), 21889-21895 (2020).
Tian, J., Wang, L., Da, L. T. Atomic resolution of short-range sliding dynamics of thymine DNA glycosylase along DNA minor-groove for lesion recognition. Nucleic Acids Research. 49 (3), 1278-1293 (2021).
Chu, J. -W., Izveko, S., Voth, G. The multiscale challenge for biomolecular systems: coarse-grained modeling. Molecular Simulation. 32 (3-4), 211-218 (2006).
Marrink, S. J., Risselada, H. J., Yefimov, S., Tieleman, D. P., De Vries, A. H. The MARTINI force field: coarse grained model for biomolecular simulations. The Journal of Physical Chemistry B. 111 (27), 7812-7824 (2007).
Givaty, O., Levy, Y. Protein sliding along DNA: dynamics and structural characterization. Journal of Molecular Biology. 385 (4), 1087-1097 (2009).
Khazanov, N., Levy, Y. Sliding of p53 along DNA can be modulated by its oligomeric state and by cross-talks between its constituent domains. Journal of Molecular Biology. 408 (2), 335-355 (2011).
Riniker, S., Allison, J. R., van Gunsteren, W. F. On developing coarse-grained models for biomolecular simulation: a review. Physical Chemistry Chemical Physics : PCCP. 14 (36), 12423-12430 (2012).
Kmiecik, S., et al. Coarse-Grained Protein Models and Their Applications. Chemical Reviews. 116 (14), 7898-7936 (2006).
Bhattacherjee, A., Krepel, D., Levy, Y. Coarse-grained models for studying protein diffusion along DNA. WIREs Computational Molecular Science. 6, 515-531 (2016).
Wang, J., et al. Machine Learning of Coarse-Grained Molecular Dynamics Force Fields. ACS Central Science. 5 (5), 755-767 (2019).
Joshi, S. Y., Deshmukh, S. A. A review of advancements in coarse-grained molecular dynamics simulations. Molecular Simulation. 47 (10-11), 786-803 (2021).
Bigman, L. S., Greenblatt, H. M., Levy, Y. What Are the Molecular Requirements for Protein Sliding along DNA. The Journal of Physical Chemistry B. 125 (12), 3119-3131 (2021).
Kenzaki, H., et al. CafeMol: A Coarse-Grained Biomolecular Simulator for Simulating Proteins at Work. Journal of Chemical Theory and Computation. 7 (6), 1979-1989 (2011).
Berendsen, H. J. C., vander Spoel, D., van Drunen, R. GROMACS: a message-passing parallel molecular dynamics implementation. Computer Physics Communications. 91 (1-3), 43-56 (1995).
vander Spoel, D., et al. GROMACS: fast, flexible, and free. Journal of Computational Chemistry. 26 (16), 1701-1718 (2005).
Abraham, M. J., et al. GROMACS: High performance molecular simulations through multi-level parallelism from laptops to supercomputers. SoftwareX. 1-2, 19-25 (2015).
Harrigan, M. P., et al. MSMBuilder: Statistical Models for Biomolecular Dynamics. Biophysical journal. 112 (1), 10-15 (2017).
Humphrey, W., Dalke, A., Schulten, K. VMD: visual molecular dynamics. Journal of Molecular Graphics. 14 (1), 33-38 (1996).
Izrailev, S., et al. Steered Molecular Dynamics. Computational Molecular Dynamics: Challenges, Methods, Ideas. 4, Springer. Berlin, Heidelberg. 39-65 (1999).
Schlitter, J., Engels, M., Krüger, P. Targeted molecular dynamics: a new approach for searching pathways of conformational transitions. Journal of Molecular Graphics. 12 (2), 84-89 (1994).
Maragliano, L., Fischer, A., Vanden-Eijnden, E., Ciccotti, G. String method in collective variables: minimum free energy paths and isocommittor surfaces. The Journal of Chemical Physics. 125 (2), 24106 (2006).
Weiss, D. R., Levitt, M. Can morphing methods predict intermediate structures. Journal of Molecular Biology. 385 (2), 665-674 (2009).
Xu, Y. P., Xu, H., Wang, B., Su, X. D. Crystal structures of N-terminal WRKY transcription factors and DNA complexes. Protein. 11 (3), 208-213 (2020).
Higham, D. J., Higham, N. J. MATLAB guide. Society for Industrial and Applied Mathematics. , (2016).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Gonzalez, T. F. Clustering to minimize the maximum intercluster distance. Theoretical Computer Science. 38, 293-306 (1985).
Zhao, Y., Sheong, F. K., Sun, J., Sander, P., Huang, X. A fast parallel clustering algorithm for molecular simulation trajectories. Journal of Computational Chemistry. 34 (2), 95-104 (2013).
Ivani, I., et al. Parmbsc1: a refined force field for DNA simulations. Nature Methods. 13 (1), 55-58 (2016).
Naritomi, Y., Fuchigami, S. Slow dynamics of a protein backbone in molecular dynamics simulation revealed by time-structure based independent component analysis. The Journal of Chemical Physics. 139 (21), 215102 (2013).
Naritomi, Y., Fuchigami, S. Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: the case of domain motions. The Journal of Chemical Physics. 134 (6), 065101 (2011).
Pérez-Hernández, G., Paul, F., Giorgino, T., De Fabritiis, G., Noé, F. Identification of slow molecular order parameters for Markov model construction. The Journal of Chemical Physics. 139 (1), 015102 (2013).
McGibbon, R. T., Pande, V. S. Variational cross-validation of slow dynamical modes in molecular kinetics. The Journal of Chemical Physics. 142 (12), 124105 (2015).
Deuflhard, P., Weber, M. Robust Perron cluster analysis in conformation dynamics. Linear Algebra and its Applications. 398, 161-184 (2005).
Silva, D. A., et al. Millisecond dynamics of RNA polymerase II translocation at atomic resolution. Proceedings of the National Academy of Sciences of the United States of America. 111 (21), 7665-7670 (2014).
Swope, W. C., Pitera, J. W., Suits, F. Describing Protein Folding Kinetics by Molecular Dynamics Simulations. 1. Theory. The Journal of Physical Chemistry B. 108 (21), 6571-6581 (2004).
Clementi, C., Nymeyer, H., Onuchic, J. N. Topological and energetic factors: what determines the structural details of the transition state ensemble and "en-route" intermediates for protein folding? An investigation for small globular proteins. Journal of molecular biology. 298 (5), 937-953 (2000).
Hinckley, D. M., Freeman, G. S., Whitmer, J. K., De Pablo, J. J. An experimentally-informed coarse-grained 3-Site-Per-Nucleotide model of DNA: structure, thermodynamics, and dynamics of hybridization. The Journal of chemical physics. 139 (14), 144903 (2013).
Debye, P., Huckel, E. The theory of the electrolyte II-The border law for electrical conductivity. Physikalische Zeitschrift. 24, 305-325 (1923).
Berendsen, H. J., Postma, J. V., van Gunsteren, W. F., DiNola, A., Haak, J. R. Molecular dynamics with coupling to an external bath. The Journal of Chemical Physics. 81, 3684-3690 (1984).
Bowman, G. R. Improved coarse-graining of Markov state models via explicit consideration of statistical uncertainty. The Journal of Chemical Physics. 137 (13), 134111 (2012).
Jain, A., Stock, G. Identifying metastable states of folding proteins. Journal of Chemical Theory and Computation. 8 (10), 3810-3819 (2012).
Röblitz, S., Weber, M. Fuzzy spectral clustering by PCCA+: application to Markov state models and data classification. Advances in Data Analysis and Classification. 7, 147-179 (2013).
Mardt, A., Pasquali, L., Wu, H., Noé, F. VAMPnets for deep learning of molecular kinetics. Nature Communications. 9 (1), 5 (2018).
Wang, W., Liang, T., Sheong, F. K., Fan, X., Huang, X. An efficient Bayesian kinetic lumping algorithm to identify metastable conformational states via Gibbs sampling. The Journal of Chemical Physics. 149 (7), 072337 (2018).
Chen, W., Sidky, H., Ferguson, A. L. Nonlinear discovery of slow molecular modes using state-free reversible VAMPnets. The Journal of Chemical Physics. 150 (21), 214114 (2019).
Gu, H., et al. RPnet: a reverse-projection-based neural network for coarse-graining metastable conformational states for protein dynamics. Physical Chemistry Chemical Physics :PCCP. 24 (3), 1462-1474 (2022).
Lane, T. J., Bowman, G. R., Beauchamp, K., Voelz, V. A., Pande, V. S. Markov state model reveals folding and functional dynamics in ultra-long MD trajectories. Journal of the American Chemical Society. 133 (45), 18413-18419 (2011).
Konovalov, K. A., Unarta, I. C., Cao, S., Goonetilleke, E. C., Huang, X. Markov State Models to Study the Functional Dynamics of Proteins in the Wake of Machine Learning. JACS Au. 1 (9), 1330-1341 (2021).
Cao, S., Montoya-Castillo, A., Wang, W., Markland, T. E., Huang, X. On the advantages of exploiting memory in Markov state models for biomolecular dynamics. The Journal of Chemical Physics. 153 (1), 014105 (2020).
Brandani, G. B., Takada, S. Chromatin remodelers couple inchworm motion with twist-defect formation to slide nucleosomal DNA. PLoS Computational Biology. 14 (11), 1006512 (2018).
Tan, C., Terakawa, T., Takada, S. Dynamic Coupling among Protein Binding, Sliding, and DNA Bending Revealed by Molecular Dynamics. Journal of the American Chemical Society. 138 (27), 8512-8522 (2016).
Terakawa, T., Takada, S. p53 dynamics upon response element recognition explored by molecular simulations. Scientific reports. 5, 17107 (2015).
Brandani, G. B., Niina, T., Tan, C., Takada, S. DNA sliding in nucleosomes via twist defect propagation revealed by molecular simulations. Nucleic Acids Research. 46 (6), 2788-2801 (2018).
Knotts, T. A., Rathore, N., Schwartz, D. C., de Pablo, J. J. A coarse grain model for DNA. The Journal of Chemical Physics. 126 (8), 084901 (2007).
Freeman, G. S., Hinckley, D. M., Lequieu, J. P., Whitmer, J. K., de Pablo, J. J. Coarse-grained modeling of DNA curvature. The Journal of Chemical Physics. 141 (16), 165103 (2014).

Biology

Simulazione basata sulla struttura e campionamento dei movimenti proteici del fattore di trascrizione lungo il DNA dallo stepping su scala atomica alla diffusione a grana grossa

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.