Biology

Strukturbasierte Simulation und Probenahme von Transkriptionsfaktor-Proteinbewegungen entlang der DNA vom atomaren Schritt bis zur grobkörnigen Diffusion

Published: March 1, 2022 doi: 10.3791/63406

Chao E*¹, Liqiang Dai*^1,2, Jiaqi Tian^3,4, Lin-Tai Da⁴, Jin Yu^5,6,7

¹Beijing Computational Science Research Center, ²Shenzhen JL Computational Science and Applied Research Institute, ³School of Medical Informatics and Engineering, Xuzhou Medical University, ⁴Key Laboratory of Systems Biomedicine (Ministry of Education), Shanghai Center for Systems Biomedicine, Shanghai Jiao Tong University, ⁵Department of Physics and Astronomy, University of California, Irvine, ⁶Department of Chemistry, University of California, Irvine, ⁷NSF-Simons Center for Multiscale Cell Fate Research, University of California, Irvine

* These authors contributed equally

Summary

Das Ziel dieses Protokolls ist es, die strukturelle Dynamik der eindimensionalen Diffusion von Protein entlang der DNA unter Verwendung eines pflanzlichen Transkriptionsfaktors WRKY-Domänenprotein als beispielhaftes System aufzudecken. Zu diesem Zweck wurden sowohl atomistische als auch grobkörnige Molekulardynamiksimulationen zusammen mit umfangreichen computergestützten Stichproben implementiert.

Abstract

Das eindimensionale (1-D) Gleiten des Transkriptionsfaktors (TF)-Proteins entlang der DNA ist essentiell für die erleichterte Diffusion der TF, um die Ziel-DNA-Stelle für die genetische Regulation zu lokalisieren. Der Nachweis der Base-Pair-Auflösung (bp) des TF-Gleitens oder -Tretens auf der DNA ist immer noch eine experimentelle Herausforderung. Wir haben kürzlich All-Atom-Molekulardynamik-Simulationen (MD) durchgeführt, die spontanes 1-bp-Stepping eines kleinen WRKY-Domänen-TF-Proteins entlang der DNA erfassen. Basierend auf dem 10 μs WRKY-Schrittpfad, der aus solchen Simulationen gewonnen wurde, zeigt das Protokoll hier, wie umfangreichere Konformationsproben der TF-DNA-Systeme durchgeführt werden können, indem das Markov-Zustandsmodell (MSM) für das 1-bp-Protein-Stepping konstruiert wird, wobei verschiedene Mikro- und Makrozustände für die MSM-Konstruktion getestet wurden. Um die prozessive 1-D-Diffusionssuche des TF-Proteins zusammen mit DNA mit struktureller Basis zu untersuchen, zeigt das Protokoll außerdem, wie grobkörnige (CG) MD-Simulationen durchgeführt werden können, um die langfristige Skalendynamik des Systems zu untersuchen. Solche CG-Modellierungen und -Simulationen sind besonders nützlich, um die elektrostatischen Auswirkungen der Protein-DNA auf die prozessiven Diffusionsbewegungen des TF-Proteins über Dutzende von Mikrosekunden aufzudecken, im Vergleich zu Submikrosekunden bis Mikrosekunden Proteinschrittbewegungen, die aus den Allatomsimulationen aufgedeckt wurden.

Introduction

Transkriptionsfaktoren (TF) suchen nach der Ziel-DNA, um die Gentranskription und die damit verbundenen Aktivitäten zu binden und zu regulieren¹. Abgesehen von der dreidimensionalen (3D) Diffusion wurde vorgeschlagen, dass die erleichterte Diffusion von TF für die Ziel-DNA-Suche unerlässlich ist, bei der die Proteine auch entlang eindimensionaler (1D) DNA gleiten oder hüpfen oder mit intersegmentalem Transfer auf die DNA^{springen können} 2,3,4,5,6,7.

In einer kürzlich durchgeführten Studie haben wir Dutzende von Mikrosekunden (μs) All-Atom-Gleichgewichtsmolekulardynamik (MD) -Simulationen an einer pflanzlichen TF durchgeführt - dem WRKY-Domänenprotein auf der DNA⁸. Ein vollständiges 1-bp-Stepping von WRKY auf Poly-A-DNA innerhalb von Mikrosekunden wurde aufgenommen. Die Bewegungen des Proteins entlang der DNA-Rille und der Breaking-Reforming-Dynamik von Wasserstoffbrückenbindungen (HBs) wurden beobachtet. Während eine solche Trajektorie einen abgetasteten Pfad darstellt, fehlt es immer noch an einer allgemeinen Protein-Stepping-Landschaft. Hier zeigen wir, wie mit dem konstruierten Markov-Zustandsmodell (MSM) rechnerische Stichproben um den anfänglich erfassten Proteinschrittpfad erweitert werden können, die für die Simulation einer Vielzahl von biomolekularen Systemen mit erheblichen Konformationsänderungen und Zeitskalentrennung weit verbreitet sind 9,10,11,12,13,14,15,16^. ^17,18,19. Ziel ist es, das Konformationsensemble und die metastabilen Zustände der TF-Proteindiffusion entlang der DNA für einen zyklischen Schritt aufzudecken.

Während die obige MD-Simulation die atomare Auflösung der Proteinbewegungen für 1 bp auf der DNA zeigt, ist die strukturelle Dynamik der langzeitprozessiven Diffusion der TF entlang der DNA bei der gleichen hohen Auflösung kaum zugänglich. Die Durchführung von grobkörnigen (CG) MD-Simulationen auf Rückstandsebene ist jedoch technisch zugänglich. Die CG-Simulationszeitskala kann effektiv auf das Zehn- oder Hundertfache verlängert werden als die atomaren Simulationen 20,21,22,23,24,25,26,27,28,29. Hier zeigen wir die CG-Simulationen, die durch die Implementierung der von Takada lab³⁰ entwickelten CafeMol-Software durchgeführt wurden.

Im aktuellen Protokoll präsentieren wir zuerst die atomaren Simulationen des WRKY-Domänenproteins entlang der Poly-A-DNA und die MSM-Konstruktion, die sich auf die Probenahme der Proteinschrittbewegungen für nur 1 bp entlang der DNA konzentrieren. Dann präsentieren wir die CG-Modellierung und Simulationen desselben Protein-DNA-Systems, die die rechnerische Probenahme auf die proteinprozessive Diffusion über Dutzende von bps entlang der DNA ausdehnen.

Hier verwenden wir die Software GROMACS 31,32,33, um MD-Simulationen durchzuführen, und MSMbuilder^34, um das MSM für abgetastete Konformationsschnappschüsse zu konstruieren und VMD ³⁵ zur Visualisierung der Biomoleküle zu verwenden. Das Protokoll erfordert, dass der Benutzer in der Lage ist, die oben genannte Software zu installieren und zu implementieren. Die Installation und Implementierung der CafeMol 30-Software ist dann für die Durchführung der CG^{MD-Simulationen} erforderlich. Weitere Analysen der Trajektorien und Visualisierungen werden ebenfalls in VMD durchgeführt.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Aufbau des Markov-Zustandsmodells (MSM) aus atomaren MD-Simulationen

Spontaner Proteinschrittweg und anfängliche Struktursammlung
1. Verwenden Sie eine zuvor erhaltene 10-μs-Allatom-MD-Trajektorie^8, um 10000 Frames gleichmäßig aus einem "vorwärts" 1-bp-Schrittpfad (d. h. einem Frame für jede Nanosekunde) zu extrahieren. Die Gesamtzahl der Frames muss ausreichend groß sein, um alle repräsentativen Konformationen einzubeziehen.
2. Bereiten Sie den Übergangspfad mit 10000 Frames in VMD vor, indem Sie auf Datei > Klicken Sie auf Datei Speichern Sie Koordinaten, geben Sie Protein oder Nukleinsäure in das Feld Ausgewählte Atome ein, wählen Sie Frames im Feld Frames aus, klicken Sie auf Speichern , um die benötigten Frames abzurufen.
  HINWEIS: Eine zuvor erhaltene 10 μs All-Atom MD-Simulationstrajektorie (hier "Forward Stepping Trajektorie" genannt) für WRKY stepping 1-bp Abstand auf einer 34-bp homogenen Poly-A DNA⁸ wurde als erster Weg verwendet, um weitere Konformationsproben zu starten. Beachten Sie, dass in den meisten Praktiken jedoch ein anfänglicher Pfad konstruiert wird, indem gesteuerte oder gezielte MD-Simulationen durchgeführt oder allgemeine Pfadgenerierungsmethoden usw. implementiert werden.36,37,38,39.
3. Richten Sie die Längsachse der Referenz-DNA (von der Kristallstruktur) an der x-Achse aus und legen Sie den Anfangsmassenschwerpunkt (COM) der vollständigen 34-bp-DNA am Ursprung des Koordinatenraums fest, um die weitere Datenanalyse zu erleichtern. Klicken Sie dazu in VMD auf Erweiterungen > Tk-Konsole und geben Sie im Befehlsfenster Tk-Konsole Folgendes ein:
  Quelle rotate.tcl
  Das tcl-Skript finden Sie in der Zusatzdatei 3.
4. Berechnen Sie dann den Wurzel-Mittelwert-Quadratabstand (RMSD) des Proteinrückgrats, indem Sie die zentrale 10-bp-DNA (A 14 bis 23 und T 14' bis 23') an der aus der Kristallstruktur⁴⁰ ausrichten, und die RMSD stellen geometrische Maße der Systeme dar (siehe Abbildung 1A). Klicken Sie dazu auf VMD > Erweiterungen > Analyse > RMSD-Trajektorienwerkzeug und geben Sie Nukleie und Rückstand 14 bis 23 und 46 bis 55 in das Atomauswahlfeld ein, klicken Sie auf Ausrichten und dann auf das Feld RMSD, um die RMSD-Werte zu berechnen.
5. Berechnen Sie den Rotationsgrad des Proteins um DNA Θ(t) auf der y-z-Ebene in MATLAB, indem Sie den Befehl
  rad2deg(atan(z/y))
  wobei die anfängliche Winkelpositionierung als Θ(0)=0 definiert ist, wie zuvor⁸ durchgeführt.
6. Geben Sie den folgenden Befehl in MATLAB⁴¹ ein, um die K-Means-Methoden^42,43,44 zu verwenden und die 10000 Strukturen durch Eingabe in 25 Cluster zu klassifizieren:
  [idx, C]=kmeans( X, 25)
  hier ist X eine 2D-Matrix von RMSD und Rotationswinkel von WRKY auf der DNA. Sammeln Sie die Strukturen dieser 25 Clusterzentren für weitere MD-Simulationen.
  HINWEIS: Da das Protein RMSD, das relativ zur DNA beprobt wird, einen Bereich von etwa 25 Å abdeckt, wählen wir 25 Cluster aus, um einen Cluster pro Angstrom zu haben.
Durchführung der 1^. Runde der MD-Simulationen und der Simulationseinstellungen
1. Erstellen Sie atomistische Systeme für die 25 Strukturen, indem Sie die GROMACS 5.1.2-Software³² unter dem Parmbsc1-Kraftfeld⁴⁵ verwenden und die buildsystem.sh-Datei aus der Zusatzdatei 2 in der Schale verwenden.
2. Führen Sie 60-ns-MD-Simulationen für diese 25 Systeme unter NPT-Ensemble mit einem Zeitschritt von 2 fs durch, indem Sie den folgenden Befehl in die Shell eingeben:
  gmx_mpi grompp -f md.mdp -c npt.gro -p topol.top -o md.tpr
  gmx_mpi mdrun -deffnm MD
Clustern der 1^St Runde MD-Trajektorien
1. Entfernen Sie die ersten 10 ns jeder Simulationstrajektorie, indem Sie in shell eingeben:
  gmx_mpi trjcat -f md.xtc -b 10000 -e 600000 -o newtraj.xtc
  und sammeln Konformationen aus den 25 × 50 ns Trajektorien für das Clustering, um die Eingabestrukturen für die nachfolgenden umfangreicheren Stichproben vorzubereiten (MD-Simulationen der 2^. Runde).
  HINWEIS: Um die Auswirkungen des anfänglichen Pfades zu reduzieren und ein lokales Gleichgewicht zu ermöglichen, wurden 10 ns der Anfangsphase der Simulationen entfernt.
2. Wählen Sie Entfernungspaare zwischen Protein und DNA als Eingabeparameter für die Projektion der zeitunabhängigen Komponentenanalyse (tICA)^46,47,48^. Verwenden Sie dazu den Befehl make_ndx in GROMACS:
  gmx_mpi make_ndx -f Eingabe.pdb -o index.ndx
  HINWEIS: Hier wurden die Protein-CA-Atome und die schweren Atome (NH1, NH2, OH, NZ, NE2, ND2) des Rests Y119, K122, K125, R131, Y133, Q146, K144, R135, W116, R117, Y134, K118, Q121 ausgewählt, die Wasserstoffbrückenbindungen (HBs) mit dem DNA-Nukleotid bilden können, die sich mit den O1P O2P- und N6-Atomen des DNA-Nukleotids (A14-20, T19-23). Die ausgewählten Aminosäuren können entweder stabile HBs bilden oder Salzbrücken mit DNA bilden.
3. Kopieren Sie den oben ausgewählten Atomindex aus der Datei index.ndx in eine neue Textdatei (index.dat). Holen Sie sich die Paarinformationen zwischen diesen Atomen mit dem Python-Skript aus Supplementary File 1 generate_atom_indices.py und geben Sie Folgendes ein:
  python2.6 generate_atom_indices.py index.dat > AtomIndices.txt
  Dadurch entstehen die 415 Entfernungspaare zwischen Protein und DNA.
4. Berechnen Sie die 415 Entfernungspaare aus jeder Trajektorie, indem Sie den folgenden Befehl in das MSMbuilder-Befehlsfenster eingeben:
  msmb AtomPairsFeaturizer -out pair_features --pair_indices AtomIndices.txt --top references.pdb --trjs "trajectories/*.xtc" --transformierte pair_features --Schritt 5
5. Führen Sie tICA durch, um die Dimension der Daten auf die ersten 2 zeitunabhängigen Komponenten (tICs) oder Vektoren zu reduzieren, indem Sie Folgendes eingeben:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0,05 -t tica_results.h5
  HINWEIS: tICA ist eine Dimensionsreduktionsmethode, die den Eigenwert der zeitverzögerten Korrelationsmatrix berechnet, um die langsamsten entspannenden Freiheitsgrade des Simulationssystems durch die Gleichung zu bestimmen:
  
  wobei X i(t) der Wert der _i-ten Reaktionskoordinate zum Zeitpunkt t und X j(t+Δ t) der Wert der _j-ten Reaktionskoordinate zum Zeitpunkt t+Δ t ist. ist der Erwartungswert des Produkts der Gesamtsimulationstrajektorien X _i(t) und X_j(t +Δ t). Die Richtungen entlang der langsamsten Entspannungsgrade entsprechen den größten Eigenwerten der obigen zeitverzögerten Korrelationsmatrix. Hier scheinen 2 tICs ein minimaler Satz zu sein, um drei Makrozustände auf unserer MSM-Konstruktion zu unterscheiden (später angesprochen). Man kann auch den verallgemeinerten Matrix-Rayleigh-Quotienten (GMRQ) -Score⁴⁹ berechnen, um beispielsweise einen optimalen Satz von Komponenten zu untersuchen, die verwendet werden sollen.
6. Verwenden Sie den Befehl in MSMbuilder, um die projizierten Datasets mit der K-center^{43,44-Methode} in 100 Clustern zu gruppieren (siehe Abbildung 1B):
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 100.
  Wählen Sie die Mittelstruktur jedes Clusters als Ausgangsstruktur für die 2. Runde der MD-Simulationen^aus. Pflegen Sie die Simulationsinformationen der simulierten 100 Strukturen, einschließlich Positionen, Temperaturen, Drücke usw., mit Ausnahme der Geschwindigkeiten.
  HINWEIS: Nach der ersten Runde von 25 Simulationen wurde der Speicher des anfänglichen Pfades reduziert, so dass wir in der zweiten Runde mehr Cluster, z. B. 100 Cluster, generieren, um die Konformationsstichproben erheblich zu erweitern.
Durchführung der 2^. Runde umfangreicher MD-Simulationen
1. Führen Sie 60-ns-MD-Simulationen durch, beginnend mit diesen 100 Anfangsstrukturen, nachdem Sie allen Atomen zufällige Anfangsgeschwindigkeiten auferlegt haben. Fügen Sie die zufälligen Anfangsgeschwindigkeiten hinzu, indem Sie die Geschwindigkeitsgenerierung in der mdp-Datei aktivieren, d.h. die md.mdp-Datei gen_vel = nein in gen_vel = ja ändern.
2. Entfernen Sie die ersten 10 ns jeder Simulation, wie in Schritt 1.3.1 beschrieben, sammeln Sie 2.500.000 Snapshots von den 100 × 50 ns-Trajektorien gleichmäßig, um das MSM zu konstruieren.
  HINWEIS: Beachten Sie, dass in der späteren Makrozustandskonstruktion eine kleine Anzahl von Off-Path-Zuständen mit einer besonders niedrigen Population (~ 0,2%, auf der Unterseite der X-Θ-Ebene) gefunden wurde. Diese Off-Path-Zustände werden als ein Makrozustand klassifiziert, wenn die Gesamtzahl der Makrozustände auf 3 bis 6 festgelegt ist (Abbildung 2B). Da ein so bevölkerungsarmer Makrostat nur 3 Trajektorien umfasst, die am Ende entfernt wurden, wurden die in diesem Protokoll gezeigten Ergebnisse tatsächlich aus 97 × 50 ns Trajektorien mit insgesamt 2.425.000 Frames oder Snapshots erhalten.
Clustern der MD-Trajektorien der 2^. Runde
1. Führen Sie tICA für die Trajektorien der 2. Runde wie zuvor durchgeführt^durch. Geben Sie MSMbuilder ein:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0,05 -t tica_results.h5
2. Berechnen Sie die implizite Zeitskala, um Parameter für die Korrelationsverzögerungszeit Δt und Mikrozustandszahlen zu validieren (siehe Abbildung 1C),
  
  wobei τ die Verzögerungszeit darstellt, die zum Erstellen der Übergangswahrscheinlichkeitsmatrix (TPM) verwendet wird; μ_k(τ) stellt den k-ten Eigenwert des TPM unter einer Verzögerungszeit von τ dar. Verwenden Sie das Python-Skript aus der Zusatzdatei 1 für diese Python-BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 10 -n 20 -s 500.
3. Variieren Sie die Verzögerungszeit τ und die Anzahl der Mikrozustände, indem Sie die oben verwendeten Parameter ändern:
  python BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 5 10 20 30 40 -n 20 -s 20 20 200 400 500 800 2000
  HINWEIS: Das System wird als Markovian betrachtet, wenn sich die implizierten Zeitskalenkurven mit der Zeitskalentrennung einpendeln. Wählen Sie dann die Dt als Korrelationsverzögerungszeit und die τ die Verzögerungszeit, bei der sich die implizierte Zeitskala einpendelt, um MSM zu erstellen.
4. Wählen Sie dementsprechend eine vergleichsweise große (aber nicht zu große) Anzahl von Zuständen, N = 500, und eine vergleichsweise kurze Korrelationsverzögerungszeit Δt = 10 ns. Es wurde festgestellt, dass die Verzögerungszeit τ = 10 ns für die Erstellung von MSM beträgt.
5. Klassifizieren Sie die Konformationen in 500 Cluster (siehe Abbildung 1D), indem Sie den folgenden Befehl verwenden:
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 500
MSM-Konstruktion
1. Fassen Sie die 500 Mikrozustände in 3-6 Makrozustände zusammen, um die Anzahl der Makrozustände herauszufinden, die am besten nach dem PCCA + -Algorithmus⁵⁰ in MSMbuilder passen, indem Sie das Python-Skript in Supplementary File 1 Python msm_lumping_usingPCCAplus.py verwenden. Identifizieren Sie ein reduziertes kinetisches Netzwerk von Modellen für die wichtigsten Konformationsänderungen von Biomolekülen, indem Sie eine kleine Anzahl von Makrozuständen konstruieren, d.h. Hunderte von Mikrozuständen kinetisch in einen Topf werfen, wie unter^17,51 beschrieben.
2. Abbildung der hochdimensionalen Konformationen auf das X (Proteinbewegung entlang der DNA-Langachse) und den Rotationswinkel des Proteins entlang der DNA für jeden Makrozustand, wie in Schritt 1.1.3 und 1.1.4 beschrieben (z. B. kein Zustand mit zu niedriger Population < 1%; siehe Abbildung 2C). Suchen Sie dann die 3 Makrozustände, die das System am besten darstellen (Abbildung 1E). In Abbildung 2D finden Sie Momentaufnahmen der Bewegung des Proteins entlang der DNA und des Proteinrotationswinkels um die DNA.
  HINWEIS: In früheren Arbeiten, die den spontanen 10-μs-Protein-Vorwärtsschrittpfad erzeugten, führten wir zusätzlich 5 x 4 μs Gleichgewichts-MD-Simulationen durch, um die Probenahmen moderat zu erweitern. Wir zeigten die Abbildung des ursprünglichen Vorwärtspfades (siehe Abbildung 2A links) und weitere 4-μs-Abtasttrajektorien auf dem zuvor durchgeführten Vorwärtspfad (siehe Abbildung 2A rechts)⁸. Die Abbildung der ursprünglichen 100 × 50 ns (siehe Abbildung 2B links)⁸ und die in dieser Arbeit verwendeten Trajektorien von 97 × 50 ns sind dargestellt (siehe Abbildung 2B rechts).
Berechnung der mittleren ersten Durchgangszeiten (MFPT)
1. Führen Sie fünf 10-ms-Monte-Carlo-Trajektorien (MC) basierend auf dem TPM des 500-Mikrozustands-MSM durch, wobei die Verzögerungszeit von 10 ns als Zeitschritt von MC festgelegt ist. Berechnen Sie MFPT⁵² zwischen jedem Makrozustandspaar (Abbildung 3) mit dem Python-Skript in Supplementary File 1 python python mfpt_msm3.py.
2. Berechnen Sie den durchschnittlichen und Standardfehler des MFPT mithilfe der bash-Datei in Supplementary File 2, geben Sie Folgendes ein:
  sh mfpt_analysis.bash

2. Durchführung einer grobkörnigen (CG) Simulation zur Abtastung der Langzeitdynamik

Führen Sie CG-Simulationen mit der CafeMol 3.0-Software³⁰ durch. Sehen Sie sich die CG-Simulationseinstellungen an, die in der Eingabekonfigurationsdatei mit der Erweiterung .inp angegeben sind, einschließlich Eingabestrukturen, Simulationsparametern, Ausgabedateien usw. Geben Sie den folgenden Befehl auf dem Terminal ein, um die CG-Simulation auszuführen:
cafemol XXX.inp
Geben Sie die folgenden Blöcke in der Eingabedatei an, wobei jeder Block mit der Bezeichnung < and ending with >>>> beginnt.
1. Legen Sie den Dateinamenblock (erforderlich) fest, um die Arbeitsverzeichnisse und den Speicherpfad der Eingabe-/Ausgabedatei anzugeben. Geben Sie für den Dateinamenblock für diese Simulationen Folgendes ein:
  <<<< Dateinamen
  Pfad = XXXXX (Arbeitspfad)
  filename = wrky (die Namen der Ausgabedateien)
  AUSGABE psf pdb movie dcd rst
  path_pdb = XXXXX (nativer Strukturpfad eingeben)
  path_ini = XXXXX (Eingangsstrukturpfad)
  path_natinfo = XXXXX (nativer Informationsdateipfad)
  path_para = XXXXX (Parameterdateipfad)
  >>>>
  HINWEIS: Da das Go-Modell⁵³ in der CG-Modellierung verwendet wird, d.h. Protein wird auf die native Konformation ausgerichtet, so dass man die modellierte Struktur als native Konformation festlegen muss. Hier wurde die Eingangskristallstruktur als native Konformation festgelegt.
2. Legen Sie den Jobsteuerungsblock (erforderlich) fest, um die Ablaufweise der Simulationen zu definieren. Geben Sie den folgenden Befehl ein:
  <<<< job_cntl
  i_run_mode = 2 (= 2 die Konstanttemperatursimulation)
  i_simulate_type = 1 (=1 Langevin-Dynamik)
  i_initial_state = 2 (=2 bedeutet, dass die Erstkonfiguration eine native Konfiguration ist)
  >>>>
  Wählen Sie die Simulationen der Langevin-Dynamik mit konstanter Temperatur.
3. Legen Sie die Einheit und den Statusblock (erforderlich) fest, um die Informationen für Eingabestrukturen zu definieren. Geben Sie den folgenden Befehl ein:
  <<<< unit_and_state
  i_seq_read_style = 1 (=1 bedeutet Lesesequenzen aus der PDB-Datei)
  i_go_native_read_style = 1 (=1 bedeutet, dass die native Struktur aus der PDB-Datei stammt)
  1 Proteinprotein.pdb (Unit & State molecular_type native_structure)
  2-3 DNA-DNA.pdb (unit&state molecular_type native_structure)
  >>>>
  HINWEIS: Die anfänglichen Eingabestrukturdateien (Protein.pdb und DNA.pdb hier) werden benötigt. Die Strukturen sind im PDB-Format geschrieben. Hier werden zwei PDB-Dateien benötigt: eine ist die Proteinstrukturdatei, die die schweren Atomkoordinaten von WRKY (Einheit 1) enthält, und die andere sind die Koordinaten der 200-bp doppelsträngigen (ds) DNA (Einheit 2-3). Das Protein wird zunächst 15 Å von der DNA entfernt platziert.
4. Setzen Sie den im energy_function Block definierten Energie-Funktionsbaustein (erforderlich). Geben Sie den folgenden Befehl ein:
  <<<< energy_function
  LOKAL(1) L_GO
  LOKAL(2-3) L_DNA2
  NLOCAL(1/1) GO EXV ELE
  NLOCAL(2-3/2-3) ELE-DNA
  NLOCAL(1/2-3) EXV ELE
  i_use_atom_protein = 0
  i_use_atom_dna = 0
  i_para_from_ninfo = 1
  i_triple_angle_term = 2
  >>>>
  HINWEIS: In den CG-Simulationen wird das Protein durch das Go-Modell⁵³ grobkörnig gekörnt, wobei jede Aminosäure durch ein CG-Partikel an seiner Cα-Position dargestellt wird. Die Proteinkonformation wird dann unter dem Go-Potential in Richtung der nativen Struktur oder Kristallstruktur verzerrt (Abbildung 4A links). Die DNA wird durch das 3SPN.2-Modell⁵⁴ beschrieben, in dem jedes Nukleotid durch 3 CG-Partikel S, P, N dargestellt wird, die Zucker, Phosphat bzw. stickstoffhaltiger Base entsprechen (Abbildung 4A rechts). Die elektrostatischen und vdW-Wechselwirkungen werden zwischen verschiedenen Ketten betrachtet. Die elektrostatischen Wechselwirkungen zwischen Protein und DNA in der CG-Simulation werden durch das Debye-Hückel-Potential⁵⁵ angenähert. Die vdW-Abstoßungsenergie nimmt die gleiche Form an wie beim Go-Modell.
5. Setzen Sie den md_information Block (erforderlich), um die Simulationsinformationen zu definieren. Geben Sie den folgenden Befehl ein:
  <<<< md_information
  n_step_sim = 1
  n_tstep(1) = 500000000
  tstep_size = 0,1
  n_step_save = 1000
  n_step_neighbor = 100
  i_com_zeroing = 0
  i_no_trans_rot = 0
  tempk = 300,0
  n_seed = -1
  >>>>
  Der n_tstep ist der Simulationsschritt. Legen Sie die tstep_size als Zeitlänge jedes MD-Schritts fest, jeder CG Cafemol-Zeitschritt beträgt etwa 200 fs³⁰, so dass jeder MD-Schritt hier im Prinzip 200 × 0,1 fs beträgt. Aktualisieren Sie die Nachbarliste alle 100 MD-Schritte (n_step_neighbor = 100). Stellen Sie die Simulationstemperatur auf 300 K ein. Steuern Sie die Temperatur, indem Sie den geschwindigkeitsartigen Verlet-Algorithmus zur Aktualisierung der Proteinstruktur mit dem Berendsen-Thermostat⁵⁶ verwenden.
  HINWEIS: Die n_step_sim ist die Beckennummer des auf dem Go-Modell basierenden Potentials oder die lokale Minimalzahl der Energiekurve. Ein Multi-Basin-Potential ermöglicht es, dass die Proteinkonformation auf verschiedene Konformationen verzerrt ist, so dass sich die Proteinkonformation von einem lokalen Minimum zum anderen ändern kann. Hier wird nur das Einzelbecken-Go-Modell verwendet, was in den Simulationen nur eine verzerrte Konformation (Kristallstruktur) für Protein bedeutet. Da im CG-Kontext keine Protein-DNA-Wasserstoffbrückenbindungsinteraktion usw. modelliert ist, können die molekularen Bewegungen noch schneller, d.h. > 10-mal als in den atomaren Simulationen, abgetastet werden.
6. Setzen Sie den elektrostatischen Block (nur erforderlich, wenn elektrostatische Wechselwirkungen verwendet werden), da die elektrostatische Wechselwirkung zwischen verschiedenen Ketten betrachtet wird, also verwenden Sie diesen Block, um die Parameter für die elektrostatische Wechselwirkung zu definieren, indem Sie Folgendes eingeben:
  <<<< elektrostatisch
  cutoff_ele = 10,0
  ionic_strength = 0,15
  >>>>
  Setzen Sie die Debye-Länge in der elektrostatischen Wechselwirkung auf 10 Å, entsprechend der Lösungsbedingung. Stellen Sie die Ionenstärke auf 0,15 M ein, wie bei der physiologischen Bedingung.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Rotationsgekoppeltes Gleiten oder 1 bp Treten von WRKY aus der MSM-Konstruktion
Alle Proteinkonformationen auf der DNA werden auf die Längsbewegung X und den Rotationswinkel des Proteins COM entlang der DNA abgebildet (siehe Abbildung 3A). Die lineare Kopplung dieser beiden Grade zeigt ein rotationsgekoppeltes Stepping des WRKY-Domänenproteins auf der DNA an. Die Konformationen können im MSM weiter in 3 Makrozustände (S1, S2 und S3) gruppiert werden. Das Vorwärtsstepping von WRKY folgt dann dem Makrozustandsübergang S1->S2->S3. S1 bezieht sich auf einen metastabilen Zustand, der durch die modellierte Struktur (basierend auf der Kristallstruktur des WRKY-DNA-Komplexes⁴⁰) mit einer Population von ~ 6% initiiert wird. Beachten Sie, dass in der aktuellen Modellierung die anfängliche Proteinkonformation aus der Kristallstruktur übernommen wurde, in der das Protein an die spezifische W-Box-DNA-Sequenz⁴⁰ bindet. Ein solcher modellierter Protein-Poly-A-DNA-Komplex führt somit zu ungünstigeren Ausgangsstrukturen (S1) als die gestuften oder schließlich entspannten Strukturen (S3). Dennoch kann man feststellen, dass sich die Wasserstoffbrückenbindungen (HBs) an der Protein-DNA-Grenzfläche in der Nähe des Zentrums von S3 erholen wie das in der Nähe des Zentrums in S1 (siehe Abbildung 3B). Die HBs im S1-Zustand sind gut gewartet: K125 mit A15, R131, Q146 und Y133 mit A16, K144 und Y119 mit A17, R135 mit A18 (Abbildung 3B oben links). S3 bezieht sich auf einen metastabilen Zustand nach dem 1-bp-Protein-Stepping, wobei fast alle HBs für eine Entfernung von 1 bp verschoben sind (Abbildung 3B unten), und die Strukturen scheinen stabil mit der höchsten Population (63%) zu sein. Der Zwischenzustand S2 verbindet S1 und S3 mit einer mittleren bis hohen Bevölkerung (~ 30%). Wir fanden heraus, dass R135 und K144 in diesem Zwischenzustand ziemlich flexibel sind und normalerweise HBs mit dem aktuellen Nukleotid brechen und mit dem nächsten Nukleotid reformieren können (Abbildung 3B oben rechts). Insgesamt bewegte sich das WRKY-Protein COM ~ 2,9 Å und drehte sich hier um ~ 55 ° auf Schritt 1 bp. Der ratenbegrenzende Schritt für das WRKY-Stepping ist S2->S3, der im Wesentlichen ein kollektives Brechen und Reformieren der HBs ermöglicht und im Durchschnitt ~ 7 μs erfordert. Im Gegensatz dazu können S1 bis S2 sehr schnell zu einem Zeitpunkt von ~0,06 μs oder 60-ns transitieren (Abbildung 3B), wobei hauptsächlich die Protein-COM-Fluktuationen (z. B. aufgrund von Proteinorientierungsänderungen auf der DNA) beteiligt sind.

Einzelstrang-Bias von WRKY während der prozessiven Diffusion im CG-Modell
In unserer aktuellen Studie fanden wir heraus, dass das WRKY-Domänenprotein bevorzugt an einen Strang der dsDNA bindet, unabhängig davon, ob es sich um ein 1-bp-Stepping oder eine statische Bindung handelt. und die Einzelstrangverzerrung wird besonders bei der spezifischen DNA-Sequenzbindung⁸ sehr deutlich. Inzwischen ist nicht klar, ob ein solcher Trend während der prozessiven Diffusion des Proteins entlang der DNA anhält. Hier haben wir versucht, die potentielle Strangverzerrung über die CG-Simulationen zu untersuchen. Interessanterweise wurde in den CG-Simulationen des WRKY während der prozessiven Diffusion eine signifikante Einzelstrang-DNA-Bindungskonfiguration identifiziert. Dazu wurden die Kontaktzahlen zwischen Protein und DNA an den jeweiligen DNA-Strängen berechnet (siehe Abbildung 4B). Ein Kontakt wird in Betracht gezogen, wenn der Abstand zwischen dem Protein-CG-Partikel und dem DNA CG P-Partikel (Phosphatgruppe) kleiner als 7 Å ist. Das Protein zeigt in der Tat eine Verzerrung zu einem der DNA-Stränge (z. B. ~ 4 Kontakte zu einem Strang und ~ 1 Kontakt zum anderen), d.h. selbst wenn detaillierte Interaktionen wie HBs an der Protein-DNA-Grenzfläche nicht modelliert werden.

Der bevorzugte DNA-Strang kann jedoch von Zeit zu Zeit zwischen den beiden DNA-Strängen wechseln, abhängig von der Bindungsorientierung oder Konfiguration des Proteins auf der DNA. Insbesondere nach der Kontaktzahl, die zwischen dem Protein und den jeweiligen DNA-Strängen gebildet wird, gibt es hier hauptsächlich 4 Zustände (wie in Abbildung 4B,C mit 1, 2, 3 und 4 markiert). In den Zuständen 1 und 3 bindet eine Zinkfingerregion in Richtung -Y, und der bevorzugte Strang ist der blaue. In den Zuständen 2 und 3 bindet die Zink-Finger-Region in Richtung +Y, und der bevorzugte Strang wird zum roten. Es wird auch festgestellt, dass die Zink-Figner-Region dominant mit der DNA interagiert (siehe Abbildung 4D). Daher ist der DNA-Strang, der eng mit der Zinkfingerregion verbunden ist, in der Tat der bevorzugte. Nach der obigen Stichprobe scheint es also, dass der Strangbias bestehen bleibt, aber zwischen den beiden DNA-Strängen im CG-Modell der prozessiven Proteindiffusion wechselt.

Proteinindividuelles Restschritt in den CG-Simulationen
Aus unseren CG-Simulationen wurde bereits festgestellt, dass die Schrittgröße von WRKY bei verschiedenen DNA-Sequenzen variieren kann⁸. Das Protein COM neigt dazu, 1 bp auf die homogene Poly-A-DNA zu treten. Während bei Poly-AT-DNA mit 2-bp-Periodizität der Anteil des 2-bp-Stepping zuzunehmen scheint.

Zusätzlich haben wir hier untersucht, ob sich einzelne Proteinreste an der Protein-DNA-Grenzfläche synchron bewegen. Wir berechneten die Schrittgröße jedes hochkonservierten Rückstands im WRKY-Motiv (WRKYGQK) für jeweils 1000 Zeitschritte (Abbildung 5A). Die Restschrittgröße jedes konservierten Restes kann somit aus den CG-Simulationen gemessen werden. Die Ergebnisse zeigen tatsächlich, dass die Schrittgrößen dieser einzelnen Rückstände auf Poly-A-DNA stärker synchronisiert sind als auf Poly-AT- oder zufälligen DNA-Sequenzen (Abbildung 5B).

Abbildung 1: Die Erzeugung von Konformationen und die Konstruktion von Mikrozuständen/Makrozuständen . (A) Der anfängliche Vorwärtsschrittpfad, der auf dem Protein-DNA-RMSD und dem Proteinrotationswinkel um die DNA abgebildet ist. Die ursprünglich ausgewählten 25 Strukturen sind mit roten Kreisen gekennzeichnet. (B) Die 100 Konformationsclusterzentren aus der 1^. Runde 25 x 50 ns MD-Simulationstrajektorien, die auf die beiden höchsten Eigenwert-tICs abgebildet sind. (C) Plots der implizierten Zeitskala als Funktion der Verzögerungszeit für die MSM-Konstruktion über tICA unter Verwendung ausgewählter Entfernungspaare als Eingabe. Für jeden Satz wurde MSM konstruiert, indem die Konformationen auf die oberen 2 tICs projiziert wurden, gefolgt von K-Center-Clustering, um 20 bis 2000 Mikrozustände (von links nach rechts Spalte) mit Korrelationsverzögerungszeit für tICA von 5 bis 40 ns (von der oberen zur unteren Reihe) zu produzieren. (D) Die 500 konstruierten Mikrozustände und (E) die weiter konstruierten 3 Makrozustände, mit entsprechenden Mikrozustandszentren, die entlang der höchsten zwei tICs abgebildet sind. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 2: Aufbau der Makrozustände . (A) Die Abbildung der anfänglichen Vorwärtsschrittpfad-Trajektorie (links) und mit einer kleinen Anzahl zusätzlicher Mikrosekunden-Trajektorienabtastungen (rechts) auf der Bewegung des Proteinmassenschwerpunkts (COM) entlang der DNA-Langachse (X) und des Rotationswinkels um die DNA (zuvor⁸ erhalten). (B) Die Abbildung der ursprünglichen Trajektorien mit 100 × 50 ns und der Trajektorien mit 97 × 50 ns, die im aktuellen MSM-Bau verwendet werden. (C) Die Konstruktion von 3-6 Makrozuständen und deren Populationen aus den konstruierten MSM sind auf den umfangreichen Stichprobenkarten beschriftet. (D) Die Proteinbewegung X bzw. der Rotationswinkel um die DNA sind dargestellt. Die abgetasteten Konformationen werden schließlich in 3 Makrozustände zusammengefasst, wobei Rot, Blau und Grau dem Makrozustand 1, 2 bzw. 3 entsprechen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 3: Das MSM des WRKY-Domänenproteins, das auf Poly-A-DNA tritt. (A) Die Projektion der MD-Konformationsschnappschüsse auf Koordinaten der Protein-COM-Bewegung X und des Rotationswinkels in Bezug auf die DNA. Die 3 Makrozustände S1, S2 und S3 sind rot, blau bzw. grau eingefärbt. (B) Repräsentative Konformationen und Übergangs-Mittelwert-First-Passage-Time (MFPT) der konstruierten 3 Makrozustände. Die wichtigsten Wasserstoffbrückenbindungen zwischen Protein und DNA werden gezeigt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 4: Das Grobkornmodell (CG) und die Kontakte, die zwischen Protein- und DNA-Strängen im CG-Modell gebildet wurden. (A) Die Grobkörnung von Protein (links) und DNA (rechts). (B) Die Kontaktnummer zwischen WRKY und jedem DNA-Strang entlang der Simulation. (C) Die molekularen Ansichten der 4 Kontaktmodi. Die Proteinregion in der Nähe des Zinkfingers ist grau und die andere Region grün gefärbt. (D) Die Kontaktwahrscheinlichkeit jeder Proteinaminosäure mit DNA. Wenn der Abstand zwischen dem CG-Partikel der Aminosäure und DNA-CG-Partikeln kleiner als 7 Å ist, wird davon ausgegangen, dass die Aminosäure in Kontakt mit der DNA steht. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 5: Die Diffusionsschrittgrößen einzelner Proteinaminosäuren im WRKY-Motiv als WRKY, die sich entlang der DNA bewegen. (A) Die hochkonservierten Reste (WRKYGQK) in atomarer Struktur (links) und nach Grobkörnung (rechts). (B) Die Schrittgröße für jeden konservierten Rückstand auf verschiedenen DNA-Sequenzen (Poly-A; Poly-AT; zufällige Sequenzen) Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Zusatzakte 1: Die Python-Codes und die Software, die in diesem Protokoll verwendet werden. MSM wird hauptsächlich mit dem MSMbuilder erstellt, die erforderlichen Python-Codes sind angehängt. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzungsakte 2: Die atomistischen Molekulardynamiksimulationen werden von GROMACS durchgeführt, die Befehle und notwendigen Dateien zum Erstellen von Allatomsimulationen sind ebenfalls beigefügt. Die grobkörnigen Simulationen werden von der CafeMol-Software durchgeführt. Die Simulationsergebnisse werden von VMD und MATLAB analysiert. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzungsakte 3: Das tcl-Skript zum Rotieren und Bewegen von Protein in VMD. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Diese Arbeit befasst sich mit der Durchführung strukturbasierter Computersimulationen und Probenahmen, um einen Transkriptionsfaktor oder ein TF-Protein aufzudecken, das sich entlang der DNA bewegt, nicht nur im atomaren Detail des Steppens, sondern auch in der prozessiven Diffusion, die für die erleichterte Diffusion von TF in der DNA-Zielsuche unerlässlich ist. Dazu wurde zunächst das Markov-Zustandsmodell oder MSM eines kleinen TF-Domänenproteins WRKY konstruiert, das für 1-bp entlang homogener Poly-A-DNA schritt, so dass ein Ensemble von Proteinkonformationen auf der DNA zusammen mit kollektiver Wasserstoffbrückenbindung oder HB-Dynamik an der Protein-DNA-Schnittstelle aufgedeckt werden kann. Um das MSM zu erhalten, führten wir zwei Runden umfangreicher All-Atom-MD-Simulationen entlang eines spontanen Protein-Stepping-Pfades (erhalten aus früheren 10-μs-Simulationen) mit Stromproben in Aggregation von 7,5 μs (125 x 60 ns) durch. Solche umfangreichen Probenahmen liefern uns Momentaufnahmen für die Konformationsclusterung in Hunderte von Mikrozuständen, wobei Protein-DNA-Grenzflächenpaarabstände als geometrische Maße für das Clustering verwendet werden. Die Markovsche Eigenschaft der MSM-Konstruktion wird teilweise validiert, indem die zeitliche Trennung von den implizierten Zeitskalen, die für verschiedene Längen oder Verzögerungszeiten einzelner MD-Simulationen berechnet werden, erkannt wird. 20–2000 Mikrozustände wurden dann getestet und für die zeitskaligen Trenneigenschaften verglichen, wobei 500 Mikrozustände für die MSM-Konstruktion ausgewählt wurden. Darüber hinaus wurden die 500 Mikrozustände kinetisch in eine kleine Anzahl von Makrozuständen zusammengefasst, für die wir eine unterschiedliche Anzahl von Zuständen getestet und festgestellt haben, dass drei Makrozustände für das aktuelle System ausreichen. Das Drei-Staaten-Modell zeigt einfach, dass der Zustand S1 vergleichsweise schnell (innerhalb von Dutzenden von ns) zu S2 übergeht, dominiert von Schwankungen des Proteinmassenschwerpunkts (COM) auf der DNA, während der Zustand S2 langsam zu S3 übergeht und geschwindigkeitsbegrenzend ist (~ 7 μs im Durchschnitt), dominiert von kollektiver HB-Dynamik für das Steppen. Beachten Sie, dass die kinetische Zusammenfassung der Mikrozustände in eine kleine Anzahl kinetisch unterschiedlicher Makrozustände noch methodischen Entwicklungen unterliegt, wobei verschiedene Algorithmen getestet und maschinelle Lerntechniken verbessert werden 57,58,59,60,61,62,63 . Zu den kritischen Schritten zum Erstellen von MSM gehören die Auswahl der in tICA verwendeten Abstandspaare und die Bestimmung der Parameter, die zum Erstellen von Mikrozuständen verwendet werden. Die Wahl der Fernpaare basiert auf Wissen, und es ist wichtig, die wichtigsten Interaktionspaare zu wählen. Die Parameter für die Konstruktion von Mikrozuständen, wie die Korrelationsverzögerungszeit, die Verzögerungszeit, das Durcheinander von Mikrozuständen, müssen richtig eingestellt werden, um sicherzustellen, dass das System Markovian ist.

Mit solchen Bemühungen kann die Submikro- bis Mikrosekunden-Proteinstrukturdynamik mit atomaren Details systematisch für Proteinschritte von 1-bp entlang der DNA aufgedeckt werden. Im Prinzip kann das System mit der Übergangswahrscheinlichkeitsmatrix, die aus der MSM-Konstruktion erhalten wurde, auf eine lange Zeitskala jenseits von Mikrosekunden oder etwa auf die Annäherung an Millisekunden und über^13,17,64 entwickelt werden. Es gibt jedoch intrinsische Einschränkungen der MSM-Probenahme und -Konstruktion, die auf Submikrosekunden-Einzelsimulationen um einen bestimmten Anfangspfad beruhen, und die Markovsche Eigenschaft ist möglicherweise nicht gut garantiert ^65,66. In den meisten Praktiken wurde der anfängliche Weg unter Zwang oder Beschleunigung konstruiert, obwohl wir im aktuellen System einen spontanen Proteinschrittpfad (ohne Antrieb oder Beschleunigung) nutzen, der aus einer 10-ms-Gleichgewichtssimulation⁸ gewonnen wird. Die Konformationsproben in Aggregat sind aufgrund der hohen Rechenkosten der atomaren Simulationen immer noch um Dutzende von Mikrosekunden begrenzt. Solche Mikrosekundenabtastungen des Proteinschritts liefern wahrscheinlich keine ausreichenden Konformationen, um auf einer langzeitskaligen prozessiven TF-Diffusion zu erscheinen. Das Speicherproblem würde erheblich werden, wenn man die aktuell erhaltene Übergangswahrscheinlichkeitsmatrix über eine bestimmte Zeitskala hinaus implementiert und die Markovsche Eigenschaft nicht garantiert ist, um die ordnungsgemäße Verwendung des aktuellen MSM 14,52,66 sicherzustellen. Um die prozessive Diffusion von TF entlang der DNA auf der Langzeitskala zu beproben, werden stattdessen die Grobkorn- oder CG-Modellierung und -Simulation auf der Reststandsebene implementiert, um ein Gleichgewicht zwischen der Aufrechterhaltung der strukturellen Basis und der Senkung der Rechenkosten herzustellen.

In der CG-Modellierung und -Simulation werden die Proteinreste und DNA-Nukleotide durch Kügelchen (d. h. eine Perle für eine Aminosäure und drei Perlen für ein Nukleotid) dargestellt, wobei die Proteinkonformation über das Go-Modell in Richtung einer nativen oder voräquilibrierten Konfiguration ^30,53 aufrechterhalten^wird. Obwohl die atomare Ebene der HB-Wechselwirkungen im CG-Modell fehlt, sind die elektrostatischen Wechselwirkungen zwischen Protein und DNA gut erhalten, die in der Lage zu sein scheinen, dominante Dynamikmerkmale in der prozessiven Diffusion des Proteins entlang der DNA^67,68,69,70 zu erfassen. Detaillierte Implementierungsprotokolle zur Modellierung und Simulation des WRKY-DNA-Systems werden hier vorgestellt. Die repräsentativen Ergebnisse zeigen interessanterweise, dass erstens die Einzelstrang-DNA-Bias, die in der vorherigen atomaren Simulation des WRKY-DNA-Systems dargestellt wurde, im CG-Modell bestehen bleibt, während eine Vielzahl von Proteinorientierungen / -konfigurationen, die während der Prozessdiffusion beprobt wurden, von Zeit zu Zeit zu einem Wechsel der Verzerrung zwischen den beiden Strängen führen. Daher ist ein solcher DNA-Strang-Bias nicht unbedingt mit der HB-Assoziation verbunden, sondern scheint hauptsächlich auf den elektrostatischen Wechselwirkungen zwischen Protein und DNA zu beruhen, die für verschiedene Proteinkonfigurationen oder Orientierungen auf der DNA variieren. Als nächstes zeigen einzelne Aminosäuren an oder in der Nähe der Protein-DNA-Grenzfläche, wie die hochkonservierten WRKQGQK-Motive, unterschiedliche Schrittgrößen oder Synchronisationsmuster für verschiedene DNA-Sequenzen. In unserer vorherigen Studie wurden die Schrittgrößenvariationen nur für die COM des Proteins gezeigt, da das Protein modelliert wurde, um entlang verschiedener DNA-Sequenzen zu diffundieren. Beachten Sie, dass das aktuelle CG-Modell der DNA DNA-Sequenzvariationen mit unterschiedlicher Parametrisierung 54,71,72 unterstützt^, obwohl atomare Details fehlen. Eine korrekte DNA-sequenzabhängige Parametrisierung in der strukturbasierten Modellierung des Protein-DNA-Systems ist daher entscheidend, um Protein-DNA-Such- und Erkennungsmechanismen über mehrere Zeit- und Längenskalen hinweg aufzudecken.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben keinen Interessenkonflikt.

Acknowledgments

Diese Arbeit wurde von NSFC Grant #11775016 und #11635002 unterstützt. JY wurde vom CMCF der UCI über die NSF DMS 1763272 und den Simons Foundation Grant #594598 und den Start-up-Fonds der UCI unterstützt. LTD wurde von der Natural Science Foundation of Shanghai #20ZR1425400 and #21JC1403100 unterstützt. Wir danken auch der rechnerischen Unterstützung durch das Beijing Computational Science Research Center (CSRC).

Materials

Name	Company	Catalog Number	Comments
CafeMol	Kyoto University		coarse-grained (CG) simulations
GROMACS	University of Groningen Royal Institute of Technology Uppsala University		molecular dynamics simulations software
Matlab	MathWorks		Numerical calculation software
MSMbuilder	Stanford University		build MSM
VMD	UNIVERSITY OF ILLINOIS AT URBANA-CHAMPAIGN		molecular visualization program

DOWNLOAD MATERIALS LIST

References

Latchman, D. S. Transcription factors: an overview. The International Journal of Biochemistry & Cell Biology. 29 (12), 1305-1312 (1997).
Berg, O. G., von Hippel, P. H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. Journal of Molecular Biology. 193 (4), 723-750 (1987).
von Hippel, P. H., Berg, O. G. Facilitated target location in biological systems. The Journal of Biological Chemistry. 264 (2), 675-678 (1989).
Halford, S. E., Marko, J. F. How do site-specific DNA-binding proteins find their targets. Nucleic Acids Research. 32 (10), 3040-3052 (2004).
Slusky, M., Mirny, L. A. Kinetics of protein-DNA interaction: facilitated target location in sequence-dependent potential. Biophysical Journal. 87 (6), 4021-4035 (2004).
Bauer, M., Metzler, R. Generalized facilitated diffusion model for DNA-binding proteins with search and recognition states. Biophysical Journal. 102 (10), 2321-2330 (2012).
Shvets, A. A., Kochugaeva, M. P., Kolomeisky, A. B. Mechanisms of Protein Search for Targets on DNA: Theoretical Insights. Molecules. 23 (9), Basel, Switzerland. 2106 (2018).
Dai, L., Xu, Y., Du, Z., Su, X. D., Yu, J. Revealing atomic-scale molecular diffusion of a plant-transcription factor WRKY domain protein along DNA. Proceedings of the National Academy of Sciences of the United States of America. 118 (23), 2102621118 (2021).
Chodera, J. D., Singhal, N., Pande, V. S., Dill, K. A., Swope, W. C. Automatic discovery of metastable states for the construction of Markov models of macromolecular conformational dynamics. The Journal of Chemical Physics. 126 (15), 155101 (2007).
Pan, A. C., Roux, B. Building Markov state models along pathways to determine free energies and rates of transitions. The Journal of Chemical Physics. 129 (6), 064107 (2008).
Bowman, G. R., Huang, X., Pande, V. S. Using generalized ensemble simulations and Markov state models to identify conformational states. Methods. 49 (2), San Diego, California. 197-201 (2009).
Prinz, J. H., et al. Markov models of molecular kinetics: Generation and validation. The Journal of chemical physics. 134 (17), 174105 (2011).
Chodera, J. D., Noé, F. Markov state models of biomolecular conformational dynamics. Current Opinion in Structural Biology. 25, 135-144 (2014).
Malmstrom, R. D., Lee, C. T., Van Wart, A. T., Amaro, R. E. On the Application of Molecular-Dynamics Based Markov State Models to Functional Proteins. Journal of Chemical Theory and Computation. 10 (7), 2648-2657 (2014).
Husic, B. E., Pande, V. S. Markov State Models: From an Art to a Science. Journal of the American Chemical Society. 140 (7), 2386-2396 (2018).
Sittel, F., Stock, G. Perspective: Identification of collective variables and metastable states of protein dynamics. The Journal of chemical physics. 149 (15), 150901 (2018).
Wang, W., Cao, S., Zhu, L., Huang, X. Constructing Markov State Models to elucidate the functional conformational changes of complex biomolecules. WIREs Computational Molecular Science. 8, 1343 (2018).
Peng, S., et al. Target search and recognition mechanisms of glycosylase AlkD revealed by scanning FRET-FCS and Markov state models. Proceedings of the National Academy of Sciences of the United States of America. 117 (36), 21889-21895 (2020).
Tian, J., Wang, L., Da, L. T. Atomic resolution of short-range sliding dynamics of thymine DNA glycosylase along DNA minor-groove for lesion recognition. Nucleic Acids Research. 49 (3), 1278-1293 (2021).
Chu, J. -W., Izveko, S., Voth, G. The multiscale challenge for biomolecular systems: coarse-grained modeling. Molecular Simulation. 32 (3-4), 211-218 (2006).
Marrink, S. J., Risselada, H. J., Yefimov, S., Tieleman, D. P., De Vries, A. H. The MARTINI force field: coarse grained model for biomolecular simulations. The Journal of Physical Chemistry B. 111 (27), 7812-7824 (2007).
Givaty, O., Levy, Y. Protein sliding along DNA: dynamics and structural characterization. Journal of Molecular Biology. 385 (4), 1087-1097 (2009).
Khazanov, N., Levy, Y. Sliding of p53 along DNA can be modulated by its oligomeric state and by cross-talks between its constituent domains. Journal of Molecular Biology. 408 (2), 335-355 (2011).
Riniker, S., Allison, J. R., van Gunsteren, W. F. On developing coarse-grained models for biomolecular simulation: a review. Physical Chemistry Chemical Physics : PCCP. 14 (36), 12423-12430 (2012).
Kmiecik, S., et al. Coarse-Grained Protein Models and Their Applications. Chemical Reviews. 116 (14), 7898-7936 (2006).
Bhattacherjee, A., Krepel, D., Levy, Y. Coarse-grained models for studying protein diffusion along DNA. WIREs Computational Molecular Science. 6, 515-531 (2016).
Wang, J., et al. Machine Learning of Coarse-Grained Molecular Dynamics Force Fields. ACS Central Science. 5 (5), 755-767 (2019).
Joshi, S. Y., Deshmukh, S. A. A review of advancements in coarse-grained molecular dynamics simulations. Molecular Simulation. 47 (10-11), 786-803 (2021).
Bigman, L. S., Greenblatt, H. M., Levy, Y. What Are the Molecular Requirements for Protein Sliding along DNA. The Journal of Physical Chemistry B. 125 (12), 3119-3131 (2021).
Kenzaki, H., et al. CafeMol: A Coarse-Grained Biomolecular Simulator for Simulating Proteins at Work. Journal of Chemical Theory and Computation. 7 (6), 1979-1989 (2011).
Berendsen, H. J. C., vander Spoel, D., van Drunen, R. GROMACS: a message-passing parallel molecular dynamics implementation. Computer Physics Communications. 91 (1-3), 43-56 (1995).
vander Spoel, D., et al. GROMACS: fast, flexible, and free. Journal of Computational Chemistry. 26 (16), 1701-1718 (2005).
Abraham, M. J., et al. GROMACS: High performance molecular simulations through multi-level parallelism from laptops to supercomputers. SoftwareX. 1-2, 19-25 (2015).
Harrigan, M. P., et al. MSMBuilder: Statistical Models for Biomolecular Dynamics. Biophysical journal. 112 (1), 10-15 (2017).
Humphrey, W., Dalke, A., Schulten, K. VMD: visual molecular dynamics. Journal of Molecular Graphics. 14 (1), 33-38 (1996).
Izrailev, S., et al. Steered Molecular Dynamics. Computational Molecular Dynamics: Challenges, Methods, Ideas. 4, Springer. Berlin, Heidelberg. 39-65 (1999).
Schlitter, J., Engels, M., Krüger, P. Targeted molecular dynamics: a new approach for searching pathways of conformational transitions. Journal of Molecular Graphics. 12 (2), 84-89 (1994).
Maragliano, L., Fischer, A., Vanden-Eijnden, E., Ciccotti, G. String method in collective variables: minimum free energy paths and isocommittor surfaces. The Journal of Chemical Physics. 125 (2), 24106 (2006).
Weiss, D. R., Levitt, M. Can morphing methods predict intermediate structures. Journal of Molecular Biology. 385 (2), 665-674 (2009).
Xu, Y. P., Xu, H., Wang, B., Su, X. D. Crystal structures of N-terminal WRKY transcription factors and DNA complexes. Protein. 11 (3), 208-213 (2020).
Higham, D. J., Higham, N. J. MATLAB guide. Society for Industrial and Applied Mathematics. , (2016).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Gonzalez, T. F. Clustering to minimize the maximum intercluster distance. Theoretical Computer Science. 38, 293-306 (1985).
Zhao, Y., Sheong, F. K., Sun, J., Sander, P., Huang, X. A fast parallel clustering algorithm for molecular simulation trajectories. Journal of Computational Chemistry. 34 (2), 95-104 (2013).
Ivani, I., et al. Parmbsc1: a refined force field for DNA simulations. Nature Methods. 13 (1), 55-58 (2016).
Naritomi, Y., Fuchigami, S. Slow dynamics of a protein backbone in molecular dynamics simulation revealed by time-structure based independent component analysis. The Journal of Chemical Physics. 139 (21), 215102 (2013).
Naritomi, Y., Fuchigami, S. Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: the case of domain motions. The Journal of Chemical Physics. 134 (6), 065101 (2011).
Pérez-Hernández, G., Paul, F., Giorgino, T., De Fabritiis, G., Noé, F. Identification of slow molecular order parameters for Markov model construction. The Journal of Chemical Physics. 139 (1), 015102 (2013).
McGibbon, R. T., Pande, V. S. Variational cross-validation of slow dynamical modes in molecular kinetics. The Journal of Chemical Physics. 142 (12), 124105 (2015).
Deuflhard, P., Weber, M. Robust Perron cluster analysis in conformation dynamics. Linear Algebra and its Applications. 398, 161-184 (2005).
Silva, D. A., et al. Millisecond dynamics of RNA polymerase II translocation at atomic resolution. Proceedings of the National Academy of Sciences of the United States of America. 111 (21), 7665-7670 (2014).
Swope, W. C., Pitera, J. W., Suits, F. Describing Protein Folding Kinetics by Molecular Dynamics Simulations. 1. Theory. The Journal of Physical Chemistry B. 108 (21), 6571-6581 (2004).
Clementi, C., Nymeyer, H., Onuchic, J. N. Topological and energetic factors: what determines the structural details of the transition state ensemble and "en-route" intermediates for protein folding? An investigation for small globular proteins. Journal of molecular biology. 298 (5), 937-953 (2000).
Hinckley, D. M., Freeman, G. S., Whitmer, J. K., De Pablo, J. J. An experimentally-informed coarse-grained 3-Site-Per-Nucleotide model of DNA: structure, thermodynamics, and dynamics of hybridization. The Journal of chemical physics. 139 (14), 144903 (2013).
Debye, P., Huckel, E. The theory of the electrolyte II-The border law for electrical conductivity. Physikalische Zeitschrift. 24, 305-325 (1923).
Berendsen, H. J., Postma, J. V., van Gunsteren, W. F., DiNola, A., Haak, J. R. Molecular dynamics with coupling to an external bath. The Journal of Chemical Physics. 81, 3684-3690 (1984).
Bowman, G. R. Improved coarse-graining of Markov state models via explicit consideration of statistical uncertainty. The Journal of Chemical Physics. 137 (13), 134111 (2012).
Jain, A., Stock, G. Identifying metastable states of folding proteins. Journal of Chemical Theory and Computation. 8 (10), 3810-3819 (2012).
Röblitz, S., Weber, M. Fuzzy spectral clustering by PCCA+: application to Markov state models and data classification. Advances in Data Analysis and Classification. 7, 147-179 (2013).
Mardt, A., Pasquali, L., Wu, H., Noé, F. VAMPnets for deep learning of molecular kinetics. Nature Communications. 9 (1), 5 (2018).
Wang, W., Liang, T., Sheong, F. K., Fan, X., Huang, X. An efficient Bayesian kinetic lumping algorithm to identify metastable conformational states via Gibbs sampling. The Journal of Chemical Physics. 149 (7), 072337 (2018).
Chen, W., Sidky, H., Ferguson, A. L. Nonlinear discovery of slow molecular modes using state-free reversible VAMPnets. The Journal of Chemical Physics. 150 (21), 214114 (2019).
Gu, H., et al. RPnet: a reverse-projection-based neural network for coarse-graining metastable conformational states for protein dynamics. Physical Chemistry Chemical Physics :PCCP. 24 (3), 1462-1474 (2022).
Lane, T. J., Bowman, G. R., Beauchamp, K., Voelz, V. A., Pande, V. S. Markov state model reveals folding and functional dynamics in ultra-long MD trajectories. Journal of the American Chemical Society. 133 (45), 18413-18419 (2011).
Konovalov, K. A., Unarta, I. C., Cao, S., Goonetilleke, E. C., Huang, X. Markov State Models to Study the Functional Dynamics of Proteins in the Wake of Machine Learning. JACS Au. 1 (9), 1330-1341 (2021).
Cao, S., Montoya-Castillo, A., Wang, W., Markland, T. E., Huang, X. On the advantages of exploiting memory in Markov state models for biomolecular dynamics. The Journal of Chemical Physics. 153 (1), 014105 (2020).
Brandani, G. B., Takada, S. Chromatin remodelers couple inchworm motion with twist-defect formation to slide nucleosomal DNA. PLoS Computational Biology. 14 (11), 1006512 (2018).
Tan, C., Terakawa, T., Takada, S. Dynamic Coupling among Protein Binding, Sliding, and DNA Bending Revealed by Molecular Dynamics. Journal of the American Chemical Society. 138 (27), 8512-8522 (2016).
Terakawa, T., Takada, S. p53 dynamics upon response element recognition explored by molecular simulations. Scientific reports. 5, 17107 (2015).
Brandani, G. B., Niina, T., Tan, C., Takada, S. DNA sliding in nucleosomes via twist defect propagation revealed by molecular simulations. Nucleic Acids Research. 46 (6), 2788-2801 (2018).
Knotts, T. A., Rathore, N., Schwartz, D. C., de Pablo, J. J. A coarse grain model for DNA. The Journal of Chemical Physics. 126 (8), 084901 (2007).
Freeman, G. S., Hinckley, D. M., Lequieu, J. P., Whitmer, J. K., de Pablo, J. J. Coarse-grained modeling of DNA curvature. The Journal of Chemical Physics. 141 (16), 165103 (2014).

Biology

Strukturbasierte Simulation und Probenahme von Transkriptionsfaktor-Proteinbewegungen entlang der DNA vom atomaren Schritt bis zur grobkörnigen Diffusion

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.