Biology

Strukturbaseret simulering og prøveudtagning af transkriptionsfaktorproteinbevægelser langs DNA fra atomskala trin til grovkornet diffusion

Published: March 1, 2022 doi: 10.3791/63406

Chao E*¹, Liqiang Dai*^1,2, Jiaqi Tian^3,4, Lin-Tai Da⁴, Jin Yu^5,6,7

¹Beijing Computational Science Research Center, ²Shenzhen JL Computational Science and Applied Research Institute, ³School of Medical Informatics and Engineering, Xuzhou Medical University, ⁴Key Laboratory of Systems Biomedicine (Ministry of Education), Shanghai Center for Systems Biomedicine, Shanghai Jiao Tong University, ⁵Department of Physics and Astronomy, University of California, Irvine, ⁶Department of Chemistry, University of California, Irvine, ⁷NSF-Simons Center for Multiscale Cell Fate Research, University of California, Irvine

* These authors contributed equally

Summary

Målet med denne protokol er at afsløre strukturel dynamik af endimensionel diffusion af protein langs DNA ved hjælp af en plantetranskriptionsfaktor WRKY domæneprotein som et eksemplarisk system. For at gøre dette er både atomistiske og grovkornede molekylære dynamiksimuleringer sammen med omfattende beregningsprøver blevet implementeret.

Abstract

Endimensionel (1-D) glidning af transkriptionsfaktor (TF) protein langs DNA er afgørende for lettere diffusion af TF for at lokalisere mål-DNA-sted for genetisk regulering. Detektering af baseparopløsning (bp) af TF'en, der glider eller træder på DNA'et, er stadig eksperimentelt udfordrende. Vi har for nylig udført simuleringer af all-atom molekylær dynamik (MD), der fanger spontan 1-bp trin af et lille WRKY-domæne TF-protein langs DNA. Baseret på den 10 μs WRKY-trinsti, der er opnået fra sådanne simuleringer, viser protokollen her, hvordan man kan udføre mere omfattende konformationsprøver af TF-DNA-systemerne ved at konstruere Markov-tilstandsmodellen (MSM) til 1-bp-proteintrin, med forskellige antal mikro- og makrotilstande testet for MSM-konstruktionen. For at undersøge processiv 1D-diffusionssøgning af TF-proteinet sammen med DNA med strukturelt grundlag viser protokollen yderligere, hvordan man udfører grovkornede (CG) MD-simuleringer for at prøve systemets langsigtede skaladynamik. Sådanne CG-modellering og simuleringer er særligt nyttige til at afsløre de protein-DNA-elektrostatiske virkninger på TF-proteinets processive diffusionsbevægelser over snesevis af mikrosekunder sammenlignet med submikrosekunder til mikrosekunder proteintrinbevægelser afsløret fra all-atomsimuleringerne.

Introduction

Transkriptionsfaktorer (TF) søger efter mål-DNA'et til at binde og regulere gentranskription og relaterede aktiviteter¹. Bortset fra den tredimensionelle (3D) diffusion er den lette diffusion af TF blevet foreslået at være afgørende for mål-DNA-søgning, hvor proteinerne også kan glide eller hoppe langs endimensionelt (1D) DNA eller hoppe med intersegmental overførsel på^DNA'et 2,3,4,5,6,7.

I en nylig undersøgelse har vi udført snesevis af mikrosekunder (μs) all-atom equilibrium molecular dynamics (MD) simuleringer på en plante TF - WRKY domæneproteinet på DNA⁸. Et komplet 1-bp trin af WRKY på poly-A DNA inden for mikrosekunder er blevet fanget. Proteinets bevægelser langs DNA-rillen og hydrogenbindinger (HB'er) bryde-reformerende dynamik er blevet observeret. Mens en sådan bane repræsenterer en samplet vej, er et samlet protein stepping landskab stadig mangel på. Her viser vi, hvordan man udvider beregningsprøver omkring den oprindeligt fangede proteintrinsti med den konstruerede Markov-tilstandsmodel (MSM), som er blevet implementeret bredt til simulering af en række biomolekylære systemer, der involverer væsentlige konformationsændringer og tidsskalaadskillelse ^{9,10,11,12,13,14,15,16}^, 17,18,19. Formålet er at afsløre det konformationelle ensemble og metastabile tilstande af TF-proteindiffusionen langs DNA for et cyklisk trin.

Mens ovenstående MD-simulering afslører atomopløsning af proteinbevægelserne for 1 bp på DNA'et, er den strukturelle dynamik ved langvarig processiv diffusion af TF langs DNA i samme høje opløsning næppe tilgængelig. Det er dog teknisk tilgængeligt at gennemføre grovkornede (CG) MD-simuleringer på restkoncentrationsniveau. CG-simuleringstidsskalaen kan effektivt udvides til titusinder eller hundreder af gange længere end atomsimuleringerne 20,21,22,23,24,25,26,27,28,29. Her viser vi CG-simuleringerne udført ved implementering af CafeMol-softwaren udviklet af Takada lab³⁰.

I den nuværende protokol præsenterer vi de atomare simuleringer af WRKY-domæneproteinet langs poly-A DNA og MSM-konstruktionen først, som fokuserer på prøveudtagning af proteintrinbevægelserne for kun 1 bp langs DNA. Derefter præsenterer vi CG-modellering og simuleringer af det samme protein-DNA-system, som udvider beregningsprøveudtagningen til proteinprocessiv diffusion over snesevis af bps langs DNA.

Her bruger vi GROMACS 31,32,33-software til at udføre MD-simuleringer og MSMbuilder 34 til at konstruere MSM til samplede konformationssnapshots samt til at bruge VMD³⁵ til at visualisere biomolekylerne. Protokollen kræver, at brugeren skal kunne installere og implementere softwaren ovenfor. Installation og implementering af CafeMol^30-softwaren er derefter nødvendig for at gennemføre CG MD-simuleringerne. Yderligere analyser af banerne og visualiseringen udføres også i VMD.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Konstruktion af Markov-tilstandsmodellen (MSM) ud fra atomare MD-simuleringer

Spontan protein stepping pathway og indledende strukturer indsamling
1. Brug en tidligere opnået 10-μs all-atom MD-bane⁸ til at udtrække 10000 billeder jævnt fra en "fremadgående" 1-bp trinsti (dvs. en ramme for hvert nanosekund). Det samlede antal rammer skal være tilstrækkeligt stort til at omfatte alle repræsentative konformationer.
2. Forbered overgangsstien med 10000 billeder i VMD ved at klikke på Filer > Gem koordinater, skriv protein eller nuklein i feltet Markerede atomer, og vælg rammer i feltet Rammer, klik på Gem for at få de nødvendige rammer.
  BEMÆRK: En tidligere opnået 10 μs all-atom MD-simuleringsbane (kaldet "fremadgående trinbane" her) for WRKY-trin 1-bp-afstand på en 34-bp homogen poly-A DNA⁸ blev brugt som den indledende vej til lancering af yderligere konformationsprøver. Bemærk, at der i de fleste praksisser imidlertid konstrueres en indledende vej ved at udføre styrede eller målrettede MD-simuleringer eller implementere generelle stigenereringsmetoder osv. 36,37,38,39.
3. Juster reference-DNA'ets lange akse (fra krystalstruktur) til x-aksen, og indstil det oprindelige massecenter (COM) for det fulde 34-bp DNA ved oprindelsen af koordinatrummet for at gøre det lettere at foretage yderligere dataanalyse. For at gøre dette skal du klikke på Udvidelser > Tk-konsol i VMD og indtaste kommandovinduet til Tk-konsollen:
  kilde rotate.tcl
  Tcl-scriptet findes i Supplerende fil 3.
4. Beregn derefter rod-middel-kvadrat-afstanden (RMSD) af proteinrygraden ved at justere det centrale 10 bp DNA (A 14 til 23 og T 14' til 23') til det fra krystalstrukturen⁴⁰, og RMSD repræsenterer geometriske målinger af systemerne (se figur 1A). Gør dette ved at klikke på VMD > Extensions > Analysis > RMSD-baneværktøj og skrive nuklein og rest 14 til 23 og 46 til 55 i feltet til valg af atom, klikke på Juster og derefter RMSD-feltet for at beregne RMSD-værdierne.
5. Beregn rotationsgraden af protein omkring DNA Θ(t) på y-z-planet i MATLAB ved at skrive kommandoen
  rad2deg(atan(z/y))
  med den indledende vinkelpositionering defineret som Θ(0)=0, som udført tidligere⁸.
6. Skriv følgende kommando i MATLAB⁴¹ for at bruge K-middelmetoder 42,43,44 og klassificer de 10000 strukturer i 25 klynger ved at skrive:
  [idx, C]=kmeans( X, 25)
  her er X en 2D-matrix af RMSD og rotationsvinkel af WRKY på DNA'et. Saml strukturerne i disse 25 klyngecentre til yderligere MD-simuleringer.
  BEMÆRK: Da proteinet RMSD samplet i forhold til DNA dækker et område på ca. 25 Å, vælger vi 25 klynger til at have en klynge pr. Angstrom.
Gennemførelse af 1^. runde af MD-simuleringer og simuleringsindstillingerne
1. Byg atomistiske systemer til de 25 strukturer ved hjælp af GROMACS 5.1.2 software³² under parmbsc1 kraftfelt⁴⁵ og ved at bruge buildsystem.sh fil fra Supplementary File 2 i shell.
2. Udfør 60-ns MD-simuleringer for disse 25 systemer under NPT-ensemble med et tidstrin på 2 fs ved at skrive følgende kommando i shell:
  gmx_mpi grompp -f md.mdp -c npt.gro -p topol.top -o md.tpr
  gmx_mpi mdrun -deffnm md
Klyngedannelse af 1^Skt runde MD-baner
1. Fjern de første 10 ns af hver simuleringsbane ved at indtaste skal:
  gmx_mpi trjcat -f md.xtc -b 10000 -e 600000 -o newtraj.xtc
  og indsamle konformationer fra 25 × 50 ns-banerne til klyngedannelse for at forberede inputstrukturerne til de efterfølgende mere omfattende prøveudtagninger (2^. runde MD-simuleringer).
  BEMÆRK: For at reducere påvirkningen fra den oprindelige vej og for at muliggøre lokal ligevægt blev 10-ns af den indledende simuleringsperiode fjernet.
2. Vælg afstandspar mellem protein og DNA som inputparametre til den tiduafhængige komponentanalyse (tICA)46,47,48 projektion. Brug kommandoen make_ndx i GROMACS til at gøre det:
  gmx_mpi make_ndx -f input.pdb -o index.ndx
  BEMÆRK: Her blev protein-CA-atomerne og de tunge atomer (NH1, NH2, OH, NZ, NE2, ND2) af rest Y119, K122, K125, R131, Y133, Q146, K144, R135, W116, R117, Y134, K118, Q121, der kan danne hydrogenbindinger (HB'er) med DNA-nukleotiderne, valgt, som parres med O1P O2P- og N6-atomerne i DNA-nukleotiderne (A14-20, T19-23). De udvalgte aminosyrer kan enten danne stabile HB'er eller saltbroer med DNA.
3. Kopiér ovenstående valgte atomindeks fra filen index.ndx til en ny tekstfil (indeks.dat). Hent paroplysningerne mellem disse atomer ved hjælp af python-scriptet fra Supplementary File 1 generate_atom_indices.py og type:
  python2.6 generate_atom_indices.py indeks.dat > Atomindekser.txt
  Dette genererer de 415 afstandspar mellem protein og DNA.
4. Beregn de 415 afstandspar fra hver bane ved at skrive følgende kommando i MSMbuilder-kommandovinduet:
  msmb AtomPairsFeaturizer -out pair_features --pair_indices AtomIndices.txt --top referencer.pdb --trjs "trajectories/*.xtc" --transformeret pair_features --skridt 5
5. Udfør tICA for at reducere datadimensionen på de første 2 tiduafhængige komponenter (tIC'er) eller vektorer ved at skrive:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0,05 -t tica_results,h5
  BEMÆRK: tICA er en dimensionsreduktionsmetode, der beregner egenværdien af tidslagged korrelationsmatrix for at bestemme simuleringssystemets langsomste afslappende frihedsgrader ved hjælp af ligningen:
  
  hvor X_i(t) er værdien af den i-th reaktionskoordinat på tidspunktet t, og X_j(t+Δt) er værdien af j-th reaktionskoordinatet på tidspunktet t+Δt. er forventningsværdien af produktet af X _i(t) og X_j(t + Δt) samlede simuleringsbaner. Retningerne langs de langsomste afslappende frihedsgrader svarer til de største egenværdier af ovennævnte tidslaggede korrelationsmatrix . Her synes 2 tIC'er at være et minimalt sæt til at skelne mellem tre makrostater på vores MSM-konstruktion (behandlet senere). Man kan også beregne den generaliserede matrix Rayleigh-kvotient (GMRQ) score⁴⁹, for eksempel for at udforske et optimalt sæt komponenter, der skal bruges.
6. Brug kommandoen i MSMbuilder til at gruppere de projicerede datasæt i 100 klynger efter K-center ^{43,44-metoden} (se figur 1B):
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 100.
  Vælg centerstrukturen for hver klynge som den indledende struktur for 2^. runde af MD-simuleringer. Vedligeholde simuleringsoplysningerne for de simulerede 100 strukturer, herunder positioner, temperaturer, tryk osv., Bortset fra hastighederne.
  BEMÆRK: Efter den første runde af 25 simuleringer er hukommelsen for den oprindelige sti blevet reduceret, så vi genererer flere klynger, f.eks. 100 klynger, i anden runde for væsentligt at udvide de konformationelle prøveudtagninger.
Gennemførelse af 2^. runde omfattende MD-simuleringer
1. Udfør 60-ns MD-simuleringer startende fra disse 100 indledende strukturer efter at have pålagt tilfældige indledende hastigheder på alle atomerne. Tilføj de tilfældige starthastigheder ved at tænde hastighedsgenereringen i mdp-filen, dvs. ændre md.mdp-filen gen_vel = nej til gen_vel = ja.
2. Fjern de første 10 ns af hver simulering som beskrevet i trin 1.3.1, saml 2.500.000 snapshots fra 100 × 50 ns-banerne jævnt for at konstruere MSM.
  BEMÆRK: Bemærk, at der i den senere makrostatskonstruktion blev fundet et lille antal off-path-tilstande med en særlig lav befolkning (~ 0,2% i bunden af X-Θ-planet). Disse off-path-tilstande klassificeres som en makrostat, når det samlede antal makrostater er indstillet til 3 til 6 (figur 2B). Da en sådan makrostat med lav befolkning kun omfatter 3 baner, som blev fjernet i sidste ende, blev resultaterne vist i denne protokol faktisk opnået fra 97 × 50 ns baner med i alt 2.425.000 rammer eller snapshots.
Klyngedannelse af 2^. runde MD-baner
1. Udfør tICA for 2^. runde-banerne som tidligere gjort. Indtast MSMbuilder:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0,05 -t tica_results,h5
2. Beregn den underforståede tidsskala for at validere parametre for korrelationsforsinkelsestiden Δt og mikrostatstal (se figur 1C)
  
  hvor τ repræsenterer den forsinkelsestid, der anvendes til at opbygge overgangssandsynlighedsmatrixen (TPM) μ_k(τ) repræsenterer TPM's kth egenværdi under en forsinkelsestid på τ. Brug pythonscriptet fra Supplerende fil 1 til denne python BuildMSMsAsVaryLagTime.py -d .. / -f.. /trajlist_num -i 50 -m 1000 -t 10 -n 20 -s 500.
3. Varier forsinkelsestiden τ og mikrostater nummeret ved at ændre de parametre, der er brugt ovenfor:
  python BuildMSMsAsVaryLagTime.py -d .. / -f.. /trajlist_num -i 50 -m 1000 -t 5 10 20 30 40 -n 20 -s 20 200 400 500 800 2000
  BEMÆRK: Systemet betragtes som Markovian, når de underforståede tidsskalakurver begynder at udjævne sig med tidsskalaadskillelse. Vælg derefter Dt som korrelationsforsinkelsestid og τ forsinkelsestiden, hvor den underforståede tidsskala begynder at udjævne sig for at opbygge MSM.
4. Vælg derfor et forholdsvis stort (men ikke for stort) antal tilstande, N = 500 og en forholdsvis kort korrelationsforsinkelsestid Δt = 10 ns. Forsinkelsestiden viste sig at være τ = 10 ns for at opbygge MSM.
5. Klassificer konformationerne i 500 klynger (se figur 1D) ved hjælp af kommandoen:
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 500
MSM konstruktion
1. Klump de 500 mikrostater i 3-6 makrostater for at finde ud af antallet af makrostater, der passer bedst i henhold til PCCA + -algoritmen⁵⁰ i MSMbuilder, ved hjælp af pythonscriptet i Supplementary File 1 python msm_lumping_usingPCCAplus.py. Identificer et reduceret kinetisk netværk af modeller for de mest væsentlige konformationsændringer af biomolekyler ved at konstruere et lille antal makrostater, dvs. ved kinetisk klumpning af hundredvis af mikrostater som beskrevet nedenfor^17,51.
2. Kortlæg de højdimensionelle konformationer til X (proteinbevægelse langs DNA'ets lange akse) og rotationsvinklen af proteinet langs DNA'et for hver makrostat som beskrevet i trin 1.1.3 og 1.1.4 (f.eks. Ingen tilstand med for lav population < 1%; se figur 2C). Find derefter de 3 makrostater, der bedst repræsenterer systemet (figur 1E) . Se figur 2D for snapshots af proteinets bevægelse langs DNA og proteinrotationsvinklen omkring DNA.
  BEMÆRK: I tidligere arbejde med at generere 10 μs spontant protein fremad trinvis vej, gennemførte vi desuden 5 x 4 μs ligevægt MD simuleringer for moderat at udvide prøveudtagningerne. Vi viste kortlægningen af den oprindelige fremadgående sti (se figur 2A til venstre) og yderligere 4-μs prøveudtagningsbaner på den tidligere udførte fremadgående sti (se figur 2A til højre)⁸. Kortlægningen af de oprindelige 100 × 50 ns (se figur 2B til venstre)⁸ og de 97 × 50 ns-baner, der blev anvendt i dette arbejde, er vist (se figur 2B til højre).
Beregning af de gennemsnitlige første passagetider (MFPT)
1. Udfør fem 10-ms Monte Carlo (MC) baner baseret på TPM for 500 mikrostate MSM med forsinkelsestiden på 10 ns indstillet som tidstrin for MC. Beregn MFPT⁵² mellem hvert par makrostater (figur 3) ved python scriptet i Supplementary File 1 python python mfpt_msm3.py.
2. Beregn den gennemsnitlige og standardfejl for MFPT ved hjælp af bash-filen i Supplerende fil 2, skriv:
  sh mfpt_analysis.bash

2. Udførelse af grovkornet (CG) simulering for at prøve langvarig dynamik

Udfør en CG-simulering ved hjælp af CafeMol 3.0-softwaren³⁰. Se de CG-simuleringsindstillinger, der er angivet i inputkonfigurationsfilen med filtypenavnet .inp, herunder inputstrukturer, simuleringsparametre, outputfiler osv. Skriv følgende kommando på terminalen for at køre CG-simuleringen:
cafemol XXX.inp
Angiv følgende blokke i inputfilen, hvor hver blok starter med etiketten < and ending with >>>>.
1. Indstil filnavnsblok (påkrævet) for at angive arbejdsmapperne og stien til input/output-fillageret. Skriv følgende for filnavnsblokken for disse simuleringer:
  <<<< filnavne
  sti = XXXXX (arbejdsvej)
  filnavn = wrky (output filnavne)
  OUTPUT psf pdb film dcd rst
  path_pdb = XXXXX (input native structure path)
  path_ini = XXXXX (input indledende struktursti)
  path_natinfo = XXXXX (oprindelig informationsfilsti)
  path_para = XXXXX (sti til parameterfiler)
  >>>>
  BEMÆRK: Da Go-model⁵³ bruges i CG-modelleringen, dvs. protein vil være forudindtaget til den oprindelige konformation, så man skal indstille den modellerede struktur som den oprindelige konformation. Her blev indgangskrystalstrukturen indstillet som den oprindelige konformation.
2. Indstil jobkontrolblokken (påkrævet) for at definere simuleringernes køretilstand. Skriv følgende kommando:
  <<<< job_cntl
  i_run_mode = 2 (= 2 simuleringen af konstant temperatur)
  i_simulate_type = 1 (=1 Langevin dynamik)
  i_initial_state = 2 (= 2 betyder, at den oprindelige konfiguration er native konfiguration)
  >>>>
  Vælg langevindynamiksimuleringerne med konstant temperatur.
3. Indstil enheds- og tilstandsblokken (påkrævet) til at definere oplysningerne for inputstrukturer. Skriv følgende kommando:
  <<<< unit_and_state
  i_seq_read_style = 1 (=1 betyder læsesekvenser fra PDB-fil)
  i_go_native_read_style = 1 (= 1 betyder, at den oprindelige struktur er fra PDB-fil)
  1 proteinprotein.pdb (enhed &tilstand molecular_type native_structure)
  2-3 dna DNA.pdb (enhed &tilstand molecular_type native_structure)
  >>>>
  BEMÆRK: De indledende inputstrukturfiler (protein.pdb og DNA.pdb her) er nødvendige. Strukturerne er skrevet i pdb-format. To pdb-filer er nødvendige her: den ene er proteinstrukturfilen, der indeholder wrky's tunge atomkoordinater (enhed 1), og den anden er koordinaterne for 200-bp dobbeltstrenget (ds) DNA (enhed 2-3). Proteinet placeres i første omgang 15 Å væk fra DNA'et.
4. Indstil den energifunktionsblok (påkrævet), der er defineret i energy_function blok. Skriv følgende kommando:
  <<<< energy_function
  LOKAL(1) L_GO
  LOKAL(2-3) L_DNA2
  NLOCAL(1/1) GO EXV ELE
  NLOCAL(2-3/2-3) ELE DNA
  NLOCAL(1/2-3) EXV ELE
  i_use_atom_protein = 0
  i_use_atom_dna = 0
  i_para_from_ninfo = 1
  i_triple_angle_term = 2
  >>>>
  BEMÆRK: I CG-simuleringerne er proteinet grovkornet af Go-model⁵³ med hver aminosyre repræsenteret af en CG-partikel placeret i sin Cα-position. Proteinkonformationen vil derefter være forudindtaget mod den oprindelige struktur eller krystalstruktur her under Go-potentialet (figur 4A til venstre). DNA'et er beskrevet ved 3SPN.2 model⁵⁴, hvor hvert nukleotid er repræsenteret af 3 CG-partikel S, P, N, som svarer til henholdsvis sukker, fosfat og nitrogenholdig base (figur 4A til højre). De elektrostatiske og vdW-interaktioner overvejes mellem forskellige kæder. De elektrostatiske interaktioner mellem protein og DNA i CG-simuleringen tilnærmes af Debye-Hückel-potentialet⁵⁵. Den vdW-frastødende energi tager samme form som i Go-modellen.
5. Indstil md_information blok (påkrævet) for at definere simuleringsoplysningerne. Skriv følgende kommando:
  <<<< md_information
  n_step_sim = 1
  n_tstep(1) = 500000000
  tstep_size = 0,1
  n_step_save = 1000
  n_step_neighbor = 100
  i_com_zeroing = 0
  i_no_trans_rot = 0
  tempk = 300,0
  n_seed = -1
  >>>>
  Det n_tstep er simuleringstrinnet. Indstil tstep_size som tidslængden for hvert MD-trin, hvert CG Cafemol-tidstrin er ca. 200 fs³⁰, så hvert MD-trin her er i princippet 200 × 0,1 fs. Opdater nabolisten hvert 100 MD-trin (n_step_neighbor = 100). Indstil simuleringstemperaturen til 300 K. Kontroller temperaturen ved at anvende Verlet-algoritmen af hastighedstypen til opdatering af proteinstrukturen med Berendsen-termostaten⁵⁶.
  BEMÆRK: Det n_step_sim er bassinnummeret på det Go-modelbaserede potentiale eller det lokale minimale antal af energikurven. Et multipelt bassinpotentiale tillader proteinkonformationen forudindtaget til forskellige konformationer, så proteinkonformation kan ændre sig fra et lokalt minimum til et andet. Her anvendes kun single basin Go-modellen, hvilket betyder kun én forspændt konformation (krystalstruktur) for protein i simuleringerne. I mellemtiden, da der ikke er nogen protein-DNA-hydrogenbindingsinteraktion osv. modelleret i CG-sammenhæng, kan de molekylære bevægelser prøveudtages endnu hurtigere, dvs. > 10 gange end i atomsimuleringerne.
6. Indstil elektrostatisk blok (kræves kun, når elektrostatisk interaktion anvendes), da den elektrostatiske interaktion overvejes mellem forskellige kæder, så brug denne blok til at definere parametrene for elektrostatisk interaktion ved at skrive:
  <<<< elektrostatisk
  cutoff_ele = 10,0
  ionic_strength = 0,15
  >>>>
  Indstil Debye-længden i den elektrostatiske interaktion til 10 Å, svarende til opløsningsbetingelsen. Indstil ionstyrken til 0,15 M, som ved den fysiologiske tilstand.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Rotationskoblet glidende eller 1 bp trin af WRKY fra MSM-konstruktionen
Alle proteinkonformationer på DNA'et er kortlagt til den langsgående bevægelse X og rotationsvinklen for proteinet COM langs DNA (se figur 3A). Den lineære kobling af disse to grader indikerer rotationskoblet trin af WRKY-domæneproteinet på DNA'et. Konformationerne kan yderligere grupperes i 3 makrostater (S1, S2 og S3) i MSM. WRKY's fremadrettede trin følger derefter makrostatsovergangen S1->S2->S3. S1 refererer til en metastababel tilstand initieret af den modellerede struktur (baseret på krystalstrukturen i WRKY-DNA-kompleks⁴⁰) med en befolkning på ~ 6%. Bemærk, at i den nuværende modellering blev den oprindelige proteinkonformation vedtaget fra krystalstrukturen, hvor proteinet binder med specifik W-box DNA-sekvens⁴⁰. Et sådant modelleret protein-poly A-DNA-kompleks fører således til mindre gunstige indledende strukturer (S1) end de trinvise eller endelig afslappede strukturer (S3). Ikke desto mindre kan man finde ud af, at hydrogenbindingerne (HB'er) ved protein-DNA-grænsefladen genvinder nær centrum af S3 som det nær midten i S1 (se figur 3B). HB'erne i S1-tilstand er godt vedligeholdt: K125 med A15, R131, Q146 og Y133 med A16, K144 og Y119 med A17, R135 med A18 (figur 3B øverst til venstre). S3 refererer til en metastabil tilstand efter 1-bp proteintrin, hvor næsten alle HB'erne skiftede til 1-bp afstand (figur 3B bund), og strukturerne fremstår stabile med den højeste befolkning (63%). Den mellemliggende tilstand S2 forbinder S1 og S3 med en mellemhøj befolkning (~ 30%). Vi fandt ud af, at R135 og K144 er ret fleksible i denne mellemliggende tilstand og normalt kan bryde HB'er med det nuværende nukleotid og reformere det med det næste nukleotid (figur 3B øverst til højre). Samlet set flyttede WRKY-proteinet COM ~ 2,9 Å og roterede ~ 55 ° til trin 1 bp her. Det hastighedsbegrænsende trin for WRKY-trinnet er S2->S3, som i det væsentlige tillader kollektiv brud og reformering af HB'erne og kræver ~ 7 μs i gennemsnit. I modsætning hertil kan S1 til S2 transit meget hurtigt på et tidspunkt på ~ 0,06 μs eller 60-ns (figur 3B), der hovedsageligt involverer protein COM-udsving (f.eks. På grund af proteinorienteringsændringer på DNA'et).

Enkeltstrenget bias af WRKY under processiv diffusion i CG-modellen
I vores nylige undersøgelse fandt vi, at WRKY-domæneproteinet fortrinsvis binder sig til en streng af dsDNA'et, uanset under 1-bp-trin eller statisk binding; og enkeltstrenget bias bliver meget fremtrædende, især ved specifik DNA-sekvensbinding⁸. I mellemtiden er det ikke klart, om en sådan tendens forbliver under den processive diffusion af proteinet langs DNA. Her forsøgte vi at undersøge den potentielle strengbias via CG-simuleringerne. Interessant nok er en signifikant enkeltstrenget DNA-bindingskonfiguration blevet identificeret i CG-simuleringerne af WRKY under processiv diffusion. For at se det blev kontaktnumrene mellem protein og DNA beregnet på de respektive DNA-strenge (se figur 4B). En kontakt overvejes, når afstanden mellem protein CG-partikel og DNA CG P (fosfatgruppe) partikel er mindre end 7 Å. Proteinet viser faktisk bias til en af DNA-strengene (f.eks. ~ 4 kontakter til den ene streng og ~ 1 kontakt til den anden), dvs. selv når detaljerede interaktioner såsom HB'er ved protein-DNA-grænsefladen ikke er modelleret.

Den foretrukne DNA-streng kan imidlertid skifte fra tid til anden mellem de to strenge af DNA'et afhængigt af bindingsorienteringen eller konfigurationen af proteinet på DNA'et. Især ifølge kontaktnummeret dannet mellem proteinet og de respektive DNA-strenge er der hovedsageligt 4 tilstande her (som mærket 1, 2, 3 og 4 i figur 4B,C). I tilstand 1 og 3 binder en zinkfingerregion mod -Y-retning, og den foretrukne streng er den blå. I tilstand 2 og 3 binder zinkfingerområdet sig mod +Y-retningen, og den foretrukne streng bliver den røde. Det konstateres også, at zink-figner-regionen interagerer dominerende med DNA'et (se figur 4D). Derfor er DNA-strengen bundet tæt med zinkfingerområdet faktisk den foretrukne. Ifølge ovenstående prøveudtagning ser det således ud til, at strengbiasen vedvarer, men skifter mellem de to DNA-strenge i CG-modellen for den processive proteindiffusion.

Protein individuel resterende trin i CG-simuleringerne
Det blev tidligere bemærket fra vores CG-simuleringer, at trinstørrelsen af WRKY kan variere på forskellige DNA-sekvenser⁸. Proteinet COM har tendens til at trin 1 bp på det homogene poly-A DNA. Mens det er på poly-AT-DNA med 2 bp periodicitet, synes andelen af 2-bp-trin at stige.

Derudover undersøgte vi her, om individuelle proteinrester bevæger sig synkront ved protein-DNA-grænsefladen. Vi beregnede trinstørrelsen af hver stærkt konserveret rest i WRKY-motivet (WRKYGQK) for hver 1000 tidstrin (figur 5A). Den resterende trinstørrelse af hver konserveret rest kan således måles ud fra CG-simuleringerne. Resultaterne viser faktisk, at trinstørrelserne af disse individuelle rester er mere synkroniserede på poly-A-DNA end på poly-AT eller tilfældige DNA-sekvenser (figur 5B).

Figur 1: Konformationsgenerering og mikrostater /makrostater konstruktion. (A) Den indledende fremadrettede trinvise sti kortlagt på protein-DNA RMSD og protein rotationsvinkel omkring DNA'et. De oprindeligt valgte 25 strukturer er mærket med røde cirkler. (B) De 100 konformationsklyngecentre fra 1^. runde 25 x 50 ns MD-simuleringsbaner kortlagt på de to højeste egenværdi tIC'er retning. C) Afbildninger af den implicitte tidshorisont som funktion af forsinkelsestiden for MSM-konstruktionen via tICA ved hjælp af udvalgte afstandspar som input. For hvert sæt blev MSM konstrueret ved at projicere konformationerne på de øverste 2 tIC'er efterfulgt af K-centre, der klyngede sig for at producere 20 til 2000 mikrostater (fra venstre mod højre kolonne) med korrelationsforsinkelsestid for tICA valgt fra 5 til 40 ns (fra øverste til nederste række). (D) De 500 mikrostater konstrueret og (E) de yderligere konstruerede 3 makrostater, med tilsvarende mikrostatscentre kortlagt langs de højeste to tIC'er retning. Klik her for at se en større version af denne figur.

Figur 2: Konstruktion af makrostaterne. (A) Kortlægningen af indledende fremadgående stibane (venstre) og med et lille antal yderligere mikrosekundsbaneprøver (højre) på proteinmassecentret (COM) bevægelse langs DNA langakse (X) og rotationsvinkel omkring DNA'et (opnået tidligere⁸). B) Kortlægningen af de oprindelige 100 × 50 ns-forløb og de 97 × 50 ns-forløb, der blev anvendt i den nuværende MSM-konstruktion. C) Konstruktionen af 3-6 makrostater og deres populationer fra den konstruerede MSM er mærket på de omfattende prøveudtagningskort. (D) Proteinbevægelsen X og rotationsvinklen omkring DNA vises henholdsvis. De samplede konformationer klumpes til sidst sammen i 3 makrostater, hvor rød, blå og grå svarer til henholdsvis makrostaten 1, 2 og 3. Klik her for at se en større version af denne figur.

Figur 3: MSM for WRKY-domæneproteinet, der træder på poly-A-DNA. (A) Projektionen af MD-konformationssnapshots på koordinater for proteinet COM-bevægelse X og rotationsvinkel i forhold til DNA'et. De 3 makrostater S1, S2 og S3 er farvet i henholdsvis rød, blå og grå. (B) Repræsentative konformationer og overgangsmiddel-første-passage-tid (MFPT) for de konstruerede 3 makrostater. De vigtigste hydrogenbindinger mellem protein og DNA er vist. Klik her for at se en større version af denne figur.

Figur 4: Grovkornsmodellen (CG) og kontakter dannet mellem protein- og DNA-strenge i CG-modellen. (A) Grovkornet af protein (venstre) og DNA (højre). (B) Kontaktnummeret mellem WRKY og hver DNA-streng langs simuleringen. (C) De molekylære afvisninger af de 4 kontaktformer. Proteinområdet nær zinkfingeren er farvet i gråt, og den anden region er farvet i grønt. (D) Kontaktsandsynligheden for hver proteinaminosyre med DNA. Når afstanden mellem aminosyrens CG-partikel og eventuelle DNA CG-partikler er mindre end 7 Å, anses aminosyren for at være i kontakt med DNA. Klik her for at se en større version af denne figur.

Figur 5: Diffusionstrinstørrelserne for individuel proteinaminosyre i WRKY-motivet som WRKY bevæger sig langs DNA. (A) De stærkt konserverede rester (WRKYGQK) i atomstruktur (venstre) og efter grovkornet (højre). (B) Trinstørrelsen for hver konserveret rest på forskellige sekvenser af DNA (poly-A; poly-AT; tilfældige sekvenser) Klik her for at se en større version af denne figur.

Supplerende sag 1: Python-koderne og softwaren, der bruges i denne protokol. MSM er bygget hovedsageligt ved hjælp af MSMbuilder, de nødvendige pythonkoder er vedhæftet. Klik her for at downloade denne fil.

Supplerende sagsmappe 2: De atomistiske molekylære dynamiksimuleringer udføres af GROMACS, kommandoerne og de nødvendige filer til at opbygge all-atom simuleringer er også vedhæftet. De grovkornede simuleringer udføres af CafeMol software. Simuleringsresultaterne analyseres af VMD og MATLAB. Klik her for at downloade denne fil.

Supplerende sagsmappe 3: Tcl-scriptet til at rotere og flytte protein i VMD. Klik her for at downloade denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Dette arbejde omhandler, hvordan man udfører strukturbaseret beregningssimulering og prøveudtagninger for at afsløre en transkriptionsfaktor eller TF-protein, der bevæger sig langs DNA, ikke kun ved atomare detaljer ved trin, men også i den processive diffusion, som er afgørende for den lette diffusion af TF i DNA-målsøgningen. For at gøre det blev Markov-tilstandsmodellen eller MSM for et lille TF-domæneprotein WRKY, der træder for 1-bp langs homogent poly-A-DNA, først konstrueret, således at et ensemble af proteinkonformationer på DNA'et sammen med kollektiv hydrogenbinding eller HB-dynamik ved protein-DNA-grænsefladen kan afsløres. For at opnå MSM gennemførte vi to runder med omfattende ALL-atom MD-simuleringer langs en spontan proteintrinsti (opnået fra tidligere 10-μs simulering) med aktuelle prøveudtagninger i aggregering på 7,5 μs (125 x 60 ns). Sådanne omfattende prøveudtagninger giver os snapshots til konformationsklyngedannelse i hundredvis af mikrostater ved hjælp af protein-DNA-grænsefladeparafstande som geometriske mål for klyngedannelsen. MSM-konstruktionens markoviske egenskab valideres delvist ved at detektere tidsskalaadskillelse fra de underforståede tidsskalaer beregnet for forskellige længder eller forsinkelsestid for individuelle MD-simuleringer. 20-2000 mikrostater blev derefter testet og sammenlignet for tidsskalaens separationsegenskaber, med 500 mikrostater udvalgt til MSM-konstruktionen. Endvidere blev de 500 mikrostater kinetisk klumpet sammen i et lille antal makrostater, for hvilke vi testede forskellige antal tilstande og fandt ud af, at tre makrostater var tilstrækkelige til det nuværende system. Tre-statsmodellen viser simpelthen, at tilstand S1 passerer til S2 forholdsvis hurtigt (inden for snesevis af ns), domineret af proteincenter for masse (COM) udsving på DNA'et, mens tilstand S2 passerer langsomt til S3 og er hastighedsbegrænsende (~ 7 μs i gennemsnit), domineret af kollektiv HB-dynamik til trin. Bemærk, at kinetisk klumpning af mikrostaterne i et lille antal kinetisk forskellige makrostater stadig er underlagt metodologisk udvikling, med forskellige algoritmer testet og maskinlæringsteknikker til forbedringer 57,58,59,60,61,62,63 . De kritiske trin til opbygning af MSM omfatter valg af de afstandspar, der anvendes i tICA, og bestemmelse af de parametre, der bruges til at konstruere mikrostater. Valget af afstandspar er vidensbaseret, og det er vigtigt at vælge de mest essentielle interaktionspar. Parametrene til konstruktion af mikrostater, såsom korrelationsforsinkelsestid, forsinkelsestid, mikrostaters muber, skal indstilles korrekt for at sikre, at systemet er Markovian.

Med en sådan indsats kan submikro- til mikro-sekunders proteinstrukturdynamik med atomare detaljer systematisk afsløres for proteintrin 1-bp langs DNA. Med overgangssandsynlighedsmatrixen opnået fra MSM-konstruktionen kan systemet i princippet udvikles til en lang tidsskala ud over mikrosekunder, eller sige, at nærme sig millisekunder og over 13,17,64. Der er dog iboende begrænsninger i MSM-prøveudtagningen og -konstruktionen, som er afhængige af submikrosekunders individuelle simuleringer omkring en bestemt indledende vej, og den markoviske egenskab er muligvis ikke godt garanteret ^65,66. I de fleste praksis blev den oprindelige vej konstrueret under tvang eller acceleration, selvom vi i det nuværende system drager fordel af en spontan proteintrinsti (uden tvang eller acceleration) opnået fra en 10-ms ligevægtssimulering⁸. De konformationelle prøveudtagninger i alt er stadig begrænset med snesevis af mikrosekunder på grund af høje beregningsomkostninger ved atomsimuleringerne. Sådanne mikrosekunders prøveudtagninger af proteintrinnene vil sandsynligvis ikke tilvejebringe tilstrækkelige konformationer til at forekomme på langvarig processiv TF-diffusion. Hukommelsesproblemet ville blive betydeligt, hvis man implementerer den aktuelt opnåede overgangssandsynlighedsmatrix ud over en bestemt tidsskala, og den markoviske egenskab er ikke garanteret at sikre korrekt brug af den nuværende MSM 14,52,66. For at prøve den langvarige processive diffusion af TF langs DNA implementeres restkoncentrationsniveauet grovkornet eller CG-modellering og simulering i stedet for at afbalancere mellem at opretholde det strukturelle grundlag og sænke beregningsomkostningerne.

I CG-modellering og simulering er proteinresterne og DNA-nukleotiderne repræsenteret af perler (dvs. en perle til en aminosyre og tre perler til et nukleotid), hvor proteinkonformationen opretholdes via Go-modellen mod en indfødt eller præ-ligevægtig konfiguration^30,53. Selvom det atomare niveau af HB-interaktioner bliver fraværende i CG-modellen, er protein-DNA-elektrostatiske interaktioner godt vedligeholdt, hvilket synes at være i stand til at fange dominerende dynamikfunktioner i den processive diffusion af proteinet langs DNA 67,68,69,70. Detaljerede implementeringsprotokoller præsenteres til modellering og simulering af WRKY-DNA-systemet her. De repræsentative resultater viser interessant, at for det første fortsætter den enkeltstrengede DNA-bias, der blev præsenteret i den tidligere atomsimulering af WRKY-DNA-systemet, i CG-modellen, mens en række proteinorienteringer / konfigurationer udtaget under processiv diffusion fører til skift af bias mellem de to strenge fra tid til anden. Derfor er en sådan DNA-strengbias ikke nødvendigvis forbundet med HB-forening, men synes hovedsageligt at stole på de protein-DNA-elektrostatiske interaktioner, som varierer for forskellige proteinkonfigurationer eller orienteringer på DNA'et. Dernæst viser individuelle aminosyrer ved eller i nærheden af protein-DNA-grænsefladen, såsom de stærkt bevarede WRKQGQK-motiver, forskellige trinstørrelser eller synkroniseringsmønstre for forskellige DNA-sekvenser. I vores tidligere undersøgelse blev trinstørrelsesvariationerne kun vist for COM af protein, da proteinet blev modelleret til at diffundere langs forskellige DNA-sekvenser. Bemærk, at den nuværende CG-model af DNA'et understøtter DNA-sekvensvariationer med forskellig parameterisering ^54,71,72, selvom atomdetaljer mangler. Korrekt DNA-sekvensafhængig parameterisering i den strukturbaserede modellering af protein-DNA-systemet er således afgørende for at afsløre protein-DNA-søge- og genkendelsesmekanismer på tværs af flere tids- og længdeskalaer.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingen interessekonflikt.

Acknowledgments

Dette arbejde er støttet af NSFC Grant #11775016 og #11635002. JY er blevet støttet af CMCF i UCI via NSF DMS 1763272 og Simons Foundation bevilling #594598 og opstartsfond fra UCI. LTD er blevet støttet af Natural Science Foundation of Shanghai #20ZR1425400 og #21JC1403100. Vi anerkender også beregningsstøtten fra Beijing Computational Science Research Center (CSRC).

Materials

Name	Company	Catalog Number	Comments
CafeMol	Kyoto University		coarse-grained (CG) simulations
GROMACS	University of Groningen Royal Institute of Technology Uppsala University		molecular dynamics simulations software
Matlab	MathWorks		Numerical calculation software
MSMbuilder	Stanford University		build MSM
VMD	UNIVERSITY OF ILLINOIS AT URBANA-CHAMPAIGN		molecular visualization program

DOWNLOAD MATERIALS LIST

References

Latchman, D. S. Transcription factors: an overview. The International Journal of Biochemistry & Cell Biology. 29 (12), 1305-1312 (1997).
Berg, O. G., von Hippel, P. H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. Journal of Molecular Biology. 193 (4), 723-750 (1987).
von Hippel, P. H., Berg, O. G. Facilitated target location in biological systems. The Journal of Biological Chemistry. 264 (2), 675-678 (1989).
Halford, S. E., Marko, J. F. How do site-specific DNA-binding proteins find their targets. Nucleic Acids Research. 32 (10), 3040-3052 (2004).
Slusky, M., Mirny, L. A. Kinetics of protein-DNA interaction: facilitated target location in sequence-dependent potential. Biophysical Journal. 87 (6), 4021-4035 (2004).
Bauer, M., Metzler, R. Generalized facilitated diffusion model for DNA-binding proteins with search and recognition states. Biophysical Journal. 102 (10), 2321-2330 (2012).
Shvets, A. A., Kochugaeva, M. P., Kolomeisky, A. B. Mechanisms of Protein Search for Targets on DNA: Theoretical Insights. Molecules. 23 (9), Basel, Switzerland. 2106 (2018).
Dai, L., Xu, Y., Du, Z., Su, X. D., Yu, J. Revealing atomic-scale molecular diffusion of a plant-transcription factor WRKY domain protein along DNA. Proceedings of the National Academy of Sciences of the United States of America. 118 (23), 2102621118 (2021).
Chodera, J. D., Singhal, N., Pande, V. S., Dill, K. A., Swope, W. C. Automatic discovery of metastable states for the construction of Markov models of macromolecular conformational dynamics. The Journal of Chemical Physics. 126 (15), 155101 (2007).
Pan, A. C., Roux, B. Building Markov state models along pathways to determine free energies and rates of transitions. The Journal of Chemical Physics. 129 (6), 064107 (2008).
Bowman, G. R., Huang, X., Pande, V. S. Using generalized ensemble simulations and Markov state models to identify conformational states. Methods. 49 (2), San Diego, California. 197-201 (2009).
Prinz, J. H., et al. Markov models of molecular kinetics: Generation and validation. The Journal of chemical physics. 134 (17), 174105 (2011).
Chodera, J. D., Noé, F. Markov state models of biomolecular conformational dynamics. Current Opinion in Structural Biology. 25, 135-144 (2014).
Malmstrom, R. D., Lee, C. T., Van Wart, A. T., Amaro, R. E. On the Application of Molecular-Dynamics Based Markov State Models to Functional Proteins. Journal of Chemical Theory and Computation. 10 (7), 2648-2657 (2014).
Husic, B. E., Pande, V. S. Markov State Models: From an Art to a Science. Journal of the American Chemical Society. 140 (7), 2386-2396 (2018).
Sittel, F., Stock, G. Perspective: Identification of collective variables and metastable states of protein dynamics. The Journal of chemical physics. 149 (15), 150901 (2018).
Wang, W., Cao, S., Zhu, L., Huang, X. Constructing Markov State Models to elucidate the functional conformational changes of complex biomolecules. WIREs Computational Molecular Science. 8, 1343 (2018).
Peng, S., et al. Target search and recognition mechanisms of glycosylase AlkD revealed by scanning FRET-FCS and Markov state models. Proceedings of the National Academy of Sciences of the United States of America. 117 (36), 21889-21895 (2020).
Tian, J., Wang, L., Da, L. T. Atomic resolution of short-range sliding dynamics of thymine DNA glycosylase along DNA minor-groove for lesion recognition. Nucleic Acids Research. 49 (3), 1278-1293 (2021).
Chu, J. -W., Izveko, S., Voth, G. The multiscale challenge for biomolecular systems: coarse-grained modeling. Molecular Simulation. 32 (3-4), 211-218 (2006).
Marrink, S. J., Risselada, H. J., Yefimov, S., Tieleman, D. P., De Vries, A. H. The MARTINI force field: coarse grained model for biomolecular simulations. The Journal of Physical Chemistry B. 111 (27), 7812-7824 (2007).
Givaty, O., Levy, Y. Protein sliding along DNA: dynamics and structural characterization. Journal of Molecular Biology. 385 (4), 1087-1097 (2009).
Khazanov, N., Levy, Y. Sliding of p53 along DNA can be modulated by its oligomeric state and by cross-talks between its constituent domains. Journal of Molecular Biology. 408 (2), 335-355 (2011).
Riniker, S., Allison, J. R., van Gunsteren, W. F. On developing coarse-grained models for biomolecular simulation: a review. Physical Chemistry Chemical Physics : PCCP. 14 (36), 12423-12430 (2012).
Kmiecik, S., et al. Coarse-Grained Protein Models and Their Applications. Chemical Reviews. 116 (14), 7898-7936 (2006).
Bhattacherjee, A., Krepel, D., Levy, Y. Coarse-grained models for studying protein diffusion along DNA. WIREs Computational Molecular Science. 6, 515-531 (2016).
Wang, J., et al. Machine Learning of Coarse-Grained Molecular Dynamics Force Fields. ACS Central Science. 5 (5), 755-767 (2019).
Joshi, S. Y., Deshmukh, S. A. A review of advancements in coarse-grained molecular dynamics simulations. Molecular Simulation. 47 (10-11), 786-803 (2021).
Bigman, L. S., Greenblatt, H. M., Levy, Y. What Are the Molecular Requirements for Protein Sliding along DNA. The Journal of Physical Chemistry B. 125 (12), 3119-3131 (2021).
Kenzaki, H., et al. CafeMol: A Coarse-Grained Biomolecular Simulator for Simulating Proteins at Work. Journal of Chemical Theory and Computation. 7 (6), 1979-1989 (2011).
Berendsen, H. J. C., vander Spoel, D., van Drunen, R. GROMACS: a message-passing parallel molecular dynamics implementation. Computer Physics Communications. 91 (1-3), 43-56 (1995).
vander Spoel, D., et al. GROMACS: fast, flexible, and free. Journal of Computational Chemistry. 26 (16), 1701-1718 (2005).
Abraham, M. J., et al. GROMACS: High performance molecular simulations through multi-level parallelism from laptops to supercomputers. SoftwareX. 1-2, 19-25 (2015).
Harrigan, M. P., et al. MSMBuilder: Statistical Models for Biomolecular Dynamics. Biophysical journal. 112 (1), 10-15 (2017).
Humphrey, W., Dalke, A., Schulten, K. VMD: visual molecular dynamics. Journal of Molecular Graphics. 14 (1), 33-38 (1996).
Izrailev, S., et al. Steered Molecular Dynamics. Computational Molecular Dynamics: Challenges, Methods, Ideas. 4, Springer. Berlin, Heidelberg. 39-65 (1999).
Schlitter, J., Engels, M., Krüger, P. Targeted molecular dynamics: a new approach for searching pathways of conformational transitions. Journal of Molecular Graphics. 12 (2), 84-89 (1994).
Maragliano, L., Fischer, A., Vanden-Eijnden, E., Ciccotti, G. String method in collective variables: minimum free energy paths and isocommittor surfaces. The Journal of Chemical Physics. 125 (2), 24106 (2006).
Weiss, D. R., Levitt, M. Can morphing methods predict intermediate structures. Journal of Molecular Biology. 385 (2), 665-674 (2009).
Xu, Y. P., Xu, H., Wang, B., Su, X. D. Crystal structures of N-terminal WRKY transcription factors and DNA complexes. Protein. 11 (3), 208-213 (2020).
Higham, D. J., Higham, N. J. MATLAB guide. Society for Industrial and Applied Mathematics. , (2016).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Gonzalez, T. F. Clustering to minimize the maximum intercluster distance. Theoretical Computer Science. 38, 293-306 (1985).
Zhao, Y., Sheong, F. K., Sun, J., Sander, P., Huang, X. A fast parallel clustering algorithm for molecular simulation trajectories. Journal of Computational Chemistry. 34 (2), 95-104 (2013).
Ivani, I., et al. Parmbsc1: a refined force field for DNA simulations. Nature Methods. 13 (1), 55-58 (2016).
Naritomi, Y., Fuchigami, S. Slow dynamics of a protein backbone in molecular dynamics simulation revealed by time-structure based independent component analysis. The Journal of Chemical Physics. 139 (21), 215102 (2013).
Naritomi, Y., Fuchigami, S. Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: the case of domain motions. The Journal of Chemical Physics. 134 (6), 065101 (2011).
Pérez-Hernández, G., Paul, F., Giorgino, T., De Fabritiis, G., Noé, F. Identification of slow molecular order parameters for Markov model construction. The Journal of Chemical Physics. 139 (1), 015102 (2013).
McGibbon, R. T., Pande, V. S. Variational cross-validation of slow dynamical modes in molecular kinetics. The Journal of Chemical Physics. 142 (12), 124105 (2015).
Deuflhard, P., Weber, M. Robust Perron cluster analysis in conformation dynamics. Linear Algebra and its Applications. 398, 161-184 (2005).
Silva, D. A., et al. Millisecond dynamics of RNA polymerase II translocation at atomic resolution. Proceedings of the National Academy of Sciences of the United States of America. 111 (21), 7665-7670 (2014).
Swope, W. C., Pitera, J. W., Suits, F. Describing Protein Folding Kinetics by Molecular Dynamics Simulations. 1. Theory. The Journal of Physical Chemistry B. 108 (21), 6571-6581 (2004).
Clementi, C., Nymeyer, H., Onuchic, J. N. Topological and energetic factors: what determines the structural details of the transition state ensemble and "en-route" intermediates for protein folding? An investigation for small globular proteins. Journal of molecular biology. 298 (5), 937-953 (2000).
Hinckley, D. M., Freeman, G. S., Whitmer, J. K., De Pablo, J. J. An experimentally-informed coarse-grained 3-Site-Per-Nucleotide model of DNA: structure, thermodynamics, and dynamics of hybridization. The Journal of chemical physics. 139 (14), 144903 (2013).
Debye, P., Huckel, E. The theory of the electrolyte II-The border law for electrical conductivity. Physikalische Zeitschrift. 24, 305-325 (1923).
Berendsen, H. J., Postma, J. V., van Gunsteren, W. F., DiNola, A., Haak, J. R. Molecular dynamics with coupling to an external bath. The Journal of Chemical Physics. 81, 3684-3690 (1984).
Bowman, G. R. Improved coarse-graining of Markov state models via explicit consideration of statistical uncertainty. The Journal of Chemical Physics. 137 (13), 134111 (2012).
Jain, A., Stock, G. Identifying metastable states of folding proteins. Journal of Chemical Theory and Computation. 8 (10), 3810-3819 (2012).
Röblitz, S., Weber, M. Fuzzy spectral clustering by PCCA+: application to Markov state models and data classification. Advances in Data Analysis and Classification. 7, 147-179 (2013).
Mardt, A., Pasquali, L., Wu, H., Noé, F. VAMPnets for deep learning of molecular kinetics. Nature Communications. 9 (1), 5 (2018).
Wang, W., Liang, T., Sheong, F. K., Fan, X., Huang, X. An efficient Bayesian kinetic lumping algorithm to identify metastable conformational states via Gibbs sampling. The Journal of Chemical Physics. 149 (7), 072337 (2018).
Chen, W., Sidky, H., Ferguson, A. L. Nonlinear discovery of slow molecular modes using state-free reversible VAMPnets. The Journal of Chemical Physics. 150 (21), 214114 (2019).
Gu, H., et al. RPnet: a reverse-projection-based neural network for coarse-graining metastable conformational states for protein dynamics. Physical Chemistry Chemical Physics :PCCP. 24 (3), 1462-1474 (2022).
Lane, T. J., Bowman, G. R., Beauchamp, K., Voelz, V. A., Pande, V. S. Markov state model reveals folding and functional dynamics in ultra-long MD trajectories. Journal of the American Chemical Society. 133 (45), 18413-18419 (2011).
Konovalov, K. A., Unarta, I. C., Cao, S., Goonetilleke, E. C., Huang, X. Markov State Models to Study the Functional Dynamics of Proteins in the Wake of Machine Learning. JACS Au. 1 (9), 1330-1341 (2021).
Cao, S., Montoya-Castillo, A., Wang, W., Markland, T. E., Huang, X. On the advantages of exploiting memory in Markov state models for biomolecular dynamics. The Journal of Chemical Physics. 153 (1), 014105 (2020).
Brandani, G. B., Takada, S. Chromatin remodelers couple inchworm motion with twist-defect formation to slide nucleosomal DNA. PLoS Computational Biology. 14 (11), 1006512 (2018).
Tan, C., Terakawa, T., Takada, S. Dynamic Coupling among Protein Binding, Sliding, and DNA Bending Revealed by Molecular Dynamics. Journal of the American Chemical Society. 138 (27), 8512-8522 (2016).
Terakawa, T., Takada, S. p53 dynamics upon response element recognition explored by molecular simulations. Scientific reports. 5, 17107 (2015).
Brandani, G. B., Niina, T., Tan, C., Takada, S. DNA sliding in nucleosomes via twist defect propagation revealed by molecular simulations. Nucleic Acids Research. 46 (6), 2788-2801 (2018).
Knotts, T. A., Rathore, N., Schwartz, D. C., de Pablo, J. J. A coarse grain model for DNA. The Journal of Chemical Physics. 126 (8), 084901 (2007).
Freeman, G. S., Hinckley, D. M., Lequieu, J. P., Whitmer, J. K., de Pablo, J. J. Coarse-grained modeling of DNA curvature. The Journal of Chemical Physics. 141 (16), 165103 (2014).

Biology

Strukturbaseret simulering og prøveudtagning af transkriptionsfaktorproteinbevægelser langs DNA fra atomskala trin til grovkornet diffusion

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.