Biology

Strukturbasert simulering og prøvetaking av transkripsjonsfaktorproteinbevegelser langs DNA fra atomskala stepping til grovkornet diffusjon

Published: March 1, 2022 doi: 10.3791/63406

Chao E*¹, Liqiang Dai*^1,2, Jiaqi Tian^3,4, Lin-Tai Da⁴, Jin Yu^5,6,7

¹Beijing Computational Science Research Center, ²Shenzhen JL Computational Science and Applied Research Institute, ³School of Medical Informatics and Engineering, Xuzhou Medical University, ⁴Key Laboratory of Systems Biomedicine (Ministry of Education), Shanghai Center for Systems Biomedicine, Shanghai Jiao Tong University, ⁵Department of Physics and Astronomy, University of California, Irvine, ⁶Department of Chemistry, University of California, Irvine, ⁷NSF-Simons Center for Multiscale Cell Fate Research, University of California, Irvine

* These authors contributed equally

Summary

Målet med denne protokollen er å avdekke strukturell dynamikk i endimensjonal diffusjon av protein langs DNA, ved hjelp av en plantetranskripsjonsfaktor WRKY-domeneprotein som et eksemplarisk system. For å gjøre dette er både atomistiske og grovkornede molekylære dynamikksimuleringer sammen med omfattende beregningsprøver implementert.

Abstract

Endimensjonal (1D) glidning av transkripsjonsfaktor (TF) protein langs DNA er avgjørende for at tilrettelagt diffusjon av TF skal lokalisere mål-DNA-området for genetisk regulering. Det er fortsatt eksperimentelt utfordrende å oppdage baseparoppløsning (bp) av TF-glidende eller tråkke på DNA-et. Vi har nylig utført all-atom molekylær dynamikk (MD) simuleringer fange spontane 1-bp stepping av et lite WRKY domene TF protein langs DNA. Basert på 10 μs WRKY-trinnbanen hentet fra slike simuleringer, viser protokollen her hvordan man utfører mer omfattende konformasjonsprøver av TF-DNA-systemene, ved å konstruere Markov-tilstandsmodellen (MSM) for 1-bp protein stepping, med ulike antall mikro- og makrotilstander testet for MSM-konstruksjonen. For å undersøke prosesjonell 1D diffusjonssøk av TF-proteinet sammen med DNA med strukturelt grunnlag, viser protokollen videre hvordan man utfører grovkornede (CG) MD-simuleringer for å prøve langvarig skaladynamikk i systemet. Slike CG-modellering og simuleringer er spesielt nyttige for å avsløre protein-DNA-elektrostatiske effekter på de prosesjonelle diffusjonsbevegelsene til TF-proteinet over titalls mikrosekonds, sammenlignet med sub-mikroseconds til mikroseconds protein stepping bevegelser avslørt fra all-atom simuleringer.

Introduction

Transkripsjonsfaktorer (TF) søker etter målet DNA for å binde og regulere gentranskripsjon og relaterte aktiviteter¹. Bortsett fra den tredimensjonale (3D) diffusjonen, har den tilrettelagte spredningen av TF blitt foreslått å være avgjørende for mål-DNA-søk, der proteinene også kan gli eller hoppe langs endimensjonalt (1D) DNA, eller hoppe med intersegmental overføring på DNA 2,3,4,5,6,7.

I en nylig studie har vi utført titalls mikrosekonds (μs) likevektsmolekylære dynamikksimuleringer (MD) på en plante TF - WRKY-domeneproteinet på DNA⁸. Et komplett 1-bp stepping av WRKY på poly-A DNA innen mikroseconds har blitt fanget. Bevegelsene til proteinet langs DNA-sporet og hydrogenbindingene (HBs) breaking-reforming dynamics har blitt observert. Selv om en slik bane representerer en samplet sti, er et generelt proteinsteglandskap fortsatt mangel på. Her viser vi hvordan du utvider beregningsprøvetakingene rundt den opprinnelig fangede proteingjennomføringsbanen med den konstruerte Markov-tilstandsmodellen (MSM), som har blitt implementert mye for å simulere en rekke biomolekylære systemer som involverer betydelige konformasjonsendringer og tidsskalaseparasjon ^{9,10,11,12,13,14,15,16}^, 17,18,19. Hensikten er å avdekke konformasjonsensemblet og metastabile tilstander av TF-proteindiffusjonen langs DNA for ett syklisk trinn.

Mens ovennevnte MD-simulering avslører atomoppløsning av proteinbevegelsene for 1 bp på DNA, er den strukturelle dynamikken i langvarig prosesjonsdiffusjon av TF langs DNA ved samme høyoppløselighet neppe tilgjengelig. Å gjennomføre grovkornede (CG) MD-simuleringer på restnivå er imidlertid teknisk tilgjengelig. Tidsskalaen for CG-simulering kan effektivt utvides til titalls eller hundrevis av ganger lengre enn atomsimuleringene 20,21,22,23,24,25,26,27,28,29. Her viser vi CG-simuleringene utført ved å implementere CafeMol-programvaren utviklet av Takada lab³⁰.

I dagens protokoll presenterer vi atomsimuleringene av WRKY-domeneproteinet langs poly-A DNA og MSM-konstruksjonen først, som fokuserer på å prøve proteintrappebevegelsene for bare 1 bp langs DNA. Deretter presenterer vi CG-modellering og simuleringer av det samme protein-DNA-systemet, som utvider beregningsprøvetakingen til proteinprosesjonens diffusjon over titalls bps langs DNA.

Her bruker vi GROMACS^31,32,33 programvare for å utføre MD-simuleringer og MSMbuilder³⁴ for å konstruere MSM for samplede konformasjonsbilder, samt å bruke VMD³⁵ for å visualisere biomolekylene. Protokollen krever at brukeren kan installere og implementere programvaren ovenfor. Installasjon og implementering av CafeMol^{30-programvaren} er da nødvendig for å utføre CG MD-simuleringene. Videre analyser av banene og visualiseringen gjennomføres også i VMD.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Bygging av Markov-tilstandsmodellen (MSM) fra atomiske MD-simuleringer

Spontan protein stepping sti og innledende strukturer samling
1. Bruk en tidligere oppnådd 10-μs all-atom MD-bane⁸ for å trekke ut 10000 rammer jevnt fra en "fremover" 1-bp stepping bane (dvs. en ramme for hver nanosekund). Det totale antallet rammer må være tilstrekkelig stort til å inkludere alle representative konformasjoner.
2. Forbered overgangsbanen med 10000 rammer i VMD ved å klikke Fil > Lagre koordinater, skriv inn protein eller kjerne i valgt atomboks og velg rammer i Rammer-boksen, klikk Lagre for å få de nødvendige rammene.
  MERK: En tidligere oppnådd 10 μs all-atom MD simulering bane (kalt "fremover stepping bane" her) for WRKY stepping 1-bp avstand på en 34-bp homogen poly-A DNA⁸ ble brukt som den første banen for å starte ytterligere konformasjonsprøver. Vær oppmerksom på at i de fleste praksiser er imidlertid en innledende bane konstruert, ved å utføre styrte eller målrettede MD-simuleringer, eller implementere generelle banegenereringsmetoder, etc.36,37,38,39.
3. Juster den lange aksen til referanse-DNA -et (fra krystallstruktur) til x-aksen, og sett det første massesenteret (COM) til hele 34-bp DNA ved opprinnelsen til koordinatrommet for å gjøre det enklere å analysere data. Dette gjør du ved å klikke Utvidelser > Tk-konsoll i VMD og skrive inn kommandovinduet for Tk-konsollen:
  kilde rotate.tcl
  Du finner tcl-skriptet i tilleggsfil 3.
4. Beregn deretter proteinrygdets rot-gjennomsnittlige RMSD-avstand (RMSD) ved å justere det sentrale 10 bp DNA (A 14 til 23 og T 14' til 23') til det fra krystallstrukturen⁴⁰, og RMSD representerer geometriske mål for systemene (se figur 1A). Gjør dette ved å klikke VMD > Extensions > Analysis > RMSD-baneverktøy og skriv inn nukleisk og rest 14 til 23 og 46 til 55 i atomvalgsboksen, klikk Juster og deretter RMSD-boksen for å beregne RMSD-verdiene.
5. Beregn rotasjonsgraden av protein rundt DNA Θ(t) på y-z-planet i MATLAB ved å skrive inn kommandoen
  rad2deg(atan(z/y))
  med den første vinkelposisjoneringen definert som Θ(0)=0, som utført tidligere⁸.
6. Skriv inn følgende kommando i MATLAB⁴¹ for å bruke K-middelmetodene 42,43,44 og klammer 10000-strukturene i 25 klynger ved å skrive inn:
  [idx, C]=kmeans( X, 25)
  her X er en 2D-matrise av RMSD og rotasjonsvinkel av WRKY på DNA. Samle strukturene til disse 25 klyngesentrene for ytterligere MD-simuleringer.
  MERK: Siden proteinet RMSD samplet i forhold til DNA dekker en rekkevidde på ca 25 Å, velger vi 25 klynger for å ha en klynge per angstrom.
Gjennomføring av 1^m runde MD-simuleringer og simuleringsinnstillingene
1. Bygg atomistiske systemer for de 25 strukturene ved hjelp av GROMACS 5.1.2 programvare³² under parmbsc1 kraftfelt⁴⁵ og ved å bruke buildsystem.sh fil fra Supplementary File 2 i skallet.
2. Utfør 60-ns MD-simuleringer for disse 25 systemene under NPT-ensemblet med et tidstrinn på 2 fs ved å skrive inn følgende kommando i skallet:
  gmx_mpi grompp -f md.mdp -c npt.gro -p topol.top -o md.tpr
  gmx_mpi mdrun -deffnm md
Gruppere 1^St runde MD-baner
1. Fjern de første 10 ns av hver simuleringsbane ved å skrive inn shell:
  gmx_mpi trjcat -f md.xtc -b 10000 -e 600000 -o newtraj.xtc
  og samle inn konformasjoner fra 25 × 50 ns-banene for klynger for å forberede inngangsstrukturene for de påfølgende mer omfattende prøvetakingene (^{2.runde MD-simuleringer} ).
  MERK: For å redusere virkningen fra den opprinnelige banen og for å tillate lokal likevekt, ble 10-ns av den første perioden med simuleringer fjernet.
2. Velg avstandspar mellom protein og DNA som inngangsparametere for tidsuavhengig komponentanalyse (tICA)46,47,48 projeksjon. Bruk kommandoen make_ndx i GROMACS til å gjøre dette:
  gmx_mpi make_ndx -f inndata.pdb -o indeks.ndx
  MERK: Her er protein ca atomer og tunge atomer (NH1, NH2, OH, NZ, NE2, ND2) av rester Y119, K122, K125, R131, Y133, Q146, K144, R135, W116, R117, Y134, K118, Q121 som kan danne hydrogenbindinger (HBs) med DNA-nukleotidet ble valgt, som pares med O1P O2P og N6 atomer av DNA-nukleotidet (A14-20, T19-23). De utvalgte aminosyrene kan enten danne stabile HBs eller saltbroer med DNA.
3. Kopier den valgte atomindeksen ovenfor fra index.ndx-filen til en ny tekstfil (indeks.dat). Få parinformasjonen mellom disse atomene ved hjelp av pythonskriptet fra Supplementary File 1 generate_atom_indices.py og skriv:
  python2.6 generate_atom_indices.py indeks.dat > AtomIndices.txt
  Dette genererer 415 avstandspar mellom protein og DNA.
4. Beregn avstandsparene på 415 fra hver bane ved å skrive inn følgende kommando i kommandovinduet i MSMbuilder:
  msmb AtomPairsFeaturizer -out pair_features --pair_indices AtomIndices.txt --top referanser.pdb --trjs "baner/*.xtc" --transformert pair_features --stride 5
5. Utfør tICA for å redusere dimensjonen av data til de to første tidsuavhengige komponentene (tIC-ene) eller vektorene ved å skrive:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0,05 -t tica_results,h5
  MERK: tICA er en dimensjonsreduksjonsmetode som beregner egenverdi av tidsforsinkelseskorrelasjonsmatrise for å bestemme de tregeste avslappende frihetsgradene i simuleringssystemet ved ligningen:
  
  der X_i(t) er verdien av reaksjonskoordinaten ved i-th ved tid t, og X_j(t+Δt) er verdien av j-th-reaksjonskoordinaten på tidspunktet t+Δt. er forventningsverdien til produktet av X_i(t) og X_j(t + Δt) generelle simuleringsbaner. Retningene langs de tregeste avslappende frihetsgradene tilsvarer de største egenverdier av ovennevnte tidsforsinkelseskorrelasjonsmatrise . Her ser 2 tIC-er ut til å være et minimalt sett for å skille tre makrostater på MSM-konstruksjonen vår (adressert senere). Man kan også beregne den generaliserte matrisen Rayleigh kvotient (GMRQ) score⁴⁹, for eksempel for å utforske et optimalt sett med komponenter som skal brukes.
6. Bruk kommandoen i MSMbuilder til å gruppere de projiserte datasettene i 100 klynger etter K-center ^43,44-metode (se figur 1B):
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 100.
  Velg senterstrukturen for hver klynge som den opprinnelige strukturen for den andre runden med^{MD-simuleringer} . Oppretthold simuleringsinformasjonen for de simulerte 100 strukturene, inkludert posisjoner, temperaturer, trykk, etc., bortsett fra hastighetene.
  MERK: Etter første runde med 25 simuleringer er minnet om den opprinnelige banen redusert, så vi genererer flere klynger, for eksempel 100 klynger, i andre runde, for å utvide konformasjonsprøvene betydelig.
Gjennomføre 2^nd round omfattende MD simuleringer
1. Utfør 60-ns MD-simuleringer fra disse 100 første strukturene etter å ha pålagt tilfeldige innledende hastigheter på alle atomene. Legg til de tilfeldige innledende hastighetene ved å slå på hastighetsgenereringen i mdp-filen, det vil si å endre md.mdp-filen gen_vel = nei til gen_vel = ja.
2. Fjern de første 10 ns av hver simulering som beskrevet i trinn 1.3.1, samle 2,500,000 øyeblikksbilder fra 100 × 50 ns baner jevnt for å konstruere MSM.
  MERK: Merk at i den senere makrostates konstruksjonen ble det funnet et lite antall off-path stater med en spesielt lav befolkning (~ 0,2%, på bunnen av X-Θ-flyet). Disse tilstandene utenfor banen klassifiseres som én makrotilstand når det totale antallet makrotilstander er angitt til 3 til 6 (figur 2B). Siden en så lav populasjonsmakrotilstand bare inneholder 3 baner, som ble fjernet til slutt, ble resultatene vist i denne protokollen oppnådd faktisk fra 97 × 50 ns baner, med totalt 2,425,000 rammer eller øyeblikksbilder.
Klynger^{MD-banene i andre} runde
1. Utfør tICA for 2^nd round baner som gjort tidligere. Skriv inn MSMbuilder:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0,05 -t tica_results,h5
2. Beregn den underforståtte tidsskalaen for å validere parametere for tallene for korrelasjonsforsinkelsestid Δt og mikrotilstander (se figur 1C),
  
  der τ representerer oppholdstiden som brukes til å bygge matrisen for overgangssannsynlighet (TPM ). μ_k(τ) representerer TPMens kth eigenvalue under oppholdstiden τ. Bruk python-skriptet fra Tilleggsfil 1 for denne pythonen BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 10 -n 20 -s 500.
3. Varier tall for oppholdstid τ og mikrotilstander ved å endre parameterne som brukes ovenfor:
  python BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 5 10 20 30 40 -n 20 -s 20 200 400 500 800 2000
  MERK: Systemet betraktes som Markovian når de underforståtte tidsskalakurvene begynner å flate ut med tidsskala separasjon. Deretter velger du DT som korrelasjonsforsinkelsestid, og τ oppholdstiden der den underforståtte tidsskalaen begynner å flate ut for å bygge MSM.
4. Velg derfor et relativt stort (men ikke for stort) antall tilstander, N = 500, og en relativt kort korrelasjonsforsinkelsestid Δt =10 ns. Oppholdstiden ble funnet å være τ =10 ns for å bygge MSM.
5. Klassifisere konformasjonene i 500 klynger (se figur 1D) ved hjelp av kommandoen:
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 500
MSM-konstruksjon
1. Klump de 500 mikrostatene i 3-6 makrostater for å finne ut antall makrotilstander som passer best i henhold til PCCA + algoritme⁵⁰ i MSMbuilder, ved å bruke python-skriptet i Supplementary File 1 python msm_lumping_usingPCCAplus.py. Identifiser et redusert kinetisk nettverk av modeller for de viktigste konformasjonsendringene av biomolekyler, ved å konstruere et lite antall makrostater, det vil si ved kinetisk klumping av hundrevis av mikrostater som beskrevet nedenfor^17,51.
2. Kartlegg de høydimensjonale konformasjonene til X (proteinbevegelse langs DNA-langaksen) og rotasjonsvinkelen til proteinet langs DNA-et for hver makrotilstand som beskrevet i trinn 1.1.3 og 1.1.4 (f.eks. ingen tilstand med for lav populasjon < 1%; se figur 2C). Finn deretter de tre makrotilstandene som best representerer systemet (figur 1E) . Se figur 2D for øyeblikksbilder av bevegelsen av protein langs DNA og proteinrotasjonsvinkelen rundt DNA.
  MERK: I tidligere arbeid med å generere 10 μs spontan protein fremover stepping bane, vi i tillegg gjennomført 5 x 4 μs likevekt MD simuleringer for å moderat utvide prøvetakingene. Vi viste kartleggingen av den opprinnelige fremoverbanen (se figur 2A til venstre) og ytterligere 4-μs prøvetakingsbaner på den fremre banen som ble utført tidligere (se figur 2A høyre)⁸. Kartleggingen av de opprinnelige 100 × 50 ns (se figur 2B venstre)⁸ og de 97 × 50 ns-banene som brukes i dette arbeidet vises (se figur 2B høyre).
Beregning av gjennomsnittlige første gangstider (MFPT)
1. Utfør fem 10-ms Monte Carlo (MC)-baner basert på TPM for 500 mikrostate MSM med oppholdstiden på 10 ns satt som tidstrinn for MC. Beregn MFPT⁵² mellom hvert par makrostater (figur 3) av pythonskriptet i Supplementary File 1 python python mfpt_msm3.py.
2. Beregn gjennomsnittet og standardfeilen for MFPT ved hjelp av bash-filen i Tilleggsfil 2, skriv inn:
  sh mfpt_analysis.bash

2. Gjennomføre grovkornet (CG) simulering for å prøve langvarig dynamikk

Utfør en CG-simulering ved hjelp av CafeMol 3.0-programvaren³⁰. Se CG-simuleringsinnstillingene som er angitt i inngangskonfigurasjonsfilen med en utvidelse .inp, inkludert inngangsstrukturer, simuleringsparametere, utdatafiler, etc. Skriv inn følgende kommando på terminalen for å kjøre CG-simuleringen:
cafemol XXX.inp
Angi følgende blokker i inndatafilen, der hver blokk starter med etiketten < and ending with >>>>.
1. Angi filnavnblokk (obligatorisk) for å angi arbeidsmappene og lagringsbanen for inndata-/utdatafilen. Skriv inn følgende for filnavnblokken for disse simuleringene:
  <<<< filnavn
  bane = XXXXX (midlertidig bane)
  filnavn = wrky (utdatafilnavnene)
  OUTPUT psf pdb film dcd rst
  path_pdb = XXXXX (inndata opprinnelig strukturbane)
  path_ini = XXXXX (bane til opprinnelig inndatastruktur)
  path_natinfo = XXXXX (opprinnelig informasjonsfilbane)
  path_para = XXXXX (bane til parameterfiler)
  >>>>
  MERK: Ettersom Go-model⁵³ brukes i CG-modelleringen, det vil si, vil protein være partisk til den opprinnelige konformasjonen, så man må angi den modellerte strukturen som den opprinnelige konformasjonen. Her ble inngangskrystallstrukturen satt som den opprinnelige konformasjonen.
2. Angi jobbkontrollblokken (obligatorisk) for å definere kjøremodusen for simuleringene. Skriv inn følgende kommando:
  <<<< job_cntl
  i_run_mode = 2 (= 2 den konstante temperatursimuleringen)
  i_simulate_type = 1 (=1 Langevin-dynamikk)
  i_initial_state = 2 (=2 betyr at den første konfigurasjonen er Opprinnelig konfigurasjon)
  >>>>
  Velg konstant temperatur Langevin dynamikk simuleringer.
3. Angi enheten og tilstandsblokken (obligatorisk) for å definere informasjonen for inndatastrukturer. Skriv inn følgende kommando:
  <<<< unit_and_state
  i_seq_read_style = 1 (=1 betyr lesesekvenser fra PDB-fil)
  i_go_native_read_style = 1 (=1 betyr at den opprinnelige strukturen er fra PDB-fil)
  1 proteinprotein.pdb (molecular_type native_structure)
  2-3 DNA DNA.pdb (enhet og tilstand molecular_type native_structure)
  >>>>
  MERK: De første inngangsstrukturfilene (protein.pdb og DNA.pdb her) er nødvendig. Strukturene er skrevet i pdb-format. To PDB-filer er nødvendig her: den ene er proteinstrukturfilen som inneholder de tunge atomkoordinatene til WRKY (enhet 1), og den andre er koordinatene til 200 bp dobbeltstrenget (ds) DNA (enhet 2-3). Proteinet plasseres i utgangspunktet 15 Å vekk fra DNA-et.
4. Still inn energifunksjonsblokken (obligatorisk) som er definert i energy_function blokken. Skriv inn følgende kommando:
  <<<< energy_function
  LOKALE(1) L_GO
  LOKALE(2-3) L_DNA2
  NLOCAL(1/1) GÅ EXV ELE
  NLOCAL(2-3/2-3) ELE DNA
  NLOCAL(1/2-3) EKSV ELE
  i_use_atom_protein = 0
  i_use_atom_dna = 0
  i_para_from_ninfo = 1
  i_triple_angle_term = 2
  >>>>
  MERK: I CG-simuleringene er proteinet grovkornet av Go-model⁵³ med hver aminosyre representert av en CG-partikkel plassert i Cα-posisjonen. Proteinkonformasjonen vil da bli partisk mot den opprinnelige strukturen, eller krystallstrukturen her, under Go-potensialet (figur 4A venstre). DNA-et er beskrevet av 3SPN.2-modellen⁵⁴, der hvert nukleotid er representert av henholdsvis 3 CG-partikkel S, P, N, som tilsvarer henholdsvis sukker, fosfat og nitrogenholdig base (figur 4A høyre). De elektrostatiske og vdW interaksjonene vurderes mellom forskjellige kjeder. De elektrostatiske interaksjonene mellom protein og DNA i CG-simuleringen tilnærmes av Debye-Hückel-potensialet⁵⁵. VdW-avstøtende energi har samme form som i Go-modellen.
5. Angi md_information blokk (obligatorisk) for å definere simuleringsinformasjonen. Skriv inn følgende kommando:
  <<<< md_information
  n_step_sim = 1
  n_tstep(1) = 5000000000
  tstep_size = 0,1
  n_step_save = 1000
  n_step_neighbor = 100
  i_com_zeroing = 0
  i_no_trans_rot = 0
  tempk = 300,0
  n_seed = -1
  >>>>
  Det n_tstep er simuleringstrinnet. Sett tstep_size som tidslengden for hvert MD-trinn, hvert CG Cafemol-tidstrinn er omtrent 200 fs³⁰, så hvert MD-trinn her er 200 × 0,1 fs i prinsippet. Oppdater nabolisten hvert 100 MD-trinn (n_step_neighbor = 100). Sett simuleringstemperaturen til 300 K. Kontroller temperaturen ved å bruke hastighetstypen Verlet-algoritmen for oppdatering av proteinstruktur med Berendsen-termostaten⁵⁶.
  MERK: Den n_step_sim er bassengnummeret til Go-modellbasert potensial, eller det lokale minimale antallet energikurver. Et multi-basin potensial tillater proteinkonformasjonen partisk til forskjellige konformasjoner slik at proteinkonformasjon kan endres fra ett lokalt minimum til et annet. Her brukes bare single basin Go-modellen, noe som betyr bare en partisk konformasjon (krystallstruktur) for protein i simuleringene. I mellomtiden, siden det ikke er noe protein-DNA hydrogenbindingsinteraksjon, etc. modellert i CG-konteksten, kan de molekylære bevegelsene prøves enda raskere, det vil si > 10 ganger enn i atomsimuleringene.
6. Still inn elektrostatisk blokk (kreves bare når elektrostatisk interaksjon brukes) da den elektrostatiske interaksjonen vurderes blant forskjellige kjeder, så bruk denne blokken til å definere parametrene for elektrostatisk interaksjon ved å skrive:
  <<<< elektrostatisk
  cutoff_ele = 10,0
  ionic_strength = 0,15
  >>>>
  Sett Avgrunnslengden i elektrostatisk interaksjon til 10 Å, tilsvarende løsningstilstanden. Sett ionstyrken til 0,15 M, som ved den fysiologiske tilstanden.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Rotasjonsledd eller 1 bp trinn wrky fra MSM-konstruksjonen
Alle proteinkonformasjoner på DNA-et er kartlagt til langsgående bevegelse X og rotasjonsvinkelen til proteinet COM langs DNA (se figur 3A). Den lineære koblingen av disse to grader indikerer rotasjonskobling av WRKY-domeneproteinet på DNA. Konformasjonene kan grupperes ytterligere i tre makrotilstander (S1, S2 og S3) i MSM. Fremover-trinnet i WRKY følger deretter makrostateovergangen S1->S2->S3. S1 refererer til en metastabil tilstand initiert av den modellerte strukturen (basert på krystallstrukturen til WRKY-DNA-komplekset⁴⁰), med en befolkning på ~ 6%. Merk at i dagens modellering ble den første proteinkonformasjonen vedtatt fra krystallstrukturen der proteinet binder seg til spesifikk W-boks DNA-sekvens⁴⁰. Et slikt modellert protein-poly A-DNA-kompleks fører dermed til mindre gunstige innledende strukturer (S1) enn de trappede eller til slutt avslappede strukturene (S3). Likevel kan man oppdage at hydrogenbindingene (HBs) ved protein-DNA-grensesnittet gjenoppretter nær sentrum av S3 som det nær sentrum i S1 (se figur 3B). HB-ene i S1-tilstanden er godt vedlikeholdt: K125 med A15, R131, Q146 og Y133 med A16, K144 og Y119 med A17, R135 med A18 (figur 3B øverst til venstre). S3 refererer til en metastabil tilstand etter 1-bp protein stepping, med nesten alle HBs skiftet for 1-bp avstand (figur 3B bunn), og strukturene ser stabile ut med den høyeste befolkningen (63%). Mellomtilstanden S2 forbinder S1 og S3, med en middels høy populasjon (~ 30%). Vi fant ut at R135 og K144 er ganske fleksible i denne mellomliggende tilstanden og vanligvis kan bryte HBs med dagens nukleotid og reformere det med neste nukleotid (figur 3B øverst til høyre). Totalt sett flyttet WRKY protein COM ~ 2.9 Å og rotert ~ 55 ° til å gå 1 bp her. Det hastighetsbegrensende trinnet for WRKY-steppingen er S2->S3, som i hovedsak tillater kollektiv brudd og reformering av HBs og krever ~ 7 μs i gjennomsnitt. I motsetning kan S1 til S2 passere veldig raskt i en tid på ~ 0,06 μs eller 60-ns (figur 3B), som hovedsakelig involverer protein COM-svingninger (f.eks. på grunn av proteinorienteringsendringer på DNA).

Enkeltstrengsbias av WRKY under prosesjonsdiffusjon i CG-modellen
I vår nylige studie fant vi ut at WRKY-domeneproteinet binder seg fortrinnsvis til en tråd av dsDNA, uansett under 1-bp stepping eller statisk binding; og enkeltstrengsbiaset blir svært fremtredende, spesielt ved spesifikk DNA-sekvensbinding⁸. I mellomtiden er det ikke klart om en slik trend forblir under den prosesjonsdiffusjonen av proteinet langs DNA. Her prøvde vi å undersøke den potensielle strandskjevheten via CG-simuleringene. Interessant nok har en betydelig DNA-bindingskonfigurasjon med én tråd blitt identifisert i CG-simuleringene av WRKY under prosesjonsdiffusjon. For å se det ble kontakttallene mellom protein og DNA beregnet på de respektive DNA-trådene (se figur 4B). En kontakt vurderes når avstanden mellom protein CG-partikkel og DNA CG P (fosfatgruppe) partikkel er mindre enn 7 Å. Proteinet viser faktisk skjevheter i en av DNA-trådene (f.eks. ~4 kontakter til den ene tråden og ~1 kontakt med den andre), det vil si selv når detaljerte interaksjoner som HBs ved protein-DNA-grensesnittet ikke er modellert.

Den foretrukne DNA-strengen kan imidlertid bytte fra tid til annen mellom DNA-ets to tråder, avhengig av bindingsretningen eller konfigurasjonen av proteinet på DNA-et. Spesielt, i henhold til kontaktnummeret som dannes mellom proteinet og respektive dna-tråder, er det hovedsakelig 4 stater her (som merket 1, 2, 3 og 4 i figur 4B, C). I tilstand 1 og 3 binder en sinkfingerregion mot -Y-retning, og den foretrukne strengen er den blå. I tilstand 2 og 3 binder sinkfingerområdet seg mot +Y-retning, og den foretrukne strengen blir den røde. Det er også funnet at sink-figner-regionen samhandler dominerende med DNA (se figur 4D). Derfor er DNA-strengen bundet tett med sinkfingerområdet faktisk den foretrukne. Ifølge den ovennevnte prøvetakingen ser det dermed ut til at strandbiasen vedvarer, men bytter mellom de to DNA-trådene i CG-modellen av den prosesjonsproteindiffusjonen.

Protein individuelle gjenværende stepping i CG simuleringer
Det ble tidligere lagt merke til fra våre CG-simuleringer at steppingstørrelsen på WRKY kan variere på forskjellige DNA-sekvenser⁸. Proteinet COM har en tendens til å trinn 1 bp på det homogene poly-A DNA. Mens på poly-AT DNA med 2 bp periodicity, ser andelen 2-bp stepping ut til å øke.

I tillegg undersøkte vi her om individuelle proteinrester beveger seg synkront ved protein-DNA-grensesnittet. Vi beregnet trinnstørrelsen på hver høyt bevarte rest i WRKY-motivet (WRKYGQK) for hver 1000 tidstrinn (figur 5A). Resterende stepping størrelse på hver konservert rest kan dermed måles fra CG simuleringer. Resultatene viser faktisk at steppingstørrelsene til disse individuelle rester er mer synkronisert på poly-A DNA enn på poly-AT eller tilfeldige DNA-sekvenser (figur 5B).

Figur 1: Konformasjonsgenereringen og mikrostatene/makrostatene konstruksjon. (A) Den første skrittbanen som er kartlagt på protein-DNA RMSD og proteinrotasjonsvinkelen rundt DNA-et. De første valgte 25 strukturene er merket med røde sirkler. (B) De 100 konformasjonsklyngesentrene fra 1^m omg 25 x 50 ns MD simuleringsbaner kartlagt på de to høyeste eigenvalue tIC-retningene. (C) Plott av den underforståtte tidsskalaen som en funksjon av forsinkelse for MSM-konstruksjonen via tICA ved hjelp av valgte avstandspar som inngang. For hvert sett ble MSM konstruert ved å projisere konformasjonene på de to øverste tIC-ene etterfulgt av K-sentre som klynger for å produsere 20 til 2000 mikrotilstander (fra venstre til høyre kolonne) med korrelasjonsforsinkelsestid for tICA valgt fra 5 til 40 ns (fra topp til bunn rad). (D) De 500 mikrostatene konstruert og (E) de videre konstruerte 3 makrotilstandene, med tilsvarende mikrostatsentre kartlagt langs de to høyeste tIC-retningene. Klikk her for å se en større versjon av denne figuren.

Figur 2: Konstruksjon av makrostatene. (A) Kartlegging av innledende fremoverstegbanebanebane (venstre) og med et lite antall ekstra mikro-andre baneprøver (høyre) på proteinsenteret for massebevegelse (COM) langs DNA lang akse (X) og rotasjonsvinkel rundt DNA (oppnådd tidligere⁸). (B) Kartleggingen av de opprinnelige 100 × 50 ns-banene og de 97 × 50 ns-banene som brukes i dagens MSM-konstruksjon. (C) Byggingen av 3-6 makrostater og deres populasjoner fra den konstruerte MSM er merket på de omfattende prøvetakingskartene. (D) Proteinbevegelsen X og rotasjonsvinkelen rundt DNA vises henholdsvis. De samplede konformasjonene klumpes til slutt sammen til tre makrotilstander, med henholdsvis rød, blå og grå som tilsvarer makrotilstanden 1, 2 og 3. Klikk her for å se en større versjon av denne figuren.

Figur 3: MSM for WRKY-domeneproteinet som tråkker på poly-A DNA. (A) Projeksjonen av MD-konformasjonsbildene på koordinatene til proteinet COM bevegelse X og rotasjonsvinkel med hensyn til DNA. De tre makrotilstandene S1, S2 og S3 er farget i henholdsvis rødt, blått og grått. (B) Representative konformasjoner og MFPT (mean-passage-time) for overgangen til de konstruerte 3 makrotilstandene. De viktigste hydrogenbindingene mellom protein og DNA vises. Klikk her for å se en større versjon av denne figuren.

Figur 4: Modellen for grovkorn (CG) og kontaktene dannet mellom protein og DNA-tråder i CG-modellen. (A) Grovkorning av protein (venstre) og DNA (høyre). (B) Kontaktnummeret mellom WRKY og hver DNA-streng langs simuleringen. (C) De molekylære visningene av de 4 kontaktmodusene. Proteinområdet nær sinkfingeren er farget i grått, og den andre regionen er farget i grønt. (D) Kontaktsannsynligheten for hver proteinaminosyre med DNA. Når avstanden mellom CG-partikkelen av aminosyren og eventuelle DNA CG-partikler er mindre enn 7 Å, anses aminosyren å være i kontakt med DNA. Klikk her for å se en større versjon av denne figuren.

Figur 5: Diffusjonstrinnstørrelsene til individuell proteinaminosyre i WRKY-motivet når WRKY beveger seg langs DNA. (A) De høyt bevarte rester (WRKYGQK) i atomstruktur (venstre) og etter grovkorning (høyre). (B) Stepping størrelse for hver konservert rest på ulike sekvenser av DNA (poly-A; poly-AT; tilfeldige sekvenser) Vennligst klikk her for å se en større versjon av denne figuren.

Tilleggsfil 1: Python-kodene og programvaren som brukes i denne protokollen. MSM er bygget hovedsakelig ved hjelp av MSMbuilder, de nødvendige pythonkodene er vedlagt. Klikk her for å laste ned denne filen.

Tilleggsfil 2: De atomistiske molekylære dynamikksimuleringene utføres av GROMACS, kommandoene og nødvendige filer for å bygge atomsimuleringer er også vedlagt. De grovkornede simuleringene utføres av CafeMol programvare. Simuleringsresultatene analyseres av VMD og MATLAB. Klikk her for å laste ned denne filen.

Tilleggsfil 3: Tcl-skriptet for å rotere og flytte protein i VMD. Klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Dette arbeidet tar for seg hvordan man utfører strukturbasert beregningssimulering og prøvetaking for å avdekke en transkripsjonsfaktor eller TF-protein som beveger seg langs DNA, ikke bare ved atomdetaljer for stepping, men også i den prosesjonsdiffusjonen, noe som er avgjørende for den tilrettelagte spredningen av TF i DNA-målsøket. For å gjøre det ble Markov-tilstandsmodellen eller MSM av et lite TF-domeneprotein WRKY stepping for 1-bp langs homogen poly-A DNA først konstruert, slik at et ensemble av proteinkonformasjoner på DNA sammen med kollektiv hydrogenbinding eller HB-dynamikk ved protein-DNA-grensesnittet kan avsløres. For å oppnå MSM gjennomførte vi to runder med omfattende all-atom MD-simuleringer langs en spontan proteingåingsbane (hentet fra tidligere 10-μs simulering), med nåværende prøvetakinger i aggregering på 7,5 μs (125 x 60 ns). Slike omfattende prøvetakinger gir oss øyeblikksbilder for konformasjonsklynger i hundrevis av mikrostater, og bruker protein-DNA interfaciale paravstander som geometriske tiltak for klyngene. Den markoviske egenskapen til MSM-konstruksjonen valideres delvis ved å oppdage tidsskalaseparasjon fra de underforståtte tidsskalaene beregnet for ulike lengder eller forsinkelser av individuelle MD-simuleringer. 20–2000 mikrotilstander ble deretter testet og sammenlignet med egenskapene for tidsskalaseparasjon, med 500 mikrotilstander valgt for MSM-konstruksjonen. Videre ble de 500 mikrostatene kinetisk klumpet inn i et lite antall makrostater, som vi testet ulike antall stater og fant at tre makrostater tilstrekkelig for dagens system. Trestatsmodellen viser ganske enkelt at staten S1 går til S2 relativt raskt (innenfor titalls ns), dominert av proteinsenter for masse (COM) svingninger på DNA, mens staten S2 transitterer til S3 sakte og er rate-begrensende (~ 7 μs i gjennomsnitt), dominert av kollektiv HB-dynamikk for stepping. Merk at kinetisk klumping av mikrostatene i et lite antall kinetisk distinkte makrostater fortsatt er gjenstand for metodisk utvikling, med forskjellige algoritmer testet og maskinlæringsteknikker for forbedringer 57,58,59,60,61,62,63 . De kritiske trinnene for å bygge MSM inkluderer å velge avstandsparene som brukes i tICA og bestemme parametrene som brukes til å konstruere mikrotilstander. Valget av avstandspar er kunnskapsbasert, og det er viktig å velge de viktigste interaksjonsparene. Parametrene for å konstruere mikrotilstander, for eksempel korrelasjonsforsinkelsestiden, forsinkelsestiden, mikrostatens muber, må være riktig satt for å sikre at systemet er Markovian.

Med en slik innsats kan submikro-til-mikro-sekunder protein strukturell dynamikk med atomdetaljer systematisk avsløres for protein stepping 1-bp langs DNA. I prinsippet, med overgangssannsynlighetsmatrisen hentet fra MSM-konstruksjonen, kan systemet utvikles til en lang tidsskala utover mikrosekunder, eller si å nærme seg millisekunder og over 13,17,64. Imidlertid er det iboende begrensninger i MSM-prøvetaking og konstruksjon, som er avhengig av undermikroseconds individuelle simuleringer rundt en bestemt innledende bane, og den markoviske eiendommen er kanskje ikke godt garantert ^65,66. I de fleste praksiser ble den opprinnelige banen konstruert under tvang eller akselerasjon, men i det nåværende systemet drar vi nytte av en spontan protein stepping bane (uten tvang eller akselerasjon) oppnådd fra en 10-ms^{likevektssimulering 8}. Konformasjonsprøvene samlet sett er fortsatt begrenset av titalls mikrosekonds på grunn av høye beregningskostnader for atomsimuleringene. Slike mikrosekondsprøver av protein stepping er usannsynlig å gi tilstrekkelige konformasjoner til å vises på langvarig skala prosesjon TF diffusjon. Minneproblemet vil bli betydelig hvis man implementerer den oppnådde overgangssannsynlighetsmatrisen utover en bestemt tidsskala, og den markoviske egenskapen er ikke garantert å sikre riktig bruk av nåværende MSM 14,52,66. Derfor, for å prøve den langsiktige skalaen prosesjonsspredning av TF langs DNA, implementeres restnivået grovkornet eller CG-modellering og simulering i stedet, for å balansere mellom å opprettholde strukturelt grunnlag og senke beregningskostnadene.

I CG-modellering og simulering er proteinrester og DNA-nukleotider representert av perler (dvs. en perle for en aminosyre og tre perler for ett nukleotid), med proteinkonformasjonen opprettholdt via Go-modellen mot en innfødt eller forhåndsjustert konfigurasjon^30,53. Selv om atomnivået av HB-interaksjoner blir fraværende i CG-modellen, opprettholdes protein-DNA-elektrostatiske interaksjoner godt, noe som ser ut til å kunne fange dominerende dynamikkfunksjoner i den prosesjonsdiffusjonen av proteinet langs DNA 67,68,69,70. Detaljerte implementeringsprotokoller presenteres for modellering og simulering av WRKY-DNA-systemet her. De representative resultatene viser interessant at først vedvarer DNA-biasen med én streng som ble presentert i den forrige atomsimuleringen av WRKY-DNA-systemet i CG-modellen, mens en rekke proteinorienteringer/konfigurasjoner som ble samplet under prosesjonsdiffusjon, førte til at skjevheten mellom de to trådene ble byttet fra tid til annen. Derfor knytter en slik DNA-strengskjevhet ikke nødvendigvis til HB-forening, men ser ut til å stole hovedsakelig på protein-DNA-elektrostatiske interaksjoner, som varierer for ulike proteinkonfigurasjoner eller orienteringer på DNA. Deretter viser individuelle aminosyrer på eller i nærheten av protein-DNA-grensesnittet, for eksempel de høyt bevarte WRKQGQK-motivene, forskjellige trinnstørrelser eller synkroniseringsmønstre for forskjellige DNA-sekvenser. I vår forrige studie ble variasjonene i trinnstørrelse bare vist for COM av protein, da proteinet ble modellert for å spre seg langs forskjellige DNA-sekvenser. Legg merke til at den nåværende CG-modellen til DNA støtter DNA-sekvensvariasjoner med forskjellig parameterisering 54,71,72, selv om atomdetaljer mangler. Riktig DNA-sekvensavhengig parameterisering i den strukturbaserte modelleringen av protein-DNA-systemet er derfor avgjørende for å avdekke protein-DNA-søke- og anerkjennelsesmekanismer på tvers av flere tids- og lengdeskalaer.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingen interessekonflikt.

Acknowledgments

Dette arbeidet har blitt støttet av NSFC Grant #11775016 og #11635002. JY har blitt støttet av CMCF fra UCI via NSF DMS 1763272 og Simons Foundation grant #594598 og oppstartsfond fra UCI. LTD har blitt støttet av Natural Science Foundation i Shanghai #20ZR1425400 og #21JC1403100. Vi anerkjenner også den beregningsmessige støtten fra Beijing Computational Science Research Center (CSRC).

Materials

Name	Company	Catalog Number	Comments
CafeMol	Kyoto University		coarse-grained (CG) simulations
GROMACS	University of Groningen Royal Institute of Technology Uppsala University		molecular dynamics simulations software
Matlab	MathWorks		Numerical calculation software
MSMbuilder	Stanford University		build MSM
VMD	UNIVERSITY OF ILLINOIS AT URBANA-CHAMPAIGN		molecular visualization program

DOWNLOAD MATERIALS LIST

References

Latchman, D. S. Transcription factors: an overview. The International Journal of Biochemistry & Cell Biology. 29 (12), 1305-1312 (1997).
Berg, O. G., von Hippel, P. H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. Journal of Molecular Biology. 193 (4), 723-750 (1987).
von Hippel, P. H., Berg, O. G. Facilitated target location in biological systems. The Journal of Biological Chemistry. 264 (2), 675-678 (1989).
Halford, S. E., Marko, J. F. How do site-specific DNA-binding proteins find their targets. Nucleic Acids Research. 32 (10), 3040-3052 (2004).
Slusky, M., Mirny, L. A. Kinetics of protein-DNA interaction: facilitated target location in sequence-dependent potential. Biophysical Journal. 87 (6), 4021-4035 (2004).
Bauer, M., Metzler, R. Generalized facilitated diffusion model for DNA-binding proteins with search and recognition states. Biophysical Journal. 102 (10), 2321-2330 (2012).
Shvets, A. A., Kochugaeva, M. P., Kolomeisky, A. B. Mechanisms of Protein Search for Targets on DNA: Theoretical Insights. Molecules. 23 (9), Basel, Switzerland. 2106 (2018).
Dai, L., Xu, Y., Du, Z., Su, X. D., Yu, J. Revealing atomic-scale molecular diffusion of a plant-transcription factor WRKY domain protein along DNA. Proceedings of the National Academy of Sciences of the United States of America. 118 (23), 2102621118 (2021).
Chodera, J. D., Singhal, N., Pande, V. S., Dill, K. A., Swope, W. C. Automatic discovery of metastable states for the construction of Markov models of macromolecular conformational dynamics. The Journal of Chemical Physics. 126 (15), 155101 (2007).
Pan, A. C., Roux, B. Building Markov state models along pathways to determine free energies and rates of transitions. The Journal of Chemical Physics. 129 (6), 064107 (2008).
Bowman, G. R., Huang, X., Pande, V. S. Using generalized ensemble simulations and Markov state models to identify conformational states. Methods. 49 (2), San Diego, California. 197-201 (2009).
Prinz, J. H., et al. Markov models of molecular kinetics: Generation and validation. The Journal of chemical physics. 134 (17), 174105 (2011).
Chodera, J. D., Noé, F. Markov state models of biomolecular conformational dynamics. Current Opinion in Structural Biology. 25, 135-144 (2014).
Malmstrom, R. D., Lee, C. T., Van Wart, A. T., Amaro, R. E. On the Application of Molecular-Dynamics Based Markov State Models to Functional Proteins. Journal of Chemical Theory and Computation. 10 (7), 2648-2657 (2014).
Husic, B. E., Pande, V. S. Markov State Models: From an Art to a Science. Journal of the American Chemical Society. 140 (7), 2386-2396 (2018).
Sittel, F., Stock, G. Perspective: Identification of collective variables and metastable states of protein dynamics. The Journal of chemical physics. 149 (15), 150901 (2018).
Wang, W., Cao, S., Zhu, L., Huang, X. Constructing Markov State Models to elucidate the functional conformational changes of complex biomolecules. WIREs Computational Molecular Science. 8, 1343 (2018).
Peng, S., et al. Target search and recognition mechanisms of glycosylase AlkD revealed by scanning FRET-FCS and Markov state models. Proceedings of the National Academy of Sciences of the United States of America. 117 (36), 21889-21895 (2020).
Tian, J., Wang, L., Da, L. T. Atomic resolution of short-range sliding dynamics of thymine DNA glycosylase along DNA minor-groove for lesion recognition. Nucleic Acids Research. 49 (3), 1278-1293 (2021).
Chu, J. -W., Izveko, S., Voth, G. The multiscale challenge for biomolecular systems: coarse-grained modeling. Molecular Simulation. 32 (3-4), 211-218 (2006).
Marrink, S. J., Risselada, H. J., Yefimov, S., Tieleman, D. P., De Vries, A. H. The MARTINI force field: coarse grained model for biomolecular simulations. The Journal of Physical Chemistry B. 111 (27), 7812-7824 (2007).
Givaty, O., Levy, Y. Protein sliding along DNA: dynamics and structural characterization. Journal of Molecular Biology. 385 (4), 1087-1097 (2009).
Khazanov, N., Levy, Y. Sliding of p53 along DNA can be modulated by its oligomeric state and by cross-talks between its constituent domains. Journal of Molecular Biology. 408 (2), 335-355 (2011).
Riniker, S., Allison, J. R., van Gunsteren, W. F. On developing coarse-grained models for biomolecular simulation: a review. Physical Chemistry Chemical Physics : PCCP. 14 (36), 12423-12430 (2012).
Kmiecik, S., et al. Coarse-Grained Protein Models and Their Applications. Chemical Reviews. 116 (14), 7898-7936 (2006).
Bhattacherjee, A., Krepel, D., Levy, Y. Coarse-grained models for studying protein diffusion along DNA. WIREs Computational Molecular Science. 6, 515-531 (2016).
Wang, J., et al. Machine Learning of Coarse-Grained Molecular Dynamics Force Fields. ACS Central Science. 5 (5), 755-767 (2019).
Joshi, S. Y., Deshmukh, S. A. A review of advancements in coarse-grained molecular dynamics simulations. Molecular Simulation. 47 (10-11), 786-803 (2021).
Bigman, L. S., Greenblatt, H. M., Levy, Y. What Are the Molecular Requirements for Protein Sliding along DNA. The Journal of Physical Chemistry B. 125 (12), 3119-3131 (2021).
Kenzaki, H., et al. CafeMol: A Coarse-Grained Biomolecular Simulator for Simulating Proteins at Work. Journal of Chemical Theory and Computation. 7 (6), 1979-1989 (2011).
Berendsen, H. J. C., vander Spoel, D., van Drunen, R. GROMACS: a message-passing parallel molecular dynamics implementation. Computer Physics Communications. 91 (1-3), 43-56 (1995).
vander Spoel, D., et al. GROMACS: fast, flexible, and free. Journal of Computational Chemistry. 26 (16), 1701-1718 (2005).
Abraham, M. J., et al. GROMACS: High performance molecular simulations through multi-level parallelism from laptops to supercomputers. SoftwareX. 1-2, 19-25 (2015).
Harrigan, M. P., et al. MSMBuilder: Statistical Models for Biomolecular Dynamics. Biophysical journal. 112 (1), 10-15 (2017).
Humphrey, W., Dalke, A., Schulten, K. VMD: visual molecular dynamics. Journal of Molecular Graphics. 14 (1), 33-38 (1996).
Izrailev, S., et al. Steered Molecular Dynamics. Computational Molecular Dynamics: Challenges, Methods, Ideas. 4, Springer. Berlin, Heidelberg. 39-65 (1999).
Schlitter, J., Engels, M., Krüger, P. Targeted molecular dynamics: a new approach for searching pathways of conformational transitions. Journal of Molecular Graphics. 12 (2), 84-89 (1994).
Maragliano, L., Fischer, A., Vanden-Eijnden, E., Ciccotti, G. String method in collective variables: minimum free energy paths and isocommittor surfaces. The Journal of Chemical Physics. 125 (2), 24106 (2006).
Weiss, D. R., Levitt, M. Can morphing methods predict intermediate structures. Journal of Molecular Biology. 385 (2), 665-674 (2009).
Xu, Y. P., Xu, H., Wang, B., Su, X. D. Crystal structures of N-terminal WRKY transcription factors and DNA complexes. Protein. 11 (3), 208-213 (2020).
Higham, D. J., Higham, N. J. MATLAB guide. Society for Industrial and Applied Mathematics. , (2016).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Gonzalez, T. F. Clustering to minimize the maximum intercluster distance. Theoretical Computer Science. 38, 293-306 (1985).
Zhao, Y., Sheong, F. K., Sun, J., Sander, P., Huang, X. A fast parallel clustering algorithm for molecular simulation trajectories. Journal of Computational Chemistry. 34 (2), 95-104 (2013).
Ivani, I., et al. Parmbsc1: a refined force field for DNA simulations. Nature Methods. 13 (1), 55-58 (2016).
Naritomi, Y., Fuchigami, S. Slow dynamics of a protein backbone in molecular dynamics simulation revealed by time-structure based independent component analysis. The Journal of Chemical Physics. 139 (21), 215102 (2013).
Naritomi, Y., Fuchigami, S. Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: the case of domain motions. The Journal of Chemical Physics. 134 (6), 065101 (2011).
Pérez-Hernández, G., Paul, F., Giorgino, T., De Fabritiis, G., Noé, F. Identification of slow molecular order parameters for Markov model construction. The Journal of Chemical Physics. 139 (1), 015102 (2013).
McGibbon, R. T., Pande, V. S. Variational cross-validation of slow dynamical modes in molecular kinetics. The Journal of Chemical Physics. 142 (12), 124105 (2015).
Deuflhard, P., Weber, M. Robust Perron cluster analysis in conformation dynamics. Linear Algebra and its Applications. 398, 161-184 (2005).
Silva, D. A., et al. Millisecond dynamics of RNA polymerase II translocation at atomic resolution. Proceedings of the National Academy of Sciences of the United States of America. 111 (21), 7665-7670 (2014).
Swope, W. C., Pitera, J. W., Suits, F. Describing Protein Folding Kinetics by Molecular Dynamics Simulations. 1. Theory. The Journal of Physical Chemistry B. 108 (21), 6571-6581 (2004).
Clementi, C., Nymeyer, H., Onuchic, J. N. Topological and energetic factors: what determines the structural details of the transition state ensemble and "en-route" intermediates for protein folding? An investigation for small globular proteins. Journal of molecular biology. 298 (5), 937-953 (2000).
Hinckley, D. M., Freeman, G. S., Whitmer, J. K., De Pablo, J. J. An experimentally-informed coarse-grained 3-Site-Per-Nucleotide model of DNA: structure, thermodynamics, and dynamics of hybridization. The Journal of chemical physics. 139 (14), 144903 (2013).
Debye, P., Huckel, E. The theory of the electrolyte II-The border law for electrical conductivity. Physikalische Zeitschrift. 24, 305-325 (1923).
Berendsen, H. J., Postma, J. V., van Gunsteren, W. F., DiNola, A., Haak, J. R. Molecular dynamics with coupling to an external bath. The Journal of Chemical Physics. 81, 3684-3690 (1984).
Bowman, G. R. Improved coarse-graining of Markov state models via explicit consideration of statistical uncertainty. The Journal of Chemical Physics. 137 (13), 134111 (2012).
Jain, A., Stock, G. Identifying metastable states of folding proteins. Journal of Chemical Theory and Computation. 8 (10), 3810-3819 (2012).
Röblitz, S., Weber, M. Fuzzy spectral clustering by PCCA+: application to Markov state models and data classification. Advances in Data Analysis and Classification. 7, 147-179 (2013).
Mardt, A., Pasquali, L., Wu, H., Noé, F. VAMPnets for deep learning of molecular kinetics. Nature Communications. 9 (1), 5 (2018).
Wang, W., Liang, T., Sheong, F. K., Fan, X., Huang, X. An efficient Bayesian kinetic lumping algorithm to identify metastable conformational states via Gibbs sampling. The Journal of Chemical Physics. 149 (7), 072337 (2018).
Chen, W., Sidky, H., Ferguson, A. L. Nonlinear discovery of slow molecular modes using state-free reversible VAMPnets. The Journal of Chemical Physics. 150 (21), 214114 (2019).
Gu, H., et al. RPnet: a reverse-projection-based neural network for coarse-graining metastable conformational states for protein dynamics. Physical Chemistry Chemical Physics :PCCP. 24 (3), 1462-1474 (2022).
Lane, T. J., Bowman, G. R., Beauchamp, K., Voelz, V. A., Pande, V. S. Markov state model reveals folding and functional dynamics in ultra-long MD trajectories. Journal of the American Chemical Society. 133 (45), 18413-18419 (2011).
Konovalov, K. A., Unarta, I. C., Cao, S., Goonetilleke, E. C., Huang, X. Markov State Models to Study the Functional Dynamics of Proteins in the Wake of Machine Learning. JACS Au. 1 (9), 1330-1341 (2021).
Cao, S., Montoya-Castillo, A., Wang, W., Markland, T. E., Huang, X. On the advantages of exploiting memory in Markov state models for biomolecular dynamics. The Journal of Chemical Physics. 153 (1), 014105 (2020).
Brandani, G. B., Takada, S. Chromatin remodelers couple inchworm motion with twist-defect formation to slide nucleosomal DNA. PLoS Computational Biology. 14 (11), 1006512 (2018).
Tan, C., Terakawa, T., Takada, S. Dynamic Coupling among Protein Binding, Sliding, and DNA Bending Revealed by Molecular Dynamics. Journal of the American Chemical Society. 138 (27), 8512-8522 (2016).
Terakawa, T., Takada, S. p53 dynamics upon response element recognition explored by molecular simulations. Scientific reports. 5, 17107 (2015).
Brandani, G. B., Niina, T., Tan, C., Takada, S. DNA sliding in nucleosomes via twist defect propagation revealed by molecular simulations. Nucleic Acids Research. 46 (6), 2788-2801 (2018).
Knotts, T. A., Rathore, N., Schwartz, D. C., de Pablo, J. J. A coarse grain model for DNA. The Journal of Chemical Physics. 126 (8), 084901 (2007).
Freeman, G. S., Hinckley, D. M., Lequieu, J. P., Whitmer, J. K., de Pablo, J. J. Coarse-grained modeling of DNA curvature. The Journal of Chemical Physics. 141 (16), 165103 (2014).

Biology

Strukturbasert simulering og prøvetaking av transkripsjonsfaktorproteinbevegelser langs DNA fra atomskala stepping til grovkornet diffusjon

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.