Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Strukturbaserad simulering och provtagning av transkriptionsfaktorproteinrörelser längs DNA från atomskala som går till grovkornig diffusion

Published: March 1, 2022 doi: 10.3791/63406
* These authors contributed equally

Summary

Målet med detta protokoll är att avslöja strukturell dynamik av endimensionell diffusion av protein längs DNA, med hjälp av en växttranskriptionsfaktor WRKY-domänprotein som ett exemplifierande system. För att göra detta har både atomistiska och grovkorniga molekylära dynamiksimuleringar tillsammans med omfattande beräkningsprovtagningar implementerats.

Abstract

Endimensionell (1-D) glidning av transkriptionsfaktorprotein (TF) längs DNA är avgörande för underlättad diffusion av TF för att lokalisera mål-DNA-plats för genetisk reglering. Att upptäcka basparets (bp) upplösning av TF som glider eller trampar på DNA är fortfarande experimentellt utmanande. Vi har nyligen utfört all-atom molecular dynamics (MD) simuleringar som fångar spontan 1-bp stegning av ett litet WRKY-domän TF-protein längs DNA. Baserat på 10 μs WRKY-stegvägen erhållen från sådana simuleringar visar protokollet här hur man utför mer omfattande konformationsprovtagningar av TF-DNA-systemen genom att konstruera Markov-tillståndsmodellen (MSM) för 1-bp-proteinsteget, med olika antal mikro- och makrotillstånd testade för MSM-konstruktionen. För att undersöka processiv 1-D diffusionssökning av TF-proteinet tillsammans med DNA med strukturell grund visar protokollet vidare hur man utför grovkorniga (CG) MD-simuleringar för att prova långsiktig skaldynamik i systemet. Sådana CG-modellering och simuleringar är särskilt användbara för att avslöja protein-DNA-elektrostatiska effekter på TF-proteinets processiva diffusionsrörelser över tiotals mikrosekoner, jämfört med submikrosekoner till mikroseconds proteinstegrörelser som avslöjas från allatomsimuleringarna.

Introduction

Transkriptionsfaktorer (TF) söker efter mål-DNA för att binda och reglera gentranskription och relaterade aktiviteter1. Bortsett från den tredimensionella (3D) diffusionen har den underlättade diffusionen av TF föreslagits vara avgörande för mål-DNA-sökning, där proteinerna också kan glida eller hoppa längs endimensionellt (1D) DNA eller hoppa med intersegmentell överföring på DNA 2,3,4,5,6,7.

I en nyligen genomförd studie har vi genomfört tiotals mikroseconds (μs) all-atom equilibrium molecular dynamics (MD) simuleringar på en växt TF - WRKY-domänproteinet på DNA8. En fullständig 1-bp stegning av WRKY på poly-A DNA inom mikroseconds har fångats. Proteinets rörelser längs DNA-spåret och vätebindningar (HB) brytande reformerande dynamik har observerats. Medan en sådan bana representerar en samplade väg, saknas fortfarande ett övergripande proteinstegslandskap. Här visar vi hur man utökar beräkningsprovtagningar runt den initialt fångade proteinstegsvägen med den konstruerade Markov-tillståndsmodellen (MSM), som har implementerats i stor utsträckning för att simulera en mängd olika biomolekylära system som involverar betydande konformationsförändringar och tidsskaleseparation 9,10,11,12,13,14,15,16, 17,18,19. Syftet är att avslöja konformationsensemblen och metastabila tillstånd av TF-proteindiffusionen längs DNA för ett cykliskt steg.

Medan ovanstående MD-simulering avslöjar atomupplösning av proteinrörelserna för 1 bp på DNA, är den strukturella dynamiken i långvarig processiv diffusion av TF längs DNA vid samma högupplösta upplösning knappast tillgänglig. Att genomföra grovkorniga (CG) MD-simuleringar på restnivå är dock tekniskt lättillgängligt. CG-simuleringens tidsskala kan effektivt utökas till tiotals eller hundratals gånger längre än atomsimuleringarna 20,21,22,23,24,25,26,27,28,29. Här visar vi CG-simuleringarna som utförs genom att implementera CafeMol-programvaran som utvecklats av Takada lab30.

I nuvarande protokoll presenterar vi atomsimuleringarna av WRKY-domänproteinet längs poly-A-DNA och MSM-konstruktionen först, som fokuserar på provtagning av proteinstegsrörelserna för endast 1 bp längs DNA. Därefter presenterar vi CG-modellering och simuleringar av samma protein-DNA-system, som utvidgar beräkningsprovtagningen till proteinprocessiv diffusion över tiotals bps längs DNA.

Här använder vi GROMACS 31,32,33-programvara för att utföra MD-simuleringar och MSMbuilder34 för att konstruera MSM för samplade konformationsögonblicksbilder, samt att använda VMD35 för att visualisera biomolekylerna. Protokollet kräver att användaren kan installera och implementera programvaran ovan. Installationen och implementeringen av CafeMol30-programvaran är då nödvändig för att genomföra CG MD-simuleringarna. Ytterligare analyser av banorna och visualiseringen utförs också i VMD.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Konstruktion av Markov-tillståndsmodellen (MSM) från atomiska MD-simuleringar

  1. Spontan proteinstegväg och initial struktursamling
    1. Använd en tidigare erhållen 10-μs all-atom MD-bana8 för att extrahera 10000 ramar jämnt från en "framåt" 1-bp stegväg (dvs en ram för varje nanosekund). Det totala antalet ramar måste vara tillräckligt stort för att inkludera alla representativa konformationer.
    2. Förbered övergångsvägen med 10 000 bildrutor i VMD genom att klicka på Arkiv > Spara koordinater, skriv protein eller nuklein i rutan valda atomer och välj ramar i rutan Ramar, klicka på Spara för att få de ramar som behövs.
      OBS: En tidigare erhållen 10 μs all-atom MD-simuleringsbana (kallad "framåtstegsbana" här) för WRKY-steg 1-bp-avstånd på ett 34-bp homogent poly-A DNA8 användes som den första vägen för att starta ytterligare konformationsprovtagningar. Observera att i de flesta av metoderna konstrueras dock en initial väg genom att utföra styrda eller riktade MD-simuleringar eller implementera allmänna bangenereringsmetoder etc.36,37,38,39.
    3. Rikta in referens-DNA: s långa axel (från kristallstruktur) till x-axeln och ställ in det ursprungliga masscentret (COM) för hela 34-bp DNA vid koordinatutrymmets ursprung för att underlätta ytterligare dataanalys. Det gör du genom att klicka på Tillägg > Tk-konsolen i VMD och skriva in kommandofönstret för Tk-konsolen:
      källa rotera.tcl
      Tcl-skriptet finns i tilläggsfil 3.
    4. Beräkna sedan rot-medelvärdet-kvadratavståndet (RMSD) för proteinryggraden genom att anpassa det centrala 10 bp-DNA(A 14 till 23 och T 14' till 23') till det från kristallstrukturen40, och RMSD representerar geometriska mått på systemen (se figur 1A). Gör detta genom att klicka på VMD > Extensions > Analysis > RMSD-banverktyg och skriv nukleinsyra och rest 14 till 23 och 46 till 55 i rutan Justera och sedan RMSD för att beräkna RMSD-värdena.
    5. Beräkna rotationsgraden av protein runt DNA Θ(t) på y-z-planet i MATLAB genom att skriva kommandot
      rad2deg(atan(z/y))
      med den ursprungliga vinkelpositioneringen definierad som Θ(0)=0, som tidigaregenomförts 8.
    6. Skriv följande kommando i MATLAB41 för att använda K-medelsmetoder 42,43,44 och klassificera 10000-strukturerna i 25 kluster genom att skriva:
      [idx, C]=kmeans( X, 25)
      här är X en 2D-matris av RMSD och rotationsvinkel för WRKY på DNA. Samla strukturerna i dessa 25 klustercentra för ytterligare MD-simuleringar.
      OBS: Eftersom proteinet RMSD som provtas i förhållande till DNA täcker ett intervall på cirka 25 Å, väljer vi 25 kluster för att ha ett kluster per ångström.
  2. Genomföra denförsta omgången av MD-simuleringar och simuleringsinställningarna
    1. Bygg atomistiska system för de 25 strukturerna med hjälp av GROMACS 5.1.2 programvara32 under parmbsc1 kraftfält45 och genom att använda buildsystem.sh fil från Supplementary File 2 i skal.
    2. Utför 60-ns MD-simuleringar för dessa 25 system under NPT-ensemble med ett tidssteg på 2 fs genom att skriva följande kommando i shell:
      gmx_mpi grompp -f md.mdp -c npt.gro -p topol.top -o md.tpr
      gmx_mpi mdrun -deffnm md
  3. Klustring av 1Sankt runda MD-banor
    1. Ta bort de första 10 ns av varje simuleringsbana genom att skriva in shell:
      gmx_mpi trjcat -f md.xtc -b 10000 -e 600000 -o newtraj.xtc
      och samla in konformationer från 25 × 50 ns-banorna för klustring för att förbereda ingångsstrukturerna för de efterföljande mer omfattande provtagningarna (2: a omgången MD-simuleringar).
      OBS: För att minska påverkan från den ursprungliga banan och för att möjliggöra lokal jämvikt togs 10 ns av den inledande simuleringsperioden bort.
    2. Välj avståndspar mellan protein och DNA som ingångsparametrar för den tidsoberoende komponentanalysen (tICA)46,47,48 projektion. Använd kommandot make_ndx i GROMACS för att göra det:
      gmx_mpi make_ndx -f input.pdb -o index.ndx
      OBS: Här valdes proteinet CA-atomer och de tunga atomerna (NH1, NH2, OH, NZ, NE2, ND2) av rest Y119, K122, K125, R131, Y133, Q146, K144, R135, W116, R117, Y134, K118, Q121 som kan bilda vätebindningar (HB) med DNA-nukleotiden, som paras med O1P O2P- och N6-atomerna i DNA-nukleotiden (A14-20, T19-23). De valda aminosyrorna kan antingen bilda stabila HB eller saltbroar med DNA.
    3. Kopiera ovanstående valda atomindex från index.ndx-filen till en ny textfil (index.dat). Hämta parinformationen mellan dessa atomer med python-skriptet från Tilläggsfil 1 generate_atom_indices.py och skriv:
      python2.6 generate_atom_indices.py index.dat > AtomIndex.txt
      Detta genererar de 415 avståndsparen mellan protein och DNA.
    4. Beräkna de 415 avståndsparen från varje bana genom att skriva följande kommando i MSMbuilder-kommandofönstret:
      msmb AtomPairsFeaturizer -out pair_features --pair_indices AtomIndices.txt --top references.pdb --trjs "trajectories/*.xtc" --transformed pair_features --stride 5
    5. Utför tICA för att minska dimensionen av data på de två första tidsoberoende komponenterna (TC) eller vektorerna genom att skriva:
      msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0,05 -t tica_results,h5
      OBS: tICA är en dimensionsreduktionsmetod som beräknar egenvärdet för tidsfördröjningad korrelationsmatris Equation 1 för att bestämma de långsammaste avslappnande frihetsgraderna i simuleringssystemet med ekvationen:
      Equation 2
      där Xi(t) är värdet på i-th-reaktionskoordinaten vid tiden t och Xj(tt) är värdet på j-th-reaktionskoordinaten vid tiden tt. Equation 3 är förväntningsvärdet för produkten av de övergripande simuleringsbanorna X i(t) och Xj(t + Δt). Riktningarna längs de långsammaste avslappnande frihetsgraderna motsvarar de största egenvärdena för ovanstående tidsfördröjningsmatris Equation 1. Här verkar 2 tIC vara en minimal uppsättning för att skilja tre makrotillstånd på vår MSM-konstruktion (adresseras senare). Man kan också beräkna den generaliserade matrisen Rayleigh quotient (GMRQ) poäng49, till exempel för att utforska en optimal uppsättning komponenter som ska användas.
    6. Använd kommandot i MSMbuilder för att gruppera de projicerade datauppsättningarna i 100 kluster med K-center 43,44-metoden (se figur 1B):
      msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 100.
      Välj mittstrukturen för varje kluster som den ursprungliga strukturen för denandra omgången MD-simuleringar. Underhålla simuleringsinformationen för de simulerade 100 strukturerna, inklusive positioner, temperaturer, tryck etc., med undantag för hastigheterna.
      OBS: Efter den första omgången med 25 simuleringar har minnet av den ursprungliga banan minskats, så vi genererar fler kluster, t.ex. 100 kluster, i den andra omgången för att väsentligt utöka konformationsprovtagningarna.
  4. Genomföra den andra omgången omfattandeMD-simuleringar
    1. Utför 60-ns MD-simuleringar med utgångspunkt från dessa 100 initiala strukturer efter att ha infört slumpmässiga initiala hastigheter på alla atomer. Lägg till de slumpmässiga initiala hastigheterna genom att aktivera hastighetsgenereringen i mdp-filen, dvs ändra md.mdp-filen gen_vel = nej till gen_vel = ja.
    2. Ta bort de första 10 ns av varje simulering enligt beskrivningen i steg 1.3.1, samla in 2 500 000 ögonblicksbilder från 100 × 50 ns-banorna jämnt för att konstruera MSM.
      OBSERVERA att i den senare makrostatskonstruktionen hittades ett litet antal off-path-tillstånd med en särskilt låg befolkning (~ 0,2%, på botten av X-Θ-planet). Dessa off-path-tillstånd klassificeras som ett makrotillstånd när det totala antalet makrotillstånd är inställt som 3 till 6 (figur 2B). Eftersom ett så lågt befolkningsmakrotillstånd endast innehåller 3 banor, som avlägsnades i slutändan, erhölls resultaten som visas i detta protokoll verkligen från 97 × 50 ns banor, med totalt 2 425 000 ramar eller ögonblicksbilder.
  5. Klustring av andra omgångensMD-banor
    1. Genomför tICA för 2: a omgångens banor som gjort tidigare. Skriv in MSMbuilder:
      msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0,05 -t tica_results,h5
    2. Beräkna den implicita tidsskalan för att validera parametrar för korrelationsfördröjningstiden Δt och mikrostatstal (se figur 1C).
      Equation 4
      där τ representerar den fördröjningstid som används för att bygga övergångssannolikhetsmatrisen (TPM), μk(τ) representerar kth-egenvärdet för TPM under en fördröjningstid på τ. Använd python-skriptet från tilläggsfil 1 för den här python-BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 10 -n 20 -s 500.
    3. Variera fördröjningstiden τ och mikrotillståndsnumret genom att ändra parametrarna som används ovan:
      python BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 5 10 20 30 40 -n 20 -s 20 200 400 500 800 2000
      OBS: Systemet betraktas som Markovian när de implicita tidsskalekurvorna börjar plana ut med tidsskaleseparation. Välj sedan Dt som korrelationsfördröjningstid och τ fördröjningstiden där den implicita tidsskalan börjar plana ut för att skapa MSM.
    4. Välj därför ett relativt stort (men inte för stort) antal tillstånd, N = 500, och en relativt kort korrelationsfördröjningstid Δt = 10 ns. Fördröjningstiden visade sig vara τ = 10 ns för att bygga MSM.
    5. Klassificera konformationerna i 500 kluster (se figur 1D) med hjälp av kommandot:
      msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 500
  6. MSM-konstruktion
    1. Klumpa ihop de 500 mikrotillstånden i 3–6 makrotillstånd för att ta reda på antalet makrotillstånd som passar bäst enligt PCCA+-algoritmen50 i MSMbuilder, genom att använda python-skriptet i Supplementary File 1 python msm_lumping_usingPCCAplus.py. Identifiera ett reducerat kinetiskt nätverk av modeller för de mest väsentliga konformationsförändringarna av biomolekyler, genom att konstruera ett litet antal makrotillstånd, dvs vid kinetiskt klumpning av hundratals mikrotillstånd som beskrivs nedan17,51.
    2. Kartlägg de högdimensionella konformationerna till X (proteinrörelsen längs DNA-långaxeln) och proteinets rotationsvinkel längs DNA för varje makrotillstånd enligt beskrivningen i steg 1.1.3 och 1.1.4 (t.ex. inget tillstånd med för låg befolkning < 1%; se figur 2C). Hitta sedan de tre makrostaterna som bäst representerar systemet (Figur 1E) . Se figur 2D för ögonblicksbilder av proteinets rörelse längs DNA och proteinrotationsvinkeln runt DNA.
      OBS: I tidigare arbete som genererade 10 μs spontant protein framåt stegväg, genomförde vi dessutom 5 x 4 μs jämvikt MD-simuleringar för att måttligt expandera provtagningarna. Vi visade kartläggningen av den ursprungliga framåtriktade banan (se figur 2A till vänster) och ytterligare provtagningsbanor på 4 μs på den tidigare genomförda framåtriktade banan (se figur 2A till höger)8. Kartläggningen av de ursprungliga 100 × 50 ns (se figur 2B vänster)8 och de 97 × 50 ns banor som används i detta arbete visas (se figur 2B till höger).
  7. Beräkning av de genomsnittliga första passagetiderna (MFPT)
    1. Utför fem 10-ms Monte Carlo-banor (MC) baserat på TPM för 500 mikrostats MSM med fördröjningstiden på 10 ns inställd som tidssteg för MC. Beräkna MFPT52 mellan varje par makrotillstånd (Figur 3) med python-skriptet i tilläggsfil 1 python python mfpt_msm3.py.
    2. Beräkna det genomsnittliga och standardfelet för MFPT med bash-filen i tilläggsfil 2, skriv:
      sh mfpt_analysis.bash

2. Genomföra grovkornig (CG) simulering för att prova långsiktig dynamik

  1. Utför en CG-simulering med hjälp av CafeMol 3.0-programvaran30. Se CG-simuleringsinställningarna som anges i indatakonfigurationsfilen med tillägget .inp, inklusive indatastrukturer, simuleringsparametrar, utdatafiler osv. Skriv följande kommando på terminalen för att köra CG-simuleringen:
    cafemol XXX.inp
  2. Ange följande block i indatafilen, där varje block börjar med etiketten < and ending with >>>>.
    1. Ange filnamnsblock (obligatoriskt) för att ange arbetskataloger och sökväg till indata-/utdatafilarkiv. Skriv följande för filnamnsblocket för dessa simuleringar:
      <<<< filnamn
      sökväg = XXXXX (arbetsväg)
      filnamn = wrky (utdatafilnamnen)
      UTGÅNG psf pdb film dcd rst
      path_pdb = XXXXX (inbyggd struktursökväg)
      path_ini = XXXXX (ingångs ursprunglig strukturväg)
      path_natinfo = XXXXX (sökväg till inbyggd informationsfil)
      path_para = XXXXX (sökväg till parameterfiler)
      >>>>
      OBS: Eftersom Go-modellen53 används i CG-modelleringen, dvs protein kommer att vara partiskt till den ursprungliga konformationen, så man måste ställa in den modellerade strukturen som den ursprungliga konformationen. Här sattes ingångskristallstrukturen som den ursprungliga konformationen.
    2. Ange jobbkontrollblocket (obligatoriskt) för att definiera simuleringarnas körläge. Skriv följande kommando:
      <<<< job_cntl
      i_run_mode = 2 (= 2 simuleringen av konstant temperatur)
      i_simulate_type = 1 (=1 Langevindynamik)
      i_initial_state = 2 (=2 betyder att den ursprungliga konfigurationen är inbyggd konfiguration)
      >>>>
      Välj Langevin-dynamiksimuleringar med konstant temperatur.
    3. Ställ in enhets- och tillståndsblocket (obligatoriskt) för att definiera informationen för indatastrukturer. Skriv följande kommando:
      <<<< unit_and_state
      i_seq_read_style = 1 (=1 betyder lässekvenser från PDB-fil)
      i_go_native_read_style = 1 (=1 betyder att den ursprungliga strukturen är från PDB-fil)
      1 proteinprotein.pdb (enhets- och molecular_type native_structure)
      2-3 dna DNA.pdb (enhet &tillstånd molecular_type native_structure)
      >>>>
      OBS: De första ingångsstrukturfilerna (protein.pdb och DNA.pdb här) behövs. Strukturerna är skrivna i pdb-format. Två pdb-filer behövs här: en är proteinstrukturfilen som innehåller de tunga atomkoordinaterna för WRKY (enhet 1), och den andra är koordinaterna för 200-bp dubbelsträngat (ds) DNA (enhet 2-3). Proteinet placeras initialt 15 Å bort från DNA:t.
    4. Ställ in energifunktionsblocket (obligatoriskt) som definieras i blocket energy_function. Skriv följande kommando:
      <<<< energy_function
      LOKAL(1) L_GO
      LOKALT(2-3) L_DNA2
      NLOCAL(1/1) GO EXV ELE
      NLOCAL(2-3/2-3) ELE-DNA
      NLOCAL(1/2-3) EXV ELE
      i_use_atom_protein = 0
      i_use_atom_dna = 0
      i_para_from_ninfo = 1
      i_triple_angle_term = 2
      >>>>
      OBS: I CG-simuleringarna är proteinet grovkornigt av Go-modell53 med varje aminosyra representerad av en CG-partikel placerad vid sin Cα-position. Proteinkonformationen kommer att vara partisk då mot den ursprungliga strukturen, eller kristallstrukturen här, under Go-potentialen (figur 4A vänster). DNA beskrivs av 3SPN.2-modellen54, där varje nukleotid representeras av 3 CG-partikel S, P, N, som motsvarar socker, fosfat respektive kvävebas (Figur 4A höger). De elektrostatiska och vdW-interaktionerna beaktas mellan olika kedjor. De elektrostatiska interaktionerna mellan protein och DNA i CG-simuleringen approximeras av Debye-Hückel-potentialen55. Den vdW-repulsiva energin har samma form som i Go-modellen.
    5. Ange blocket md_information (obligatoriskt) för att definiera simuleringsinformationen. Skriv följande kommando:
      <<<< md_information
      n_step_sim = 1
      n_tstep(1) = 500000000
      tstep_size = 0,1
      n_step_save = 1000
      n_step_neighbor = 100
      i_com_zeroing = 0
      i_no_trans_rot = 0
      tempk = 300,0
      n_seed = -1
      >>>>
      Det n_tstep är simuleringssteget. Ställ in tstep_size som tidslängden för varje MD-steg, varje CG Cafemol-tidssteg är cirka 200 fs30, så varje MD-steg här är i princip 200 × 0,1 fs. Uppdatera grannlistan var 100:e MD-steg (n_step_neighbor = 100). Ställ in simuleringstemperaturen på 300 K. Kontrollera temperaturen genom att använda Verlet-algoritmen av hastighetstyp för uppdatering av proteinstrukturen med Berendsen-termostaten56.
      OBS: Den n_step_sim är bassängnumret för Go-modellens baserade potential, eller det lokala minimala antalet energikurvor. En multipelbassängpotential gör att proteinkonformationen är partisk till olika konformationer så att proteinkonformationen kan ändras från ett lokalt minimum till ett annat. Här används endast modellen Single Basin Go, vilket innebär endast en partisk konformation (kristallstruktur) för protein i simuleringarna. Under tiden, eftersom det inte finns någon protein-DNA-vätebindningsinteraktion etc. modellerad i CG-sammanhanget, kan de molekylära rörelserna samplas ännu snabbare, dvs > 10 gånger än i atomsimuleringarna.
    6. Ställ in elektrostatiskt block (krävs endast när elektrostatisk interaktion används) eftersom den elektrostatiska interaktionen beaktas mellan olika kedjor, så använd detta block för att definiera parametrarna för elektrostatisk interaktion genom att skriva:
      <<<< elektrostatisk
      cutoff_ele = 10,0
      ionic_strength = 0,15
      >>>>
      Ställ in Debye-längden i den elektrostatiska interaktionen till 10 Å, vilket motsvarar lösningens tillstånd. Ställ in jonstyrkan till 0,15 M, som vid det fysiologiska tillståndet.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Rotationskopplad glidning eller 1 bp steg av WRKY från MSM-konstruktionen
Alla proteinkonformationer på DNA mappas till den längsgående rörelsen X och rotationsvinkeln för proteinet COM längs DNA (se figur 3A). Den linjära kopplingen av dessa två grader indikerar rotationskopplad stegning av WRKY-domänproteinet på DNA. Konformationerna kan grupperas ytterligare i tre makrotillstånd (S1, S2 och S3) i MSM. Wrkys steg framåt följer sedan makrotillståndsövergången S1->S2->S3. S1 avser ett metastabilt tillstånd initierat av den modellerade strukturen (baserat på kristallstrukturen hos WRKY-DNA-komplexet40), med en population på ~ 6%. Observera att i nuvarande modellering antogs den ursprungliga proteinkonformationen från kristallstrukturen i vilken proteinet binder till specifik W-box DNA-sekvens40. Ett sådant modellerat protein-poly A-DNA-komplex leder således till mindre gynnsamma initiala strukturer (S1) än de stegade eller slutligen avslappnade strukturerna (S3). Ändå kan man finna att vätebindningarna (HB) vid protein-DNA-gränssnittet återhämtar sig nära mitten av S3 som det nära centrum i S1 (se figur 3B). HB: erna i S1-tillståndet är väl underhållna: K125 med A15, R131, Q146 och Y133 med A16, K144 och Y119 med A17, R135 med A18 (figur 3B uppe till vänster). S3 hänvisar till ett metastabilt tillstånd efter 1-bp-proteinsteget, med nästan alla HB: er förskjutna för 1-bp-avstånd (figur 3B-botten ), och strukturerna verkar stabila med den högsta befolkningen (63%). Mellantillståndet S2 förbinder S1 och S3, med en medelhög befolkning (~ 30%). Vi fann att R135 och K144 är ganska flexibla i detta mellanliggande tillstånd och vanligtvis kan bryta HB med den nuvarande nukleotiden och reformera den med nästa nukleotid (Figur 3B uppe till höger). Sammantaget rörde sig WRKY-proteinet COM ~ 2.9 Å och roterade ~ 55 ° till steg 1 bp här. Det hastighetsbegränsande steget för WRKY-steget är S2->S3, vilket i huvudsak möjliggör kollektiv brytning och reformering av HB: erna och kräver ~ 7 μs i genomsnitt. Däremot kan S1 till S2 passera mycket snabbt vid en tidpunkt av ~ 0,06 μs eller 60-ns (figur 3B), som huvudsakligen involverar proteinets COM-fluktuationer (t.ex. på grund av proteinorienteringsförändringar på DNA).

Ensträngsförspänning av WRKY under processiv diffusion i CG-modellen
I vår senaste studie fann vi att WRKY-domänproteinet binder företrädesvis till en sträng av dsDNA, oavsett under 1-bp-steg eller statisk bindning; och ensträngsförspänningen blir mycket framträdande, särskilt vid specifik DNA-sekvensbindning8. Under tiden är det inte klart om en sådan trend kvarstår under den processiva diffusionen av proteinet längs DNA. Här försökte vi undersöka den potentiella strängbias via CG-simuleringarna. Intressant nog har en signifikant ensträngad DNA-bindningskonfiguration identifierats i CG-simuleringarna av WRKY under processiv diffusion. För att se detta beräknades kontaktnumren mellan protein och DNA på respektive DNA-strängar (se figur 4B). En kontakt beaktas när avståndet mellan protein CG-partikel och DNA CG P (fosfatgrupp) partikel är mindre än 7 Å. Proteinet visar verkligen bias till en av DNA-strängarna (t.ex. ~ 4 kontakter till en sträng och ~ 1 kontakt med den andra), dvs även när detaljerade interaktioner som HB vid protein-DNA-gränssnittet inte modelleras.

Den föredragna DNA-strängen kan emellertid växla från tid till annan mellan dna: s två strängar, beroende på bindningsorienteringen eller konfigurationen av proteinet på DNA. I synnerhet, enligt kontaktnumret som bildas mellan proteinet och respektive DNA-strängar, finns det huvudsakligen 4 tillstånd här (som märkt 1, 2, 3 och 4 i figur 4B, C). I tillstånd 1 och 3 binder en zinkfingerregion mot -Y-riktningen, och den föredragna strängen är den blå. I tillstånd 2 och 3 binder zinkfingerregionen mot +Y-riktningen, och den föredragna strängen blir den röda. Det har också visat sig att zink-fignerregionen interagerar dominerande med DNA (se figur 4D). Därför är DNA-strängen bunden nära zinkfingerregionen verkligen den föredragna. Enligt ovanstående provtagning verkar det således som om strängförspänningen kvarstår men växlar mellan de två DNA-strängarna i CG-modellen för den processiva proteindiffusionen.

Protein individuellt reststeg i CG-simuleringarna
Det märktes tidigare från våra CG-simuleringar att stegstorleken på WRKY kan variera på olika DNA-sekvenser8. Proteinet COM tenderar att steg 1 bp på det homogena poly-A-DNA. Medan på poly-AT-DNA med 2 bp periodicitet verkar andelen 2-bp steg öka.

Dessutom undersökte vi här om enskilda proteinrester rör sig synkront vid protein-DNA-gränssnittet. Vi beräknade stegstorleken för varje mycket konserverad rest i WRKY-motivet (WRKYGQK) för varje 1000 tidssteg (figur 5A). Den återstående stegstorleken för varje konserverad rest kan således mätas från CG-simuleringarna. Resultaten visar verkligen att stegstorlekarna för dessa enskilda rester är mer synkroniserade på poly-A-DNA än på poly-AT eller slumpmässiga DNA-sekvenser (figur 5B).

Figure 1
Figur 1: Konformationsgenerering och mikrostater / makrotillståndskonstruktion. (A) Den initiala framåtgående stegvägen kartlagd på protein-DNA RMSD och proteinrotationsvinkel runt DNA. De ursprungliga valda 25 strukturerna är märkta med röda cirklar. (B) De 100 konformationsklustret centrerar från denförsta omgången 25 x 50 ns MD-simuleringsbanor kartlagda i de två högsta egenvärdes-tIC-riktningarna. (C) Diagram över den implicita tidsskalan som en funktion av fördröjningstiden för MSM-konstruktionen via tICA med valda avståndspar som ingång. För varje uppsättning konstruerades MSM genom att projicera konformationerna på de två översta TC: erna följt av K-centers kluster för att producera 20 till 2000 mikrostater (från vänster till höger kolumn) med korrelationsfördröjningstid för tICA vald från 5 till 40 ns (från topp till nedre raden). (D) De 500 mikrostaterna konstruerade och (E) de vidare konstruerade 3 makrotillstånden, med motsvarande mikrostatscentra kartlagda längs de högsta två tIC-riktningarna. Klicka här för att se en större version av denna figur.

Figure 2
Figur 2: Konstruktion av makrostaterna. (A) Kartläggningen av den initiala framåtgående stegbanan (vänster) och med ett litet antal ytterligare mikrose sekunds banprovtagningar (höger) på proteincentret för massrörelse (COM) längs DNA-långaxeln (X) och rotationsvinkeln runt DNA (erhållen tidigare8). (B) Kartläggningen av de ursprungliga banorna på 100 × 50 ns och de banor på 97 × 50 ns som används vid den nuvarande konstruktionen av marknadskontrollen. (C) Konstruktionen av 3–6 makrostater och deras populationer från den konstruerade MSM är märkta på de omfattande provtagningskartorna. (D) Proteinrörelsen X respektive rotationsvinkeln runt DNA visas. De samplade konformationerna klumpas slutligen ihop till 3 makrotillstånd, med rött, blått och grått som motsvarar makrotillståndet 1, 2 respektive 3. Klicka här för att se en större version av denna figur.

Figure 3
Figur 3: MSM för WRKY-domänproteinet som går på poly-A-DNA. (A) Projektionen av MD-konformationsögonblicksbilderna på koordinaterna för proteinet COM-rörelse X och rotationsvinkeln med avseende på DNA. De tre makrostaterna S1, S2 och S3 är färgade i rött, blått respektive grått. (B) Representativa konformationer och övergångs medelvärde-första passage-tid (MFPT) för de konstruerade 3 makrotillstånden. De viktigaste vätebindningarna mellan protein och DNA visas. Klicka här för att se en större version av denna figur.

Figure 4
Figur 4: Grovkornsmodellen (CG) och kontakterna som bildas mellan protein- och DNA-strängar i CG-modellen. (A) Grovkornigheten av protein (vänster) och DNA (höger). (B) Kontaktnumret mellan WRKY och varje DNA-sträng längs simuleringen. (C) De molekylära vyerna av de fyra kontaktlägena. Proteinregionen nära zinkfingret är färgad i grått och den andra regionen är färgad i grönt. (D) Kontaktsannolikheten för varje proteinaminosyra med DNA. När avståndet mellan aminosyrans CG-partikel och eventuella DNA CG-partiklar är mindre än 7 Å anses aminosyran vara i kontakt med DNA. Klicka här för att se en större version av denna figur.

Figure 5
Figur 5: Diffusionsstegsstorlekarna för enskilda proteinaminosyra i WRKY-motivet som WRKY som rör sig längs DNA. (A) De mycket konserverade resterna (WRKYGQK) i atomstrukturen (vänster) och efter grovkornighet (höger). (B) Stegstorleken för varje konserverad rest på olika DNA-sekvenser (poly-A; poly-AT; slumpmässiga sekvenser) Klicka här för att se en större version av denna figur.

Kompletterande akt 1: Python-koderna och programvaran som används i detta protokoll. MSM byggs huvudsakligen med hjälp av MSMbuilder, de nödvändiga pythonkoderna bifogas. Klicka här för att ladda ner den här filen.

Kompletterande akt 2: De atomistiska molekylära dynamiksimuleringarna utförs av GROMACS, kommandona och nödvändiga filer för att bygga all-atomsimuleringar bifogas också. De grovkorniga simuleringarna utförs av CafeMol-programvaran. Simuleringsresultaten analyseras av VMD och MATLAB. Klicka här för att ladda ner den här filen.

Kompletterande akt 3: Tcl-skriptet för att rotera och flytta protein i VMD. Klicka här för att ladda ner den här filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Detta arbete behandlar hur man utför strukturbaserad beräkningssimulering och provtagningar för att avslöja en transkriptionsfaktor eller TF-protein som rör sig längs DNA, inte bara vid atomdetaljer för stegning utan också i den processiva diffusionen, vilket är avgörande för underlättad diffusion av TF i DNA-målsökningen. För att göra det konstruerades Markov-tillståndsmodellen eller MSM för ett litet TF-domänprotein WRKY som steg för 1-bp längs homogent poly-A-DNA, så att ett ensemble av proteinkonformationer på DNA tillsammans med kollektiv vätebindning eller HB-dynamik vid protein-DNA-gränssnittet kan avslöjas. För att erhålla MSM genomförde vi två omgångar av omfattande MD-simuleringar med alla atomer längs en spontan proteinstegväg (erhållen från tidigare 10-μs-simulering), med aktuella provtagningar i aggregering av 7,5 μs (125 x 60 ns). Sådana omfattande provtagningar ger oss ögonblicksbilder för konformationskluster i hundratals mikrostater, med användning av protein-DNA-gränssnittsavstånd som geometriska mått för klustringen. Markovian-egenskapen hos MSM-konstruktionen valideras delvis genom att detektera tidsskaleseparation från de implicita tidsskalorna beräknade för olika längder eller fördröjningstid för enskilda MD-simuleringar. 20–2000 mikrotillstånd testades sedan och jämfördes för tidsskalans separationsegenskaper, med 500 mikrotillstånd utvalda för MSM-konstruktionen. Vidare klumpades de 500 mikrostaterna kinetiskt ihop i ett litet antal makrostater, för vilka vi testade olika antal stater och fann att tre makrostater var tillräckliga för det nuvarande systemet. Trestatsmodellen visar helt enkelt att tillstånd S1 passerar till S2 relativt snabbt (inom tiotals ns), dominerat av proteincentrum för massfluktuationer (COM) på DNA, medan tillstånd S2 passerar till S3 långsamt och är hastighetsbegränsande (~ 7 μs i genomsnitt), dominerat av kollektiv HB-dynamik för stegning. Observera att kinetisk klumpning av mikrostaterna i ett litet antal kinetiskt distinkta makrotillstånd fortfarande är föremål för metodutveckling, med olika algoritmer testade och maskininlärningstekniker för förbättringar 57,58,59,60,61,62,63 . De kritiska stegen för att bygga MSM inkluderar att välja de avståndspar som används i tICA och bestämma parametrarna som används för att konstruera mikrotillstånd. Valet av distanspar är kunskapsbaserat, och det är viktigt att välja de viktigaste interaktionsparen. Parametrarna för att konstruera mikrostater, såsom korrelationsfördröjningstid, fördröjningstid, mikrostaternas muber, måste ställas in ordentligt för att säkerställa att systemet är Markovian.

Med sådana ansträngningar kan submikro- till mikrosekutproteinstrukturdynamiken med atomdetaljer systematiskt avslöjas för proteinsteg 1-bp längs DNA. I princip, med övergångssannolikhetsmatrisen erhållen från MSM-konstruktionen, kan systemet utvecklas till en lång tidsskala bortom mikrosekunder, eller säg, för att närma sig millisekunder och över 13,17,64. Det finns dock inneboende begränsningar för MSM-provtagningen och konstruktionen, som förlitar sig på enskilda simuleringar under mikroseconds runt en viss initial väg, och Markovian-egenskapen kanske inte är väl garanterad 65,66. I de flesta metoder konstruerades den ursprungliga vägen under tvång eller acceleration, men i det nuvarande systemet utnyttjar vi en spontan proteinstegväg (utan att tvinga eller accelerera) erhållen från en 10-ms jämviktssimulering8. De konformationella provtagningarna i aggregerad form är fortfarande begränsade med tiotals mikrosekondrar på grund av höga beräkningskostnader för atomsimuleringarna. Sådana mikrosecondsprovtagningar av proteinsteget är osannolikt att ge tillräckliga konformationer för att visas på långvarig skala processiv TF-diffusion. Minnesproblemet skulle bli betydande om man implementerar den för närvarande erhållna övergångssannolikhetsmatrisen utöver en viss tidsskala, och Markovian-egenskapen är inte garanterad för att säkerställa korrekt användning av nuvarande MSM 14,52,66. För att prova den långvariga processiva diffusionen av TF längs DNA implementeras därför restnivån grovkornig eller CG-modellering och simulering istället för att balansera mellan att upprätthålla den strukturella grunden och sänka beräkningskostnaden.

I CG-modelleringen och simuleringen representeras proteinresterna och DNA-nukleotiderna av pärlor (dvs. en pärla för en aminosyra och tre pärlor för en nukleotid), med proteinkonformationen bibehållen via Go-modellen mot en infödd eller förbalanserad konfiguration30,53. Även om atomnivån för HB-interaktioner blir frånvarande i CG-modellen, är protein-DNA-elektrostatiska interaktioner väl underhållna, vilket verkar kunna fånga dominerande dynamikfunktioner i den processiva diffusionen av proteinet längs DNA 67,68,69,70. Detaljerade implementeringsprotokoll presenteras för modellering och simulering av WRKY-DNA-systemet här. De representativa resultaten visar intressant att för det första kvarstår den ensträngade DNA-bias som presenterades i den tidigare atomsimuleringen av WRKY-DNA-systemet i CG-modellen, medan en mängd olika proteinorienteringar / konfigurationer som provtas under processiv diffusion leder till att förspänningen mellan de två strängarna växlas från tid till annan. Därför kopplar en sådan DNA-strängbias inte nödvändigtvis till HB-association utan verkar huvudsakligen förlita sig på protein-DNA-elektrostatiska interaktioner, som varierar för olika proteinkonfigurationer eller orienteringar på DNA. Därefter visar enskilda aminosyror vid eller nära protein-DNA-gränssnittet, såsom de mycket konserverade WRKQGQK-motiven, olika stegstorlekar eller synkroniseringsmönster för olika DNA-sekvenser. I vår tidigare studie visades stegstorleksvariationerna endast för proteinets COM, eftersom proteinet modellerades för att diffundera längs olika DNA-sekvenser. Observera att den nuvarande CG-modellen av DNA stöder DNA-sekvensvariationer med olika parameterisering 54,71,72, även om atomdetaljer saknas. Korrekt DNA-sekvensberoende parameterisering i den strukturbaserade modelleringen av protein-DNA-systemet är därför avgörande för att avslöja protein-DNA-sök- och igenkänningsmekanismer över flera tids- och längdskalor.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har ingen intressekonflikt.

Acknowledgments

Detta arbete har fått stöd av NSFC Grant #11775016 och #11635002. JY har fått stöd av CMCF för UCI via NSF DMS 1763272 och Simons Foundation-bidraget #594598 och startfonden från UCI. LTD har fått stöd av Natural Science Foundation of Shanghai #20ZR1425400 and #21JC1403100. Vi erkänner också beräkningsstödet från Beijing Computational Science Research Center (CSRC).

Materials

Name Company Catalog Number Comments
CafeMol Kyoto University coarse-grained (CG) simulations
GROMACS University of Groningen Royal Institute of Technology Uppsala University molecular dynamics simulations software
Matlab MathWorks Numerical calculation software
MSMbuilder Stanford University build MSM
VMD UNIVERSITY OF ILLINOIS AT URBANA-CHAMPAIGN molecular visualization program

DOWNLOAD MATERIALS LIST

References

  1. Latchman, D. S. Transcription factors: an overview. The International Journal of Biochemistry & Cell Biology. 29 (12), 1305-1312 (1997).
  2. Berg, O. G., von Hippel, P. H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. Journal of Molecular Biology. 193 (4), 723-750 (1987).
  3. von Hippel, P. H., Berg, O. G. Facilitated target location in biological systems. The Journal of Biological Chemistry. 264 (2), 675-678 (1989).
  4. Halford, S. E., Marko, J. F. How do site-specific DNA-binding proteins find their targets. Nucleic Acids Research. 32 (10), 3040-3052 (2004).
  5. Slusky, M., Mirny, L. A. Kinetics of protein-DNA interaction: facilitated target location in sequence-dependent potential. Biophysical Journal. 87 (6), 4021-4035 (2004).
  6. Bauer, M., Metzler, R. Generalized facilitated diffusion model for DNA-binding proteins with search and recognition states. Biophysical Journal. 102 (10), 2321-2330 (2012).
  7. Shvets, A. A., Kochugaeva, M. P., Kolomeisky, A. B. Mechanisms of Protein Search for Targets on DNA: Theoretical Insights. Molecules. 23 (9), Basel, Switzerland. 2106 (2018).
  8. Dai, L., Xu, Y., Du, Z., Su, X. D., Yu, J. Revealing atomic-scale molecular diffusion of a plant-transcription factor WRKY domain protein along DNA. Proceedings of the National Academy of Sciences of the United States of America. 118 (23), 2102621118 (2021).
  9. Chodera, J. D., Singhal, N., Pande, V. S., Dill, K. A., Swope, W. C. Automatic discovery of metastable states for the construction of Markov models of macromolecular conformational dynamics. The Journal of Chemical Physics. 126 (15), 155101 (2007).
  10. Pan, A. C., Roux, B. Building Markov state models along pathways to determine free energies and rates of transitions. The Journal of Chemical Physics. 129 (6), 064107 (2008).
  11. Bowman, G. R., Huang, X., Pande, V. S. Using generalized ensemble simulations and Markov state models to identify conformational states. Methods. 49 (2), San Diego, California. 197-201 (2009).
  12. Prinz, J. H., et al. Markov models of molecular kinetics: Generation and validation. The Journal of chemical physics. 134 (17), 174105 (2011).
  13. Chodera, J. D., Noé, F. Markov state models of biomolecular conformational dynamics. Current Opinion in Structural Biology. 25, 135-144 (2014).
  14. Malmstrom, R. D., Lee, C. T., Van Wart, A. T., Amaro, R. E. On the Application of Molecular-Dynamics Based Markov State Models to Functional Proteins. Journal of Chemical Theory and Computation. 10 (7), 2648-2657 (2014).
  15. Husic, B. E., Pande, V. S. Markov State Models: From an Art to a Science. Journal of the American Chemical Society. 140 (7), 2386-2396 (2018).
  16. Sittel, F., Stock, G. Perspective: Identification of collective variables and metastable states of protein dynamics. The Journal of chemical physics. 149 (15), 150901 (2018).
  17. Wang, W., Cao, S., Zhu, L., Huang, X. Constructing Markov State Models to elucidate the functional conformational changes of complex biomolecules. WIREs Computational Molecular Science. 8, 1343 (2018).
  18. Peng, S., et al. Target search and recognition mechanisms of glycosylase AlkD revealed by scanning FRET-FCS and Markov state models. Proceedings of the National Academy of Sciences of the United States of America. 117 (36), 21889-21895 (2020).
  19. Tian, J., Wang, L., Da, L. T. Atomic resolution of short-range sliding dynamics of thymine DNA glycosylase along DNA minor-groove for lesion recognition. Nucleic Acids Research. 49 (3), 1278-1293 (2021).
  20. Chu, J. -W., Izveko, S., Voth, G. The multiscale challenge for biomolecular systems: coarse-grained modeling. Molecular Simulation. 32 (3-4), 211-218 (2006).
  21. Marrink, S. J., Risselada, H. J., Yefimov, S., Tieleman, D. P., De Vries, A. H. The MARTINI force field: coarse grained model for biomolecular simulations. The Journal of Physical Chemistry B. 111 (27), 7812-7824 (2007).
  22. Givaty, O., Levy, Y. Protein sliding along DNA: dynamics and structural characterization. Journal of Molecular Biology. 385 (4), 1087-1097 (2009).
  23. Khazanov, N., Levy, Y. Sliding of p53 along DNA can be modulated by its oligomeric state and by cross-talks between its constituent domains. Journal of Molecular Biology. 408 (2), 335-355 (2011).
  24. Riniker, S., Allison, J. R., van Gunsteren, W. F. On developing coarse-grained models for biomolecular simulation: a review. Physical Chemistry Chemical Physics : PCCP. 14 (36), 12423-12430 (2012).
  25. Kmiecik, S., et al. Coarse-Grained Protein Models and Their Applications. Chemical Reviews. 116 (14), 7898-7936 (2006).
  26. Bhattacherjee, A., Krepel, D., Levy, Y. Coarse-grained models for studying protein diffusion along DNA. WIREs Computational Molecular Science. 6, 515-531 (2016).
  27. Wang, J., et al. Machine Learning of Coarse-Grained Molecular Dynamics Force Fields. ACS Central Science. 5 (5), 755-767 (2019).
  28. Joshi, S. Y., Deshmukh, S. A. A review of advancements in coarse-grained molecular dynamics simulations. Molecular Simulation. 47 (10-11), 786-803 (2021).
  29. Bigman, L. S., Greenblatt, H. M., Levy, Y. What Are the Molecular Requirements for Protein Sliding along DNA. The Journal of Physical Chemistry B. 125 (12), 3119-3131 (2021).
  30. Kenzaki, H., et al. CafeMol: A Coarse-Grained Biomolecular Simulator for Simulating Proteins at Work. Journal of Chemical Theory and Computation. 7 (6), 1979-1989 (2011).
  31. Berendsen, H. J. C., vander Spoel, D., van Drunen, R. GROMACS: a message-passing parallel molecular dynamics implementation. Computer Physics Communications. 91 (1-3), 43-56 (1995).
  32. vander Spoel, D., et al. GROMACS: fast, flexible, and free. Journal of Computational Chemistry. 26 (16), 1701-1718 (2005).
  33. Abraham, M. J., et al. GROMACS: High performance molecular simulations through multi-level parallelism from laptops to supercomputers. SoftwareX. 1-2, 19-25 (2015).
  34. Harrigan, M. P., et al. MSMBuilder: Statistical Models for Biomolecular Dynamics. Biophysical journal. 112 (1), 10-15 (2017).
  35. Humphrey, W., Dalke, A., Schulten, K. VMD: visual molecular dynamics. Journal of Molecular Graphics. 14 (1), 33-38 (1996).
  36. Izrailev, S., et al. Steered Molecular Dynamics. Computational Molecular Dynamics: Challenges, Methods, Ideas. 4, Springer. Berlin, Heidelberg. 39-65 (1999).
  37. Schlitter, J., Engels, M., Krüger, P. Targeted molecular dynamics: a new approach for searching pathways of conformational transitions. Journal of Molecular Graphics. 12 (2), 84-89 (1994).
  38. Maragliano, L., Fischer, A., Vanden-Eijnden, E., Ciccotti, G. String method in collective variables: minimum free energy paths and isocommittor surfaces. The Journal of Chemical Physics. 125 (2), 24106 (2006).
  39. Weiss, D. R., Levitt, M. Can morphing methods predict intermediate structures. Journal of Molecular Biology. 385 (2), 665-674 (2009).
  40. Xu, Y. P., Xu, H., Wang, B., Su, X. D. Crystal structures of N-terminal WRKY transcription factors and DNA complexes. Protein. 11 (3), 208-213 (2020).
  41. Higham, D. J., Higham, N. J. MATLAB guide. Society for Industrial and Applied Mathematics. , (2016).
  42. Hartigan, J. A., Wong, M. A. Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
  43. Gonzalez, T. F. Clustering to minimize the maximum intercluster distance. Theoretical Computer Science. 38, 293-306 (1985).
  44. Zhao, Y., Sheong, F. K., Sun, J., Sander, P., Huang, X. A fast parallel clustering algorithm for molecular simulation trajectories. Journal of Computational Chemistry. 34 (2), 95-104 (2013).
  45. Ivani, I., et al. Parmbsc1: a refined force field for DNA simulations. Nature Methods. 13 (1), 55-58 (2016).
  46. Naritomi, Y., Fuchigami, S. Slow dynamics of a protein backbone in molecular dynamics simulation revealed by time-structure based independent component analysis. The Journal of Chemical Physics. 139 (21), 215102 (2013).
  47. Naritomi, Y., Fuchigami, S. Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: the case of domain motions. The Journal of Chemical Physics. 134 (6), 065101 (2011).
  48. Pérez-Hernández, G., Paul, F., Giorgino, T., De Fabritiis, G., Noé, F. Identification of slow molecular order parameters for Markov model construction. The Journal of Chemical Physics. 139 (1), 015102 (2013).
  49. McGibbon, R. T., Pande, V. S. Variational cross-validation of slow dynamical modes in molecular kinetics. The Journal of Chemical Physics. 142 (12), 124105 (2015).
  50. Deuflhard, P., Weber, M. Robust Perron cluster analysis in conformation dynamics. Linear Algebra and its Applications. 398, 161-184 (2005).
  51. Silva, D. A., et al. Millisecond dynamics of RNA polymerase II translocation at atomic resolution. Proceedings of the National Academy of Sciences of the United States of America. 111 (21), 7665-7670 (2014).
  52. Swope, W. C., Pitera, J. W., Suits, F. Describing Protein Folding Kinetics by Molecular Dynamics Simulations. 1. Theory. The Journal of Physical Chemistry B. 108 (21), 6571-6581 (2004).
  53. Clementi, C., Nymeyer, H., Onuchic, J. N. Topological and energetic factors: what determines the structural details of the transition state ensemble and "en-route" intermediates for protein folding? An investigation for small globular proteins. Journal of molecular biology. 298 (5), 937-953 (2000).
  54. Hinckley, D. M., Freeman, G. S., Whitmer, J. K., De Pablo, J. J. An experimentally-informed coarse-grained 3-Site-Per-Nucleotide model of DNA: structure, thermodynamics, and dynamics of hybridization. The Journal of chemical physics. 139 (14), 144903 (2013).
  55. Debye, P., Huckel, E. The theory of the electrolyte II-The border law for electrical conductivity. Physikalische Zeitschrift. 24, 305-325 (1923).
  56. Berendsen, H. J., Postma, J. V., van Gunsteren, W. F., DiNola, A., Haak, J. R. Molecular dynamics with coupling to an external bath. The Journal of Chemical Physics. 81, 3684-3690 (1984).
  57. Bowman, G. R. Improved coarse-graining of Markov state models via explicit consideration of statistical uncertainty. The Journal of Chemical Physics. 137 (13), 134111 (2012).
  58. Jain, A., Stock, G. Identifying metastable states of folding proteins. Journal of Chemical Theory and Computation. 8 (10), 3810-3819 (2012).
  59. Röblitz, S., Weber, M. Fuzzy spectral clustering by PCCA+: application to Markov state models and data classification. Advances in Data Analysis and Classification. 7, 147-179 (2013).
  60. Mardt, A., Pasquali, L., Wu, H., Noé, F. VAMPnets for deep learning of molecular kinetics. Nature Communications. 9 (1), 5 (2018).
  61. Wang, W., Liang, T., Sheong, F. K., Fan, X., Huang, X. An efficient Bayesian kinetic lumping algorithm to identify metastable conformational states via Gibbs sampling. The Journal of Chemical Physics. 149 (7), 072337 (2018).
  62. Chen, W., Sidky, H., Ferguson, A. L. Nonlinear discovery of slow molecular modes using state-free reversible VAMPnets. The Journal of Chemical Physics. 150 (21), 214114 (2019).
  63. Gu, H., et al. RPnet: a reverse-projection-based neural network for coarse-graining metastable conformational states for protein dynamics. Physical Chemistry Chemical Physics :PCCP. 24 (3), 1462-1474 (2022).
  64. Lane, T. J., Bowman, G. R., Beauchamp, K., Voelz, V. A., Pande, V. S. Markov state model reveals folding and functional dynamics in ultra-long MD trajectories. Journal of the American Chemical Society. 133 (45), 18413-18419 (2011).
  65. Konovalov, K. A., Unarta, I. C., Cao, S., Goonetilleke, E. C., Huang, X. Markov State Models to Study the Functional Dynamics of Proteins in the Wake of Machine Learning. JACS Au. 1 (9), 1330-1341 (2021).
  66. Cao, S., Montoya-Castillo, A., Wang, W., Markland, T. E., Huang, X. On the advantages of exploiting memory in Markov state models for biomolecular dynamics. The Journal of Chemical Physics. 153 (1), 014105 (2020).
  67. Brandani, G. B., Takada, S. Chromatin remodelers couple inchworm motion with twist-defect formation to slide nucleosomal DNA. PLoS Computational Biology. 14 (11), 1006512 (2018).
  68. Tan, C., Terakawa, T., Takada, S. Dynamic Coupling among Protein Binding, Sliding, and DNA Bending Revealed by Molecular Dynamics. Journal of the American Chemical Society. 138 (27), 8512-8522 (2016).
  69. Terakawa, T., Takada, S. p53 dynamics upon response element recognition explored by molecular simulations. Scientific reports. 5, 17107 (2015).
  70. Brandani, G. B., Niina, T., Tan, C., Takada, S. DNA sliding in nucleosomes via twist defect propagation revealed by molecular simulations. Nucleic Acids Research. 46 (6), 2788-2801 (2018).
  71. Knotts, T. A., Rathore, N., Schwartz, D. C., de Pablo, J. J. A coarse grain model for DNA. The Journal of Chemical Physics. 126 (8), 084901 (2007).
  72. Freeman, G. S., Hinckley, D. M., Lequieu, J. P., Whitmer, J. K., de Pablo, J. J. Coarse-grained modeling of DNA curvature. The Journal of Chemical Physics. 141 (16), 165103 (2014).

Tags

Biologi utgåva 181
Strukturbaserad simulering och provtagning av transkriptionsfaktorproteinrörelser längs DNA från atomskala som går till grovkornig diffusion
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

E, C., Dai, L., Tian, J., Da, L. T., More

E, C., Dai, L., Tian, J., Da, L. T., Yu, J. Structure-Based Simulation and Sampling of Transcription Factor Protein Movements along DNA from Atomic-Scale Stepping to Coarse-Grained Diffusion. J. Vis. Exp. (181), e63406, doi:10.3791/63406 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter