Biology

Simulação baseada em estrutura e amostragem de movimentos de proteína do fator de transcrição ao longo do DNA de pisando em escala atômica para difusão grosseira

Published: March 1, 2022 doi: 10.3791/63406

Chao E*¹, Liqiang Dai*^1,2, Jiaqi Tian^3,4, Lin-Tai Da⁴, Jin Yu^5,6,7

¹Beijing Computational Science Research Center, ²Shenzhen JL Computational Science and Applied Research Institute, ³School of Medical Informatics and Engineering, Xuzhou Medical University, ⁴Key Laboratory of Systems Biomedicine (Ministry of Education), Shanghai Center for Systems Biomedicine, Shanghai Jiao Tong University, ⁵Department of Physics and Astronomy, University of California, Irvine, ⁶Department of Chemistry, University of California, Irvine, ⁷NSF-Simons Center for Multiscale Cell Fate Research, University of California, Irvine

* These authors contributed equally

Summary

O objetivo deste protocolo é revelar a dinâmica estrutural da difusão unidimensional de proteína ao longo do DNA, usando um fator de transcrição vegetal proteína de domínio WRKY como um sistema exemplar. Para isso, foram implementadas simulações de dinâmica molecular atomística e grosseira, juntamente com extensas amostras computacionais.

Abstract

O deslizamento unidimensional (1-D) da proteína fator de transcrição (TF) ao longo do DNA é essencial para a difusão facilitada do TF para localizar o local de DNA alvo para regulação genética. Detectar a resolução do par de bases (bp) do TF deslizando ou pisando no DNA ainda é experimentalmente desafiador. Recentemente realizamos simulações de dinâmica molecular de todos os átomos (MD) capturando um passo espontâneo de 1 bp de uma pequena proteína TF de domínio WRKY ao longo do DNA. Com base no caminho de 10 μs WRKY obtido a partir de tais simulações, o protocolo aqui mostra como realizar amostras conformais mais extensas dos sistemas TF-DNA, construindo o modelo de estado markov (MSM) para a pisada de proteína de 1 bp, com vários números de micro e macro-estados testados para a construção do MSM. A fim de examinar a busca difusiva 1D processiva da proteína TF ao longo do DNA com base estrutural, o protocolo mostra ainda como realizar simulações de MD de grãos grosseiros (CG) para amostrar dinâmicas de escala de longo prazo do sistema. Tais modelagem e simulações de CG são particularmente úteis para revelar os impactos eletrostáticos de DNA proteico nos movimentos difusivos processivos da proteína TF acima de dezenas de microssegundos, em comparação com sub-microsegundos a movimentos de pisando proteicos microsegundos revelados a partir das simulações de todos os átomos.

Introduction

Fatores de transcrição (TF) buscam o DNA alvo para vincular e regular a transcrição genética e as atividades relacionadas¹. Além da difusão tridimensional (3D), a difusão facilitada de TF tem sido sugerida como essencial para a busca de DNA alvo, na qual as proteínas também podem deslizar ou saltar ao longo do DNA unidimensional (1D) ou saltar com transferência intersegmental no DNA 2,3,4,5,6,7.

Em um estudo recente, realizamos dezenas de microssegundos (μs) de todas as simulações de dinâmica molecular de equilíbrio átomo (MD) em uma planta TF - a proteína de domínio WRKY no DNA⁸. Um passo completo de 1 bp de WRKY em DNA poli-A dentro de microssegundos foi capturado. Os movimentos da proteína ao longo da dinâmica de quebra de cadeias de DNA e de hidrogênio (HBs) foram observados. Embora tal trajetória represente um caminho amostrado, uma paisagem global de intensificação de proteínas ainda é a falta. Aqui, mostramos como expandir as amostras computacionais ao redor do caminho de avanço proteico inicialmente capturado com o modelo de estado markov construído (MSM), que foram amplamente implementados para simular uma variedade de sistemas biomoleculares envolvendo mudanças conformais substanciais e separação em escala de tempo 9,10,11,12,13,14,15,16^, 17,18,19. O objetivo é revelar o conjunto conformacional e os estados meta-estáveis da difusão da proteína TF ao longo do DNA para um passo cíclico.

Enquanto a simulação de MD acima revela a resolução atômica dos movimentos proteicos para 1 bp no DNA, a dinâmica estrutural da difusão processiva de longa data do TF ao longo do DNA na mesma alta resolução dificilmente é acessível. A realização de simulações de MD de grãos grosseiros (CG) ao nível de resíduo é tecnicamente acessível. A escala de tempo de simulação cg pode ser efetivamente estendida para dezenas ou centenas de vezes mais do que as simulações atômicas 20,21,22,23,24,25,26,27,28,29. Aqui, mostramos as simulações de CG conduzidas pela implementação do software CafeMol desenvolvido pelo laboratório Takada³⁰.

No protocolo atual, apresentamos as simulações atômicas da proteína de domínio WRKY ao longo do DNA poli-A e da construção do MSM primeiro, que se concentram na amostragem dos movimentos de intensificação da proteína por apenas 1 bp ao longo do DNA. Em seguida, apresentamos a modelagem CG e simulações do mesmo sistema proteína-DNA, que estendem a amostragem computacional à difusão processiva de proteína sobre dezenas de bps ao longo do DNA.

Aqui, usamos o software GROMACS^31,32,33 para realizar simulações de MD e MSMbuilder³⁴ para construir o MSM para instantâneos conformacionais amostrados, bem como para usar o VMD³⁵ para visualizar as biomoléculas. O protocolo exige que o usuário seja capaz de instalar e implementar o software acima. A instalação e implementação do software CafeMol³⁰ é então necessária para a realização das simulações de CG MD. Outras análises das trajetórias e visualização também são realizadas em VMD.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Construção do modelo de estado markov (MSM) a partir de simulações atômicas de MD

Caminho de passo de proteína espontânea e coleta de estruturas iniciais
1. Use uma trajetória de 10 μs md de 10 μs de todos os átomos⁸ para extrair 10000 quadros uniformemente de um caminho de 1 bp "para a frente" (ou seja, um quadro para cada nanossegundo). O número total de quadros precisa ser suficientemente grande para incluir todas as conformações representativas.
2. Prepare o caminho de transição com 10000 quadros em VMD clicando em Arquivo > Salve coordenadas, digite proteína ou nucleic na caixa de átomos selecionados e escolha quadros na caixa Quadros, clique em Salvar para obter os quadros necessários.
  NOTA: Uma trajetória de simulação de MD de 10 μs de todos os átomos (chamada "trajetória de passo para frente" aqui) para WRKY pisar a distância de 1 bp em um DNA poli-A homogêneo^de 34 bps foi usado como o caminho inicial para lançar novas amostras conformais. Observe que na maioria das práticas, no entanto, um caminho inicial é construído, realizando simulações de MD direcionadas ou direcionadas, ou implementando métodos gerais de geração de caminhos, etc.36,37,38,39.
3. Alinhe o longo eixo do DNA de referência (da estrutura cristalina) ao eixo x, e defina o centro inicial de massa (COM) do DNA completo de 34 bps na origem do espaço de coordenadas para a conveniência de uma análise de dados mais aprofundada. Para fazer isso, clique em Extensões > Tk Console em VMD e digite na janela de comando do console Tk:
  rotação de fonte.tcl
  O script tcl pode ser encontrado no Arquivo Complementar 3.
4. Em seguida, calcule a distância média-radicular (RMSD) da espinha dorsal da proteína alinhando o DNA central de 10 bp (A 14 a 23 e T 14' a 23') a partir da estrutura cristalina⁴⁰, e o RMSD representa medidas geométricas dos sistemas (ver Figura 1A). Faça isso clicando em VMD > Extensões > Análise > ferramenta de trajetória RMSD e digite nucleic e resíduo 14 a 23 e 46 a 55 na caixa de seleção de átomos, clique em Alinhar e, em seguida, caixa RMSD para calcular os valores RMSD.
5. Calcule o grau de rotação da proteína em torno do DNA Φ(t) no plano y-z no MATLAB digitando o comando
  rad2deg(atan(z/y))
  com o posicionamento angular inicial definido como Φ(0)=0, como realizado anteriormente⁸.
6. Digite o seguinte comando no MATLAB⁴¹ para usar os métodos k-means 42,43,44 e classificar as estruturas 10000 em 25 clusters digitando:
  [idx, C]=kmeans( X, 25)
  aqui X é uma matriz 2D de RMSD e ângulo rotacional de WRKY no DNA. Reúna as estruturas desses 25 centros de cluster para mais simulações de MD.
  NOTA: Uma vez que a proteína RMSD amostrada em relação ao DNA cobre uma faixa de cerca de 25 Å, escolhemos 25 clusters para ter um cluster por angstrom.
Realização da^1ª rodada de simulações de MD e as configurações de simulação
1. Construa sistemas atomísticos para as 25 estruturas usando o software GROMACS 5.1.2³² sob o campo de força parmbsc1⁴⁵ e usando o arquivo buildsystem.sh do Arquivo Suplementar 2 em shell.
2. Realize simulações de MD de 60 ns para estes 25 sistemas sob conjunto NPT com uma etapa de tempo de 2 fs digitando o seguinte comando em shell:
  gmx_mpi grompp -f md.mdp -c npt.gro -p topol.top -o md.tpr
  gmx_mpi mdrun -deffnm md
Agrupando o 1^St trajetórias de MD redondas
1. Remova os primeiros 10 ns de cada trajetória de simulação digitando em shell:
  gmx_mpi trjcat -f md.xtc -b 10000 -e 6000000 -o newtraj.xtc
  e coletar conformações das trajetórias de 25 × 50 ns para agrupamento para preparar as estruturas de entrada para as amostras mais extensas subsequentes (simulações de MD^{da 2ª} rodada).
  NOTA: Para reduzir o impacto do caminho inicial e permitir o equilíbrio local, foram removidos 10 ns do período inicial de simulações.
2. Escolha pares de distância entre proteína e DNA como parâmetros de entrada para a análise de componentes independentes do tempo (tICA)46,47,48 projeção. Use o comando make_ndx no GROMACS para fazer isso:
  gmx_mpi make_ndx -f entrada.pdb -o índice.ndx
  NOTA: Aqui, os átomos de proteína CA e os átomos pesados (NH1, NH2, OH, NZ, NE2, ND2) de resíduo Y119, K122, Foram selecionados K125, R131, Y133, Q146, K144, R135, W116, R117, Y134, K118, Q121 que podem formar ligações de hidrogênio (HBs) com o nucleotídeo de DNA, que combinam com os átomos O1P O2P e N6 do nucleotídeo de DNA (A14-20, T19-23). Os aminoácidos selecionados podem formar HBs estáveis ou pontes de sal com DNA.
3. Copie o índice de átomo acima selecionado do arquivo index.ndx para um novo arquivo de texto (índice.dat). Obtenha as informações do par entre esses átomos pelo script python do Arquivo Suplementar 1 generate_atom_indices.py e digite:
  índice de generate_atom_indices.py python2.6.dat > AtomIndices.txt
  Isso gera os 415 pares de distância entre proteína e DNA.
4. Calcule os pares de 415 distâncias de cada trajetória digitando o seguinte comando na janela de comando MSMbuilder:
  msmb AtomPairsFeaturizer -out pair_features --pair_indices AtomIndices.txt --principais referências.pdb --trjs "trajetórias/*.xtc" --transformadas pair_features --stride 5
5. Conduzir o tICA para reduzir a dimensão dos dados nos dois primeiros componentes independentes do tempo (tICs) ou vetores digitando:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gama 0.05 -t tica_results.h5
  NOTA: o tICA é um método de redução de dimensões que calcula o eigenvalue da matriz de correlação com atraso de tempo para determinar os graus mais lentos de liberdade do sistema de simulação pela equação:
  
  onde X_i(t) é o valor da coordenada de reação i-th no momento t, e X_j(t+Δt) é o valor da coordenada de reação j-th no momento t+Δt. é o valor de expectativa do produto das trajetórias de simulação geral X_i(t) e X_j(t + Δt). As direções ao longo dos graus de liberdade relaxantes mais lentos correspondem aos maiores valores eigen da matriz de correlação acima de tempo. Aqui, 2 tICs parecem ser um conjunto mínimo para diferenciar três macroestações em nossa construção MSM (abordada posteriormente). Pode-se também calcular a pontuação de⁴⁹% do quociente de matriz generalizada rayleigh (GMRQ), por exemplo, para explorar um conjunto ideal de componentes a serem usados.
6. Use o comando no MSMbuilder para agrupar os conjuntos de dados projetados em 100 clusters pelo método K-center^43,44 (ver Figura 1B):
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 100.
  Selecione a estrutura central de cada cluster como a estrutura inicial para a^2ª rodada de simulações de MD. Manter as informações de simulação das 100 estruturas simuladas, incluindo posições, temperaturas, pressões, etc., exceto pelas velocidades.
  NOTA: Após a primeira rodada de 25 simulações, a memória do caminho inicial foi reduzida, por isso geramos mais clusters, por exemplo, 100 clusters, no segundo turno, para expandir substancialmente as amostrais conformais.
Conduzindo as extensas simulações de MD da^2ª rodada
1. Realize simulações de MD de 60 ns a partir dessas 100 estruturas iniciais depois de impor velocidades iniciais aleatórias em todos os átomos. Adicione as velocidades iniciais aleatórias ligando a geração de velocidade no arquivo mdp, ou seja, alterando o arquivo md.mdp gen_vel = não para gen_vel = sim.
2. Remova os primeiros 10 ns de cada simulação conforme descrito na etapa 1.3.1, colete 2.500.000 instantâneos das trajetórias de 100 × 50 ns uniformemente para construir o MSM.
  NOTA: Note-se que na construção de macroestações posteriores, um pequeno número de estados fora do caminho com uma população particularmente baixa (~0,2%, na parte inferior do avião X-Φ) foram encontrados. Esses estados fora do caminho são classificados como um macroestado quando o número total de macroestações é definido como 3 a 6 (Figura 2B). Uma vez que uma macroestado populacional tão baixa inclui apenas 3 trajetórias, que foram removidas no final, os resultados mostrados neste protocolo foram obtidos de fato de 97 × trajetórias de 50 ns, com um total de 2.425.000 quadros ou instantâneos.
Agrupando as trajetórias de MD^{da 2ª} rodada
1. Conduzir tICA para as trajetórias da^2ª rodada, como feito anteriormente. Digite MSMbuilder:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gama 0.05 -t tica_results.h5
2. Calcule a escala de tempo implícita para validar parâmetros para o tempo de atraso de correlação Δt e números de microestados (ver Figura 1C),
  
  onde τ representa o tempo de atraso utilizado para a construção da matriz de probabilidade de transição (TPM); μ_k(τ) representa o kth eigenvalue do TPM sob um tempo de atraso de τ. Use o script python do Arquivo Suplementar 1 para este BuildMSMsAsVaryLagTime.py python -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 10 -n 20 -s 500.
3. Varie o número de τ e microestados de atraso alterando os parâmetros utilizados acima:
  píton BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 5 10 20 30 40 -n 20 -s 20 200 400 500 800 2000
  NOTA: O sistema é considerado markovian quando as curvas de escala de tempo implícita começam a nivelar com a separação em escala de tempo. Em seguida, escolha o Dt como o tempo de atraso de correlação, e o tempo de atraso onde a escala de tempo implícita começa a nivelar para construir MSM.
4. Assim, escolha um número comparativamente grande (mas não muito grande) de estados, N = 500, e um tempo de atraso de correlação relativamente curto Δt =10 ns. O tempo de defasagem foi encontrado para ser τ =10 ns para construir MSM.
5. Classifique as conformações em 500 clusters (ver Figura 1D) usando o comando:
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 500
Construção msm
1. Coloque os 500 microestados em 3-6 macroestáditos para descobrir o número de macroestações que melhor se adequam de acordo com o algoritmo PCCA+⁵⁰ em MSMbuilder, usando o script python em msm_lumping_usingPCCAplus.py python suplementar. Identifique uma rede cinética reduzida de modelos para as mudanças conformais mais essenciais das biomoléculas, construindo um pequeno número de macroestados, ou seja, sobre a fixação cineticamente de centenas de microestados, conforme descrito abaixo de^17,51.
2. Mapear as conformações de alta dimensão ao X (movimento proteico ao longo do eixo longo do DNA) e ângulo rotacional da proteína ao longo do DNA para cada macroestado como descrito na etapa 1.1.3 e 1.1.4 (por exemplo, nenhum estado com população muito baixa < 1%; ver Figura 2C). Em seguida, encontre as 3 macroestações que melhor representam o sistema (Figura 1E) . Veja a Figura 2D para obter instantâneos do movimento da proteína ao longo do DNA e do ângulo de rotação de proteínas em torno do DNA.
  NOTA: Em trabalhos anteriores gerando a proteína espontânea de 10 μs para a frente, também realizamos simulações de MD de equilíbrio de 5 x 4 μs para expandir moderadamente as amostras. Mostramos o mapeamento do caminho original para a frente (ver Figura 2A à esquerda) e outras trajetórias amostrais de 4-μs no caminho a seguir realizado anteriormente (ver Figura 2A à direita)⁸. O mapeamento das trajetórias originais de 100 × 50 ns (ver Figura 2B à esquerda)⁸ e as trajetórias de 97 × 50 ns utilizadas neste trabalho são mostradas (ver Figura 2B à direita).
Cálculo dos tempos médios de primeira passagem (MFPT)
1. Realize cinco trajetórias de Monte Carlo (MC) de 10 ms com base no TPM do MSM de 500 microestaduais com o tempo de atraso de 10 ns definido como o passo de tempo de MC. Calcule MFPT⁵² entre cada par de macroestações (Figura 3) pelo script python em Arquivo Suplementar 1 python mfpt_msm3.py.
2. Calcule o erro médio e padrão do MFPT usando o arquivo bash no Arquivo Suplementar 2, digite:
  sh mfpt_analysis.bash

2. Realização de simulação de grãos grosseiros (CG) para amostrar dinâmicas de longo prazo

Realize uma simulação CG usando o software CafeMol 3.0³⁰. Consulte as configurações de simulação CG especificadas no arquivo de configuração de entrada com uma extensão .inp, incluindo estruturas de entrada, parâmetros de simulação, arquivos de saída, etc. Digite o seguinte comando no terminal para executar a simulação cg:
cafemol XXX.inp
Especifique os seguintes blocos no arquivo de entrada, com cada bloco começando com a >>> de rótulo < and ending with >.
1. Defina o bloco de nomes de arquivos (necessário) para especificar os diretórios de trabalho e o caminho da loja de arquivos de entrada/saída. Digite a seguir para o bloco de nomes de arquivos para essas simulações:
  <<<< nomes de arquivos
  caminho = XXXXX (caminho de trabalho)
  nome de arquivo = wrky (os nomes dos arquivos de saída)
  SAÍDA psf pdb filme dcd rst
  path_pdb = XXXXX (caminho da estrutura nativa de entrada)
  path_ini = XXXXX (caminho da estrutura inicial de entrada)
  path_natinfo = XXXXX (caminho de arquivo de informações nativas)
  path_para = XXXXX (caminho de arquivos de parâmetros)
  >>>>
  NOTA: Como o Go-model⁵³ é utilizado na modelagem CG, ou seja, a proteína será tendenciosa à conformação nativa, por isso é preciso definir a estrutura modelada como a conformação nativa. Aqui, a estrutura de cristal de entrada foi definida como a conformação nativa.
2. Defina o bloco de controle de trabalho (necessário) para definir o modo de execução das simulações. Digite o seguinte comando:
  <<<< job_cntl
  i_run_mode = 2 (= 2 a simulação de temperatura constante)
  i_simulate_type = 1 (=1 dinâmica langevina)
  i_initial_state = 2 (=2 significa que a configuração inicial é configuração nativa)
  >>>>
  Selecione as simulações de dinâmica de Langevin de temperatura constante.
3. Defina a unidade e o bloco estadual (necessários) para definir as informações para estruturas de entrada. Digite o seguinte comando:
  <<<< unit_and_state
  i_seq_read_style = 1 (=1 significa sequências de leitura do arquivo PDB)
  i_go_native_read_style = 1 (=1 significa que a estrutura nativa é de arquivo PDB)
  1 proteína.pdb (molecular_type native_structure unit&state)
  DNA 2-3.pdb (molecular_type native_structure unit&state)
  >>>>
  NOTA: Os arquivos iniciais da estrutura de entrada (proteína.pdb e DNA.pdb aqui) são necessários. As estruturas estão escritas no formato pdb. Dois arquivos pdb são necessários aqui: um é o arquivo de estrutura proteica contendo as coordenadas pesadas do átomo de WRKY (unidade 1), e o outro são as coordenadas de DNA de 200 bps de dupla-stranded (ds) (unidade 2-3). A proteína é inicialmente colocada a 15 Å de distância do DNA.
4. Defina o bloco de função de energia (necessário) definido no bloco energy_function. Digite o seguinte comando:
  <<<< energy_function
  LOCAL(1) L_GO
  LOCAL (2-3) L_DNA2
  NLOCAL(1/1) GO EXV ELE
  DNA ELE NLOCAL (2-3/2-3)
  NLOCAL(1/2-3) EXV ELE
  i_use_atom_protein = 0
  i_use_atom_dna = 0
  i_para_from_ninfo = 1
  i_triple_angle_term = 2
  >>>>
  NOTA: Nas simulações cg, a proteína é grosseira pelo Modelo Go⁵³ com cada aminoácido representado por uma partícula CG colocada em sua posição Cα. A conformação proteica será tendenciosa em seguida, para a estrutura nativa, ou estrutura cristalina aqui, sob o potencial Go (Figura 4A esquerda). O DNA é descrito pelo modelo 3SPN.2⁵⁴, no qual cada nucleotídeo é representado por 3 partículas CG S, P, N, que correspondem ao açúcar, fosfato e base nitrogenada, respectivamente (Figura 4A à direita). As interações eletrostáticas e vdW são consideradas entre diferentes cadeias. As interações eletrostáticas entre proteína e DNA na simulação CG são aproximadas pelo potencial Debye-Hückel⁵⁵. A energia repulsiva vdW toma a mesma forma que no modelo Go.
5. Defina o bloco de md_information (necessário) para definir as informações de simulação. Digite o seguinte comando:
  <<<< md_information
  n_step_sim = 1
  n_tstep(1) = 5000000000
  tstep_size = 0,1
  n_step_save = 1000
  n_step_neighbor = 100
  i_com_zeroing = 0
  i_no_trans_rot = 0
  tempk = 300,0
  n_seed = -1
  >>>>
  O n_tstep é a etapa de simulação. Defina o tstep_size como o tempo de cada etapa MD, cada passo de tempo do CG Cafemol é de cerca de 200 fs³⁰, então cada passo MD aqui é de 200 × 0,1 fs em princípio. Atualize a lista de vizinhos a cada 100 passos de MD (n_step_neighbor = 100). Defina a temperatura da simulação para 300 K. Controle a temperatura empregando o algoritmo verlet tipo velocidade para atualizar a estrutura proteica com o termostato Berendsen⁵⁶.
  NOTA: O n_step_sim é o número de bacia do potencial baseado no modelo Go, ou o número mínimo local da curva de energia. Um potencial de várias bacias permite que a conformação proteica tendenciosa a diferentes conformações de modo que a conformação proteica possa mudar de um mínimo local para outro. Aqui é utilizado apenas o modelo Go de bacia única, o que significa apenas uma conformação tendenciosa (estrutura cristalina) para proteína nas simulações. Enquanto isso, como não há interação de ligação proteína-DNA hidrogênio, etc. modelado no contexto CG, os movimentos moleculares podem ser amostrados ainda mais rápido, ou seja, > 10 vezes do que nas simulações atômicas.
6. Definir o bloco eletrostático (necessário apenas quando a interação eletrostática é usada) como a interação eletrostática é considerada entre diferentes cadeias, por isso use este bloco para definir os parâmetros para interação eletrostática digitando:
  <<<< eletrostático
  cutoff_ele = 10,0
  ionic_strength = 0,15
  >>>>
  Defina o comprimento de Debye na interação eletrostática para 10 Å, correspondendo à condição da solução. Coloque a força iônica em 0,15 M, como na condição fisiológica.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Deslizamento acoplado de rotação ou 1 bp de piso de WRKY da construção msm
Todas as conformações proteicas no DNA são mapeadas para o movimento longitudinal X e ângulo de rotação da proteína COM ao longo do DNA (ver Figura 3A). O acoplamento linear desses dois graus indica um passo acoplado de rotação da proteína de domínio WRKY no DNA. As conformações podem ser agrupadas em 3 macroestações (S1, S2 e S3) no MSM. O passo para a frente do WRKY segue então a transição macroestado S1->S2->S3. S1 refere-se a um estado metastável iniciado pela estrutura modelada (baseada na estrutura cristalina do complexo WRKY-DNA⁴⁰), com uma população de ~ 6%. Note-se que na modelagem atual, a conformação inicial da proteína foi adotada a partir da estrutura cristalina na qual a proteína se liga com sequência específica de DNA da caixa W⁴⁰. Tal complexo de DNA proteico-poli-poli modelado leva assim a estruturas iniciais menos favoráveis (S1) do que as estruturas pisadas ou finalmente relaxadas (S3). No entanto, pode-se descobrir que as ligações de hidrogênio (HBs) na interface proteína-DNA se recuperam perto do centro de S3 como aquela perto do centro em S1 (ver Figura 3B). Os HBs no estado S1 são bem conservados: K125 com A15, R131, Q146 e Y133 com A16, K144 e Y119 com A17, R135 com A18 (Figura 3B superior esquerda). S3 refere-se a um estado metastável após a pisada de proteína de 1 bp, com quase todos os HBs deslocados para a distância de 1 bp (Figura 3B inferior), e as estruturas parecem estáveis com a maior população (63%). O estado intermediário S2 conecta S1 e S3, com população média-alta (~30%). Descobrimos que os R135 e K144 são bastante flexíveis neste estado intermediário e geralmente podem quebrar os HBs com o nucleotídeo atual e reformar isso com o próximo nucleotídeo (Figura 3B superior direito). No geral, a proteína WRKY COM moveu ~2,9 Å e girou ~55° para pisar 1 bp aqui. O passo limitante de taxa para a etapa WRKY é O S2->S3, que essencialmente permite a quebra coletiva e a reforma dos HBs e requer ~7 μs em média. Em contraste, o S1 para o S2 pode transitar muito rápido em um momento de ~0,06 μs ou 60-ns (Figura 3B), envolvendo principalmente as flutuações de com proteína (por exemplo, devido a alterações orientacionais proteicas no DNA).

Viés de fio único de WRKY durante a difusão processiva no modelo CG
Em nosso estudo recente, descobrimos que a proteína de domínio WRKY se liga preferencialmente a um fio do dsDNA, não importa durante a pisada de 1 bp ou a ligação estática; e o viés de uma única cadeia torna-se altamente proeminente particularmente sobre a sequência específica de DNA vinculando⁸. Enquanto isso, não está claro se tal tendência permanece durante a difusão processiva da proteína ao longo do DNA. Aqui tentamos examinar o potencial viés da vertente através das simulações de CG. Curiosamente, uma configuração significativa de ligação de DNA de uma única cadeia foi identificada nas simulações cg do WRKY durante a difusão processiva. Para ver isso, os números de contato entre proteína e DNA foram calculados nos respectivos fios de DNA (ver Figura 4B). Um contato é considerado quando a distância entre partícula CG proteica e DNA CG P (grupo fosfato) é menor que 7 Å. A proteína de fato mostra viés para uma das cadeias de DNA (por exemplo, ~4 contatos para um fio e ~1 contato com o outro), ou seja, mesmo quando interações detalhadas como HBs na interface proteína-DNA não são modeladas.

A cadeia de DNA preferida, no entanto, pode mudar de tempos em tempos entre os dois fios do DNA, dependendo da orientação de ligação ou configuração da proteína no DNA. Em particular, de acordo com o número de contato formado entre a proteína e os respectivos fios de DNA, existem principalmente 4 estados aqui (como rotulados 1, 2, 3 e 4 na Figura 4B,C). No estado 1 e 3, uma região de dedo de zinco se liga em direção a -Y, e o fio preferido é o azul. No estado 2 e 3, a região do dedo de zinco se liga à direção +Y, e o fio preferido torna-se o vermelho. Também é descoberto que a região zinco-figner interage dominantemente com o DNA (ver Figura 4D). Assim, o fio de DNA ligado estreitamente com a região do dedo de zinco é de fato o preferido. De acordo com a amostragem acima, parece que o viés da vertente persiste, mas alterna entre os dois fios de DNA no modelo CG da difusão de proteínaprocessiva.

Ressundo resíduos de proteína nas simulações de CG
Foi notado anteriormente a partir de nossas simulações cg que o tamanho de passo de WRKY pode variar em diferentes sequências de DNA⁸. A proteína COM tende a pisar 1 bp no DNA poli-A homogêneo. Enquanto no DNA poli-AT com periodicidade de 2 bp, a proporção de pisando 2 bp parece aumentar.

Além disso, aqui examinamos se os resíduos proteicos individuais se movem sincronizadamente na interface proteína-DNA. Calculamos o tamanho do passo de cada resíduo altamente conservado no motivo WRKY (WRKYGQK) para cada 1000 passos (Figura 5A). O tamanho residual de cada resíduo conservado pode, assim, ser medido a partir das simulações de CG. Os resultados mostram de fato que os tamanhos de passo desses resíduos individuais são mais sincronizados no DNA poli-A do que em sequências de DNA poli-AT ou aleatórias (Figura 5B).

Figura 1: A geração de conformações e a construção de microestaduais/macroestados. (A) O caminho inicial para a frente mapeou o RMSD proteína-DNA e o ângulo rotacional de proteína ao redor do DNA. As 25 estruturas escolhidas iniciais são rotuladas por círculos vermelhos. (B) Os 100 centros de cluster de conformação da^1ª rodada 25 x 50 ns trajetórias de simulação de MD mapeadas na direção dos tICs de maior valor eigenvalue. (C) Parcelas da escala de tempo implícita em função do tempo de atraso para a construção do MSM via tICA usando pares de distância escolhidos como entrada. Para cada conjunto, o MSM foi construído projetando as conformações nos 2 tICs superiores seguidos de agrupamento de k-centers para produzir 20 a 2000 microestados (da coluna da esquerda para a direita) com tempo de atraso de correlação para tICA escolhido de 5 a 40 ns (da linha superior para a inferior). (D) Os 500 microestados construídos e (E) os 3 macroestados construídos, com centros microestados correspondentes mapeados ao longo da direção mais alta de dois tICs. Clique aqui para ver uma versão maior desta figura.

Figura 2: Construção das macroestácidas. (A) O mapeamento da trajetória inicial de avanço (esquerda) e com um pequeno número de amostras adicionais de trajetória micro-segundo (direita) no centro proteico de massa (COM) movimento ao longo do eixo longo do DNA (X) e ângulo rotacional em torno do DNA (obtido anteriormente⁸). (B) O mapeamento das trajetórias originais de 100 × 50 ns e das trajetórias de 97 × 50 ns utilizadas na construção atual do MSM. (C) A construção de 3-6 macroestádes e suas populações a partir do MSM construído são rotuladas nos extensos mapas amostrais. (D) O movimento proteico X e o ângulo de rotação em torno do DNA são mostrados, respectivamente. As conformações amostradas são finalmente agrupadas em 3 macroestações, com vermelho, azul e cinza correspondentes à macroestado 1, 2 e 3, respectivamente. Clique aqui para ver uma versão maior desta figura.

Figura 3: O MSM da proteína de domínio WRKY pisando no DNA poli-A. (A) A projeção dos instantâneos conformacionais do MD em coordenadas do movimento com proteína X e ângulo rotacional em relação ao DNA. As 3 macroestações S1, S2 e S3 são coloridas em vermelho, azul e cinza, respectivamente. (B) Conformações representativas e transição de tempo médio de primeira passagem (MFPT) das 3 macroestações construídas. As principais ligações de hidrogênio entre proteína e DNA são mostradas. Clique aqui para ver uma versão maior desta figura.

Figura 4: O modelo de grãos grossresos (CG) e contatos formados entre fios de proteína e DNA no modelo CG. (A) A granulação grosseira de proteína (esquerda) e DNA (direita). (B) O número de contato entre WRKY e cada fio de DNA ao longo da simulação. (C) As visões moleculares dos 4 modos de contato. A região proteica perto do dedo de zinco é colorida em cinza, e a outra região é colorida em verde. (D) A probabilidade de contato de cada aminoácido proteico com DNA. Quando a distância entre a partícula CG do aminoácido e qualquer partículas de DNA CG é menor que 7 Å, o aminoácido é considerado em contato com o DNA. Clique aqui para ver uma versão maior desta figura.

Figura 5: Os tamanhos do passo de difusão do aminoácido de proteína individual no motivo WRKY como WRKY movendo-se ao longo do DNA. (A) Os resíduos altamente conservados (WRKYGQK) na estrutura atômica (esquerda) e após grãos grossres (à direita). (B) O tamanho do passo para cada resíduo conservado em diferentes sequências de DNA (poli-A; poly-AT; sequências aleatórias) Clique aqui para ver uma versão maior desta figura.

Arquivo complementar 1: Os códigos python e software usados neste protocolo. O MSM é construído principalmente usando o MSMbuilder, os códigos python necessários são anexados. Clique aqui para baixar este Arquivo.

Arquivo complementar 2: As simulações de dinâmica molecular atomística são conduzidas pelo GROMACS, os comandos e arquivos necessários para construir simulações de todos os átomos também são anexados. As simulações de grãos grossões são conduzidas pelo software CafeMol. Os resultados da simulação são analisados por VMD e MATLAB. Clique aqui para baixar este Arquivo.

Arquivo complementar 3: O script tcl para girar e mover proteína em VMD. Clique aqui para baixar este Arquivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Este trabalho aborda como realizar simulações computacionais baseadas em estrutura e amostras para revelar um fator de transcrição ou proteína TF movendo-se ao longo do DNA, não apenas no detalhe atômico da pisada, mas também na difusão processiva, que é essencial para a difusão facilitada de TF na busca de alvos de DNA. Para isso, o modelo de estado markov ou MSM de uma pequena proteína de domínio TF WRKY pisando para 1-bp ao longo de DNA poli-A homogêneo foi construído pela primeira vez, de modo que um conjunto de conformações proteicas no DNA juntamente com a ligação coletiva de hidrogênio ou dinâmica HB na interface proteína-DNA pode ser revelado. Para obter o MSM, realizamos duas rodadas de extensas simulações de MD de todos os átomos ao longo de um caminho de intensificação de proteínas espontâneas (obtidas a partir da simulação anterior de 10-μs), com amostragems atuais na agregação de 7,5 μs (125 x 60 ns). Tais amostras extensas nos fornecem instantâneos para conformação agrupando-se em centenas de microestados, utilizando distâncias de pares interfaciais proteína-DNA como medidas geométricas para o agrupamento. A propriedade markoviana da construção msm é parcialmente validada através da detecção de separação em escala de tempo das escalas de tempo implícita calculadas para vários comprimentos ou tempo de atraso de simulações individuais de MD. 20-2000 microestados foram então testados e comparados para as propriedades de separação em escala de tempo, com 500 microestados selecionados para a construção do MSM. Além disso, os 500 microestados foram cineticamente agrupados em um pequeno número de macroestações, para as quais testamos vários estados e descobrimos que três macroestações suficientes para o sistema atual. O modelo de três estados simplesmente mostra que o estado S1 transita para S2 comparativamente rápido (dentro de dezenas de ns), dominado por flutuações do Centro de Proteínas de Massa (COM) no DNA, enquanto o estado S2 transita lentamente para S3 lentamente e é limitador de taxas (~7 μs em média), dominado pela dinâmica do HB coletivo para pisar. Note-se que o agrupamento cinético dos microestados em um pequeno número de macroestados cineticamente distintos ainda está sujeito a desenvolvimentos metodológicos, com diferentes algoritmos testados e técnicas de aprendizado de máquina para melhorias 57,58,59,60,61,62,63 . As etapas críticas para a construção do MSM incluem a escolha dos pares de distância usados no tICA e a determinação dos parâmetros utilizados para a construção de microestados. A escolha dos pares de distância é baseada em conhecimento, e é importante escolher os pares de interação mais essenciais. Os parâmetros para a construção de microestados, como o tempo de atraso de correlação, o tempo de atraso, a muber dos microestados, precisam ser adequadamente definidos para garantir que o sistema seja markoviano.

Com tais esforços, a dinâmica estrutural de proteínas submicro-a-micro-segundos com detalhes atômicos pode ser sistematicamente revelada para a proteína que pisa 1 bp ao longo do DNA. Em princípio, com a matriz de probabilidade de transição obtida a partir da construção do MSM, o sistema pode ser evoluído para uma escala de longo tempo além de microsegundos, ou digamos, para se aproximar de milissegundos e acima de 13,17,64. No entanto, existem limitações intrínsecas da amostragem e construção do MSM, que dependem de simulações individuais sub-microsegundos em torno de um determinado caminho inicial, e a propriedade markoviana pode não estar bem garantida ^65,66. Na maioria das práticas, o caminho inicial foi construído sob força ou aceleração, embora no sistema atual aproveitemos um caminho de pisada de proteína espontânea (sem forçar ou acelerar) obtido a partir de uma simulação de equilíbrio de 10 ms⁸. As amostras conformais no agregado ainda são limitadas por dezenas de microssegundos devido ao alto custo computacional das simulações atômicas. Tais amostras de microsegundos da pisada de proteína são improváveis de fornecer conformações suficientes para aparecer em difusão de TF processiva de longo prazo. O problema de memória se tornaria significativo se se implementasse a matriz de probabilidade de transição atualmente obtida além de uma determinada escala de tempo, e a propriedade Markovian não é garantida para garantir o uso adequado do MSM atual 14,52,66. Portanto, para amostrar a difusão processiva de longo prazo da TF ao longo do DNA, o nível de resíduo de modelagem e simulação de CG de grãos grosseiros ou CG são implementados, em vez disso, para equilibrar entre manter a base estrutural e reduzir o custo computacional.

Na modelagem e simulação de CG, os resíduos proteicos e nucleotídeos de DNA são representados por contas (ou seja, uma conta para um aminoácido, e três contas para um nucleotídeo), com a conformação proteica mantida através do modelo Go em direção a uma configuração nativa ou pré-equilibrada^30,53. Embora o nível atômico das interações HB se ausenta no modelo CG, as interações eletrostáticas proteína-DNA são bem mantidas, que parecem ser capazes de capturar características dinâmicas dominantes na difusão processiva da proteína ao longo do DNA 67,68,69,70. Protocolos de implementação detalhados são apresentados para modelagem e simulação do sistema WRKY-DNA aqui. Os resultados representativos mostram curiosamente que, primeiro, o viés de DNA de uma única vertente apresentado na simulação atômica anterior do sistema WRKY-DNA persiste no modelo CG, enquanto uma variedade de orientações/configurações proteicas amostradas durante a difusão processiva leva à troca do viés entre os dois fios de tempos em tempos. Assim, esse viés de cadeia de DNA não necessariamente se liga à associação HB, mas parece depender principalmente das interações eletrostáticas proteína-DNA, que variam para várias configurações ou orientações proteicas no DNA. Em seguida, aminoácidos individuais na interface proteína-DNA, como os motivos WRKQGQK altamente conservados, mostram diferentes tamanhos de pisada ou padrões de sincronização para diferentes sequências de DNA. Em nosso estudo anterior, as variações de tamanho de passo foram mostradas apenas para o COM de proteína, uma vez que a proteína foi modelada para difundir ao longo de diferentes sequências de DNA. Note que o modelo CG atual do DNA suporta variações de sequência de DNA com diferentes parametrizações 54,71,72, embora faltam detalhes atômicos. A parametrização adequada da sequência de DNA na modelagem baseada na estrutura do sistema de DNA proteico, é, portanto, fundamental para revelar mecanismos de busca e reconhecimento de DNA proteico em múltiplas escalas de tempo e comprimento.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm conflito de interesses.

Acknowledgments

Este trabalho foi apoiado pelo NSFC Grant #11775016 e #11635002. JY tem sido apoiado pelo CMCF da UCI via NSF DMS 1763272 e pela Fundação Simons grant #594598 e fundo de start-up da UCI. A LTD foi apoiada pela Natural Science Foundation de Shanghai #20ZR1425400 e #21JC1403100. Também reconhecemos o apoio computacional do Centro de Pesquisa em Ciência Computacional de Pequim (CSRC).

Materials

Name	Company	Catalog Number	Comments
CafeMol	Kyoto University		coarse-grained (CG) simulations
GROMACS	University of Groningen Royal Institute of Technology Uppsala University		molecular dynamics simulations software
Matlab	MathWorks		Numerical calculation software
MSMbuilder	Stanford University		build MSM
VMD	UNIVERSITY OF ILLINOIS AT URBANA-CHAMPAIGN		molecular visualization program

DOWNLOAD MATERIALS LIST

References

Latchman, D. S. Transcription factors: an overview. The International Journal of Biochemistry & Cell Biology. 29 (12), 1305-1312 (1997).
Berg, O. G., von Hippel, P. H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. Journal of Molecular Biology. 193 (4), 723-750 (1987).
von Hippel, P. H., Berg, O. G. Facilitated target location in biological systems. The Journal of Biological Chemistry. 264 (2), 675-678 (1989).
Halford, S. E., Marko, J. F. How do site-specific DNA-binding proteins find their targets. Nucleic Acids Research. 32 (10), 3040-3052 (2004).
Slusky, M., Mirny, L. A. Kinetics of protein-DNA interaction: facilitated target location in sequence-dependent potential. Biophysical Journal. 87 (6), 4021-4035 (2004).
Bauer, M., Metzler, R. Generalized facilitated diffusion model for DNA-binding proteins with search and recognition states. Biophysical Journal. 102 (10), 2321-2330 (2012).
Shvets, A. A., Kochugaeva, M. P., Kolomeisky, A. B. Mechanisms of Protein Search for Targets on DNA: Theoretical Insights. Molecules. 23 (9), Basel, Switzerland. 2106 (2018).
Dai, L., Xu, Y., Du, Z., Su, X. D., Yu, J. Revealing atomic-scale molecular diffusion of a plant-transcription factor WRKY domain protein along DNA. Proceedings of the National Academy of Sciences of the United States of America. 118 (23), 2102621118 (2021).
Chodera, J. D., Singhal, N., Pande, V. S., Dill, K. A., Swope, W. C. Automatic discovery of metastable states for the construction of Markov models of macromolecular conformational dynamics. The Journal of Chemical Physics. 126 (15), 155101 (2007).
Pan, A. C., Roux, B. Building Markov state models along pathways to determine free energies and rates of transitions. The Journal of Chemical Physics. 129 (6), 064107 (2008).
Bowman, G. R., Huang, X., Pande, V. S. Using generalized ensemble simulations and Markov state models to identify conformational states. Methods. 49 (2), San Diego, California. 197-201 (2009).
Prinz, J. H., et al. Markov models of molecular kinetics: Generation and validation. The Journal of chemical physics. 134 (17), 174105 (2011).
Chodera, J. D., Noé, F. Markov state models of biomolecular conformational dynamics. Current Opinion in Structural Biology. 25, 135-144 (2014).
Malmstrom, R. D., Lee, C. T., Van Wart, A. T., Amaro, R. E. On the Application of Molecular-Dynamics Based Markov State Models to Functional Proteins. Journal of Chemical Theory and Computation. 10 (7), 2648-2657 (2014).
Husic, B. E., Pande, V. S. Markov State Models: From an Art to a Science. Journal of the American Chemical Society. 140 (7), 2386-2396 (2018).
Sittel, F., Stock, G. Perspective: Identification of collective variables and metastable states of protein dynamics. The Journal of chemical physics. 149 (15), 150901 (2018).
Wang, W., Cao, S., Zhu, L., Huang, X. Constructing Markov State Models to elucidate the functional conformational changes of complex biomolecules. WIREs Computational Molecular Science. 8, 1343 (2018).
Peng, S., et al. Target search and recognition mechanisms of glycosylase AlkD revealed by scanning FRET-FCS and Markov state models. Proceedings of the National Academy of Sciences of the United States of America. 117 (36), 21889-21895 (2020).
Tian, J., Wang, L., Da, L. T. Atomic resolution of short-range sliding dynamics of thymine DNA glycosylase along DNA minor-groove for lesion recognition. Nucleic Acids Research. 49 (3), 1278-1293 (2021).
Chu, J. -W., Izveko, S., Voth, G. The multiscale challenge for biomolecular systems: coarse-grained modeling. Molecular Simulation. 32 (3-4), 211-218 (2006).
Marrink, S. J., Risselada, H. J., Yefimov, S., Tieleman, D. P., De Vries, A. H. The MARTINI force field: coarse grained model for biomolecular simulations. The Journal of Physical Chemistry B. 111 (27), 7812-7824 (2007).
Givaty, O., Levy, Y. Protein sliding along DNA: dynamics and structural characterization. Journal of Molecular Biology. 385 (4), 1087-1097 (2009).
Khazanov, N., Levy, Y. Sliding of p53 along DNA can be modulated by its oligomeric state and by cross-talks between its constituent domains. Journal of Molecular Biology. 408 (2), 335-355 (2011).
Riniker, S., Allison, J. R., van Gunsteren, W. F. On developing coarse-grained models for biomolecular simulation: a review. Physical Chemistry Chemical Physics : PCCP. 14 (36), 12423-12430 (2012).
Kmiecik, S., et al. Coarse-Grained Protein Models and Their Applications. Chemical Reviews. 116 (14), 7898-7936 (2006).
Bhattacherjee, A., Krepel, D., Levy, Y. Coarse-grained models for studying protein diffusion along DNA. WIREs Computational Molecular Science. 6, 515-531 (2016).
Wang, J., et al. Machine Learning of Coarse-Grained Molecular Dynamics Force Fields. ACS Central Science. 5 (5), 755-767 (2019).
Joshi, S. Y., Deshmukh, S. A. A review of advancements in coarse-grained molecular dynamics simulations. Molecular Simulation. 47 (10-11), 786-803 (2021).
Bigman, L. S., Greenblatt, H. M., Levy, Y. What Are the Molecular Requirements for Protein Sliding along DNA. The Journal of Physical Chemistry B. 125 (12), 3119-3131 (2021).
Kenzaki, H., et al. CafeMol: A Coarse-Grained Biomolecular Simulator for Simulating Proteins at Work. Journal of Chemical Theory and Computation. 7 (6), 1979-1989 (2011).
Berendsen, H. J. C., vander Spoel, D., van Drunen, R. GROMACS: a message-passing parallel molecular dynamics implementation. Computer Physics Communications. 91 (1-3), 43-56 (1995).
vander Spoel, D., et al. GROMACS: fast, flexible, and free. Journal of Computational Chemistry. 26 (16), 1701-1718 (2005).
Abraham, M. J., et al. GROMACS: High performance molecular simulations through multi-level parallelism from laptops to supercomputers. SoftwareX. 1-2, 19-25 (2015).
Harrigan, M. P., et al. MSMBuilder: Statistical Models for Biomolecular Dynamics. Biophysical journal. 112 (1), 10-15 (2017).
Humphrey, W., Dalke, A., Schulten, K. VMD: visual molecular dynamics. Journal of Molecular Graphics. 14 (1), 33-38 (1996).
Izrailev, S., et al. Steered Molecular Dynamics. Computational Molecular Dynamics: Challenges, Methods, Ideas. 4, Springer. Berlin, Heidelberg. 39-65 (1999).
Schlitter, J., Engels, M., Krüger, P. Targeted molecular dynamics: a new approach for searching pathways of conformational transitions. Journal of Molecular Graphics. 12 (2), 84-89 (1994).
Maragliano, L., Fischer, A., Vanden-Eijnden, E., Ciccotti, G. String method in collective variables: minimum free energy paths and isocommittor surfaces. The Journal of Chemical Physics. 125 (2), 24106 (2006).
Weiss, D. R., Levitt, M. Can morphing methods predict intermediate structures. Journal of Molecular Biology. 385 (2), 665-674 (2009).
Xu, Y. P., Xu, H., Wang, B., Su, X. D. Crystal structures of N-terminal WRKY transcription factors and DNA complexes. Protein. 11 (3), 208-213 (2020).
Higham, D. J., Higham, N. J. MATLAB guide. Society for Industrial and Applied Mathematics. , (2016).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Gonzalez, T. F. Clustering to minimize the maximum intercluster distance. Theoretical Computer Science. 38, 293-306 (1985).
Zhao, Y., Sheong, F. K., Sun, J., Sander, P., Huang, X. A fast parallel clustering algorithm for molecular simulation trajectories. Journal of Computational Chemistry. 34 (2), 95-104 (2013).
Ivani, I., et al. Parmbsc1: a refined force field for DNA simulations. Nature Methods. 13 (1), 55-58 (2016).
Naritomi, Y., Fuchigami, S. Slow dynamics of a protein backbone in molecular dynamics simulation revealed by time-structure based independent component analysis. The Journal of Chemical Physics. 139 (21), 215102 (2013).
Naritomi, Y., Fuchigami, S. Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: the case of domain motions. The Journal of Chemical Physics. 134 (6), 065101 (2011).
Pérez-Hernández, G., Paul, F., Giorgino, T., De Fabritiis, G., Noé, F. Identification of slow molecular order parameters for Markov model construction. The Journal of Chemical Physics. 139 (1), 015102 (2013).
McGibbon, R. T., Pande, V. S. Variational cross-validation of slow dynamical modes in molecular kinetics. The Journal of Chemical Physics. 142 (12), 124105 (2015).
Deuflhard, P., Weber, M. Robust Perron cluster analysis in conformation dynamics. Linear Algebra and its Applications. 398, 161-184 (2005).
Silva, D. A., et al. Millisecond dynamics of RNA polymerase II translocation at atomic resolution. Proceedings of the National Academy of Sciences of the United States of America. 111 (21), 7665-7670 (2014).
Swope, W. C., Pitera, J. W., Suits, F. Describing Protein Folding Kinetics by Molecular Dynamics Simulations. 1. Theory. The Journal of Physical Chemistry B. 108 (21), 6571-6581 (2004).
Clementi, C., Nymeyer, H., Onuchic, J. N. Topological and energetic factors: what determines the structural details of the transition state ensemble and "en-route" intermediates for protein folding? An investigation for small globular proteins. Journal of molecular biology. 298 (5), 937-953 (2000).
Hinckley, D. M., Freeman, G. S., Whitmer, J. K., De Pablo, J. J. An experimentally-informed coarse-grained 3-Site-Per-Nucleotide model of DNA: structure, thermodynamics, and dynamics of hybridization. The Journal of chemical physics. 139 (14), 144903 (2013).
Debye, P., Huckel, E. The theory of the electrolyte II-The border law for electrical conductivity. Physikalische Zeitschrift. 24, 305-325 (1923).
Berendsen, H. J., Postma, J. V., van Gunsteren, W. F., DiNola, A., Haak, J. R. Molecular dynamics with coupling to an external bath. The Journal of Chemical Physics. 81, 3684-3690 (1984).
Bowman, G. R. Improved coarse-graining of Markov state models via explicit consideration of statistical uncertainty. The Journal of Chemical Physics. 137 (13), 134111 (2012).
Jain, A., Stock, G. Identifying metastable states of folding proteins. Journal of Chemical Theory and Computation. 8 (10), 3810-3819 (2012).
Röblitz, S., Weber, M. Fuzzy spectral clustering by PCCA+: application to Markov state models and data classification. Advances in Data Analysis and Classification. 7, 147-179 (2013).
Mardt, A., Pasquali, L., Wu, H., Noé, F. VAMPnets for deep learning of molecular kinetics. Nature Communications. 9 (1), 5 (2018).
Wang, W., Liang, T., Sheong, F. K., Fan, X., Huang, X. An efficient Bayesian kinetic lumping algorithm to identify metastable conformational states via Gibbs sampling. The Journal of Chemical Physics. 149 (7), 072337 (2018).
Chen, W., Sidky, H., Ferguson, A. L. Nonlinear discovery of slow molecular modes using state-free reversible VAMPnets. The Journal of Chemical Physics. 150 (21), 214114 (2019).
Gu, H., et al. RPnet: a reverse-projection-based neural network for coarse-graining metastable conformational states for protein dynamics. Physical Chemistry Chemical Physics :PCCP. 24 (3), 1462-1474 (2022).
Lane, T. J., Bowman, G. R., Beauchamp, K., Voelz, V. A., Pande, V. S. Markov state model reveals folding and functional dynamics in ultra-long MD trajectories. Journal of the American Chemical Society. 133 (45), 18413-18419 (2011).
Konovalov, K. A., Unarta, I. C., Cao, S., Goonetilleke, E. C., Huang, X. Markov State Models to Study the Functional Dynamics of Proteins in the Wake of Machine Learning. JACS Au. 1 (9), 1330-1341 (2021).
Cao, S., Montoya-Castillo, A., Wang, W., Markland, T. E., Huang, X. On the advantages of exploiting memory in Markov state models for biomolecular dynamics. The Journal of Chemical Physics. 153 (1), 014105 (2020).
Brandani, G. B., Takada, S. Chromatin remodelers couple inchworm motion with twist-defect formation to slide nucleosomal DNA. PLoS Computational Biology. 14 (11), 1006512 (2018).
Tan, C., Terakawa, T., Takada, S. Dynamic Coupling among Protein Binding, Sliding, and DNA Bending Revealed by Molecular Dynamics. Journal of the American Chemical Society. 138 (27), 8512-8522 (2016).
Terakawa, T., Takada, S. p53 dynamics upon response element recognition explored by molecular simulations. Scientific reports. 5, 17107 (2015).
Brandani, G. B., Niina, T., Tan, C., Takada, S. DNA sliding in nucleosomes via twist defect propagation revealed by molecular simulations. Nucleic Acids Research. 46 (6), 2788-2801 (2018).
Knotts, T. A., Rathore, N., Schwartz, D. C., de Pablo, J. J. A coarse grain model for DNA. The Journal of Chemical Physics. 126 (8), 084901 (2007).
Freeman, G. S., Hinckley, D. M., Lequieu, J. P., Whitmer, J. K., de Pablo, J. J. Coarse-grained modeling of DNA curvature. The Journal of Chemical Physics. 141 (16), 165103 (2014).

Biology

Simulação baseada em estrutura e amostragem de movimentos de proteína do fator de transcrição ao longo do DNA de pisando em escala atômica para difusão grosseira

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.