Chemistry

Otimização de proteínas sintéticas: Identificação de interposição Dependências Indicating Estruturalmente e / ou resíduos funcionalmente ligadas

Published: July 14, 2015 doi: 10.3791/52878

¹Battelle Center for Mathematical Medicine, The Research Institute at Nationwide Children's Hospital

Abstract

Alinhamentos de proteína são comumente utilizados para avaliar a semelhança de resíduos de proteínas, e a sequência de consenso derivada utilizado para identificar as unidades funcionais (por exemplo, domínios). Os modelos tradicionais de construção de consenso não levam em conta as dependências de interposição - funcionalmente necessário co-variação de resíduos que tendem a aparecer simultaneamente ao longo da evolução e do outro lado da árvore phylogentic. Estas relações podem revelar pistas importantes sobre os processos de dobragem de proteínas, termoestabilidade, e a formação de sítios funcionais, que por sua vez podem ser usados para informar a engenharia de proteínas sintéticas. Infelizmente, essas relações essencialmente formar sub-motivos que não pode ser prevista por simples "regra da maioria" ou modelos de consenso, mesmo baseados em HMM, eo resultado pode ser um "consenso" biologicamente inválido que não só é nunca visto na natureza, mas é menos viável do que qualquer proteína existente. Nós desenvolvemos uma uma visuaisferramenta alytics, StickWRLD, que cria uma representação em 3D interativo num alinhamento de proteínas e claramente mostra covarying resíduos. O usuário tem a capacidade de panorâmica e zoom, bem como alterar dinamicamente o limiar estatístico subjacente à identificação dos covariantes. StickWRLD foi anteriormente utilizado com sucesso para identificar resíduos covarying funcionalmente exigidas em proteínas tais como a adenilato-quinase e de sequências de ADN, tais como locais-alvo da endonuclease.

Introduction

Alinhamentos de proteínas têm sido muito utilizadas para avaliar a semelhança de resíduos de uma família de proteínas. Frequentemente as características mais interessantes de uma proteína (por exemplo, sítios de ligação catalíticos ou outros) são o resultado de proteína dobrar trazendo regiões distais da sequência linear em contato, e como resultado dessas regiões aparentemente não relacionados no alinhamento tendem a evoluir e mudar em de forma coordenada. Em outros casos, a função de uma proteína pode estar dependente da sua assinatura electrostático, e mutações que afectam o dipolo electrónico são compensadas por alterações resíduos carregados distantes. Efeitos alostéricos também pode induzir de longo alcance dependências sequenciais e espaciais entre identidades de resíduos. Independentemente da sua origem, esses covariações funcionalmente necessários de resíduos - dependências inter-posicionais (DIP) - pode não ser óbvio com exame visual do alinhamento (Figura 1). Identificação de DIP - bem como deque resíduos específicos dentro desses cargos tendem a covary como uma unidade - pode revelar pistas importantes sobre os processos de dobramento de proteínas e a formação de sítios funcionais. Esta informação pode então ser utilizada para optimizar as proteínas sintéticas (artificiais) em termos de estabilidade térmica e actividade. Ele tem sido conhecido que nem todas as mutações pontuais em direção a um consenso proporcionar uma melhor estabilidade ou atividade. Mais recentemente, proteínas concebido para tirar vantagem de DIP conhecidas na sua sequência foram mostrados para resultar numa maior actividade do que a mesma proteína concebido estritamente de consenso ^1,2 (manuscrito em preparação), semelhante à ideia de estabilização mutações pontuais ^3.

Infelizmente, os modelos tradicionais de construção de consenso (por exemplo, a regra da maioria), apenas capturar IPDs por acidente. Métodos de consenso e posição de pontuação específica Matrix são ignorantes e só IPDs "correctamente" incluí-los em modelos, quando os resíduos dependentestambém são os resíduos mais populares para aquelas posições na família. Modelos de cadeia de Markov pode capturar IPDs quando estão sequencialmente proximal, mas a sua implementação típica ignora tudo, exceto vizinhos imediatos seqüenciais, e até mesmo no seu melhor, cálculos Hidden Markov Model (ver Figura 2) tornar-se intratável quando dependências são separados na seqüência por mais de uma dúzia de posições ^4. Uma vez que estes IPDs essencialmente formar "sub-temas" que não pode ser prevista por simples "regra da maioria" ou modelos de consenso, mesmo baseados em HMM ^5,6 o resultado pode ser um "consenso" biologicamente inválido que não só é nunca visto na natureza, mas é menos viável do que qualquer proteína existente. Os sistemas baseados em campos aleatórios de Markov, tais como GREMLIN ^7, tentar ultrapassar estes problemas. Adicionalmente enquanto que as técnicas biológicas / bioquímicas sofisticadas, tais como não-contíguo ^3,8 recombinação pode ser usado para identify elementos essenciais de proteínas por região, eles exigem tempo considerável e bancada de trabalho de precisão à base de um único par de ser alcançado.

StickWRLD ⁹ é um programa baseado em Python que cria uma representação em 3D interativa de um alinhamento proteína que faz IPDs clara e fácil de entender. Cada posição no alinhamento está representada como uma coluna no visor, em que cada coluna é constituída por uma pilha de esferas, um para cada um dos 20 aminoácidos que podem estar presentes em que posição dentro do alinhamento. O tamanho de esfera é dependente da frequência da ocorrência dos aminoácidos, de tal modo que o utilizador pode recolher imediatamente o resíduo de consenso ou a distribuição relativa de aminoácidos dentro dessa posição olhando simplesmente para o tamanho das esferas. As colunas que representam cada posição são enrolados em torno de um cilindro. Isto dá cada esfera que representa uma possível aminoácido em cada posição no alinhamento, um "linha de visão" clarapara todas as outras possibilidades de aminoácidos em todas as outras posições. Antes de visualização, StickWRLD calcula a força da correlação entre todas as combinações possíveis de resíduos para identificar a IPDs ^9. Para representar DIP, são desenhadas linhas entre os resíduos que são co-evolução em maior ou menor do que seria de esperar se os resíduos presentes nas posições eram independentes (DIP).

Não só esta visualização mostra que posições de sequência interagir evolutivamente, mas como as linhas de borda IPD são desenhadas entre as esferas de aminoácidos em cada coluna, o usuário pode determinar rapidamente quais aminoácidos específicos tendem a ser co-evoluindo em cada posição. O utilizador tem a capacidade de rodar e explorar a estrutura IPD visualizado, bem como dinamicamente alterar os limites estatísticos que controlam a visualização das correlações, fazendo StickWRLD uma ferramenta poderosa para a descoberta DIP.

Aplicações como GREMLIN ⁷ similarly exibir informações relacional complexa entre os resíduos -, mas essas relações são computados via modelos de Markov mais tradicionais, que não são projetados para determinar quaisquer relações condicionais. Como tal, estes são capazes de serem apresentados como projecções 2D. Em contrapartida, StickWRLD pode calcular e exibir dependências condicionais multi-nó, que pode ser ofuscado se rendido como um gráfico 2D (um fenômeno conhecido como oclusão borda).

Visualização em 3D do StickWRLD também tem várias outras vantagens. Ao permitir que os usuários manipulem as visuais -, rodar e zoom - características que podem ser ofuscadas ou unintuitive em uma representação 2D pode ser mais facilmente visto no cilindro 3D de StickWRLD. StickWRLD é essencialmente uma ferramenta visual analytics, aproveitando o poder da capacidade de reconhecimento de padrões do cérebro humano para ver padrões e tendências, ea capacidade de explorar os dados a partir de várias perspectivas se presta a isso.

Protocol

1. Software Download & Instalação

Use um computador tem um processador Intel Core i5 ou melhor processador com pelo menos 4 GB de RAM, e está executando o Mac OS X ou GNU / Linux (por exemplo, Ubuntu) OS. Além disso, Python 2.7.6 ¹⁰ eo wxPython 2.8 ^11, SciPy ¹² e ¹³ PyOpenGL bibliotecas python são necessários - download e instalar cada um de seus respectivos repositórios.
Baixe StickWRLD como um arquivo zip contendo todos os scripts em Python relevantes. Faça o download do script "fasta2stick.sh" para converter padrão de ADN FASTA alinhamentos de sequências / proteína para o formato StickWRLD.
Extraia o arquivo e colocar a pasta StickWRLD resultando em seu Desktop. Coloque o script "fasta2stick.sh" no ambiente de trabalho também.

2. Prepare o Alinhamento

Criar um alinhamento das sequências de proteínas utilizando qualquer standard software de alinhamento (por exemplo, ClustalX ^14). Salve o alinhamento na área de trabalho em formato FASTA.
Abra o aplicativo de terminal no computador Mac ou GNU / Linux e navegue até a área de trabalho (o local do "fasta2stick.sh" script shell), digitando cd ~ / Desktop e pressionando retorno. Execute o script de "fasta2stick.sh" digitando ./fasta2stick.sh no terminal. Se o script não é executado, verifique se ele é executável - no tipo de terminal chmod + x fasta2stick.sh para fazer o script executável.
Siga as instruções na tela fornecidas pelo script para especificar o nome do arquivo de entrada (o arquivo criado em 1.2 acima) eo nome da saída desejada. Salve o arquivo de saída (que agora está no formato correto para StickWRLD) no ambiente de trabalho.

3. Lançar StickWRLD

Navegar nos arquivos executáveis StickWRLD pasta utilizando o terminal de applicção do computador Mac ou GNU / Linux. Por exemplo, se a pasta StickWRLD é na área de trabalho, digite cd ~ / Desktop / StickWRLD / exec no terminal.
Lançamento StickWRLD digitando python-32 stickwrld_demo.py no terminal.
Verifique se o painel de StickWRLD Data Loader é visível na tela (Figura 3).

4. Carregando a dados

Carregue o alinhamento de seqüências convertido pressionando o "Load Protein ..." botão.
Selecione o arquivo criado no passo 3 acima e clique em "Abrir". StickWRLD vai abrir várias janelas novas, incluindo "Control StickWRLD" (Figura 4) e "StickWRLD - OpenGL" (Figura 5).
Selecione o - janela "StickWRLD OpenGL". Escolha "Reset View" no menu "OpenGL" para exibir a visualização StickWRLD padrão em um "top-down"Vista através do cilindro que representa os dados nas janelas OpenGL redimensionáveis ..

5. Opções de Visualização

Marque as caixas para "Etiquetas coluna" e "Etiquetas da bola" no painel "Controle StickWRLD" (Figura 4) para apresentar valores para colunas e bolas.
Desmarque a caixa de "Edges coluna" no painel "Controle StickWRLD" para ocultar as linhas de borda coluna.
Defina o "Espessura Coluna" a 0.1 no painel "Controle StickWRLD" para desenhar uma linha fina através das colunas, tornando-o mais fácil de navegar a visualização em 3D. Pressione Return para aceitar a alteração.
Repor a vista no "StickWRLD - OpenGL" janela como no passo 5.3 acima, em seguida, pressione o botão "tela cheia" para maximizar a vista.

6. Navigation

Rode o ecrã StickWRLD 3D pressionando o botão esquerdo do mouse while movendo o mouse em qualquer direção.
Aumentar a exibição StickWRLD 3D pressionando o botão direito do mouse enquanto move o mouse para cima ou para baixo.

7. Encontrar interposição Dependências (DIP)

Navegue pela vista panorâmica e zoom pelo conforme descrito na etapa 6. resíduos co-evoluindo excedam os requisitos de limiar de ambos p e residual são ligados através de linhas de bordo como visto na Figura 6. Se houver muitas ou poucas arestas que ligam os resíduos, altere o Residual limiar (no painel "Controle StickWRLD") para mostrar menos, ou mais, bordas.
Aumentar o limite residual no Painel de Controle do StickWRLD até há linhas de bordo IPD são mostrados e lentamente rampa para baixo até que as relações aparecer. Continue aumentando o residual até que você tenha um número suficiente de relacionamentos para examinar.
Identificar as relações que envolvem tanto resíduos de interesse conhecidos (por exemplo, dentro de um motivo ou ligação / functional local) ou resíduos que são distai um ao outro dentro do alinhamento (o que sugere que eles são proximal na proteína dobrada)

8. selecionar e salvar Apreciação

Usando o comando + clique esquerdo em todas as bordas de interesse. O painel de controle StickWRLD indicará as colunas e se conectar resíduos específicos, por exemplo, "(124 | G) (136 | H)" (Figura 7). As linhas sólidas representam associações positivas; linhas tracejadas representam associações negativas.
Pressione o botão "Arestas de saída" no painel "Controle StickWRLD" para salvar um arquivo no formato de texto simples (edge_residual.csv) de todas as arestas visíveis, incluindo os resíduos se juntaram e seus valores residuais reais, no / StickWRLD / exec / diretório.

Representative Results

StickWRLD foi usado anteriormente para detectar dependências de interposição (DIP) entre os resíduos em ambos os ³ DNA e proteínas ^15-17 alinhamentos. Estes resíduos de co-evolução, enquanto muitas vezes distai de uma outra no alinhamento de sequências, são muitas vezes proximal para uma outra na proteína dobrada. StickWRLD permite a rápida descoberta de co-ocorrência específica do resíduo em tais locais, por exemplo., Uma alanina na posição "X" é fortemente correlacionada com uma treonina na posição de "y". Estas correlações podem ser indicativos de relações estruturais demonstráveis, e tipicamente são os locais que, por necessidade, co-evoluem. StickWRLD é capaz de detectar esses relacionamentos, mesmo quando mais "tradicional" abordagens usando HMMs para descrever motivos falhar. Por exemplo, a análise do alinhamento PFAM do domínio ADK tampa usando StickWRLD revela uma forte correlação positiva entre cisteínas (C) nas posições 4 e 8 e uma coordenadapar de C nas posições 35 e 38. Ao mesmo tempo, StickWRLD mostrou uma forte relação positiva semelhante entre histidina (H) e serina (S), a 4 e 8, com fortes relações negativas entre estes eo quarteto C a 4, 8, 35, e 38, e uma forte correlação positiva com o ácido aspártico (D) e treonina (T) nas posições 35 e 38, respectivamente. Existem IPDs adicionais entre o H, S, D, T motivo e uma T e G na posição **** 10 e 29 em subtilis b **** destacando o carácter condicional destas IPDs - o motivo tetracisteï¿½a não "cuidado" sobre as identidades nessas duas posições, enquanto o H hidrofílico, S, D, T tríade exige que os resíduos específicos nestas posições quase absolutamente. Estes dois motivos resíduos dependente da posição completamente diferente pode cumprir o mesmo papel a tampa ADK. Como pode ser visto na Figura 6, um grande aglomerado de DIP, incluindo uma associação de 3-nó entre G (glicina) na posição 132, Y (tirosina) na posição 135, e um P (ProLiNE) na posição 141, é visível no primeiro plano (Figura 6A). Na Figura 6B, o ponto de vista tem sido desviada para posicionar o utilizador ligeiramente acima do cilindro, revelando uma IPD entre um H (histidina) na posição 136 e um M (metionina) na posição 29, 107 resíduos distante. Um motivo PFAM HMM-derivado do mesmo domínio (Figura 2), por sua vez, não só não detecta estes como especificamente variantes motivo co-occuring, mas também define os grupos globais em um esquema biologicamente sem suporte ^16.

Figura 1. "Subway Map" representação do B. subtilis adenosina quinase estrutura de domínio (ADK) Lid. As setas indicam IPDs identificados no alinhamento PFAM de ADK domínio Lid por StickWRLD. StickWRLD é capaz de identificar corretamente IPDs dentro de um cluster oresíduos de f que estão em estreita proximidade na proteína dobrada. De particular interesse são os pares T e G nas posições 9 e 29, que formam apenas uma DIP, quando o tétrade de resíduos em 4, 7, 24, e 27 não seja C, C, C, C). Números dos resíduos apresentada representa B. subtilis posições de alinhamento de posição e não Pfam. Por favor clique aqui para ver uma versão maior desta figura.

Figura 2. Skylign ¹⁸ Hidden Markov Model (HMM) Logo Seqüência para o domínio ADK tampa. Enquanto HMMs são ferramentas poderosas para determinar as probabilidades em cada posição, bem como a contribuição de cada site para o modelo global, a independência posicional de HMMs torna- inadequados para detectar IPDs. Este modelo não sugerir qualquer um dosdependências visto nas representações StickWRLD (Figura 6). Por favor clique aqui para ver uma versão maior desta figura.

Figura 3. O StickWRLD Data Loader. Os usuários podem escolher a partir de dados de demonstração existentes ou carregar os seus próprios dados na forma de DNA ou sequência de proteína alinhamentos.

Figura 4. A janela Controle de StickWRLD. O painel de controle permite ao usuário alterar várias propriedades de vista, bem como regular os limiares que controlam a exibição de linhas de bordo, indicando relações entre resíduos (DIP). Circulado em vermelho são os padrões que normalmente precisam de t o ser ajustado para uma melhor visualização de qualquer conjunto de dados. O valor residual define o limiar de (observado o esperado) para os quais linhas conector / associação são desenhados. Os controles para Rótulos de coluna e Bola de controlar ou não a posição da coluna e os valores de resíduos (por exemplo, "A" para a arginina) são exibidos. A coluna de borda alterna controle de linha e fora da exibição de linhas de borda conectando colunas - para conjuntos de dados densos isso é melhor desligado. Os controles de coluna de espessura ou não a própria coluna é exibida -. Definir este para um valor muito pequeno (por exemplo, 0.1) irá desenhar uma linha através das esferas na coluna, tornando-se fácil distinguir as colunas de um outro favor clique aqui para ver uma versão maior desta figura.

"width =" 600 ghres.jpg "/>
Figura 5. visão inicial da janela StickWRLD OpenGL com o domínio tampa conjunto de dados proteína adenilatoquinase carregado. A perspectiva inicial olha "para baixo" através do cilindro composto pelas posições de alinhamento de sequências. O usuário pode girar o cilindro usando esquerdo do mouse clique e arraste, e zoom in / out usando botão direito do mouse clique e arraste-. A visão inicial é bastante densa, porque a exibição padrão mostra mesmo pequenas taxas de co-evolução. Para muitas proteínas, nesta configuração, módulos distintos podem ser detectados, mas mesmo em densamente co-evoluindo proteínas a tela pode ser rapidamente e de forma interativa simplificados para encontrar as DIP mais importantes usando a interface StickWRLD. Por favor clique aqui para ver uma versão maior este valor.

"width =" 700 ghres.jpg "/>
Figura 6. Opinião do close up de uma visualização StickWRLD da proteína domínio tampa adenilatoquinase. Aqui nós mudamos o padrão residual para 0,2. Isto aumenta o limiar para a exibição de arestas de inter-resíduos, mostrando menos arestas. As arestas que permanecem indicam IPDs fortemente associados. Além disso, o ponto de vista tem sido rodado e ampliado para permitir uma melhor visualização das bordas. (A) Um grande conjunto de DIP é visível no primeiro plano, incluindo uma associação de 3-nó entre G (glicina) na posição 132, Y (tirosina) na posição 135, e um P (prolina) na posição 141. (B) A vista foi desviada para posicionar o usuário ligeiramente acima do cilindro, revelando uma IPD entre um H (histidina) na posição 136 e um M (metionina) na posição 29, 107 resíduos distante. Por favor clique aqui para ver uma versão maior desta figura.

Figura 7. Janela do Controle StickWRLD inferior direito vista da informação. CTRL + clique esquerdo em um objeto (por exemplo, esfera ou ponta) na janela de OpenGL exibe as informações para o objeto no canto inferior direito da janela do Controle StickWLRD. Aqui vemos a informação para uma vantagem IPD entre uma metionina na posição 29 e uma histidina na posição 136.

Discussion

StickWRLD tem sido utilizado com sucesso para identificar tais DIP no domínio da tampa ¹⁶ adenilato-quinase, assim como bases de ADN associados no dependente de rho terminadores ^9, e uma nova especificidade de splice-site na Archaea ARNt intrão ⁶ locais-alvo da endonuclease. Estes IPDs não eram detectáveis através de um exame direto dos alinhamentos.

StickWRLD exibe cada posição de um alinhamento como uma coluna de 20 "esferas", em que cada esfera representa um dos 20 resíduos de aminoácidos e o tamanho da esfera indica a frequência de ocorrência de que resíduo em particular dentro dessa coluna (Figura 4). As colunas são dispostas de um cilindro, com linhas de aresta de ligação em diferentes resíduos de colunas (indicando um DPI). Estas linhas de bordo só são desenhados se os resíduos correspondentes são covarying a uma frequência superando tanto o valor de p (significância) e (esperados) - observados os limites residuais.

Detecção de resíduos co-ocorrência interdependentes, ou IPDs, em regiões distais de um alinhamento de DNA ou sequência de proteína é difícil o uso de ferramentas de alinhamento de sequências padrão ^6. Embora tais ferramentas gerar um consenso, ou motivo, seqüência, esse consenso é, em muitos casos, um simples cálculo da média do governo de maioria e não transmite relações de co-variação que podem formar um ou mais sub-temas - grupos de resíduos que tendem a co-evoluir. Mesmo modelos HMM, que são capazes de detectar dependências vizinhos, não pode com precisão modelo motivos de sequência com IPDs distal ^5. O resultado é que o consenso calculados podem, de facto, ser uma sequência de "sintético" não encontrada na natureza - e proteínas modificadas com base em tais consenso computacional não podem, de facto, ser o ideal. Na verdade, a Pfam HMM para ADK iria sugerir que uma proteína quimérica contendo a metade do motivo tetracisteï¿½a, e metade do H, S, D, T motivo, é funcionalmente tão aceitávelcomo qualquer ADK realmente existente. Este não é o caso, tais como quimeras (e muitos outros blendings destes motivos) são cataliticamente morto ^4,19.

Ao olhar para as correlações, é crítico que o limiar residual ser ajustado para permitir a descoberta de correlações relevantes, definindo o limite acima do nível em que quaisquer arestas são vistas e, em seguida, gradualmente aumentando o limiar de volta para baixo. Isto garante que apenas as bordas mais significativos são considerados inicialmente.

Uma abordagem alternativa é começar com o limite residual definir extremamente baixo. Isto resulta na exposição de todas as arestas significativas. A partir daqui o limite residual pode ser aumentada lentamente, permitindo bordas para cair fora até padrões emergem. Enquanto esta abordagem é menos útil quando se olha para a inclusão de nós específicos (por exemplo, aplicação do conhecimento do domínio), que permite a descoberta de relações inesperadas utilizando StickWRLD como uma visual ferramenta analítica para descobrir padrões emergentes na visualização de dados.

StickWRLD é limitada principalmente pela memória disponível do sistema no qual ele é administrado, bem como a resolução do dispositivo de exibição. Embora não haja um limite teórico para o número de pontos de dados StickWRLD pode examinar, e sequências até 20.000 posições foram testadas, na prática, tem um melhor desempenho com StickWRLD sequências até cerca de 1.000 posições.

A principal vantagem de StickWRLD reside na sua capacidade para identificar os grupos de resíduos que covary um com o outro. Esta é uma vantagem significativa sobre a abordagem tradicional da sequência de consenso estatística, que é uma média estatística simples e não leva em conta a co-evolução. Embora em alguns casos resíduos covarying pode ser simplesmente um artefato de filogenia, mesmo estes resíduos têm resistido ao "teste de seleção", e como tal não são susceptíveis de prejudicar a functionalidade de qualquer proteína manipulada para incluí-los.

Enquanto utilizando StickWRLD para identificar DIP em uma sequência de ADN ou proteína canónica consenso / motivo antes variantes sintéticas engenharia irá reduzir o potencial de erro e suporta optimização rápida da função, deve-se notar que StickWRLD pode ser utilizado como uma ferramenta de identificação de correlação generalizada e não está limitada exclusivamente a dados de proteínas. StickWRLD pode ser usado para descobrir visualmente a co-ocorrência de quaisquer variáveis em qualquer conjunto de dados codificados adequadamente.

Materials

Name	Company	Catalog Number	Comments
Mac or Ubuntu OS computer	Various		Any Mac or GNU/Linux (e.g., Ubuntu) computer capable of running Python & associated shell scripts
Python programming language	python.org		Python version 2.7.6 or greater recommended
wxPython library	wxpython.org		Latest version recommended
SciPy library	scipy.org		Latest version recommended
PyOpenGL library	pyopengl.sourceforge.net		Latest version recommended
StickWRLD Python scripts	NCH BCCM		Available from http://www.stickwrld.org
fasta2stick.sh file converter	NCH BCCM		Available from http://www.stickwrld.org
Protein and/or DNA sequence data			Samples available at http://www.stickwrld.org