Biology

Genômica MRI - um recurso público para estudar os padrões de seqüência dentro de DNA genômico

Published: May 9, 2011 doi: 10.3791/2663

Ashwin Prakash¹, Jason Bechtel¹, Alexei Fedorov¹

¹Department of Medicine, University of Toledo Health Science Campus

Summary

Apresentamos um sítio web público computacional para análise de seqüências genômicas. Ele detecta padrões de seqüência de DNA com vários não-aleatória composições de nucleotídeos. Este recurso também gera sequências ao acaso, com diversos níveis de complexidade.

Abstract

Regiões não codificantes do genoma em eucariotos complexos, incluindo áreas intergênica, introns e exons segmentos não traduzida, são profundamente não-aleatórios em sua composição de nucleotídeos e consistem em um complexo mosaico de padrões de seqüência. Estes padrões incluem a chamada Faixa de Mid-homogeneidade (MRI) regiões - seqüências de 3-10 nucleotídeos de comprimento, que são enriquecidas por uma base ou combinação de bases (por exemplo, (G + T)-ricos, ricos em purinas, etc ). MRI regiões estão associadas com estruturas de DNA incomum (não-forma B) que muitas vezes são envolvidos na regulação da expressão gênica, recombinação, e outros processos genéticos (Fedorova & Fedorov 2010). A existência de um viés de fixação forte dentro das regiões de ressonância magnética contra mutações que tendem a reduzir sua heterogeneidade seqüência adicionalmente suporta a funcionalidade e importância dessas sequências genômicas (Prakash et al. 2009).

Aqui demonstramos um recurso Internet disponível gratuitamente - o pacote de programas Genomic MRI - (. Bechtel et al 2008) concebidos para a análise computacional de seqüências genômicas, a fim de encontrar e caracterizar vários padrões de ressonância magnética dentro deles. Este pacote também permite a geração de sequências ao acaso, com várias propriedades e nível de correspondência para as seqüências de DNA natural de entrada. O objetivo principal deste recurso é facilitar o exame das vastas regiões de DNA não-codificante que ainda são pouco investigados e aguardam exploração completa e reconhecimento.

Protocol

Todos os programas usados no papel ter sido escrito usando perl, e todas as páginas web foram criados usando PHP.

1. Ponto de partida:

Abra a home page do pacote de Genomic on-line por ressonância magnética no http://mco321125.meduohio.edu/ ~ jbechtel / gmri /. O recurso da Web também oferece instruções / explicações sobre os programas do "Ajuda (How-to/README)" link, enquanto todos os materiais publicados no Genomic algoritmos de ressonância magnética e similares são listadas na seção "Links para recursos relevantes" link.

2. Preparação e Upload de seqüência de entrada (s).

Crie um arquivo com FASTA-formatado seqüência (s) para iniciar uma sessão de análise GMRI. Cada seqüência de nucleotídeos neste formato deve ser precedido com uma única linha de partida com o caracter ">" que representa um identificador, seguido na mesma linha por uma breve descrição dessa seqüência. Seqüências de nucleotídeos para análise GMRI também permite que personagens como R, Y, N, X, etc Hwever, não-A, T, C, G caracteres não serão processados pelo programa e será ignorado. Seqüências em que os elementos repetitivos têm sido "mascarados" (substituído por "N" s) pode ser usado como entrada. Observe que os caracteres seqüência são case insensitive.

Iniciar uma sessão GMRI clicando no "iniciar ou retomar" botão na página inicial Genomic MRI. Isso leva o usuário a uma página onde seqüências de nucleotídeos podem ser carregado.
Copie e cole o FASTA-formatado seqüências ou fazer upload de um arquivo contendo as seqüências de seu computador local usando a "escolha o arquivo" botão.
Clique no botão "Iniciar sessão nova com este arquivo" botão. Uma mensagem de confirmação deve aparecer acima da janela de entrada afirmando que "Sua seqüência foi enviada com sucesso" e você deve também ter uma alfanuméricos "GMRI identificador" [o site chama-lhe um "rótulo sessão"] para a sua sessão (por exemplo, b16yMj), que pode ser usado para recuperar e continuar a sessão por até duas semanas após a primeira utilização.

NOTA: A partir de agora as seqüências de entrada são referidos como "userfile".

3. Obter uma distribuição de freqüência de Oligonucleotídeos das Seqüências de Entrada (opcional).

Clique no botão "Analyzer SRI" tab (linha superior), a fim de obter uma distribuição de freqüências de oligonucleotídeos para todo o conjunto de seqüências de entrada. A sigla SRI representa curto alcance não homogeneidade. Nesta conjuntura, o usuário pode especificar o comprimento máximo de oligonucleotídeos (de 2 até 9 nucleotídeos, padrão 6 nts) para os quais frequências serão calculados. Esta seleção é feita clicando na opção desejada dentro do "Maximum oligômero tamanho" caixa de listagem. Em seguida, pressione o botão "Analyze File" botão para iniciar a computação. Uma representação aproximada da composição seqüência de entrada será imediatamente aparecem como uma pequena tabela no meio desta página web e para download como "userfile.comp.tbl". Esta tabela representa apenas os oligonucleotides mais e menos abundantes no seqüências de entrada.

A tabela de freqüência inteira para todos oligonucleotides possível é gerado como um arquivo chamado "userfile.comp", que pode ser obtido através do "Download composição arquivo" link.

NOTA: SRI analisador conta todo o conjunto de todos os oligonucleotides sobrepostas.

4. Gerar seqüências aleatórias com a mesma composição de Oligonucleotídeos Como no seqüências de entrada (opcional).

(Conclusão da etapa 3 do protocolo é necessário para esta tarefa).

Clique em "Gerador de SRI" tab (fila de cima) para abrir uma nova página da web que cria seqüências aleatórias. Escolha o número de amostras de seqüências aleatórias a ser gerado usando a caixa de lista nesta página web. Cada um desses arquivos de exemplo conterá seqüências aleatórias do mesmo número e extensão, como as seqüências de entrada em "userfile". Além disso, se uma seqüência de entrada contém caracteres não-A, T, C, G ou caracteres, a seqüência aleatória terá "N" s exatamente as mesmas posições que na seqüência de entrada.
Escolher o maior comprimento de oligonucleotídeos para os quais frequências serão aproximada em seqüências aleatórias. Isto pode ser escolhido por selecionando a opção para o nível desejado oligômero (por exemplo, "4-mers" por quatro-base oligonucleotides) na tabela no centro da tela. É de se notar aqui que as seqüências aleatórias consistirá não só as freqüências aproximadas ao nível oligômero escolhido, mas também as frequências correspondentes de níveis menores de oligômero, como nas seqüências de entrada. Pequenas flutuações na oligonucleotídeofreqüências de entrada e seqüências aleatórias são possíveis devido ao procedimento de Modelo Markov aplicados para a geração de seqüências aleatórias.
Inicie o programa clicando no botão "Gerar Arquivo" botão. Se as seqüências de entrada são grandes pode demorar alguns minutos para gerar seqüências aleatórias. Assim, um usuário deve esperar até que azul "Download" links aparecem na parte inferior desta página. Os conjuntos aleatórios são colocados em arquivos com nomes como "userfile.randX_Y", onde X é o número do conjunto de forma aleatória e Y é o nível de oligômero escolhido (por exemplo, "userfile_rand2_4").

5. Análise do Médio heterogeneidade (MRI) de entrada e seqüências aleatórias.

Clique no botão "MRI Analyzer" guia (linha superior), que abre uma nova página da web que analisa a heterogeneidade de gama média da composição de nucleotídeos das seqüências.
Selecione uma seqüência a ser analisada a partir do "File para analisar" caixa de lista (uma escolha entre a seqüência de entrada e conjuntos de seqüências geradas aleatoriamente podem ser feitas aqui).
Escolha o tipo de conteúdo de ressonância magnética para ser analisado através da caixa de lista fornecida. (Sete opções de conteúdo estão disponíveis: G + C; G + A; G + T; A; G, C, ou T.)
Escolher o comprimento da janela para que as seqüências de conteúdo rico e pobre em conteúdo será analisado através do "Window size" caixa de listagem (o padrão é de 50 nucleotídeos, o intervalo válido é de 3-10).
Escolha o limite superior e limite inferior para as regiões ricas em conteúdo e conteúdo-pobres, respectivamente. Esses limites podem ser definidos pelo número exato de nucleotídeos em particular na janela atual (usando a opção número por na caixa de listagem) ou por porcentagem desses nucleotídeos na janela (usando a opção pelo percentual)
Depois de todas as cinco escolhas já foram feitas (por exemplo: Seqüência = "userfile"; Content = GC; tamanho da janela = 50; limite superior = 35; limite inferior = 15), chamar o programa, premindo o botão Analyze File. O programa varre todas as seqüências a partir da entrada selecionada consecutivamente. A cada passo que obtém um segmento da corrente de seqüência com comprimento igual ao tamanho da janela especificada e calcula se o número ou a percentagem de nucleotídeos do conteúdo escolhido estiver acima do limite superior ou abaixo do limiar inferior. Se a janela não corresponde nem critérios, a próxima janela sobrepostas (desviado por um nucleotídeo) é selecionado para a mesma análise. Quando uma janela é encontrada onde a seqüência de cumprir um dos requisitos de limite para conteúdo rico composição ou pobres, o programa salva a seqüência desta janela no arquivo de saída e gera um aumento na saída gráfica. Após isso, o programa salta para a janela não se sobrepõem próxima adjacentes e recomeça o processo de digitalização até o fim da seqüência seja alcançado.
Após a conclusão do programa, um link para o arquivo de saída (com o nome "userfile_GC_50_35 .. 15" para o exemplo acima) aparece e uma representação gráfica dos resultados é exibido no meio da página web (veja Figura 1). Nesta apresentação gráfica todas as seqüências de entrada do userfile são concatenadas em uma única seqüência e apresentados como uma linha preta horizontal no eixo X, com comprimento em kilobases (kb) mostrado abaixo. Todas as regiões ricas em conteúdo ao longo de seqüências de entrada são marcados como azul "para cima" espigões, e conteúdo dos pobres regiões como o vermelho "para baixo" picos. O número total de janelas de conteúdo rico e conteúdo dos pobres são mostrados na parenthses na legenda na parte inferior desta figura (32 e 19, respectivamente). A figura serve para ilustrar a relativa abundância eo arranjo das regiões de ressonância magnética. Enquanto isso, os detalhes específicos são apresentados no arquivo de saída (ver Figura 3). Neste arquivo, todos os segmentos de seqüência de nucleotídeos que correspondem conteúdo rico ou pobre em critérios e suas coordenadas estão disponíveis para um usuário como uma lista de acordo com suas posições consecutivas ao longo do arquivo de entrada.
Após a conclusão da análise de MRI para a seqüência escolhido um usuário pode iniciar um novo processo na mesma página da web, fazendo mudanças nos parâmetros e / ou arquivos de entrada. Por exemplo, a fim de analisar a amostra aleatória gerada anteriormente # 1 com os mesmos parâmetros de ressonância magnética, o usuário só precisa mudar o arquivo de opção para analisar e selecionar o arquivo "userfile_rand1_4" e pressione o botão Arquivo Analisar novamente. Um novo arquivo e display gráfico irá substituir o antigo. Os resultados e os números de todos os exames em cada "sessão lable" (GMRI identificador) será salvo e estará disponível por duas semanas a partir da última atividade. A fim de salvar os resultados / figmentos de forma permanente, o usuário deve selecionar o "Download Files" guia (linha superior) e baixar a sessão inteira ou arquivos individuais, conforme necessário.
Com esta página web MRI Analyzer um usuário pode estudar
- (G + C) ricos e (A + T) regiões ricas
- Purina (A G +)-ricos e pirimidina (C + T) regiões ricas
- Keto (G + T) e rico em aminoácidos (A + C) regiões ricas
- A-regiões ricas e pobres A-
- G-regiões ricas e pobres G-
- T-regiões ricas e pobres T-
- C-ricos e pobres regiões C-
A última versão do MRI Genomic tem uma nova opção para o estudo de regiões ricas em purinas (R) / Pirimidina (Y) padrões de alternância que pode formar Z-DNA conformações. Atualmente, essa opção está disponível no link "Z-DNA" e funciona na mesma base de outras regiões acima de ressonância magnética. Um usuário deve selecionar limiares superior e inferior para o número de (RY + YR) dinucleotídeos sobreposição na janela de digitalização. O programa produz uma saída semelhante gráfica e um arquivo de segmentos de DNA enriquecido e empobrecido por uma alternância de purinas e pirimidinas. O suposto Z DNA-regiões devem ser altamente enriquecido por uma alternância R / Y bases (ver revisão F & F 2011).

6. Programas adicionais dentro do pacote Genomic MRI (opcional).

O recurso Genomic RM também tem duas opções avançadas para a geração de muito específico seqüências aleatórias. Eles estão disponíveis através do "Gerador de ressonância magnética" e "Generator CDS" tabs na linha superior.

Gerador de MRI cria sequências ao acaso, com a mesma composição de oligonucleotídeos como o arquivo de entrada (semelhante ao SRI gerador). No entanto, além disso, seqüências randomizado imitar um determinado padrão de ressonância magnética especificado pelo usuário. Dentro desta página web, o usuário deve especificar a partir de uma caixa de listagem um determinado padrão de ressonância magnética para ser imitado. A caixa de lista contém todos os padrões que foram examinados nesta sessão por MRI analisador (por exemplo, "userfile_GC_50_35 .. 15"). A seqüência aleatória gerada com esta opção terá a mesma composição de oligonucleotídeos como o arquivo de entrada selecionado e também o mesmo GC-ricos e dos pobres padrões como visto em "userfile_GC_50_35 .. 15".
CDS gerador é usado para a randomização de sequências codificadoras de proteínas. Preserva a mesma seqüência de aminoácidos como a codificadas pela entrada especificado pelo usuário. Além disso, o programa mantém o mesmo códon e di-codon preconceitos, conforme especificado no usuário escolhido tabela de entrada. A versão online do gerador CDS também aceita uma seqüência de proteína como entrada. Todas as outras opções para o programa são oferecidas somente via stand-alone scripts Perl disponível para download a partir da página principal do web Genomic MRI.

7. Resultados representante

Este protocolo permite que um usuário para estudar falta de homogeneidade de composição de seqüências de nucleotídeos. Importante, ele também suporta a geração de uma variedade de sequências ao acaso, com uma composição de oligonucleotídeos que se aproxima daquela das seqüências de entrada. Geralmente, as seqüências genômicas dos eucariotos complexos não são homogêneos em composição, mas representam um complexo mosaico de segmentos seqüência enriquecida por nucleotídeos particular (por exemplo, rica em purinas, (G + T)-ricos, (A + T), rico em etc.) Estes padrões de mid-range escala (3-10 pb) são visualizados através da saída gráfica do analisador de ressonância magnética que mostra selecionados conteúdo rico segmentos como superior picos de azul e de conteúdo pobre em segmentos como menores picos de vermelho (ver figuras 1 e 2). Normalmente, o número de todas as regiões ricas em conteúdo e conteúdo dos pobres em uma seqüência natural (Figura 1) é da ordem de vezes maior do que o número dos mesmos tipos de regiões em seqüências correspondentes ao acaso (Figura 2) com o oligonucleotídeo mesmo composição. Estes segmentos seqüência com mid-range heterogeneidade na composição de nucleotídeos podem ser de interesse para o usuário. Eles estão disponíveis a partir da Genomic arquivos de saída de ressonância magnética para investigação adicional.

Figura 1. Um exemplo da saída analisador MRI gráfica a partir do passo 5.7. Os resultados foram obtidos em uma amostra de 44 introns humana. Barras azuis representam as posições de regiões ricas em GC ao longo destes íntrons. Barras vermelhas representam GC-pobre (ou AT-ricos) MRI regiões. O eixo y contém limiares superior e inferior para o tipo de conteúdo.

Figura 2. Analisador de saída MRI para a seqüência aleatória "userfile.rand1_4".
O graphical representação de ressonância magnética dentro de uma seqüência aleatória gerada utilizando o programa gerador de SRI.

Figura 3. Um exemplo do início de um arquivo de saída textual de analisador de ressonância magnética.
Todas as seqüências de conteúdo rico e pobre de conteúdo detectado pelo programa são apresentados na coluna (quarto) passado. Suas posições relativas, medido em número de janelas, são mostrados na primeira coluna. A segunda e terceira colunas são indicadores para as regiões ricas em conteúdo e conteúdo-pobres, respectivamente.

Discussion

Regiões com a composição de nucleotídeos não homogênea na mid-range escalas (3-10 nucleotídeos) são superabundantes nos genomas de eucariotos complexos e podem ser encontrados em qualquer lugar (regiões intergênicas, íntrons, as regiões não traduzidas dos exons, elementos repetitivos). Estas regiões são freqüentemente associados com conformações DNA incomum. Por exemplo, sequências purine-/pyrimidine-rich tendem a formar triplexes DNA (H-DNA); seqüências com a alternância de purina / pirimidina bases estão associados com Z-DNA conformações; (G + C) regiões ricas apresentam anormalidades estruturais no B- DNA e pode ser propenso a clivagem backbone; (A + T) regiões ricas podem formar uma estrutura incomum - um elemento DNA descontrair, etc (revisado por Fedorov & Fedorova 2010). Alguns desses padrões de gama média (por exemplo, (G + T) regiões ricas) são mal investigados e ainda aguardam exploração completa e reconhecimento. O objetivo principal do nosso recurso web Genomic MRI é ajudar os usuários na identificação destas regiões RM para sua posterior análise experimental e para a exploração de suas possíveis funções. Conhecimento das regiões de ressonância magnética poderia ser incorporada e melhorar a nova geração de programas preditor gene (Shepard 2010) e avançar a nossa compreensão das funções do genoma e propriedades.

Disclosures

Não há conflitos de interesse declarados.

Acknowledgments

Somos gratos a Samuel Shepard, Bazeley Peter, David e John Bell para a administração da Genomic páginas web de ressonância magnética. Este trabalho foi financiado pela National Science Foundation Carreira prémio "Investigação de papéis intron celular" [número de concessão MCB-0643542].

Materials

Name	Company	Catalog Number	Comments
Computer with Internet
Files with nucleotide sequences for examination

DOWNLOAD MATERIALS LIST

References

Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. , 65-91 (2010).
Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. , The University of Toledo. 57-157 (2010).

Biology

Genômica MRI - um recurso público para estudar os padrões de seqüência dentro de DNA genômico

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.