Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

Pesquisa baseada em padrões de dados Epigenomic usando GeNemo

Published: October 8, 2017 doi: 10.3791/56136
* These authors contributed equally

Summary

Ao contrário dos dados de sequência de DNA, epigenomic dados não são prontamente submetidos a pesquisas baseadas em texto. Aqui apresentados são os procedimentos para usar uma versão atualizada do GeNemo, uma ferramenta de Bioinformática baseado na web, para realizar pesquisas baseada em padrões para semelhanças em epigenomic dados comparando bancos de dados disponíveis on-line incluindo livre de elementos de DNA com dados do usuário.

Abstract

Comparado com as ferramentas de busca robusto baseado em texto para genômica ou RNA dados de sequenciamento, metodologias atuais para pesquisas baseada em padrões de epigenomic e outros dados de genômicos funcionais são muito limitadas. GeNemo é a primeira ferramenta de busca on-line que realiza esse objetivo. Usuários seus dados de genômicos funcionais no navegador de dados extensível (cama), picos e graúdos formatos de entrada e podem pesquisar dados em qualquer um dos três formatos. Os usuários podem especificar quais tipos de conjuntos de dados para pesquisar contra, escolhendo entre uma variedade de conjuntos de dados on-line, com o livre de DNA elementos (ENCODE) representando epigenomic diferentes marcas, locais obrigatórios do fator transcricional e cromatina hypersensitivities ou acessibilidades em tipos de células específicas e estádios de desenvolvimento ou espécie (mouse ou humanos). GeNemo retorna uma lista de regiões genômicas com correspondência de padrões para os dados de entrada, que podem ser visualizados no navegador, bem como baixados no formato de arquivo de cama. O GeNemo atualizado melhorou a exibição gráfica, tem interface mais robusto e não é mais propenso a erros devido a mudanças na Universidade da Califórnia, navegador do genoma de Santa Cruz (UCSC). Etapas de solução de problemas para problemas comuns são discutidas. Como a quantidade de dados de genômicas funcionais está expandindo exponencialmente, há uma necessidade crítica para desenvolver e aperfeiçoar as novas ferramentas de bioinformatic como GeNemo para análises de dados e interpretação.

Introduction

Avanços tecnológicos recentes permitiram uma expansão rápida de epigenomic ou depositários de dados genômica funcional, que já ultrapassou o desenvolvimento de ferramentas analíticas relevantes para extrair ideias biológicas. Um aspecto importante para analisar os dados de epigenomic é a busca de dados gerados por usuários contra depositários de dados e especialmente os da livre de elementos de DNA (ENCODE)1 projetos para correspondência de padrões que podem levar a novos conhecimentos. Por exemplo, identificar semelhanças nos padrões de duas marcas diferentes epigenomic em loci definidos através do genoma pode indicar uma acção coordenada pelos diferentes jogadores moleculares na conformação da cromatina e Regulamento transcriptional2 ,3,4.

Os motores de busca convencionais baseados em texto são ineficazes neste sentido porque, ao contrário da sequência de DNA, existem predominantemente epigenomic dados no formato de intensidades ou regiões de genômicas funcionais. GeNemo, em pé por Gene Nemo (como em Procurando Nemo), foi desenvolvido para atender a essa necessidade não atendida usando pesquisas baseadas no padrão5. Seu algoritmo utiliza um Markov Chain Monte Carlo maximização processo5. Usuários levar seus próprios dados ou um conjunto de dados baixados depositários e busca uma matriz de dados on-line epigenomic para identificar semelhanças em padrões.

A versão atual do GeNemo tem um display atualizado, interfaces de forma mais enérgica com a Universidade da Califórnia, Santa Cruz (UCSC) genoma navegador6e é menos suscetível a problemas causados por alterações no último. Em particular, enquanto a página de resultados do GeNemo usado para basear-se na interface de navegador UCSC genome, a versão atual do GeNemo suporta sua própria página de resultados e, consequentemente, é já não afectada por mudanças estruturais para o navegador do genoma UCSC. GeNemo pode usar qualquer sinal de genômica, incluindo proteína ligadora, modificação de histona, acessibilidade de cromatina, domínios topológicos e assim por diante, como uma consulta para encontrar segmentos colocalized/semelhante entre conjuntos de dados conhecidos de grandes consórcios. Portanto, é uma ferramenta importante para estudar a relação entre dados de diferentes epigenomic de interesse e dados conhecidos gerados em projetos de grande escala genômica.

Protocol

Nota: O protocolo pode ser interrompido em qualquer lugar.

1. configuração básica

  1. obter uma cama, picos formato ou BigWig 7 arquivo contendo os dados para ser inserido no genoma. O arquivo deve ter o nome da extensão " cama ", " broadpeaks " " narrowpeaks ", ou " graúdos " respectivamente.
    ​ Nota: zipadas versões desses tipos de arquivos também funcionará.
  2. Use um navegador de internet para ir para genemo.org. Qualquer sistema operacional capaz de executar mais comuns navegadores de internet deve ser capaz de usar GeNemo.
    1. Escolher quais espécies para pesquisar contra usando o menu suspenso. Atualmente espécies disponíveis incluem humanos e do rato.
    2. Upload de arquivo de usuário usando uma url ou um upload direto. Figurão arquivos só trabalho com o método de carregamento de url. CAMA e picos formato arquivos de trabalho com os dois métodos (wiggle arquivos não podem ser enviados como os principais dados a partir de agora).

2. Instalação opcional

  • fornecer um endereço de e-mail na caixa correspondente, a fim de receber os resultados da pesquisa por e-mail, quando a pesquisa é feita de
      .
      ​ Nota: ao procurar uma grande parte do genoma e/ou contra um grande número de faixas (veja abaixo), é recomendável que o usuário forneça seu e-mail, desde que a pesquisa pode levar um longo tempo. Por exemplo, uma pesquisa de 100 megabase leva cerca de 15 s. Um link para os resultados da pesquisa será enviado para o endereço de e-mail fornecido quando a pesquisa estiver concluída. O link irá expirar em 7 dias após a conclusão de uma pesquisa.
    1. Fornecer um arquivo de manda-chuva ou o arquivo de exibição do wiggle pode ser de uma url. Este arquivo de exibição não afetará os resultados; Isso só vai ser mostrado ao lado dos resultados.
    2. Especificar um intervalo de pesquisa (incluindo as posições de cromossomo e pares de base) na caixa correspondente.
      1. Listam o cromossomo, começar a par de base e finalizar base par.
      2. Uso ' chrN ' para o formato do cromossomo, onde ' N ' é o cromossomo número/letra (1, 2, … X ou Y). Para os pares de base, basta digitar os números.
      3. Incluir espaços entre todas as três entradas, ou incluir um dois-pontos (:) entre o número de cromossomos e o par de primeira base, e/ou um hífen entre os dois pares de base. Por exemplo: chr1:1000000-2000000, chr1 1000000 2000000, chr1 1000000-2000000, chr1:1000000 2000000.
        Nota: Os passos 2.1-2.3 são opcionais.

    Figure 1
    Figura 1 : GeNemo ' capa de s com as áreas necessárias preenchidos. Um usuário precisa para entrada da espécie, arquivo de pesquisa e intervalo de pesquisa e selecione faixas que deseje Pesquisar contra. Endereço de e-mail e exibir o arquivo são opcionais. clique aqui para ver uma versão maior desta figura.

    3. seleção de dados

    Figure 2
    Figura 2 : janela de seleção de faixa. Esta é criada clicando o " seleção de dados " botão na primeira página. Aqui, os usuários selecionar faixas para pesquisar o arquivo de entrada contra. Algumas das faixas já estão selecionadas por padrão. clique aqui para ver uma versão maior desta figura.

    1. Após clicar no botão de seleção de dados, escolher quais os tipos de faixas para pesquisar contra (ou seja, adicionar à consulta). A coleção de faixa inclui muitos diferentes conjuntos de dados de laboratórios em todo o mundo.
      1. Como a lista de faixas é bastante longa, os usuários podem querer usar o botão de filtro (no topo) para facilitar a faixa seleções. Faixas podem ser filtradas pelo experimento, tecido, linha celular e/ou Lab.
      2. Há cinco botões na parte inferior para ajudar a executar a seleção de faixas: selecionar tudo, selecionar None, Add, filtro, Exclude.
      3. Selecionar tudo " e " Selecione None " são auto-explicativos.
      4. o " Add " botão adiciona faixas atualmente selecionadas para a consulta. Serve como a porta lógica " ou ". Observe que selecionar o filtro (s) acima (por exemplo, certas experiências, tecidos, linhas celulares ou laboratórios) não adiciona automaticamente faixas correspondentes para a consulta de pesquisa. Os usuários devem primeiro selecionar faixas (por exemplo, cérebro, fígado sob tecido) e clique no " Add " botão para adicioná-los à consulta. Ao selecionar faixas, note que apenas os filtros especificados na guia aberto na janela do filtro serão aplicados para a consulta de pesquisa. Seleções em outros guias serão salvo na janela de filtro, mas não são aplicadas para a consulta de pesquisa.
      5. o " filtro " botão retém apenas os tipos de faixas atualmente selecionados na janela de filtro na consulta e remove todos os outros tipos de faixas. Serve como a porta lógica " e ". Essencialmente, " filtro " permite a seleção da interação entre duas categorias de faixas (por exemplo, certos tecidos com determinados laboratórios). Observe que " filtro " não adiciona os tipos selecionados de faixas para a consulta se eles já não estão na consulta.
      6. o " excluir " botão remove todos os tipos de faixas que são atualmente selecionados na janela do filtro da consulta. Serve como a porta lógica " não ", em oposição ao " filtro " função. Novamente, " excluir " não adiciona qualquer faixas não-seleccionadas no momento na janela do filtro para a consulta.

    Figure 3
    Figura 3 : janela de filtro . Esta é criada clicando o " filtro " botão na janela de seleção de faixa. Aqui, os usuários podem selecionar várias faixas ao mesmo tempo, com relativa facilidade... por favor clique aqui para ver uma versão maior desta figura.

    Figure 4
    Figura 4 : como usar a função de filtro. clique aqui para ver uma versão maior desta figura.

    1. depois de adicionar as faixas desejadas para a consulta, clique no " Update " botão no canto inferior direito. Isto é necessário para acomodar duas maneiras de selecionar dados: selecionar faixas de dados individuais ou filtragem/excluindo. O " Reset View " botão redefine a consulta para as faixas padrão relacionadas à regulação da expressão gênica em células-tronco embrionárias humano/rato.
      Nota: Selecionando faixas a serem pesquisados contra através de " seleção de dados " é opcional, mas recomendado serPorque as faixas de pesquisa padrão são mais prováveis não é adequado para o usuário ' necessidades de s.

    4. Pesquisa e resultados

    1. clique o " pesquisa " botão após a seleção de dados. A busca pode levar algum tempo.
    2. , Uma vez que a pesquisa é concluída, os usuários visualizarão várias caixas na página de resultados. Cada caixa representa uma seção do genoma, onde um usuário ' s arquivo de dados tem um estreita correspondência padrão com um ou mais das faixas o usuário tenha consultado.
      1. Se não houver nenhuma tentativa de caixas visíveis, pesquisando mais tipos de faixas ou aumentar o intervalo de pesquisa com o mesmo arquivo de entrada. Uma maneira fácil de fazer isso sem refazer tudo é clicar o " ☰ " botão ao lado do logotipo. Isto abrirá uma barra lateral que permite ao usuário modificar a busca.
      2. Os resultados podem ser exportados como um arquivo de cama clicando sobre o " baixar o arquivo de cama " botão na parte inferior da página de resultados.
    3. Clique no botão Visualizar no canto superior direito de cada caixa para visualizar os resultados.
      1. Painel em the visualização em relação ao múltiplo de certo, as coisas são exibidas, incluindo os dados, que incorpora o arquivo de entrada de usuário, o arquivo de exibição se um foi introduzido, correspondência de faixas, e faixas de algum padrão. Partir dos resultados, o usuário pode comparar conhecido ENCODE datasets contra o dataset fornecido para maiores investigações. O usuário também pode se referir a genes UCSC para ver o contexto dos resultados da consulta. Se faixas de múltiplas linhas de célula/tecidos são selecionadas, o usuário poderá usar esses resultados para obter insights sobre a especificidade do tecido das semelhanças entre o determinado conjunto de dados e datasets ENCODE.
      2. Página sobre os resultados, o usuário pode arrastar qualquer faixas para mover a montante ou a jusante do genoma; quando o cursor do mouse é nas coordenadas, o usuário pode usar a roda do mouse e/ou zoom in e out.

    Figure 5
    Figura 5 : página de resultados. Esta pesquisa particular retornou 363 regiões correspondentes. Exibindo a primeira região correspondente pode ser feito clicando a " SHOW " botão no canto inferior esquerdo de cada caixa de região resultante. Na parte esquerda da janela de exibição pode ser visto que os arquivos de dois dados (faixa de entrada e selecionado) são similares no padrão de força de sinal. por favor clique aqui para ver uma versão maior desta figura.

  • Representative Results

    Aqui mostrado na Figura 5 é uma busca de simulado. A espécie humana foi selecionada, e o correspondente arquivo de amostra foi usado como o arquivo de dados de entrada. Além disso, as faixas padrão, como pode ser visto na Figura 3, foram selecionadas. Havia um total de 363 correspondência de regiões, e a primeira região é mostrada na página de exibição. Pode ser visto que o padrão de intensidade de base 17036000 para 17038000 no cromossoma 1 para o arquivo de entrada e uma das faixas selecionadas é muito semelhante.

    Discussion

    Uma compreensão completa da Epigenoma é necessário para alcançar o pleno potencial de sequenciamento do genoma humano em fornecer novos conhecimentos biológicos8. Atualmente, há apenas maneiras de Pesquisar por sua descrição de dados e o título (ou seja, metadados)1, conjuntos de dados on-line epigenomic. Isto limita severamente os tipos de pesquisa que se pode fazer com epigenomic dados. Ferramentas de busca baseada em padrões para epigenomic dados são essenciais para explorar a relação entre epigenomic de diferentes marcas, que podem levar a novos insights biológicos. GeNemo, que busca pelo conteúdo dos dados e metadados não, é o primeiro serviço deste tipo de comparação de padrões de dados epigenomic de depositários publicados, tais como o banco de dados do ENCODE com um gerado pelo usuário ou baixado dataset5. Isto marca o início da disponibilidade de uma ferramenta de pesquisa de epigenomic que é amplamente acessível aos pesquisadores ao redor do mundo apenas como ferramenta de pesquisa de sequência baseada em texto tornou-se amplamente disponível na década de 1990. Atualmente, não existem alternativas para ferramentas de busca on-line baseada em padrões para epigenomic dados que não sejam GeNemo.

    Um exemplo de potencial de uso GeNemo é para pesquisar as modificações do histone co aparecendo e outras marcas epigenéticas com o fator transcricional E2F6 em células-tronco embrionárias humanas (ficheiro de exemplo E2F6 do sinal de ligação está disponível no portal de dados ENCODE ou no https://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Usando este arquivo como consulta para pesquisar em todos os datasets ENCODE em H1-hESC, GeNemo irá mostrar que o sinal de ligação E2F6 fortemente é enriquecido com H3K4me1, H3K4me2, H3K4me3 e H3K27me3, que concorda com estudos existentes, mostrando que a E2F6 regula alguns genes através metilação de H3K279. Por outro lado, parece ser o colocalization de sítios de ligação E2F6 e CtBP2, que é conhecido por interagir com um fator da mesma família, E2F710. Estes resultados para o genoma inteiro contra um grande número de marcas epigenéticas, sinais de ligação do fator transcricional e outros sinais incluídos no ENCODE podem ser facilmente obtidos com GeNemo, que pode fornecer todos os potenciais alvos para posterior análise.

    Desde a primeira publicação5 de GeNemo como uma ferramenta de busca de dados baseado na web epigenomic, a seção de resultados de GeNemo foi atualizada para ter uma aparência correspondente com a primeira página do GeNemo. A antiga seção de resultados estreitamente espelhado seção resultados UCSC navegador do genoma e foi largamente dependente do servidor remoto UCSC para exibição. Com a nova interface, GeNemo é o mais user-friendly e já não depende do servidor de genoma UCSC (apesar de dados ainda são buscados remotamente). Isso faz GeNemo mais robusto e menos suscetível a problemas devido a alterações de código no servidor UCSC. Além disso, a interface de novo, mais rápido polímero de GeNemo dá ao usuário mais ferramentas para visualizar e analisar padrões nos dados.

    Passos críticos incluem fornecendo o arquivo de entrada apropriado e selecionando trilhas de dados para pesquisar contra. Os usuários são fortemente encorajados a experimentar com várias funções de seleção de faixa para se familiarizar com o processo de seleção e como diferentes comandos podem ser combinadas para alcançar o resultado pretendido. Em particular, observe que a função "Adicionar" é necessário para adicionar faixas desejadas selecionadas para a consulta, enquanto o "Filtro" ou "Excluir" pode ser usado como comandos de portão de lógica "E" e "Ou", respectivamente. A função de "Atualização" é necessário para afetar todas as seleções antes de implementar a pesquisa. Quando há resultados são retornados, um usuário pode verificar o arquivo de dados de entrada, mais faixas de busca ou aumentar o intervalo de pesquisa. Sempre que há um erro, haverá uma janela aparecendo definindo o que é exatamente o erro. Há alguns erros ambíguos, embora. Por exemplo, quando a janela diz que 'nenhum arquivo foi carregado', ou nenhum arquivo foi carregado, ou o arquivo carregado não era de um formato aceitável e, por conseguinte, o programa não foi capaz de lê-lo corretamente. Formatos de arquivo aceitável para upload de arquivo incluem cama e picos de arquivo de formato para ambos os métodos de carregamento e graúdos para upload link online apenas. As versões zipadas desses formatos de arquivo também são aceitáveis.

    Limitações atuais desta abordagem incluem o ainda-para-ser-otimizada algoritmos e funções empregadas em GeNemo. GeNemo ainda não pode fornecer qualquer orientação sobre a interpretação de quaisquer conjuntos de dados retornados. Esta tarefa cabe aos usuários, que requer considerável conhecimento e experiência na biologia do genoma e Epigenoma. Além disso, outra limitação atual é que os usuários não podem alterar o nível de ruído e sensibilidade das buscas. Esperamos continuar a melhorar e expandir a GeNemo em seu padrão de busca recursos e coleção de dataset no futuro.

    Disclosures

    Os autores têm sem interesses financeiros concorrentes para divulgar.

    Acknowledgments

    Este trabalho foi financiado pelo NIH concede incluindo DP1HD087990 de FORMULADORES, R01HG008135 de tempo. Agradecemos a membros do laboratório Zhong para feedback valioso.

    Contribuições do autor:
    X.C. e A.T.Z. atualizado GeNemo codificando a nova interface e recursos; A.T.Z. produziu o vídeo de amostra in-house; A.T.Z., x. c e S.Z. escreveram o jornal.

    Materials

    Name Company Catalog Number Comments
    GENEMO https://www.genemo.org Comparative Epigenome Browser

    DOWNLOAD MATERIALS LIST

    References

    1. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
    2. Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
    3. Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
    4. Roh, T. -Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
    5. Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
    6. Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
    7. Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
    8. Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
    9. Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
    10. Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

    Tags

    Bioengenharia edição 128 bioinformática GeNemo ENCODE correspondência de padrão dados de genômicos funcionais Epigenoma genoma
    Pesquisa baseada em padrões de dados Epigenomic usando GeNemo
    Play Video
    PDF DOI DOWNLOAD MATERIALS LIST

    Cite this Article

    Zheng, A., Cao, X., Zhong, S.More

    Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

    Less
    Copy Citation Download Citation Reprints and Permissions
    View Video

    Get cutting-edge science videos from JoVE sent straight to your inbox every month.

    Waiting X
    Simple Hit Counter