Análise transcriptomic de

Genetics

Your institution must subscribe to JoVE's Genetics section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

Galaxy e David surgiram como ferramentas populares que permitem que os investigadores sem formação bioinformática para analisar e interpretar dados de RNA-Seq. Descreve-se um protocolo para C. elegans investigadores para executar ARN-Seq experiências, o acesso e processar o conjunto de dados usando Galaxy e obter informação biológica significativa a partir das listas de genes utilizando DAVID.

Cite this Article

Copy Citation | Download Citations

Amrit, F. R., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Próxima geração seqüenciamento (NGS) tecnologias têm revolucionado a natureza da investigação biológica. Destes, Sequenciação de ARN (ARN-SEQ) emergiu como uma ferramenta poderosa para a análise de expressão genética e mapeamento transcriptoma. No entanto, a manipulação de dados de RNA-Seq requer experiência computacional sofisticada e coloca desafios inerentes para pesquisadores de biologia. Este gargalo tem sido mitigada pelo projeto acesso aberto Galaxy que permite que usuários sem habilidades de bioinformática para analisar os dados de RNA-Seq, eo banco de dados para anotação, visualização e Integrated Discovery (David), um Gene Ontology (GO) Suíte análise termo que ajuda derivar significado biológico a partir de grandes conjuntos de dados. No entanto, para usuários iniciantes e amadores bioinformática, auto-aprendizagem e familiarização com essas plataformas podem ser demorado e difícil. Nós descrevemos um fluxo de trabalho simples que irá ajudá C. elegans pesquisadores para isolar RNA verme, realizar um experimento RNA-Seqe analisar os dados usando plataformas Galaxy e David. Este protocolo fornece instruções passo a passo para a utilização dos vários módulos Galaxy para aceder aos dados em bruto NGS, verificações de controlo de qualidade, o alinhamento, e análise de expressão diferencial de genes, orientando o utilizador com os parâmetros em cada passo para gerar uma lista de genes que podem ser rastreados para o enriquecimento de as classes de genes ou processos biológicos utilizando Davi. No geral, prevemos que este artigo irá fornecer informações para C. elegans pesquisadores realizam experimentos de RNA-Seq, pela primeira vez, bem como usuários freqüentes executando um pequeno número de amostras.

Introduction

A primeira sequenciação do genoma humano, realizada usando o método didesoxinucle�ido-seqüenciamento de Fred Sanger, levou 10 anos e um custo estimado de US $ 3 bilhões 1, 2. No entanto, em pouco mais de uma década desde a sua criação, Next-Generation Sequencing tecnologia (NGS) tornou possível sequenciar todo o genoma humano dentro de duas semanas e para US $ 1.000. Novos instrumentos NGS que permitem velocidades de recolha de sequenciamento de dados cada vez maiores com incrível eficiência, juntamente com reduções acentuadas nos custos, estão revolucionando a biologia moderna de maneiras inimagináveis ​​como projetos de sequenciação do genoma estão rapidamente se tornando comuns. Além disso, estes desenvolvimentos tenham galvanizado progresso em muitas outras áreas, tais como a análise de expressão genética através de RNA-Sequencing (ARN-SEQ), estudo de modificações epigenética do genoma, as interacções ADN-proteína, e rastreio para a diversidade microbiana em hospedeiros humanos. NGS à base de ARN-Seq, em particular, tornou possível identificar e transcriptomes mapa abrangente com precisão e sensibilidade, e substituiu tecnologia de microarrays como o método de escolha para a criação de perfis de expressão. Embora a tecnologia de microarray tem sido amplamente utilizado, que é limitada pela sua dependência em matrizes pré-existentes com informação genómica conhecida, e outros inconvenientes, tais como hibridação cruzada e gama restrita de mudanças de expressão que pode ser medida com fiabilidade. RNA-seq, por outro lado, podem ser utilizados para detectar transcritos conhecidos e desconhecidos, enquanto a produção de baixo nível de ruído de fundo devido à sua natureza não ambígua de mapeamento de ADN. RNA-Seq, em conjunto com as várias ferramentas genéticas oferecidos por organismos modelo tais como leveduras, moscas, vermes, peixes e ratos, tem servido como base para muitas recentes descobertas importantes biomédicas. No entanto, subsistem desafios significativos que fazem NGS inacessíveis à comunidade científica em geral, incluindo as limitações de armazenamento, processamento e acima de tudo, m análise bioinformática eaningful de grandes volumes de dados de sequenciação.

Os rápidos avanços em tecnologias de sequenciamento e acumulação exponencial de dados criaram uma grande necessidade de plataformas computacionais que permitirão que os pesquisadores para acessar, analisar e compreender esta informação. Os primeiros sistemas foram fortemente dependente do conhecimento de programação de computadores, enquanto que, os navegadores do genoma como NCBI que permitiram não-programadores para acessar e visualizar dados não permitiu análises sofisticadas. A plataforma, a abertura de acesso baseado na web, Galaxy ( https://galaxyproject.org/ ), preencheu este vazio e provou ser um oleoduto valioso que permite aos pesquisadores para processar dados NGS e realizar um espectro de simples de complexo análises de bioinformática. Galaxy foi inicialmente estabelecida, e é mantido, pelos laboratórios de Anton Nekrutenko (Penn State University) e James Taylor (Johns Hopkins University)f "> 3. Galaxy oferece uma ampla gama de tarefas computacionais tornando-se um 'balcão único' para as necessidades de bioinformática inúmeras, incluindo todas as etapas envolvidas em um estudo RNA-Seq. Itallows usuários para executar o processamento de dados, quer em seus servidores ou localmente em suas próprias máquinas. os dados e fluxos de trabalho pode ser reproduzido e compartilhado. os tutoriais online, seção de ajuda, e um wiki-página ( https://wiki.galaxyproject.org/Support ) dedicada ao Projeto Galaxy fornecer apoio consistente. no entanto, para usuários de primeira viagem, especialmente aqueles com nenhum treinamento bioinformática, o gasoduto pode parecer intimidante e do processo de auto-aprendizagem e familiarização pode ser demorado. Além disso, o sistema biológico estudado, e especificidades da experiência e métodos utilizados, o impacto as decisões de análise em vários passos, e estes podem ser difícil de navegar sem instrução.

O RN geral A-Seq Galaxy fluxo de trabalho consiste de carregamento de dados e de verificação de qualidade, seguido por análise usando o smoking Suite 4, 5, 6, 7, 8, 9, que é um colectivo de várias ferramentas necessárias para diferentes fases de análise de dados de RNA-Seq 10, 11, 12, 13, 14. Uma experiência típica de ARN-Seq consiste na parte experimental (preparação da amostra, de isolamento de ARNm e ADNc preparação biblioteca), o NGS e a análise de dados bioinformática. Uma visão geral destas secções, e os passos envolvidos na calha Galaxy, são mostrados na Figura 1.

3fig1.jpg"/>
Figura 1: Vista geral de uma ARN-Seq fluxo de trabalho. Ilustração dos passos experimentais e computacionais envolvidos numa experiência de RNA-Seq para comparar os perfis de duas estirpes de vermes (A e B, as linhas de laranja e verdes e setas, respectivamente) de expressão genética. Os diferentes módulos de Galaxy utilizados são apresentadas em caixas com o passo correspondente no nosso protocolo indicado no vermelho. As saídas de várias operações são escritos em cinza com os formatos de arquivo mostrados em azul. Por favor clique aqui para ver uma versão maior desta figura.

A primeira ferramenta no Tuxedo Suite é um programa de alinhamento chamado 'Tophat'. Ele quebra a entrada NGS lê em fragmentos menores e, em seguida, mapeia-los para um genoma de referência. Este processo de dois passos garante que lê abrangendo regiões intrónicas cujo alinhamento pode ser de outra forma disrupted ou não atendidas são contabilizados e mapeada. Isto aumenta a cobertura e facilita a identificação de novas junções de processamento alternativo. Saída Tophat é relatado como dois arquivos, um arquivo de BED (com informações sobre junções de emenda que incluem localização genômica) e um arquivo BAM (com detalhes de mapeamento de cada leitura). Em seguida, o arquivo BAM está alinhada contra um genoma de referência para estimar a abundância de transcritos individuais dentro de cada amostra, utilizando a ferramenta posterior na Suite Tuxedo chamado 'Abotoaduras'. Botão de punho funções por digitalizar o alinhamento para relatar fragmentos transcrito de comprimento completo ou 'transfrags' que abrangem todas as possíveis variantes de processamento nos dados de entrada para cada gene. Com base nisso, que gera um 'transcriptoma' (montagem de todos os transcritos gerados por cada gene para gene) para cada amostra a ser sequenciada. Estes conjuntos Abotoaduras são então recolhido ou fundidos em conjunto, juntamente com a reference genoma para produzir um arquivo de anotação única para análise diferencial a jusante usando a ferramenta seguinte, 'Cuffmerge'. Finalmente, a expressão do gene ferramenta medidas diferencial da 'Cuffdiff' entre amostras por comparação das saídas TOPHAT de cada uma das amostras para o ficheiro de saída Cuffmerge final (Figura 1). Abotoaduras usa FPKM / RPKM (Fragmentos / leituras por kilobase de transcrição por milhão mapeados lê) valores para relatar abundâncias transcrição. Estes valores reflectem a normalização dos dados NGS matérias para a profundidade (número médio de leituras a partir de uma amostra que se alinham para o genoma de referência) e o comprimento do gene (genes têm diferentes comprimentos, de modo a contagem tem de ser normalizado para o comprimento de um gene para comparar os níveis entre os genes). FPKM e RPKM são essencialmente o mesmo com RPKM a ser utilizado para um único final de ARN-Seq onde cada leitura corresponde a um único fragmento, enquanto que, é utilizada para FPKM-Fim emparelhado ARN-Seq, uma vez que representa o facto de que duas leituras pode corresponder ao mesmo fragmento. Em última análise, o resultado destas análises é uma lista de genes diferencialmente expressos entre as condições e / ou estirpes testadas.

Uma vez uma temporada de sucesso Galaxy está concluído e uma 'lista gene' é gerado, o próximo passo lógico requer mais bioinformática analisa deduzir conhecimento significativo dos conjuntos de dados. Muitos pacotes de software surgiram para atender a essa necessidade, incluindo pacotes computacionais baseados na web publicamente disponíveis, como David (o banco de dados para anotação, visualização e descoberta Integrado) 15. DAVID facilita a atribuição de significado biológico para listas de genes grandes a partir de estudos de alta produtividade através da comparação da lista de genes carregado para a sua base de conhecimento biológico integrado e revelando as anotações biológicos associados com a lista de genes. Isto é seguido por Análise de Enriquecimento, ou seja, testes para identify se qualquer processo ou classe de genes biológica é sobre-representados na lista (s) de genes de uma forma estatisticamente significativa. Tornou-se uma escolha popular por causa de uma combinação de uma ampla, base de conhecimento integrada e algoritmos de análise poderosas que permitem aos pesquisadores detectar temas biológicos enriquecido dentro genômica derivado 'listas de genes' 10, 16. Outras vantagens incluem sua capacidade de processar listas de genes criadas em qualquer plataforma sequenciamento e uma interface altamente user-friendly.

O nemátodo Caenorhabditis elegans é um sistema modelo genético, bem conhecidos pelas suas muitas vantagens, tais como tamanho pequeno, o corpo transparente, o plano de corpo simples, facilidade de cultura e excelente receptividade ao dissecção genética e molecular. Vermes têm uma pequena, simples e bem-anotada genoma que inclui até 40% de genes conservados com homólogos humanos conhecidos 17. De fato, C. elegansfoi o primeiro metazoários cujo genoma foi completamente sequenciado 18, e uma das primeiras espécies onde ARN-Seq foi usada para mapear transcriptoma de um organismo 19, 20. Estudos de vermes cedo envolvido experimentação com diferentes métodos de captura-ARN de alto rendimento, a preparação da biblioteca e a sequenciação assim como condutas de bioinformática que contribuíram para o avanço da tecnologia de 21, 22. Nos últimos anos, a experimentação baseada em RNA-Seq em vermes tem se tornado comum. Mas, para os biólogos vermes tradicionais os desafios colocados pela análise computacional de dados de RNA-Seq continuam a ser um grande obstáculo para uma maior e melhor utilização da técnica.

Neste artigo, descreve-se um protocolo para a utilização da plataforma Galaxy para analisar os dados de RNA-Seq high-throughput gerados a partir de C. elegans. Para muitos pela primeira vez e pequeno-scale utilizadores, a forma mais eficaz e económica e simples de realizar uma experiência de RNA-Seq é isolar RNA no laboratório e utilizar uma (ou em casa) facilidade NGS comercial para a preparação de bibliotecas de cDNA e sequenciação do próprio NGS. Assim, temos primeiro detalhada das etapas envolvidas no isolamento, quantificação e qualidade de avaliação de C. elegans amostras de ARN por ARN-Seq. Em seguida, nós fornecemos passo-a-passo para o uso da interface Galaxy para análises dos dados NGS, começando com testes de pós-sequenciação de verificações de controlo de qualidade, seguido por alinhamento, montagem, e a quantificação diferencial da expressão do gene. Além disso, nós incluímos as direções para controlar a lista de genes resultantes da Galaxy para estudos de enriquecimento biológicos utilizando DAVID. Como etapa final no fluxo de trabalho, nós fornecemos instruções para fazer upload de dados de RNA-Seq para servidores públicos, como a Sequência Leia Archive (SRA) no NCBI ( http: // www.ncbi.nlm.nih.gov/sra) para torná-lo livremente acessível à comunidade científica. No geral, prevemos que este artigo irá fornecer informações completas e suficientes para biólogos vermes que realizam experimentos de RNA-Seq, pela primeira vez, bem como usuários freqüentes executando um pequeno número de amostras.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Isolamento de ARN 1.

  1. Medidas de precaução
    1. Limpe as inteiras de trabalho de superfícies, instrumentos e pipetas usando um pulverizador de RNase comercialmente disponível para eliminar quaisquer RNases presente.
    2. Usar luvas em todos os momentos, regularmente mudá-las por outras novas durante as diferentes etapas do protocolo.
    3. Utilizar apenas pontas de filtro e manter todas as amostras sobre gelo tanto quanto possível para evitar a degradação de ARN.
      NOTA: Para obter os melhores dados a partir de plataformas NGS, é fundamental começar com RNA de alta qualidade. métodos de isolamento de RNA e preparação de variar dependendo da origem da amostra, método de sequenciação e investigador preferência. Vários kits disponíveis comercialmente podem ser utilizados para este propósito ou ARN também pode ser isolada utilizando um método de fenol-clorofórmio padrão de extracção de ARN. Com qualquer metodologia, as medidas de precaução listadas acima deve ser seguido ao longo do processo para minimizar a contaminação e obtain amostras de ARN intocada.
  2. colheita worms
    1. Sincronizar a população sem-fim por meio de tratamento de branqueamento de hipoclorito de 23 para se obter 1,000-1,500 pareados por idade C. elegans vermes adultos por estirpe.
    2. Lavam-se os vermes fora das placas utilizando uma solução tampão M9 e centrifugação a 325 xg numa centrifugadora de bancada durante 30 s. Aspirar para fora o tampão M9 deixando para trás um sedimento de vermes. Repetir esta etapa, pelo menos três vezes para eliminar transição bacteriana.
    3. Para o sedimento sem-fim, adicionar ~ 500 uL de tampão de lise (se utilizando um kit comercial) ou Trizol (uma solução de mono-fásica de fenol e isotiocianato de guanidina; se extracção com fenol: clorofórmio descrito em 1.3.3 é levada a cabo) para romper tecidos vermes , desactivar RNases e estabilizar os ácidos nucleicos.
      NOTA: O protocolo pode ser pausado aqui pelo flash congelamento as amostras em azoto luido seguido de armazenagem a -80 ° C.
  3. Isolamento de ARN
  4. Sonicar amostras de vermes em 45% da amplitude em ciclos de 20 s. 'ON' e 40 s. 'OFF' (8-12 ciclos por estirpe). Manter as amostras em gelo em todos os momentos.
    NOTA: Verifique se a sonda de ultra-sons é imerso no buffer e é mantido a um nível constante por toda parte. Evitar a formação de espuma da amostra e limpar a sonda completamente em-entre amostras. ciclos de sonicação pode variar dependendo do tipo de ultra-sons utilizado. Recomenda-se que as condições de sonicação são optimizados primeiro em uma amostra de teste antes de iniciar uma experiência.
  5. Se usando um kit disponível comercialmente, prosseguir com Isolamento de ARN de acordo com o protocolo prescrito. Para o isolamento de ARN utilizando um método de fenol-clorofórmio, executar as seguintes etapas.
  6. Centrífuga sonicada amostras a 16.000 xg durante 10 min. a 4 ° C.
  7. Transferir o sobrenadante para um tubo de microcentrífuga de 1,5 ml sem RNase e adicionar 100 mL de clorofórmio (1/5 do volume de reagente de isolamento de ARN / ADN).
    Cuidado: Clorofórmio é tóxico. Para minimizar a exposição e evitar a inalação, trabalhar em uma capa química durante o manuseamento desta substância.
  8. Vortex as amostras cuidadosamente durante 30 - 60 s. e deixar que as amostras de sentar à temperatura ambiente durante 3 min.
  9. Centrifugar a 11750 xg durante 15 min. a 4 ° C. Transferir apenas a camada aquosa superior a um novo isento de ARNase tubo de microcentrífuga tomando cuidado para não aspirar o interface de branco contendo ADN. Repita os passos 1.3.4 através 1.3.6.
  10. Adicionar 250 mL (70% de fase aquosa ou 1/2 de ARN / ADN isolamento volume de reagente) de 2-propanol e inverter o tubo de misturar. Deixe tubos repousar à temperatura ambiente durante 10 min ou deixar durante a noite a -80 ° C.
  11. Centrifugar as amostras a 11.750 xg durante 10 min. a 4 ° C. Decantar o sobrenadante cuidadosamente, deixando para trás um pouco uL na parte inferior do tubo, de modo que a pastilha não é perturbado.
  12. Lavar sedimento com 500 ul de 75% de etanol (feita usando água isenta de RNase) e girar para baixo a 16.000 xg durante 5 min. umat 4 ° C.
  13. Remover o máximo possível sobrenadante sem perturbar o sedimento. Ar secar o sedimento em um capuz durante alguns minutos.
  14. Adicionar 30 mL de água sem RNase e ajudar a dissolver o sedimento de ARN por aquecimento durante 10 min. a 60 ° C.
  15. Verifique a qualidade RNA e quantidade usando um Bioanalyzer.
    NOTA: Bioanalyzer gera um R ND I ntegrity N úmero (NIR) como uma medida de qualidade de ARN. Um RIN de, pelo menos, 8 é o limiar recomendado para amostras de ARN-SEQ (maior é melhor). quantidade de RNA e qualidade também pode ser verificada por espectrofotometria, mas também deve ser seguido por avaliação visual da integridade do RNA. Para fazer isso, executar as amostras sobre um gel de agarose a 1,2% o tempo suficiente para se obter uma separação adequada das bandas 28S e 18S de ARN ribossomal. A presença de duas bandas distintas (1,75 kb para o rRNA 18S e 3,5 kb para rRNA 28S, no caso de C. elegans) constitui uma medida aceitável de qualidade de ARN.
  16. Uso ~ 100 ng / pL de ARN para ship para o fornecedor de instalação / NGS para preparação de bibliotecas de sequenciação.
    NOTA: As amostras de RNA devem ser enviadas em gelo seco para o prestador de serviços de seqüenciamento. A maioria dos provedores de realizar um teste de RNA de controle de qualidade independente antes da preparação da biblioteca.

2. ARN-Seq Análise de Dados

  1. Download do Raw Seqüenciamento de Dados
    1. Faça o download dos dados de sequenciamento fastq cru comprimido codificados no formato fastq.gz do provedor NGS usando um "protocolo de transferência de arquivos" (ftp).

Figura 2
Figura 2: Esquema do Galaxy Painel de interface e as principais funções de ARN-Seq. As principais características da página são expandidas e destacou. (A) realça a função 'Analise dados' no cabeçalho da página da web utilizado para acesso (B) é o 'Progresso bar', que indica o espaço no servidor Galaxy utilizado pela operação. (C) é o 'Tools Section' que lista todas as ferramentas que podem ser executados na interface do Galaxy. (D) mostra os 'NGS: Análise de ARN a secção ferramenta utilizada para a análise de RNA-Seq. (E) mostra o painel 'História' que lista todos os arquivos gerados usando Galaxy. (F) mostra um exemplo da caixa de diálogo que se abre ao clicar em qualquer arquivo na seção Histórico. Within (F), a caixa azul destaca ícones que podem ser usados para ver, editthe atributos ou excluir o conjunto de dados, a caixa roxa destaca ícones que podem ser usados para 'editar' as tags conjunto de dados ou anotação, e, a caixa vermelha indica ícones para baixar os dados, ver detalhes da tarefa executada ou executar novamente a operação. Por favor clique aqui para ver uma versão maior desta figura.

  1. Introdução ao Galaxy
    NOTA: Galaxy pode ser executado em um servidor público gratuito usando uma plataforma baseada na web fornecendo acesso em nuvem e armazenamento limitado livre. Ele também pode ser baixado e executado localmente na máquina do usuário ou aglomerados computacionais hospedados por instituições mas o processamento local, pode ser restringida por limites de armazenamento de dados e limitações de potência de processamento de máquinas dos usuários. Detalhes sobre o download e instalação pode ser acessado no https://wiki.galaxyproject.org/Admin/GetGalaxy . Neste protocolo, descrevemos o uso baseado na Web do gasoduto Galaxy.
    1. Depois de baixar e armazenar os dados NGS na máquina do usuário, acesso Galaxy emlaxy.org/" target = "_blank"> https://usegalaxy.org/.
    2. Registrar uma conta de usuário clicando em 'Usuário' no cabeçalho da página, login e começar a familiarizar-se com o painel de interface do usuário.
      NOTA: É recomendável que os usuários primeira vez utilizar o tutorial 'Comece aqui' fornecido na página inicial para se familiarizar com a configuração básica do Galaxy ( https://github.com/nekrut/galaxy/wiki/Galaxy101-1 ) .
    3. Clique em 'Analisar dados' (Figura 2A) no painel de cabeçalho para aceder ao 'Análise Início Ver', que também é a tela de inicialização no Galaxy.
      NOTA: O cabeçalho também abriga outros links cujos detalhes podem ser vistos ao passar o ponteiro do mouse sobre eles. O canto superior direita do cabeçalho tem uma barra de progresso que monitora o espaço utilizado pelas tarefas (Figura 2B).
    4. Clamber 'NGS: Análise RNA' tarefa no 'Menu Ferramentas' no painel esquerdo (Figura 2C) para acessar todas as ferramentas necessárias para análise de dados de RNA-seq.
      NOTA: O 'Menu Ferramentas' cataloga todas as operações que oferece Galaxy. Este menu é dividido com base em tarefas e clicando em qualquer um vai abrir uma lista de todas as ferramentas necessárias para realizar essa tarefa.
    5. Criar nova história análise clicando no ícone de engrenagem na parte superior do painel 'Histórico' à direita (Figura 2E). Escolha 'Criar Novo' opção no menu pop-up. Dê este 'História' um nome adequado para identificar a análise.
      NOTA: O painel de 'Histórico' mostra todos os arquivos enviados para análise, bem como todos os arquivos de saída que são gerados pela execução de tarefas no Galaxy. Ao clicar em um nome de arquivo neste painel abre-se uma caixa de diálogo com informações detalhadas sobre a tarefa executadae um fragmento do conjunto de dados (Figura 2F). Ícones neste caixa permitir que o usuário 'view', 'editar os atributos' ou 'delete' o conjunto de dados (Figura 2F, destacada em azul). Além disso, o usuário pode também 'editar' tags conjunto de dados ou anotação (Figura 2F, em destaque na roxo), 'download' os dados, 'ver detalhes' da tarefa, 'reprise' a tarefa ou mesmo 'visualizar' o conjunto de dados a partir deste caixa de diálogo (Figura 2F, destacado em vermelho).
    6. Clique na função 'Carregar Arquivo' em 'Obter dados' no 'menu Ferramentas' para fazer upload de arquivos fastq matérias.
      NOTA: Ao clicar sobre este ou qualquer outra ferramenta abre uma breve descrição da operação, eo próprio teste, no painel do meio 'Análise de Interface'. Este painel laços juntos o'Ferramentas' no painel da esquerda e os 'Arquivos de Entrada' no painel da direita 'História' (Figura 2E). Aqui, arquivos de entrada de 'História' são selecionados e outros parâmetros definidos para executar uma determinada tarefa. O conjunto de dados de saída resultante de cada teste é salvo de volta em 'História'. Incluído com o teste no painel 'Análise Interface "são explicações para todos os parâmetros disponíveis para a execução de uma determinada ferramenta, juntamente com uma lista detalhada de todos os arquivos de saída da ferramenta gera.
    7. Depois que a tarefa é aberta no 'Análise de Interface', clique em 'Escolher arquivo local' ou 'Escolher arquivo FTP' (upload mais rápido), navegue até a pasta que contém os arquivos de sequenciamento e selecione o conjunto de dados apropriado para ser carregado.
    8. Permitir Galaxy para 'Auto-detectar' a (configuração padrão) carregado tipo de arquivo. Selecione 'C. elEgans "no menu suspenso para o genoma.
    9. Clique em 'Start' para iniciar upload de dados. Uma vez que o arquivo é carregado, ele será salvo no painel 'História' e pode ser acessado a partir de lá.
    10. Se arquivos de dados múltiplos de sequenciamento são produzidos para uma única amostra, combiná-los usando a ferramenta 'Concatenate'. Para fazer isso, abra a opção 'Manipulação de texto' no 'Menu Ferramentas'.
    11. Clique na ferramenta 'Concatenate', escolher os arquivos que precisam ser combinados a partir da caixa drop-down no meio da 'interface Analysis' e clique em 'Executar'.
      NOTA: Os arquivos de saída produzidos utilizando esta tarefa são gerados no formato fastq. O programa de mapeamento tem um limite de 16.000.000 sequências por arquivo fastq e quando esse limite for atingido um novo ficheiro fastq é gerada para as sequências restantes. a '; Concatenate ferramenta' é necessária em tais casos para combinar os conjuntos de dados.
    12. Converter os arquivos no formato fastq enviados para o formato fastqsanger necessário para Galaxy análise de RNA-Seq usando a função 'fastq groomer' encontrado em dos NGS: QC e manipulação 'seção (ver arquivo suplementar).
    13. Escolha o conjunto de dados fastq apropriada sob o 'Arquivo para Groom' opção e executar a ferramenta usando parâmetros padrão.
      NOTA: Os arquivos de saída produzidos utilizando esta tarefa são gerados no formato fastqsanger.
  2. testes fastqsanger Data Quality-Control
    1. Verifique a qualidade do fastqsanger carregado lê usando a ferramenta 'FastQC' localizado em 'NGS: QC e manipulação' no menu 'Ferramentas'.
    2. Escolha o arquivo de dados fastqsanger preparado a partir do menu drop-down para 'Short ler dados a partir da biblioteca atual e executar a ferramenta usando parâmetros padrão.
      NOTA: Preste atenção especial para a qualidade da leitura e presença de quaisquer sequências de adaptador. Os adaptadores são geralmente removidos como parte do processamento de dados de RNA-Seq pós por prestadores de NGS mas em alguns casos, pode ser deixado para trás. Para uma explicação de padrões de qualidade ir para http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ .
    3. Verifique com o provedor de NGS e se adaptadores estão presentes, apará-los usando a ferramenta 'grampo' do 'NGS: QC e manipulação' menu de tarefas.
      NOTA: Os arquivos de saída produzidos utilizando esta tarefa são gerados no formato txt matéria, bem como em HTML que pode ser aberto em qualquer navegador web.
  3. Análise de dados com Tuxedo Suíte
    1. Cartola
      1. Baixar a última versão do fasta genoma de referência e arquivos de upload do arquivo gtf (Gene Transferência Format)', como descrito acima, em 2.2.6.
      2. Abra as 'NGS: Análise RNA' seção e clique na ferramenta 'TopHat' para mapear o sequenciamento lê o genoma de referência baixado.
      3. Seleccione a resposta adequada no menu suspenso à pergunta "É este single-end ou dados-end emparelhado?
      4. Escolha o arquivo fastq apropriado.
      5. Selecione 'Use um genoma da história' no próximo menu suspenso e escolher genoma de referência baixou na etapa 2.4.1.1.
      6. Selecione 'Default' para os outros parâmetros e clique em 'Executar'.
        NOTA: Entre os arquivos de saída produzidos utilizando esta tarefa, arquivo dos hits aceites »é utilizado para as etapas subseqüentes.
    2. Abotoaduras e Cuffmerge
      1. Selecione o 'Cuffferramenta nas 'ligações NGS: Seção de Análise RNA' para montar as transcrições, estimar sua abundância e teste para expressão diferencial.
      2. No primeiro menu suspenso, escolha os 'hits aceites (formato BAM)' mapeados arquivo obtidos através da análise TopHat.
      3. No segundo menu suspenso, definir anotação da referência para o arquivo gtf baixou na etapa 2.4.1.1.
      4. Selecione 'Sim' para a opção 'Executar a correção viés' e execute a tarefa usando as configurações padrão para todos os outros parâmetros.
        NOTA: Entre os arquivos de saída produzidos utilizando esta tarefa, o arquivo 'aceites Transcrições' é usado para as etapas subseqüentes.
      5. Ferramenta Open 'Cuffmerge' no 'NGS: Análise RNA' para mesclar os 'Transcrições montados' produzidos para todas as amostras de RNA-Seq.
        NOTA: A primeira caixa na ferramenta de auto-povoa e listas de todo o abotoaduras.
      6. Selecione o arquivo 'montado Transcrições' para todas as estirpes / condições testadas, incluindo réplicas biológicas da mesma cepa / condição (ver discussão de repetições biológicas).
      7. Selecione 'Sim' para 'Use anotação da referência' e escolha o arquivo gtf baixou na etapa 2.4.1.1.
      8. Na caixa a seguir, selecione novamente 'Sim' para a opção 'Dados Use Sequence' e escolha o arquivo inteiro genoma fasta baixou na etapa 2.4.1.1.
      9. Manter os outros parâmetros como padrão, clique em 'Executar'.
        NOTA: Cuffmerge gera um único arquivo de saída GTF.
    3. Cuffdiff
      1. Navegue até a ferramenta 'Cuffdiff' no 'NGS: Análise RNA' seção. No menu 'Transcrições', selecione o arquivo de saída resultante da fusão de Cuffmerge.
      2. Rótuloas condições 1 e 2 com os nomes de duas estirpes / condição.
        NOTA: Cuffdiff pode realizar comparações entre mais de duas estirpes ou condições, bem como experimentos curso de tempo. Basta usar a opção 'Adicionar novas condições' para adicionar cada novo cepas / condição, conforme necessário.
      3. Para cada estirpe / condição, sob indivíduo seleccione 'réplicas' ficheiros de saída 'hits aceites' de TopHat que correspondem às diferentes réplicas biológicas daquela estirpe / condição. Mantenha pressionada a tecla 'cmd', se estiver usando um computador Macintosh, e tecla 'ctrl', se estiver usando um PC, para selecionar vários arquivos.
      4. Deixe todas as outras opções como parâmetros padrão. Clique em 'Executar' para executar a tarefa.
        NOTA: Cuffdiff gera vários arquivos de saída em formato tabular como a leitura final da análise de RNA-Seq. Estes incluem arquivos com rastreamento FPKM para transcrições, genes (combinadosFPKM valores de transcritos que partilham uma identidade de genes), as transcrições primárias e as sequências de codificação. Todos os ficheiros de dados gerados podem ser vistos em qualquer aplicação folha de cálculo e conter atributos semelhantes, tais como o nome do gene, lus, dobrar as alterações (em escala log 2), bem como dados estatísticos sobre as comparações entre estirpes / condições, incluindo o valor de p e valores de q. Os dados nestes ficheiros podem ser classificados com base na significância estatística das diferenças ou dobrar mudança na expressão do gene (magnitude e direcção da mudança, como em cima ou para baixo- genes regulados) e manipulados de acordo com os requisitos dos utilizadores. Se for necessária a conversão entre diferentes identificadores de genes (por exemplo, Wormbase ID gene versus número cosmídeo), ferramentas disponíveis no Biomart ( http://www.biomart.org/ ) pode ser utilizado.

3. Gene Ontology (GO) Análise Termo usando DAVID

  1. Acesso DAVID a partir do site https: //david.ncifcrf.gov/. Clique em 'Iniciar análise' no cabeçalho da página. Em 'Passo 1', copiar e colar a lista de genes obtidos a partir de Galaxy na caixa A. No 'Passo 2', seleccione 'Wormbase Gene ID' como o identificador para os genes introduzidos.
    NOTA: DAVID reconhece categorias de anotação mais acessíveis ao público, para que outros identificadores de genes (como ID gene Entrez ou símbolo do gene) também pode ser usado.
  2. Em 'Passo 3', escolha 'Lista Gene' (genes a serem analisados) em 'Tipo de lista' e, em seguida, clique no botão 'Enviar List' ícone.
    NOTA: 'Assistente de análise', vai abrir para listar todas as ferramentas DAVID hiperlinks que podem ser executados na lista gene carregado (Figura 3). Clique nos links para acessar os módulos correspondentes relevantes como pela exigência do usuário. Para identificar as ferramentas apropriadas para uma determinada tarefa, clique em 'Quais as ferramentas DAVID de usar? 'Link na' ; Página Análise Wizard'. Clique no link 'Iniciar análise' no cabeçalho para retornar à home page do 'Assistente de Análise' em qualquer ponto durante a análise.

Figura 3
Figura 3: Esquema do DAVID Análise Assistente página da web e exemplos de funcionamento saídas. User-interface web do 'Assistente de Análise' lista as ferramentas utilizadas para analisar lista gene carregado para o enriquecimento com base em vários parâmetros. Clicando sobre essas ferramentas reporta os dados analisados ​​em uma nova página web. Exemplos dos relatórios tabulares gerados a partir de 'Gene Classificação Funcional', 'Guia de anotação funcional' e 'clustering anotação funcional' são mostrados como inserir (setas).> Por favor clique aqui para ver uma versão maior desta figura.

  1. Ferramenta de anotação funcional 1: Funcional Clustering Anotação
    1. Clique no módulo 'Anotação Clustering funcional' para ir para a página de resumo. Mantenha as categorias de anotação padrão e clique em 'Clustering anotação funcional' para gerar conjuntos de termos de anotação semelhantes classificados por sua pontuação de enriquecimento.
    2. Clique no nome hiperlinks de cada termo para ler detalhes sobre ele e 'RT' (termos relacionados) para listar outros termos semelhantes relacionados com a categoria.
    3. Clique na barra de roxo para listar os genes associados com um termo e o 'G' vermelho para listar todos os genes associados com todos os termos dentro de um cluster.
    4. Clique no ícone verde para ver uma visão bidimensional de todos os genes e os termos em um cluster.
      NOTA: As três últimas colunas listar os resultados analíticos e estatísticos para cadaprazo. Os resultados para este e todos os outros analytics pode ser baixado em formato .txt, clicando no link 'Download File'.
  2. Ferramenta de anotação funcional 2: anotação funcional Gráfico
    1. Voltar para a página de resumo e clique sobre 'Gráfico anotação funcional' para identificar termos biológicos significativamente sobre-representados (por exemplo, de actividade do factor de transcrição ou a actividade da quinase), associadas com a lista de genes.
    2. Clique no nome prazo para obter informações mais detalhadas e 'RT' (termos relacionados) para listar outros termos relacionados.
    3. Clique na barra de roxo para listar todos os genes associados da categoria individual correspondente.
      Nota: Relacione As duas últimas colunas resultados as estatísticas-testes para cada categoria.
  3. Ferramenta de anotação funcional 3: Funcional Tabela Anotação
    1. Voltar para a página de resumo e clique em 'Functional Tabela anotação 'para ver uma lista de todas as anotações associadas com os genes de uma lista sem quaisquer cálculos estatísticos.
      NOTA: Esta ferramenta pode ser útil para a análise de gene-por-gene de uma lista ou de olhar para genes específicos e altamente interessantes.
  4. Gene Ferramenta de Classificação Funcional
    1. Voltar ao 'Assistente de análise' e clique em módulo 'gene funcional Classification' para segregar a lista gene de entrada em grupos relacionados com o funcionalmente de genes classificados como por seu 'Índice de Enriquecimento', uma medida de enriquecimento global do grupo gene na lista.
    2. Clique no nome prazo para obter informações mais detalhadas e 'RG' para revelar genes funcionalmente relacionados do grupo gene
    3. Clique em 'T' vermelho (relatórios prazo) para listar biologia associado eo ícone verde para ver uma visão bidimensional de todos os genes e termos.
  5. Gene-nameVisualizador de lote
    1. Voltar ao 'Assistente de análise' e clique em 'Gene-Nome do lote Visualizador' traduzir 'Wormbase Gene IDs' em seus nomes de genes correspondentes. (WBGene00022855 = tRCE-1).
    2. Clique no nome gene para obter mais informações específicas do gene.
    3. Clique sobre o 'RG' (genes relacionados) ligação ao lado de cada gene para revelar os genes previstos como sendo relacionadas funcionalmente com o gene de interesse.

4. Carregamento de RAW Dados para o NCBI sequência lida Arquivo (SRA)

  1. Acesse o site SRA em Entrar no link de NCBI' ou registar uma nova conta.
  2. Clique em 'Bioproject'.
  3. Clique em 'Submission' sob o 'Usando Bioproject' cabeçalho do lado esquerdo.
  4. Selecione a opção 'New Submission'. Detalhes da actualização do apresentador. Continuar através dos restantes sete abas, Preenchendo os detalhes da experiência e dados a ser carregado. Clique em 'Enviar' quando concluído.
    NOTA: Na quinta guia 'amostra biolica', deixar o slot para 'amostra biolica' vazio.
  5. Atualize a página resultante clicando no link 'Minhas inscrições'. Os dados apresentados serão listados com um número de apresentação atribuído, breve descrição e status upload.
  6. Clique em 'amostra biolica' no topo desta página, na caixa 'iniciar uma nova submissão' e criar uma 'nova submissão'. Enviar submissões separadas para cada amostra.
  7. Tal como no caso com 'Bioproject' em 4,4, actualizar os detalhes do apresentador e continuar através do resto dos separadores de enchimento nos detalhes de cada guia. Uma vez concluída a revisão e clique em 'Enviar'.
  8. Navegue até http: //www.ncbi.nlm.nih.gov / SRA para criar o 'Sequence Leia Archive (SRA)' submissão final.
  9. Clique em 'Login para SRA' em 'Getting Started'.
  10. Na próxima página, clique no link 'NCBI PDA'. Um link 'Preferências update' vai abrir. Preencha o formulário e clique em 'Salvar preferências'.
  11. Na página resultante, clique no botão 'Create New Submission' link. Digite um nome adequado sob 'Alias' e clique em 'Salvar'. Uma tabela com o ID submissão e outros detalhes serão criados.
  12. Clique em 'New Experiment' e registrar pelo menos uma biblioteca de sequenciamento único para cada 'amostra biolica'.
  13. Designar e vincular o criado anteriormente 'Bioproject' e 'amostra biolica' ID da submissão do. A 'New Experiment' será criado.
  14. Clique em 'New Run' na parte inferior da páginaApós o experimento SRA foi feito e identificar os arquivos de dados que precisam ser ligadas a ele.
  15. Calcular a soma MD5 de cada arquivo de dados. Para fazer isso em um terminal MacIntosh, navegue até Aplicativos / Utilitários / Terminal. No terminal, tipo em 'MD5' (sem as aspas), seguido por um espaço. Arraste e solte os arquivos que precisam ser carregados no terminal do Finder e clique 'Enter'.
  16. Terminal irá retornar uma soma MD5 alfanumérico. Digite isso como parte do processo de submissão para o upload de arquivos. Use o nome de usuário e senha fornecidos pelo sistema para fazer upload de arquivos utilizando FTP.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Em C. elegans, a eliminação das células estaminais da linha germinal (GSCS) prolonga a vida, aumenta a capacidade de resistência de stress, e eleva a gordura corporal 24, 28. Perda de GSCS, quer provocada por laser de ablação ou por mutações, tais como GLP-1, faz com que a vida útil de extensão através da activação de uma rede de 29 factores de transcrição. Um destes factores, TCER-1, codifica o homólogo de verme do factor humano alongamento transcrição e splicing, TCERG1 30. Os seguintes resultados representativos ilustrar como ARN-Seq foi usada para identificar os genes cuja expressão é modulada por TCER-1 / TCERG1 seguinte perda da linha germinativa no nosso estudo recentemente publicado em 31. Os transcriptomes de idade correspondente, dia 2 adultos de GLP-1 e tRCE-1; GLP-1 mutantes foram comparadas. Para cada estirpe, o ARNm foi isolado a partir de duas réplicas biológicasTES (quatro amostras totalmente) utilizando o protocolo descrito na secção 1. As amostras de RNA foram enviados para um fornecedor de serviço comercial que preparado a partir de bibliotecas de ADNc das quatro amostras e realizaram 50 pb único sequenciação final. Os dados NGS cru foi baixado como descrito na seção 2.1.

Pós avaliação de dados de sequenciamento

A Tabela 1 é uma compilação dos resultados dos testes para avaliar a qualidade do sequenciamento matéria lê. análise de verificação de qualidade 'FASTQ' realça o número de sequências de leitura sem 'qualidade pobre' lê juntamente com teor de GC de 48-49% e uma sequência de comprimento ler constante de 51 pb. Este passo também verifica os dados de sequenciação para muitas outras características, tais como o conteúdo Kmer e é colectivamente formado por 11 ensaios no total. O genoma de C. elegans é ~ 100 Mbp. Com base no número de sequenciação lê a partir de cada amostra que mapeada para o genoma, o genome cobertura (última coluna) foi estimada utilizando a equação Lander / Waterman 'C = LN / G', em que, C representa a cobertura, L é o comprimento do genoma haplóide, L é o comprimento de leitura e N é o número de leituras. Nós usamos parâmetros padrão para todas as etapas e obteve 48-49% de conteúdo GC em todas as amostras. Como pode ser visto, a cobertura foi genoma entre 9x a 11x nas amostras.

Identificação do TCER-1 / Genes TCERG-1-regulada por Gene Diferencial Análise expressão no Galaxy

Através dos passos descritos nos pontos 2.2 a 2.4, o oleoduto Galaxy 3 foi usado para obter uma lista de genes diferencialmente expressos entre GLP-1 e tRCE-1; GLP-1 mutantes. Galaxy nos permitiu combinar os dados NGS das duas repetições para cada cepa e realizada a análise diferencial para gerar arquivos tabulares destacando a ampla expressão genoma proFile. Usando um limiar de mudança, pelo menos, um vezes na magnitude e valor P de pelo menos 0,05, uma lista de 835 genes que foram diferencialmente expressos entre as duas estirpes foi gerado 31. A lista foi dividido com base em se a expressão dos genes foi regulada para baixo em tRCE-1; GLP-1 mutantes (359 UP genes cuja transcrição é provavelmente reforçada por TCER-1 / TCERG1) ou sobre-regulada (476 genes BAIXO cuja transcrição é provável reprimido por TCER-1 / TCERG1), em comparação com GLP-1 (Figura 4).

Figura 4
Figura 4: Identificação de Genes TCER-1 / TCERG1-regulados em linha germinal-menos C. elegans mutantes usando RNA-Seq: Resultados de Galaxy (A) e DAVID (B) as análises. (A) Análise de expressão diferencial de genes de dados de RNA-Seq comparandoos transcriptomes de GLP-1 e tRCE-1; GLP-1, originou um total de 835 genes, dos quais 359 foram identificados como sendo sobre-regulada por TCER-1 / TCERG1 (UP) e 476 como sub-regulada por TCER-1 / TCERG1 (para baixo). (B) Os resultados da análise de genes identificados como TcEr-1 / TCERG1 alvos usando DAVID 'anotação Clustering funcional'. Enriquecimento percentagem de processos biológicos para ambas as classes (para baixo) sobre-regulada (UP) e sub-regulada de TcEr-1 / TCERG1 alvos. O gráfico mostrado aqui é obtido através da representação gráfica dos grupos de gene enriquecida (eixo X) e o seu respectivo enriquecimento por cento (eixo Y) obtidos como a saída de análise DAVID. Figura modificado a partir Amrit et al. 31 e reproduzido com permissão. Por favor clique aqui para ver uma versão maior desta figura.

Para obter uma visão geral das classes de gene enriquecida em alvos TCER-1 / TCERG1, realizou-se análise ontologia gene (GO) termo usando DAVID. O TCER-1 / TCERG1-regulada UP e listas de genes BAIXO foram carregados de forma independente para DAVID e analisados como descrito na secção 3. Pouco se sabe sobre os genes e processos celulares alvo de TCER-1 / TCERG1 anteriormente 30, portanto, o DAVID análise a ser especialmente revelador e útil. Análise anotação funcional dos genes UP revelou cinco grupos de anotações com uma pontuação de Enriquecimento de> 1,3, o mais elevado do citocromo P450, incluindo genes que codificam a enzima e genes de resposta xenobióticos, seguido pelos genes implicados na modificações lipídicas. Este foi reforçada pelos resultados da análise de Classificação Funcional do gene que identificadas grupos atribuída com molecula semelhanteactividades de I com pontuações enriquecimento significativo. Usando folha de cálculo, os grupos identificados foram representados graficamente contra as suas respectivas pontuações de enriquecimento (Figura 4). Os nossos dados anteriores sugeriram que TCER-1 / TCERG1 funcionou com o factor de transcrição conservada longevidade, DAF-16 / FOXO3a, para promover a longevidade de GSC-menos 30 adultos. DAF-16 / FOXO3a, por sua vez, tem sido implicado na modulação do metabolismo lipídico em estudos recentes 27, 32, 33. Com base nesta evidência, e a identificação de genes e vias de lípidos-metabólica como potenciais TcEr 1-/ TCERG1 alvos no DAVID análises, que incidiu sobre os genes do metabolismo de gordura identificados no estudo de RNA-Seq para estudos mecanísticos detalhados. Seguindo este chumbo, e por meio de experimentação genética, bioquímica, e funcional molecular subsequente, nós demonstramos que TCER-1 / TCERG1 juntamente com DAF-16 / FOXO3a coordenadamente acesced tanto catabólico lipídico e processos anabólicos em resposta à perda de linha germinal 31. Da mesma forma, Funcional Clustering anotação do BAIXO TCER-1 / TCERG1 alvos identificados Clusters anotação enriquecidas para as funções do citoesqueleto, a regulação positiva do crescimento, reprodução e envelhecimento (Figura 4). Estas observações e os comprovativos evidências experimentais sugerem que após a perda da linha germinal, TCER-1 / TCERG1 também reprime crescimento e fisiologia reprodutiva em células somáticas, bem como a express de genes anti-longevidade 31.

Amostra total de Seqüências comprimento % GC Total de leituras (Galaxy) Lê mapeado (Galaxy) Cobertura genoma
GLP-1 4000000 51 49 20700539 ~ 16.000.000 11x
GLP-1; tRCE-1 4000000 51 49 18055444 ~ 13.000.000 9x
GLP-1 4000000 51 48 18947463 ~ 14.000.000 10x
GLP-1; tRCE-1 4000000 51 48 13829643 ~ 10.000.000 7x

Tabela 1: RNA-Seq Detalhes de exemplo. Compilação de atributos de dados brutos avaliadas pós-sequenciamento para confirmar o sucesso do sequenciamento prazo. Os dados de sequenciação a partir da experiência representativa consiste em duas condições biológicas, uma estirpe de controlo (GLP-1 (tRCE-1; GLP-1) com duas réplicas biológicas sequenciados para cada. Análise de verificação de qualidade 'FastQC' realça o número de sequências de leitura sem "má qualidade" lê, 48 - teor de GC de 49% e uma sequcia ler comprimento constante de 51bp. Modificada e reproduzido com permissão de Amrit et al. 31.

Arquivo Suplementar: cadeia de comando em breve para as ferramentas são executadas no gasoduto Galaxy para análise de dados de RNA-Seq. Por favor clique aqui para baixar esse arquivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Importância do sequenciamento Platform Galaxy em Biologia Moderna

O Projeto Galaxy tornou-se fundamental para ajudar os biólogos sem formação bioinformática para processar e analisar dados de sequenciamento de alto rendimento de uma forma rápida e eficiente. Uma vez considerado uma tarefa hercúlea, esta plataforma disponível publicamente fez correr algoritmos de bioinformática complexos para analisar os dados NGS um processo simples, confiável e fácil. Além de hospedar uma ampla gama de ferramentas de bioinformática, a chave do sucesso para Galaxy também é a simplicidade de sua interface de usuário que laços juntos os vários aspectos da análise de sequenciamento complexo de uma forma intuitiva e sem costura. Devido a estas características, o gasoduto Galaxy adquiriu amplo uso entre biólogos, incluindo C. elegans pesquisadores. Além de familiarizar o utilizador com o oleoduto Análise de RNA-Seq, Galaxy também ajuda a estabelecer a base para biólogos de base para agarrar aconceito de análise de dados e entender as ferramentas envolvidas. Este conhecimento prepara o usuário para prosseguir talvez ainda mais plataformas de bioinformática mais complexos, como 'R' e 'Python'. Além Galaxy, ferramentas e outros pacotes estão disponíveis comercialmente e, como soluções de fonte aberta, que podem ser utilizados para análise de RNA-Seq. As opções comerciais muitas vezes são stand-alone pacotes de software que são user-friendly, mas pode ser caro para pesquisadores individuais que não usam NGS frequentemente. Alternativamente, plataformas de código aberto, como BioWadrobe 34 e ArrayExpressHTS 35 exigem conhecimento de trabalho da linha de comando e scripts rodando, o que coloca desafios significativos para não-bioinformatas. Assim, o Galaxy continua a ser um recurso popular e indispensável.

passos críticos dentro do protocolo

As vantagens esforço de Galaxy e DAVID, não obstante, uma bem sucedida experiência ARN-Seq aindase baseia fundamentalmente na concepção e execução da etapa experimental cuidadoso. Por exemplo, é crítica para assegurar a homogeneidade genética antes de comparar duas estirpes por ARN-SEQ, e para determinar se existem diferenças em taxas de desenvolvimento. Isolamento do ARN a partir das estirpes da mesma idade é crítica bem. Da mesma forma, para ter em conta a variabilidade de expressão de genes dentro da mesma estirpe, que é importante para executar dois ou mais 'réplicas biológicas' de cada estirpe. Este significa essencialmente crescimento e de colheita vermes das estirpes a ser sequenciado em experiências pelo menos twoindependent, embora três réplicas biológicas é o padrão recomendado. Galaxy unifica os dados a partir de múltiplas réplicas biológicas de modo a que as diferenças de expressão genética relatados entre estirpes não são simplesmente uma consequência da variabilidade 'dentro-amostra'.

Uma decisão de concepção é crítica sobre a utilização de um único final versus-fim emparelhado sequenciação. Comsequenciação de um único final, cada fragmento é sequenciado uni-direccional de modo que o processo é mais rápido, mais barato e adequadas ao perfil de transcrição. Na sequenciação-fim emparelhado, uma vez que o fragmento é sequenciado a partir de uma extremidade para a outra, uma segunda ronda de sequenciação é retomado na direcção oposta. Ele fornece mais dados em profundidade e informações de posicionamento adicional do genoma, de modo que é mais adequado para a montagem do genoma de novo, nova identificação do SNP e para a identificação de epigenética modificações, eliminações, inserções e inversões. Do mesmo modo, o número total de leituras e extensão da cobertura genoma necessário para estudos de expressão diferenciais adequados é dependente do contexto. Para genomas pequenos, tais como bactérias e fungos, ~ 5000000 lê é suficiente, enquanto que, em vermes e moscas ~ 10 milhões lê proporcionar uma cobertura adequada. Para organismos com grandes genomas como ratos e seres humanos, 15-25000000 lê é a gama requerida. Além disso, o número de leitura e cobertura, também é important que a maioria da NGS lê alinhar com o genoma de referência. Um alinhamento de <70% de leitura é indicativo de NGS pobres ou a presença de contaminantes. No geral, para C. elegans estudos de RNA-Seq, três réplicas biológicas sequenciado com 50 pb sequenciação unidireccional resultando em ~ 10-15000000 lê e ~ 5-10X cobertura genoma para cada amostra é um objectivo ideal.

Apesar da facilidade de usar Galaxy, existem alguns pontos para lembrar, a fim de garantir uma experiência de análise de dados suave e sem falhas. É necessário que o usuário tenha uma compreensão básica da finalidade e funcionamento dos vários instrumentos utilizados. Cada ferramenta Galaxy requer a seleção de parâmetros e entender a ferramenta irá ajudar o usuário a otimizar as configurações com base na exigência do experimento. As páginas de ajuda Galaxy explicar cada parâmetro e é recomendado que o usuário ler estes detalhes para decidir sobre as variáveis ​​de teste.

O p lista gene obtidoost análise de RNA-Seq é meramente uma lista de genes, até que é extraído dos dados biologicamente relevantes usando DAVID. Este é um exercício crucial que converte dados baseadas em genes individuais em resultados baseados no processo biológico. Explorando a lista gene de ARN-Seq usando as várias análises DAVID fornece, portanto, uma parte integral e importante do protocolo.

Modificações, solução de problemas e limitações

Um problema comum com a análise de dados é NGS tarefas ou testes que falham, especialmente nas fases de controle de qualidade. Dos testes que FastQC é executado em uma amostra, um poucos poderiam surgir como falhou. No entanto, isso não significa inevitavelmente a amostra não atende aos padrões de qualidade fastq. A falha poderia ter uma explicação alternativa que deve ser explorada com cuidado.

Por exemplo, se o teste 'Por teor de sequência de bases' falhar (o que sugere que há uma diferença maior do que 10% entrebases em qualquer posição), verificar o método para a preparação da biblioteca de oligodT. Trabalhos anteriores mostraram que as bibliotecas Illumina NGS pode ter uma propensão para a base 13 de ser sequenciado para ter uma tendência para certas bases causando a amostra a falhar o teste. Da mesma forma, uma falha do teste 'Kmer conteúdo' pode por vezes ser atribuída ao facto de que as bibliotecas derivadas de iniciação aleatória será quase sempre mostram viés Kmer no início, devido a uma amostragem incompleta dos iniciadores aleatórios. Portanto, é importante considerar estes e outros impedimentos no pipeline análise antes de determinar o destino do experimento.

Uma outra característica importante que pode influenciar a análise dos dados de RNA-Seq é os avanços rápidos e exponenciais que estão ocorrendo em métodos de NGS e software de análise. Idealmente, uma espera de uma lista de genes idênticos para resultar a partir de análise de uma amostra de dados NGS em duas condutas ou duas versões do mesmo tubolinha. No entanto, enquanto melhorando constantemente algoritmos são abaixamento aberrações na análise de ARN-SEQ e produzir listas de genes de maior precisão, este muitas vezes conduz a disparidades. Por exemplo, analisando uma amostra de dados NGS usando uma versão mais recentes mais antigas contra do mesmo conjunto de ferramentas pode produzir listas de genes significativamente diferentes. A variação modesta é esperado, mas os usuários precisam estar cientes de que grandes discrepâncias podem ser reflexo de deficiências na concepção ou desempenho do experimento.

Coletivamente, as ferramentas analíticas do projeto Galaxy e David têm transformado a forma como os dados NGS pode ser aproveitada para extrair informações biologicamente relevantes. Isso abriu inteiramente novos níveis de independência e de investigação para a comunidade científica, incluindo C. elegans pesquisadores. Por exemplo, o custo reduzindo constantemente de sequenciamento juntamente com uma melhor e mais rápida tecnologia de sequenciamento estão inaugurando uma era de transcriptomics no nível de vermes individuais,tecidos vermes individuais e até mesmo algumas células vermes selecionados. Estas tentativas envolvem aumentos dramáticos nos dados NGS a ser gerado. Mantendo-se com o fim analítica deste fluxo de trabalho vai ser um desafio, mas, devido à sua versatilidade, o Galaxy é susceptível de ser um instrumento para capacitar a passagem do organismo inteiro transcriptómica a ARN-Seq no nel de cula ica em C. elegans. Os avanços resultantes no conhecimento são susceptíveis de fornecer insights extraordinários para a biologia fundamental.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada a revelar.

Acknowledgments

Os autores gostariam de expressar a sua gratidão aos laboratórios, grupos e indivíduos que desenvolveram Galaxy e David, e, portanto, feitas NGS amplamente acessível para a comunidade científica. A ajuda e conselhos fornecidos por colegas da Universidade de Pittsburgh durante a nossa formação bioinformática é reconhecido. Este trabalho foi apoiado por uma Ellison Medical Foundation New Acadêmico em Aging prêmio (AG-NS-0879-12) e uma concessão do National Institutes of Health (R01AG051659) para AG.

Materials

Name Company Catalog Number Comments
RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

DOWNLOAD MATERIALS LIST

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291, (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409, (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44, (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25, (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28, (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12, (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27, (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7, (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31, (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4, (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15, (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9, (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13, (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21, (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37, (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6, (5), e20085 (2011).
  18. Consortium, C. eS. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282, (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20, (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, Web Server issue W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21, (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68, (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399, (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285, (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21, (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10, (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51, (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5, (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12, (2), e1005788 (2016).
  32. Wang, M. C., O'Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322, (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans' lifespan in response to reproductive signals. Aging Cell. 11, (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27, (6), 867-869 (2011).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics