RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
pt_BR
Menu
Menu
Menu
Menu
DOI: 10.3791/55009-v
Blake L. Joyce1,2, Asher K. Haug-Baltzell3, Jonathan P. Hulvey4, Fiona McCarthy5, Upendra Kumar Devisetty1,6, Eric Lyons1,2,3
1BIO5 Institute,University of Arizona, 2The School of Plant Sciences,University of Arizona, 3Genetics GIDP,University of Arizona, 4Biology Department,University of Massachusetts Amherst, 5School of Animal and Comparative Biomedical Sciences,University of Arizona, 6CyVerse,University of Arizona
Please note that some of the translations on this page are AI generated. Click here for the English version.
This protocol outlines a workflow for de novo transcriptome assembly and annotation, designed for novice bioinformaticians. It provides an interactive environment for analyzing RNA-Seq data, accessible through CyVerse.
Este protocolo descreve um fluxo de trabalho comparativo de montagem e anotação de transcriptoma de novo para bioinformáticos iniciantes. O fluxo de trabalho está disponível gratuitamente inteiramente através do CyVerse e conectado pelo Data Store. A linha de comando e as interfaces gráficas do usuário são usadas, mas todo o código necessário está disponível para copiar e colar.
O objetivo geral deste procedimento é avaliar, montar, anotar e comparar a expressão gênica diferencial por meio da transcriptômica De Novo, a partir de arquivos FASTQ brutos. Esse método pode ajudar a responder a perguntas em biologia comparativa e molecular, incluindo quais transcritos estão dentro de um organismo, o que esses transcritos estão fazendo dentro desses organismos e quais são as diferenças entre as condições experimentais. A principal vantagem dessa técnica é que ela fornece um ambiente interativo.
Ele fornece recursos computacionais sob demanda e permite que os pesquisadores comecem a analisar imediatamente seus dados de RNA-Seq. Este método é particularmente útil para pesquisadores que comparam experimentos dentro de um único organismo que envolve vários tecidos, condições, pontos de tempo para entender como os sistemas biológicos mudam. Este método é focado em organismos não modelo sem genomas, mas também pode ser aplicado a organismos com montagens de genoma disponíveis, mesmo aqueles com dezenas ou centenas de milhares de scaffolds em sua montagem.
Para começar, tenha acesso ao Atmosfera no Ambiente de Descoberta. Solicite uma conta gratuita do CyVerse navegando até a página de registro. Use um e-mail institucional para se registrar na conta.
Em seguida, navegue até a guia de aplicativos e serviços e solicite acesso ao Atmosphere. O acesso ao Ambiente de Descoberta é concedido automaticamente. Faça login no Ambiente de Descoberta, abreviado como DE. Em seguida, selecione a guia Dados para abrir um menu contendo todas as pastas no armazenamento de dados.
Crie uma pasta principal do projeto que abrigará todos os dados associados ao projeto. Encontre a barra de ferramentas na parte superior da janela de dados e selecione Arquivo, Nova pasta. Não use espaços ou caracteres especiais nos nomes das pastas ou em qualquer nome de arquivo de entrada e saída.
Em vez disso, use sublinhados ou traços quando apropriado. Carregue os arquivos brutos da sequência FASTQ e a pasta, 1_Raw_Sequence, em uma subpasta intitulada Pasta A_Raw_Reads. Para arquivos com menos de dois gigabits, use o recurso de upload simples do armazenamento de dados para navegar até a barra de ferramentas da janela de dados clicando no botão Dados na área de trabalho principal do DE.
Selecione Upload, Upload simples da área de trabalho. Em seguida, selecione o botão Procurar para navegar até os arquivos brutos de sequenciamento FASTQ no computador local. Avalie as leituras de sequenciamento bruto carregadas usando o aplicativo FastQC no DE. Selecione o botão Aplicativos na área de trabalho principal do DE para abrir uma janela contendo todos os aplicativos de análise disponíveis no DE. Pesquise a ferramenta FastQC na janela na barra de ferramentas de pesquisa na parte superior da janela.
Abra a versão de vários arquivos se houver mais de um arquivo FASTQ. Selecione Arquivo e crie uma nova pasta e, em seguida, selecione essa pasta como a pasta de saída. Carregue os arquivos de leitura FASTQ na janela de ferramentas chamada Selecionar dados de entrada e selecione Iniciar análise.
Procure o aplicativo Trimmomatic programável no DE e abra-o. Carregue a pasta de arquivos brutos de leitura FASTQ na seção de configurações. Selecione se os arquivos de sequenciamento são de extremidade única ou emparelhada.
Use o arquivo de controle padrão fornecido selecionando o botão Procurar e colando o caminho do arquivo na caixa de visualização. Selecione o arquivo de controle Trimmomatic e inicie a análise. Para leituras de sequência de corte de qualidade, pesquise e abra o aplicativo Sickle no DE. Selecione as leituras FASTQ cortadas como leituras de entrada e renomeie os arquivos de saída.
Inclua configurações de qualidade nas opções. Abra a versão mais atual da instância do Atmosphere navegando até a página wiki. Selecione o link para a versão mais recente da imagem Trinity e Trinotate.
Selecione o botão Login To Launch e nomeie a instância Atmosphere. Selecione um tamanho de instância de médio3 ou grande3. Inicie a instância e aguarde a compilação.
Se uma imagem da Atmosfera não for ativada, você pode tentar solicitar uma instância menor ou pode solicitar ao Jetstream uma alocação maior. Todos os detalhes estão no wiki complementar. Mova os arquivos de saída do Trinity para a pasta, 3_Assembly, no DE e rotule a pasta A_Trinity_de_novo_assembly.
A execução do Trinity requer conhecimento de linha de comando e vários dias ou possivelmente semanas para concluir grandes análises. Existem recursos gratuitos disponíveis que estão vinculados no wiki para ajudar a entender a linha de comando. Dê a cada transcriptoma que foi montado uma subpasta dentro da pasta A_Trinity_de_novo_assembly.
Use nomes exclusivos, incluindo os nomes científicos de organismos e tratamentos associados a cada transcriptoma, e crie outra subpasta chamada Pasta B_rnaQUAT_Output na pasta 3_Assembly. Abra o aplicativo intitulado De Novo rnaQUAST. Nomeie a análise e selecione Pasta B_rnaQUAST_Output como a pasta de saída.
Procure o decodificador de transcrição e execute o transdecodificador no arquivo fasta de saída do De Novo Trinity Assembly no Ambiente de Descoberta. Abra o aplicativo deseq2 no DE.Name análise e selecione a pasta de saída como 4_Differential_Expresssion. Na seção Entrada, selecione o arquivo de tabela de contagens da execução do Trinity Assembly.
Além disso, selecione a coluna onde os nomes contig podem ser encontrados. Insira os cabeçalhos de coluna do arquivo de tabela de dados de contagens para determinar quais colunas são comparadas. Inclua as vírgulas entre cada uma das condições.
Não inclua o cabeçalho da primeira coluna que contém os nomes contig. Para replicações, repita o mesmo nome. Na segunda linha, forneça os nomes das duas condições a serem comparadas.
Corresponda aos nomes de cabeçalho de coluna fornecidos na primeira linha. Aqui está uma comparação sistemática das leituras de sequenciamento após cada etapa de pré-processamento. Após o corte, a leitura deve ter menos conteúdo GC distorcido e conteúdo de sequência e ter uma proporção maior de leituras com uma pontuação de alta qualidade.
Leituras de alta qualidade são necessárias para montar transcriptomas De Novo. Os resultados do CQ rápido dependem dos organismos e amostras que estão sendo sequenciados. A uniformidade entre todas as amostras que serão comparadas downstream é o objetivo principal das leituras de pré-processamento.
rnaQUAST para aproveitar o código de reforço para gerar estatísticas resumidas sobre montagens baseadas em genes centrais conhecidos em clados taxonômicos. A precisão dos montadores é revelada pelo número de incompatibilidades por transcrição e quantas transcrições correspondem aos genes canônicos. As últimas quatro subparcelas apresentadas aqui fornecem estatísticas resumidas do comprimento do contig e da isoforma, bem como a cobertura das isoformas esperadas.
NAx representa a porcentagem de contigs com um comprimento maior que o comprimento do eixo y. A fração montada é a transcrição única montada mais longa dividida por seu comprimento. Onde como fração coberta é a porcentagem de isoformas completas do transcrito montado, conforme esperado pelos genes procarióticos ou eucarióticos centrais do BUSCO.
Depois de assistir a este vídeo, você deve ter uma boa compreensão de como montar e inserir transcriptomas. Além disso, este protocolo permitirá detectar a expressão gênica diferencial entre duas condições. Geralmente, os indivíduos lutam com pacotes de bioinformática porque há muitos deles, há muitas configurações e variáveis associadas a eles, e geralmente você precisa ter conhecimento da linha de comando para realmente executar.
É importante rotular e organizar suas entradas de dados e saídas de análise para que outros pesquisadores possam entender o que foi feito. Você deve incluir as etapas do pedido concluídas, as versões do programa e as informações de amostra. Além disso, omita todos os espaços nos nomes de pasta ou arquivo.
Novas ferramentas e novas versões das ferramentas estão sendo integradas constantemente, mas versões antigas das ferramentas também estão sendo mantidas. Todas as alterações serão registradas no wiki complementar. Após este procedimento, outros métodos de bioinformática, como análise de rede, enriquecimento de GO e identificação de vias metabólicas, podem ser realizados para ajudar a responder a perguntas como variação de fenótipo, condições que alteram perfis de expressão e identificação de genes de interesse para genômica funcional.
Related Videos
12:10
Related Videos
13.9K Views
10:19
Related Videos
18.2K Views
09:35
Related Videos
18.4K Views
09:40
Related Videos
9.2K Views
12:14
Related Videos
5.9K Views
06:41
Related Videos
14.4K Views
14:58
Related Videos
4.9K Views
06:40
Related Videos
1.8K Views
10:22
Related Videos
686 Views
03:08
Related Videos
1.1K Views