Engineering

Analisando experimentos multifatoriais de RNA-Seq com o DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Kevin Baudry^1,2,3, Christine Paysant-Le Roux^1,2, Stefano Colella⁴, Benoît Castandet^1,2, Marie-Laure Martin^1,2,5

¹Université Paris-Saclay, CNRS, INRAE, Univ Evry, Institute of Plant Sciences Paris-Saclay (IPS2), Orsay, France, ²Université de Paris, CNRS, INRAE, Institute of Plant Sciences Paris Saclay (IPS2), Orsay, France, ³Université Paris-Saclay, INRAE, CNRS, AgroParisTech, GQE - Le Moulon, Gif-sur-Yvette, France, ⁴LSTM, Univ Montpellier, INRAE, IRD, CIRAD, Institut Agro, Montpellier, France, ⁵Universitté Paris-Saclay, AgroParisTech, INRAE, UMR MIA-Paris, Paris, France

Summary

O DiCoExpress é uma ferramenta baseada em script implementada em R para executar uma análise RNA-Seq do controle de qualidade à co-expressão. O DiCoExpress lida com o design completo e desequilibrado de até 2 fatores biológicos. Este tutorial de vídeo guia o usuário através dos diferentes recursos do DiCoExpress.

Abstract

O uso adequado da modelagem estatística na análise de dados do NGS requer um nível avançado de expertise. Recentemente, houve um consenso crescente sobre o uso de modelos lineares generalizados para análise diferencial dos dados do RNA-Seq e a vantagem dos modelos de mistura para realizar análises de co-expressão. Para oferecer uma configuração gerenciada para usar essas abordagens de modelagem, desenvolvemos o DiCoExpress que fornece um pipeline R padronizado para realizar uma análise RNA-Seq. Sem qualquer conhecimento particular em estatística ou programação R, os iniciantes podem realizar uma análise completa do RNA-Seq desde controles de qualidade até a co-expressão através da análise diferencial baseada em contrastes dentro de um modelo linear generalizado. Uma análise de enriquecimento é proposta tanto nas listas de genes expressos diferencialmente, quanto nos aglomerados genéticos co-expressos. Este tutorial de vídeo é concebido como um protocolo passo-a-passo para ajudar os usuários a tirar proveito total do DiCoExpress e seu potencial em capacitar a interpretação biológica de um experimento RNA-Seq.

Introduction

A tecnologia de sequenciamento de RNA (RNA-Seq) de última geração é agora o padrão ouro da análise de transcriptome¹. Desde os primeiros dias da tecnologia, os esforços combinados de bioinformáticas e bioestatísticos resultaram no desenvolvimento de inúmeros métodos que abordam todas as etapas essenciais das análises transcriômicas, desde o mapeamento até a quantificação da transcrição². A maioria das ferramentas disponíveis hoje para o biólogo são desenvolvidas dentro do ambiente de software R para computação estatística e gráficos³, e muitos pacotes para análise de dados biológicos estão disponíveis no repositório biocondutor⁴. Esses pacotes oferecem controle total e personalização da análise, mas vêm ao custo do uso extensivo de uma interface de linha de comando. Como muitos biólogos estão mais confortáveis com uma abordagem "ponto e clique"⁵, a democratização das análises do RNA-Seq requer o desenvolvimento de interfaces ou protocolos mais fáceis de usar⁶. Por exemplo, é possível construir interfaces web de pacotes R usando o Shiny⁷, e a análise de dados da linha de comando é mais intuitiva com a interface R-studio⁸ . O desenvolvimento de tutoriais dedicados e passo a passo também pode ajudar o novo usuário. Em particular, um tutorial de vídeo complementa um texto clássico, levando a uma compreensão mais profunda de todas as etapas do procedimento.

Recentemente desenvolvemos o DiCoExpress⁹, uma ferramenta para analisar experimentos multifatoriais de RNA-Seq em R usando métodos considerados os melhores baseados em estudos de comparação^{neutros 10,11,12}. A partir de uma tabela de contagem, o DiCoExpress propõe uma etapa de controle de qualidade de dados seguida de uma análise diferencial de expressão genética (pacote^{edgeR 13}) usando um modelo linear generalizado (GLM) e a geração de clusters de co-expressão usando modelos de mistura gaussiana (pacote coseq¹²). O DiCoExpress lida com o design completo e desequilibrado até 2 fatores biológicos (ou seja, genótipo e tratamento) e um fator técnico (ou seja, replicar). A originalidade do DiCoExpress está em sua arquitetura de diretório armazenando e organizando dados, scripts e resultados e na automação da escrita dos contrastes permitindo que o usuário investigue inúmeras questões dentro do mesmo modelo estatístico. Também foi feito um esforço para fornecer saídas gráficas ilustrando os resultados estatísticos.

O espaço de trabalho DiCoExpress está disponível em https://forgemia.inra.fr/GNet/dicoexpress. Contém quatro diretórios, dois pdf e dois arquivos de texto. O data/diretório contém os conjuntos de dados de entrada; para este protocolo, usaremos o conjunto de dados "tutorial". O sources/diretório contém sete funções R necessárias para realizar a análise e não deve ser modificado pelo usuário. A análise é executada usando scripts armazenados no Template_scripts/diretório. O usado neste protocolo é chamado DiCoExpress_Tutorial_JoVE.R e pode ser facilmente adaptado a qualquer projeto transcriômico. Todos os resultados são escritos no diretório resultados e armazenados em um subdiretório nomeado de acordo com o projeto. O arquivo README.md contém informações úteis de instalação, e quaisquer detalhes específicos sobre o método e seu uso podem ser encontrados no arquivo DiCoExpress_Reference_Manual.pdf.

Este tutorial de vídeo guia o usuário através das diferentes características do DiCoExpress com o objetivo de superar a relutância sentida pelos biólogos usando ferramentas baseadas em linha de comando. Apresentamos aqui a análise de um conjunto de dados RNA-Seq artificial descrevendo a expressão genética em três réplicas biológicas de quatro genótipos, com ou sem tratamento. Agora passaremos pelas diferentes etapas do fluxo de trabalho DiCoExpress ilustrado na Figura 1. O script descrito na seção Protocolo e arquivos de entrada estão disponíveis no site: https://forgemia.inra.fr/GNet/dicoexpress

Prepare arquivos de dados
Os quatro arquivos csv armazenados no data/diretório devem ser nomeados de acordo com o nome do projeto. Em nosso exemplo, todos os nomes, portanto, começam com "Tutorial", e vamos definir Project_Name = "Tutorial" na Etapa 4 do protocolo. O separador utilizado nos arquivos csv deve ser indicado na variável Sep na Etapa 4. Em nosso conjunto de dados "tutorial", o separador é uma tabulação. Para usuários avançados, o conjunto de dados completo pode ser reduzido a um subconjunto, fornecendo uma lista de instruções e uma nova Project_Name através da variável Filter. Esta opção evita cópias redundantes dos arquivos de entrada e verifica os princípios FAIR¹⁴.

Entre os quatro arquivos csv, apenas os arquivos COUNTS e TARGET são obrigatórios. Eles contêm a contagem bruta para cada gene (aqui Tutorial_COUNTS.csv) e a descrição do design experimental (aqui Tutorial_TARGET.csv). O arquivo TARGET.csv descreve cada amostra (uma amostra por linha) com uma modalidade para cada fator biológico ou técnico (nas colunas). Recomendamos fortemente que os nomes escolhidos para as modalidades comecem com uma letra, não um número. O nome da última coluna ("Replicar") não pode ser alterado. Finalmente, os nomes de exemplo (primeira coluna) devem coincidir com os nomes nos títulos do arquivo COUNTS.csv (Genotype1_control_rep1 em nosso exemplo). O arquivo Enrichment.csv no qual cada linha contém um Gene_ID e um termo de anotação só é necessário se o usuário planeja executar a análise de enriquecimento. Se um gene tem várias anotações, eles terão que ser escritos em linhas diferentes. O arquivo Anotação.csv é opcional e é usado para adicionar uma breve descrição de cada gene nos arquivos de saída. A melhor maneira de obter um arquivo de anotação é recuperar as informações de bancos de dados dedicados (por exemplo, Thalemine: https://bar.utoronto.ca/thalemine/begin.do para Arabidopsis).

Instalação do DiCoExpress
O DiCoExpress requer pacotes R específicos. Use a fonte da linha de comando(".. /Sources/Install_Packages.R") no console R para verificar o status de instalação do pacote necessário. Para usuários no Linux, outra solução é instalar o contêiner dedicado ao DiCoExpress e disponível em https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Por definição, este contêiner contém o DiCoExpress com todas as peças necessárias, como bibliotecas e outras dependências.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DiCoExpress

Abra uma sessão de estúdio R e coloque diretório para Template_scripts.
Abra o roteiro de DiCoExpress_Tutorial.R em estúdio R.
Carregar funções do DiCoExpress na sessão R com os seguintes comandos:
> fonte(".. /Sources/Load_Functions.R))
> Load_Functions()
> Data_Directory = ".. /Dados"
> Results_Directory = ".. /Resultados/"
Carregar arquivos de dados na sessão R com os seguintes comandos:
> Project_Name = "Tutorial"
Filtro > = NULL
> Sep="\t"
> Data_Files = Load_Data_Files (Data_Directory, Project_Name, Filtro, Setembro)
Divida o objeto Data_Files em vários objetos para manipulá-los facilmente:
> Project_Name = Data_Files$Project_Name
Alvo > = Data_Files$Target
> Raw_Counts = Data_Files$Raw_Counts
Anotação de > = Data_Files$Anotação
> Reference_Enrichment = Data_Files$Reference_Enrichment
Escolha uma estratégia entre "NbConditions", "NbReplicates" ou "filterByExpr" e um limiar para filtrar genes expressos baixos. Aqui nós escolhemos
> Filter_Strategy = "NbReplicates"
> CPM_Cutoff = 1
Especifique as cores do grupo com o comando
> Color_Group = NULL
NOTA: Quando é definido como NULL, R atribui automaticamente as cores às condições biológicas. Caso contrário, digite um vetor indicando uma cor por grupo biológico.
Escolha um método de normalização entre os aceitos pela função calcNormFactors do edgeR. Como por exemplo
> Normalization_Method = "TMM"
Execute o controle de qualidade executando a seguinte função
> Quality_Control (Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff, Normalization_Method)
State Replicate = TRUE se os dados forem emparelhados de acordo com o fator de replicação, FALSO de outra forma.
Atribuir Interação = TRUE considerar uma interação entre os dois fatores biológicos, FALSO de outra forma.
Especifique o modelo estatístico com os seguintes comandos
modelo > = GLM_Contrasts (Results_Directory, Project_Name, Alvo, Réplica, Interação)
> GLM_Model = Modelo$GLM_Model
contrastes de > = Modelo$Contrastes
Defina o limiar da Taxa de Descoberta Falsa, aqui 0.05
> Alpha_DiffAnalysis =0,05
Realize a análise diferencial com os seguintes comandos
> Index_Contrast=1:nrow (Contrastes)
> NbGenes_Profiles = 20
> NbGenes_Clustering = 50
> DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, GLM_Model, Contrastes, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff, Normalization_Method)
Fixar um limiar para a análise de enriquecimento, aqui 0.01
> Alpha_Enrichment = 0,01
Realizar a análise de enriquecimento das listas de genes expressos diferencialmente (DEG)
Título de > = NULO
> Enriquecimento (Results_Directory, Project_Name, Título, Reference_Enrichment, Alpha_Enrichment)
Escolha listas DEG a serem comparadas. Como por exemplo,
> Grupos = Contrastes$Contrastes[24:28]
Forneça um nome para a comparação da lista. Este nome é usado para o diretório onde os arquivos de saída serão salvos
Título de > = "Interaction_with_Genotypes_1_and_2"
Especifique a ação a ser feita nas listas DEG definindo a Operação parâmetro para união ou intersecção. Nós escolhemos
Operação > = "União"
Compare as listas de DEGs
> Venn_IntersectUnion (Data_Directory, Results_Directory, Project_Name, Título, Grupos, Operação)
Realize uma análise de co-expressão com a função
> Coexpression_coseq (Data_Directory, Results_Directory, Project_Name, Título, Alvo, Raw_Counts, Color_Group)
Realizar análise de enriquecimento dos clusters de co-expressão
> Enriquecimento (Results_Directory, Project_Name, Título, Reference_Enrichment, Alpha_Enrichment)
Gere dois arquivos de log contendo todas as informações necessárias para reproduzir a análise
> Save_Parameters.
NOTA: As linhas de comando utilizadas neste protocolo são mostradas na Figura 2. São destacadas linhas que devem ser modificadas para analisar outro conjunto de dados.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Todas as saídas do DiCoExpress são salvas no tutorial/diretório, colocado dentro do diretório resultados/diretório. Fornecemos aqui algumas orientações para avaliar a qualidade geral da análise.

Controle de Qualidade
A saída de controle de qualidade, localizada no Quality_Control/diretório, é essencial para verificar se os resultados da análise RNA-Seq são confiáveis. O arquivo Data_Quality_Control.pdf contém várias parcelas obtidas com dados brutos e normalizados que podem ser usados para identificar quaisquer problemas potenciais com os dados. A contagem total normalizada por amostra deve ser semelhante quando comparada tanto intra quanto inter-condições. Além disso, espera-se que as contagens de expressão genética normalizadas apresentem mediana e variância semelhantes tanto em condições intra quanto inter-condições (Figura 3A). Caso contrário, isso poderia ser o sinal de variância não semelhante entre as condições, um problema que poderia ser problemático para a montagem do modelo.

Finalmente, os gráficos pca em contagens normalizadas produzidas no DiCoExpress são úteis para identificar potenciais estruturas de dados subjacentes (Figura 3B). Em nosso exemplo, não há agrupamento de acordo com as réplicas, o que significa que esse fator não é discriminante. Ao mesmo tempo, uma clara distinção pode ser identificada entre os tratamentos. Esses resultados indicam um conjunto de dados de boa qualidade, uma vez que o efeito biológico é sempre mais forte do que o replicado. Em conclusão, a qualidade global aqui observada não impede qualquer análise subsequente de todo o conjunto de dados.

Modelagem estatística
O DiCoExpress facilita a escrita da modelagem estatística do logaritmo da expressão média a partir das duas variáveis Replicar e Interação. Um efeito de replicação é concebível se as amostras de todas as condições biológicas forem coletadas ao mesmo tempo e que este experimento seja replicado em dias diferentes para medir a variabilidade biológica. Em um experimento típico de ciência vegetal, por exemplo, as amostras são cultivadas na mesma câmara de crescimento, independentemente da condição biológica em estudo e as réplicas biológicas correspondem a experimentos iniciados em dias diferentes. Neste caso, as amostras da mesma réplica são emparelhadas, e você deve definir Replicar para TRUE. Caso contrário, replicar deve ser definido como FALSE. Este efeito de replicação também é conhecido como efeito em lote.

Se o desenho experimental for descrito por dois fatores biológicos esperados para interagir, defina a variável Interação para TRUE para considerar a interação. Observe que para um projeto que contenha apenas um fator biológico, a variável Interação é automaticamente definida como FALSE.

Análise Diferencial
O DEG identificado para todos os contrastes testados está disponível em arquivos de texto localizados em seus respectivos subdiretórios dentro do diretório/DiffAnalysis. Por padrão, todos os contrastes são testados. Dependendo do design experimental, alguns contrastes podem ser de interesse biológico limitado (por exemplo, uma média em vários genótipos). Observe que o falso controle positivo é realizado por contraste, garantindo que contrastes potencialmente irrelevantes não impactem a análise. No entanto, é possível produzir parcelas contendo apenas o contraste de interesses agindo na variável Index_Contrast . Os detalhes estão disponíveis no manual de referência online.

É essencial notar que a DiffAnalysis/ também contém os histogramas de valor p bruto que recentemente se mostraram a melhor maneira de avaliar a qualidade da modelagem¹¹. A distribuição esperada de valores brutos p é suposto ser uniforme, com possivelmente um pico no lado esquerdo da distribuição. Um pico alto para um valor p bruto de 1 é indicativo de problemas de ajuste do modelo. Neste caso, o problema muitas vezes pode ser resolvido aumentando o conjunto CPM_Cutoff valor, por exemplo, de 1 para 5. Exemplos de histogramas crus estão disponíveis na Figura 4A e em https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf. Para cada contraste testado, os perfis de expressão do DEG superior identificado (top 20 por padrão) são plotados no arquivo Top20_Profile.pdf localizado no diretório do contraste. Um exemplo para um gene identificado como diferencialmente expresso em um contraste é mostrado na Figura 4B. O número de DEG para cima e para baixo é plotado para cada contraste testado e é encontrado no arquivo Down_Up_DEG.pdf (exemplo na Figura 4C).

Análise de co-expressão
Em nosso exemplo, a análise de co-expressão é realizada na união de 5 listas DEG, identificadas em contraste com a variação da resposta ao tratamento entre genótipo 1 ou 2 contra outros. Diagrama de Venn de DEG é mostrado na Figura 5A. Os genes co-expressos para cada cluster identificado são impressos em arquivos de texto individuais (um arquivo por cluster). Os perfis de expressão dos diferentes clusters juntos estão disponíveis no arquivo Boxplot_profiles_Coseq.pdf (ver exemplo na Figura 5B). Embora as opções de personalização estejam disponíveis, elas só devem ser usadas por usuários avançados. Consulte o manual de referência para uma explicação completa dos diferentes parâmetros.

Análise de Enriquecimento
Listas correspondentes às análises de contraste e enriquecimento de cluster estão localizadas em seus respectivos diretórios. Um termo de anotação considerado tão significativo nesta análise pode ser exagerado ou sub-representado na lista de Gene_ID. Essas informações estão incluídas no arquivo de saída.

Observe que a decisão do teste é tomada a partir dos valores p brutos. Se o usuário quiser ajustar os valores p brutos a posteriori, ele estará disponível nos arquivos com sufixo All_Enrichment_Results.txt.

Validade do DiCoExpress
Embora o DiCoExpress tenha sido desenvolvido para facilitar as análises multifatoriais de experimentos RNA-Seq, a validade de seus resultados depende em grande parte das características do conjunto de dados. Várias saídas devem ser cuidadosamente verificadas antes de qualquer interpretação válida dos resultados. Em primeiro lugar, na etapa de controle de qualidade, o tamanho da biblioteca normalizada deve ser semelhante e a contagem de expressão genética normalizada deve apresentar mediação e variância semelhantes em intra e inter-condições. Em seguida, uma atenção especial deve ser dada à forma dos histogramas de valor p bruto. Finalmente, ao realizar uma análise de co-expressão, um valor mínimo claramente definido para a ICL é indicativo de uma boa qualidade. Essas condições não são atendidas, qualquer interpretação dos resultados provavelmente será errônea.

Figura 1. O pipeline de análise diCoExpress. As sete etapas de uma análise completa do RNA-Seq usando o DiCoExpress são indicadas que as caixas azuis representam etapas onde os métodos estatísticos são realizados. A etapa 7 (Enriquecimento) pode ser feita após a Etapa 4 (Análise Diferencial e é nomeada 7.1 na Figura 2) e/ou Passo 6 (Análise de co-expressão e é nomeada 7.2 na Figura 2). Os números vermelhos correspondem aos números de passos no protocolo. Clique aqui para ver uma versão maior desta figura.

Figura 2. Capturas de tela das linhas de comando DoTeoExpress. As linhas de comando usadas para analisar o conjunto de dados tutorial são indicadas. O número nos círculos negros é o mesmo da Figura 1. Retângulos vermelhos destacam linhas que podem ser personalizadas pelo usuário. Clique aqui para ver uma versão maior desta figura.

Figura 3: Resultados representativos da etapa de controle de qualidade. Figura obtida com o conjunto de dados "Tutorial" normalizado conta. A) Boxplot de contagens normalizadas. B) PCA em contagens normalizadas. Clique aqui para ver uma versão maior desta figura.

Figura 4: Resultados representativos da análise de expressão diferencial Figura obtida com o conjunto de dados "Tutorial". A) Histograma de valor p bruto do contraste [control_Genotype2 - control_Genotype3]. B) Perfil de expressão genética C1G62301.1 em cada genótipo e condição, um dos Top20 Gene Expresso Diferencialmente no contraste [control_Genotype2 - control_Genotype3]. C) Número de genes expressos diferencialmente em cada contraste testado. Clique aqui para ver uma versão maior desta figura.

Figura 5: Resultados representativos da Análise coexpressão. Figura obtida com o conjunto de dados "Tutorial". A) Diagrama de venn de DEG a partir dos contrastes de 5 "interação com genótipo 1 e 2". DEG da variação de resposta ao tratamento entre Genótipo 1 e 2, 1 e 3, 1 e 4, 2 e 3, 2 e 4 estão nos círculos A, B, C, D, E, respectivamente. O número escrito no canto inferior direito ("14877") é o número de genes que não são DE em nenhuma lista. B) Perfil de expressão dos genes do Cluster coexpressão 3. A figura é extraída de Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. Clique aqui para ver uma versão maior desta figura.

Arquivo suplementar. Clique aqui para baixar este Arquivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Como o RNA-Seq tornou-se um método onipresente em estudos biológicos, há uma necessidade constante de desenvolver ferramentas analíticas versáteis e fáceis de usar. Um passo crítico na maioria dos fluxos de trabalho analíticos é, muitas vezes, identificar com confiança os genes expressos diferencialmente entre condições biológicas e/ou tratamentos¹⁵. A produção de resultados confiáveis requer modelagem estatística adequada, que tem sido a motivação para o desenvolvimento do DiCoExpress.

O DiCoExpress é uma ferramenta baseada em script implementada em R que visa ajudar os biólogos a aproveitar ao máximo as possibilidades de estudos de comparação neutro ao procurar o DEG. O DiCoExpress oferece um pipeline padronizado oferecendo a oportunidade de avaliar a estrutura e a qualidade dos dados, garantindo assim que a melhor abordagem de modelagem seja escolhida. Sem qualquer conhecimento particular em estatística ou programação R, permite que iniciantes realizem uma análise completa do RNA-Seq desde controles de qualidade até a co-expressão através da análise diferencial baseada em contrastes dentro de modelos lineares generalizados. É importante notar que o DiCoExpress se concentra na parte estatística de uma análise do RNA-Seq e requer uma tabela de contagem como entrada. Os múltiplos métodos de bioinformática dedicados aos alinhamentos de leitura do RNA-Seq e a criação de tabelas de contagem estão fora do escopo da ferramenta. No entanto, eles têm uma influência direta na qualidade da análise final e devem ser cuidadosamente escolhidos.

Embora o DiCoExpress não seja uma ferramenta de "ponto e clique", sua arquitetura de diretório e o script de modelo fornecido e usado na interface R-Studio o tornam acessível a biólogos com conhecimento mínimo de R. Uma vez instalado o DiCoExpress, os usuários devem saber como usar uma função em R e identificar argumentos necessários e opcionais. O primeiro passo crítico é fornecer corretamente os dois arquivos obrigatórios contendo as contagens brutas para cada gene (o arquivo COUNTS) e a descrição de design experimental (o arquivo TARGET). O separador utilizado deve ser o mesmo para cada arquivo e a descrição das amostras deve ser feita adequadamente de acordo com as modalidades dos fatores biológicos. Uma vez que os dois arquivos são carregados no DiCoExpress, a análise é quase automatizada até o segundo passo crítico, ou seja, a análise de co-expressão. Essa análise pode ser de fato demorada e um poderoso servidor de cálculo pode ser necessário para executá-lo em grandes conjuntos de dados.

Como a automação da escrita de contraste se torna desafiadora para mais de dois fatores biológicos, limitamos o DiCoExpress ao design completo e desequilibrado de até 2 fatores biológicos. Se um projeto contém mais de 2 fatores biológicos, uma solução prática é colapsar dois dos fatores iniciais para criar um novo. No entanto, é preciso ter em mente que a dificuldade de dar uma interpretação biológica significativa aumenta quando o número de fatores biológicos aumenta.

O DiCoExpress é concebido como uma ferramenta em evolução e encorajamos fortemente os usuários a assinar a lista de discussão (https://groupes.renater.fr/sympa/subscribe/dicoexpress). Quaisquer modificações ou melhorias na ferramenta serão anunciadas na lista e saudamos perguntas ou sugestões. Esperamos também que a adoção do DiCoExpress por uma grande comunidade permita o rastreamento e a fixação de quaisquer bugs que possam ocorrer em algum contexto de análise particular. Todas as atualizações e correções serão empurradas para o diretório git https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada a revelar

Acknowledgments

Este trabalho foi apoiado principalmente pela ANR PSYCHE (ANR-16-CE20-0009). Os autores agradecem a F. Desprez pela construção do contêiner do DiCoExpress. O trabalho da KB é apoiado pelo programa de Amaizing Investment for the Future ANR-10-BTBR-01-01. Os laboratórios GQE e IPS2 beneficiam-se do apoio da Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name	Company	Catalog Number	Comments

DOWNLOAD MATERIALS LIST

References

Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Engineering

Analisando experimentos multifatoriais de RNA-Seq com o DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.