Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

使用双快通分析多因子RNA-Seq实验

Published: July 29, 2022 doi: 10.3791/62566

Summary

DiCoExpress是一种基于脚本的工具,在R中实现,用于执行从质量控制到共表达的RNA-Seq分析。DiCoExpress 可处理多达 2 个生物因素的完整和不平衡设计。本视频教程将指导用户了解 DiCoExpress 的不同功能。

Abstract

在NGS数据分析中正确使用统计建模需要高级专业知识。最近,人们越来越一致地使用广义线性模型对RNA-Seq数据进行差异分析,以及使用混合物模型进行共表达分析的优势。为了提供使用这些建模方法的托管设置,我们开发了DiCoExpress,它提供了一个标准化的R管道来执行RNA-Seq分析。无需任何统计学或R编程方面的特定知识,初学者可以通过基于广义线性模型内对比的差分分析,从质量控制到共表达进行完整的RNA-Seq分析。对差异表达基因列表和共表达基因簇进行了富集分析。本视频教程被设想为一个循序渐进的实验方案,以帮助用户充分利用DiCoExpress及其在增强RNA-Seq实验生物学解释方面的潜力。

Introduction

下一代RNA测序(RNA-Seq)技术现在是转录组分析的金标准1。自该技术早期以来,生物信息学家和生物统计学家的共同努力导致了许多方法的发展,这些方法解决了转录组学分析的所有基本步骤,从映射到转录定量2。今天,生物学家可以使用的大多数工具都是在R软件环境中开发的,用于统计计算和图形3,并且生物导体存储库4中提供了许多用于生物数据分析的软件包。这些软件包提供对分析的全面控制和自定义,但它们的代价是广泛使用命令行界面。由于许多生物学家对“点击式”方法更满意5,RNA-Seq分析的民主化需要开发更用户友好的界面或方案6。例如,可以使用闪亮7 构建 R 包的 Web 界面,并且使用 R-studio8 界面使命令行数据分析更加直观。开发专门的分步教程也可以帮助新用户。特别是,视频教程补充了经典文本教程,从而更深入地了解所有过程步骤。

我们最近开发了DiCoExpress9,这是一种用于分析R中多因素RNA-Seq实验的工具,使用基于中性比较研究10,1112的最佳方法。从计数表开始,DiCoExpress提出了一个数据质量控制步骤,然后使用广义线性模型(GLM)进行差异基因表达分析(edgeR包13),并使用高斯混合模型(coseq包12)生成共表达簇。DiCoExpress可处理多达2个生物因子(即基因型和处理)和一个技术因子(即重复)的完整和不平衡设计。DiCoExpress的独创性在于其存储和组织数据,脚本和结果的目录架构,以及对比度编写的自动化,允许用户在同一统计模型中调查大量问题。还努力提供说明统计结果的图形输出。

迪科快工作区位于 https://forgemia.inra.fr/GNet/dicoexpress。它包含四个目录,两个pdf和两个文本文件。数据/目录包含输入数据集;对于此协议,我们将使用“教程”数据集。源/目录包含执行分析所需的七个 R 函数,用户不得修改。分析是使用存储在 Template_scripts/ 目录中的脚本运行的。该协议中使用的一种称为DiCoExpress_Tutorial_JoVE.R,可以很容易地适应任何转录组学项目。所有结果都写在Results/目录中,并存储在根据项目命名的子目录中。README.md 文件包含有用的安装信息,有关该方法及其用法的任何特定详细信息都可以在 DiCoExpress_Reference_Manual.pdf 文件中找到。

本视频教程将指导用户了解 DiCoExpress 的不同功能,旨在克服生物学家使用基于命令行的工具感到的不情愿。我们在这里介绍一个人工RNA-Seq数据集的分析,该数据集描述了四种基因型的三个生物重复中的基因表达,无论是否经过处理。现在,我们将完成 DiCoExpress 工作流程的不同步骤,如图 1 所示。“协议”部分中描述的脚本和输入文件在网站上可用:https://forgemia.inra.fr/GNet/dicoexpress

准备数据文件
存储在数据/目录中的四个csv文件应根据项目名称命名。因此,在我们的示例中,所有名称都以“教程”开头,我们将在协议的步骤 4 中设置 Project_Name = “教程”。csv 文件中使用的分隔符必须在步骤 4 的 Sep 变量中指示。在我们的“教程”数据集中,分隔符是一个制表。对于高级用户,可以通过提供指令列表和通过 Filter 变量提供新Project_Name,将完整数据集简化为子集。此选项可避免输入文件的冗余副本,并验证 FAIR 原则14

在四个 csv 文件中,只有“计数”和“目标”文件是必需的。它们包含每个基因的原始计数(此处为Tutorial_COUNTS.csv)和实验设计描述(此处为Tutorial_TARGET.csv)。TARGET.csv文件描述了每个样品(每行一个样品)以及每个生物或技术因素(在列中)的模态。我们强烈建议为模式选择的名称以字母开头,而不是以数字开头。无法更改最后一列(“复制”)的名称。最后,示例名称(第一列)必须与 COUNTS.csv 文件标题中的名称匹配(在我们的示例中Genotype1_control_rep1)。仅当用户计划运行扩充分析时,才需要包含每行包含一个Gene_ID和一个注释术语的扩充.csv文件。如果一个基因有几个注释,它们将不得不写在不同的行上。注释.csv文件是可选的,用于在输出文件中添加每个基因的简短描述。获取注释文件的最佳方法是从专用数据库中检索信息(例如,Thalemine:拟南芥的 https://bar.utoronto.ca/thalemine/begin.do)。

迪科快车的安装
迪科快需要特定的R包。使用命令行源 (.../源/Install_Packages.R“) 在 R 控制台中检查所需的包安装状态。对于使用 Linux 的用户,另一种解决方案是安装专用于 DiCoExpress 且可在 https://forgemia.inra.fr/GNet/dicoexpress/container_registry 使用的容器。根据定义,此容器包含 DiCoExpress 以及所需的所有部分,例如库和其他依赖项。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 迪科快讯

  1. 打开 R 工作室会话并将目录设置为Template_scripts。
  2. 在 R 工作室中打开DiCoExpress_Tutorial.R 脚本。
  3. 使用以下命令在 R 会话中加载 DiCoExpress 函数:
    >源(“../来源/Load_Functions
    > Load_Functions()
    > Data_Directory = “../数据”
    > Results_Directory = “../结果/”
  4. 使用以下命令在 R 会话中加载数据文件:
    > Project_Name = “教程”
    >筛选器 = 空
    > 九月=“\t”
    > Data_Files = Load_Data_Files(Data_Directory、Project_Name、过滤器、9 月)
  5. 将对象Data_Files拆分为多个对象,以便于操作它们:
    > Project_Name = Data_Files$Project_Name
    >目标 = Data_Files$目标
    > Raw_Counts = Data_Files$Raw_Counts
    > 注释 = Data_Files$注释
    > Reference_Enrichment = Data_Files$Reference_Enrichment
  6. 在“Nb条件”,“Nb复制”或“过滤ByExpr”和阈值之间选择一种策略来过滤低表达的基因。在这里我们选择
    > Filter_Strategy = “Nb副本”
    > CPM_Cutoff = 1
  7. 使用命令指定组颜色
    > Color_Group = 空
    注意:当它设置为 NULL 时,R 会自动将颜色归因于生物条件。否则,输入指示每个生物组的颜色的载体。
  8. 在 edgeR 的函数计算标准因子接受的方法中选择归一化方法。例如
    > Normalization_Method = “TMM”
  9. 通过执行以下功能执行质量控制
    > Quality_Control(Data_Directory、Results_Directory、Project_Name、目标、Raw_Counts、Filter_Strategy、Color_Group、CPM_Cutoff、Normalization_Method)
  10. 如果根据复制因子配对数据,则状态“复制”= TRUE,否则为 FALSE。
  11. 分配交互作用 = TRUE 以考虑两个生物因素之间的相互作用,否则为 FALSE。
  12. 使用以下命令指定统计模型
    >模型 = GLM_Contrasts(Results_Directory、Project_Name、目标、复制、交互)
    > GLM_Model = 型号$GLM_Model
    >对比度 = 模型$对比度
  13. 定义错误发现率的阈值,此处为 0.05
    > Alpha_DiffAnalysis =0.05
  14. 使用以下命令执行差分分析
    > Index_Contrast=1:1(对比)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > 差分分析(Data_Directory、Results_Directory、Project_Name、靶标、Raw_Counts、GLM_Model、对比、Index_Contrast、Filter_Strategy、Alpha_DiffAnalysis、NbGenes_Profiles、NbGenes_Clustering、CPM_Cutoff、Normalization_Method)
  15. 修复丰富分析的阈值,此处为 0.01
    > Alpha_Enrichment = 0.01
  16. 对差异表达基因 (DEG) 列表进行富集分析
    > 标题 = 空
    >充实(Results_Directory、Project_Name、标题、Reference_Enrichment、Alpha_Enrichment)
  17. 选择要比较的 DEG 列表。例如,
    >组 = 对比度$对比度[24:28]
  18. 为列表比较提供名称。此名称用于将保存输出文件的目录
    > 标题 =“Interaction_with_Genotypes_1_and_2”
  19. 通过将参数“操作”设置为并集或交集来指定要对 DEG 列表执行的操作。我们选择
    > 操作 = “并集”
  20. 比较 DEG 列表
    > Venn_IntersectUnion(Data_Directory、Results_Directory、Project_Name、标题、组、操作)
  21. 使用函数执行共表达分析
    > Coexpression_coseq(Data_Directory、Results_Directory、Project_Name、标题、目标、Raw_Counts、Color_Group)
  22. 对共表达聚类执行丰富分析
    >充实(Results_Directory、Project_Name、标题、Reference_Enrichment、Alpha_Enrichment)
  23. 生成两个日志文件,其中包含重现分析所需的所有信息
    > Save_Parameters( )
    注意:此协议中使用的命令行如图 2 所示。必须修改以分析其他数据集的线将突出显示。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

所有 DiCoExpress 输出都保存在教程/目录中,该目录本身位于结果/目录中。我们在这里为评估分析的整体质量提供了一些指导。

质量管理
位于Quality_Control/目录中的质量控制输出对于验证RNA-Seq分析结果是否可靠至关重要。Data_Quality_Control.pdf文件包含使用原始和规范化数据获得的多个图,可用于识别数据的任何潜在问题。在比较条件内和条件间时,每个样本的总归一化计数应相似。此外,预计归一化的基因表达计数在内部和条件间均表现出相似的中位数和方差(图3A)。否则,这可能是条件之间不相似方差的标志,这个问题可能对模型拟合有问题。

最后,在 DiCoExpress 中生成的归一化计数上的 PCA 图有助于识别潜在的底层数据结构(图 3B)。在我们的示例中,没有根据重复的聚类,这意味着此因子不是判别的。同时,可以确定治疗之间的明确区别。这些结果表明数据集质量很好,因为生物效应总是比重复效应更强。总之,这里观察到的整体质量并不妨碍对整个数据集进行任何后续分析。

统计建模
DiCoExpress 有助于编写来自两个变量 “复制 ”和 “交互”的均值表达式对数的统计建模。如果同时收集所有生物条件的样品,并且在不同的日期复制该实验以测量生物变异性,则可以想象复制效应。例如,在典型的植物科学实验中,无论所研究的生物条件如何,样品都在同一生长室中生长,并且生物重复对应于在不同日期开始的实验。在这种情况下,同一仿行的样本将配对,您应将 “复制” 设置为 TRUE。否则, “复制” 应设置为“错误”。这种复制效应也称为批处理效应。

如果实验设计由两个预期相互作用的生物因子描述,请将变量 交互作用 设置为 TRUE 以考虑交互作用。请注意,对于仅包含一个生物因子的项目,变量 “交互作用” 将自动设置为 FALSE。

差异分析
为所有测试的对比度确定的 DEG 在 DiffAnalysis/ 目录中各自的子目录中的文本文件中可用。默认情况下,将测试所有对比度。根据实验设计,一些对比可能具有有限的生物学兴趣(例如,几种基因型的平均值)。请注意,对每个对比度执行假阳性对照,确保可能不相关的对比度不会影响分析。但是,可以通过作用于 Index_Contrast 变量来生成仅包含兴趣对比的图。有关详细信息,请参阅在线参考手册。

必须注意的是,DiffAnalysis/ 还包含原始 p 值直方图,这些直方图最近被证明是评估建模11 质量的最佳方法。原始 p 值的预期分布应该是均匀的,分布的左侧可能有一个峰值。原始 p 值为 1 的峰值表示模型拟合问题。在这种情况下,通常可以通过增加集合CPM_Cutoff值(例如,从 1 增加到 5)来解决问题。原始直方图的示例如图 4A 所示,https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf。对于每个测试的对比度,标识的顶部 DEG(默认为前 20 个)的表达配置文件将绘制在位于对比度目录中的文件Top20_Profile.pdf中。 图4B显示了在一个造影剂中被确定为差异表达的一个基因的示例。对于每个测试的对比度,都会绘制上下DEG的数量,并在文件Down_Up_DEG.pdf中找到( 图4C中的示例)。

共表达分析
在我们的示例中,共表达分析在5个DEG列表的并集上进行,通过对比识别寻找基因型1或2与其他列表之间的治疗反应差异。DEG的维恩图如图 5A所示。每个已识别簇的共表达基因打印在单个文本文件中(每个簇一个文件)。不同集群的表达式配置文件在 Boxplot_profiles_Coseq.pdf 文件中可用(参见 图 5B 中的示例)。尽管自定义选项可用,但它们只应由高级用户使用。有关不同参数的完整说明,请参阅参考手册。

富集分析
与对比度和聚类丰富分析相对应的列表位于其各自的目录中。在此分析中发现的重要注释项在Gene_ID列表中可能表示过多或过少。此信息包含在输出文件中。

请注意,测试决策是根据原始 p 值做出的。如果用户想要后验调整原始 p 值,则可在带有后缀 All_Enrichment_Results.txt。

迪科快讯的有效性
尽管DiCoExpress的开发是为了促进多因素RNA-Seq实验分析,但其结果的有效性在很大程度上取决于数据集的特征。在对结果进行任何有效解释之前,应仔细检查几个输出。首先,在质量控制步骤中,归一化文库大小应相似,归一化基因表达计数在内和间条件下应表现出相似的中位数和方差。然后,应特别注意原始 p 值直方图的形状。最后,在进行共表达分析时,明确定义的ICL最小值表示质量良好。如果不满足这些条件,对结果的任何解释都可能是错误的。

Figure 1
图 1.“迪科快”分析管道。 使用 DiCoExpress 进行完整 RNA-Seq 分析的七个步骤以蓝色框表示,表示执行统计方法的步骤。步骤7(富集)可以在步骤4(微分分析, 在图2中命名为7.1)和/或步骤6(共表达分析, 在图2中命名为7.2)之后完成。红色数字对应于协议中的步骤号。请点击此处查看此图的大图。

Figure 2
图 2.命令行的屏幕截图。 指示用于分析教程数据集的命令行。黑色圆圈中的数字与 图 1 中的数字相同。红色矩形突出显示可由用户自定义的线条。请点击此处查看此图的大图。

Figure 3
图 3:质量控制步骤的代表性结果。 图为用“教程”数据集归一化计数获得的。 A) 归一化计数的箱线图。 B) 标准化计数上的 PCA。请点击此处查看此图的大图。

Figure 4
图 4:使用“教程”数据集获得的微分表达式分析的代表性结果A) [control_Genotype2 - control_Genotype3] 对比度的原始 p 值直方图。B)C1G62301.1基因在每种基因型和条件下的表达谱,其中Top20差异表达基因之一在[control_Genotype2 - control_Genotype3]对比。C)每个测试的对比度中上下差异表达基因的数量。请点击此处查看此图的大图。

Figure 5
图 5:共表达分析的代表性结果。 使用“教程”数据集获得的数字。 A)DEG的维恩图从5个“与基因型1和2的相互作用”对比。来自治疗反应的DEG基因1型和2型、基因型和基因型3型、1型和4型、2型和3型、2型和4型之间的差异分别在环A、B、C、D、E中。写在右下角的数字(“14877”)是任何列表中不属于DE的基因的数量。 B)共表达簇基因的表达谱 3.图摘自Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf。请点击此处查看此图的大图。

补充文件。请按此下载此档案。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

由于RNA-Seq已成为生物学研究中无处不在的方法,因此不断需要开发多功能且用户友好的分析工具。大多数分析工作流程中的一个关键步骤通常是自信地识别生物条件和/或治疗之间差异表达的基因15。产生可靠的结果需要适当的统计建模,这一直是DiCoExpress发展的动力。

DiCoExpress是一个在R中实现的基于脚本的工具,旨在帮助生物学家在寻找DEG时充分利用中立比较研究的可能性。DiCoExpress提供了评估数据结构和质量的机会,从而确保选择最佳的建模方法。在统计学或R编程方面没有任何特殊知识的情况下,它允许初学者通过基于广义线性模型中的对比的差分分析,从质量控制到共表达进行完整的RNA-Seq分析。重要的是要注意,DiCoExpress专注于RNA-Seq分析的统计部分,需要一个计数表作为输入。专用于RNA-Seq读取比对和计数表创建的多种生物信息学方法超出了该工具的范围。然而,它们对最终分析的质量有直接影响,应仔细选择。

虽然 DiCoExpress 不是一个“点击即点”工具,但它的目录体系结构和 R-Studio 界面中提供和使用的模板脚本使生物学家只需很少的 R 知识即可访问它。安装 DiCoExpress 后,用户应了解如何在 R 中使用函数并识别必需参数和可选参数。第一个关键步骤是正确提供两个必需的文件,其中包含每个基因的原始计数(COUNTS文件)和实验设计描述(TARGET文件)。每个文件使用的分离器应相同,并且应根据生物因子的模式适当地完成样品的描述。一旦将两个文件加载到DiCoExpress中,分析几乎自动化,直到第二个关键步骤,即共表达分析。这种分析确实可能非常耗时,并且可能需要一个功能强大的计算服务器来在大型数据集上运行它。

由于对比书写的自动化对于两个以上的生物因子变得具有挑战性,因此我们将DiCoExpress限制为最多2个生物因子的完整和不平衡设计。如果一个项目包含2个以上的生物因素,一个实际的解决方案是分解两个初始因素以创建一个新的。然而,人们必须记住,当生物因子数量增加时,给出有意义的生物学解释的难度就会增加。

DiCoExpress被认为是一个不断发展的工具,我们强烈建议用户订阅邮件列表(https://groupes.renater.fr/sympa/subscribe/dicoexpress)。对该工具的任何修改或改进都将在列表中公布,我们欢迎提出问题或建议。我们还希望大型社区采用 DiCoExpress 将允许跟踪和修复在某些特定分析上下文中可能发生的任何错误。所有更新和更正都将推送到 git 目录 https://forgemia.inra.fr/GNet/dicoexpress。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

作者没有什么可透露的

Acknowledgments

这项工作主要得到国家情报局(ANR-16-CE20-0009)的支持。作者感谢F.德斯普雷兹建造迪科快的集装箱。知识库工作由未来投资 ANR-10-BTBR-01-01“搞爱”计划提供支持。GQE和IPS2实验室受益于萨克雷植物科学-SPS(ANR-17-EUR-0007)的支持。

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

工程,第185期,
使用双快通分析多因子RNA-Seq实验
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter