RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
zh_CN
Menu
Menu
Menu
Menu
A subscription to JoVE is required to view this content. Sign in or start your free trial.
Research Article
Please note that some of the translations on this page are AI generated. Click here for the English version.
Erratum Notice
Important: There has been an erratum issued for this article. View Erratum Notice
Retraction Notice
The article Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data (10.3791/61715) has been retracted by the journal upon the authors' request due to a conflict regarding the data and methodology. View Retraction Notice
本报告介绍了一种在开源软件RStudio中使用R脚本来分析从时间序列实验中获得的大规模数据集的方法。
大型数据集在科学领域越来越普遍。开发用户友好的工具非常重要,以便研究人员能够轻松分析这些大型数据集。在这里,我们介绍了一种在开源软件RStudio中使用R脚本的方法,用于分析从时间序列实验中获得的大规模数据集。此方法需要用户最少的输入,允许没有 R 知识或编程经验的初学者使用它。此处和 R 脚本中描述的详细说明将进一步指导用户如何使用该方法。输入数据和输出结果存储在本地计算机的同一文件夹中,可以随时随地进行分析。输出结果被组织到文件夹中,以便于解释,并且可以方便地处理它们以生成出版物的图形。该方法已成功用于分析生物钟数据和活性氧爆发数据,两者都包含来自 96 孔板格式的时间序列实验的大规模数据集。我们相信,这种方法为研究人员分析通过时间序列实验获得的类似大型数据集提供了一种简单而强大的解决方案。
随着科学领域大型数据集可用性的增加,开发用户友好的工具非常重要,使研究人员能够准确轻松地快速分析这些大型数据集。一种常见的大型数据集来自使用荧光素酶基因作为报告基因,这使得对活细胞和生物体中的基因表达进行简单、连续和无创的检查。发光记录的自动化改变了荧光素酶发光的测量,并导致数据收集的扩展,特别是在生物钟领域1,2。使用 96 孔微孔板和带堆叠器的自动酶标仪,可以在一次实验中按时间序列单独检测数千个表达荧光素酶基因的样品,有时以一小时为间隔,持续数天。这种高通量实验产生了大型数据集,这是使用手工样本采集和 RNA 处理的传统基因表达实验无法实现的。及时分析如此庞大的数据集很重要,但也可能具有挑战性。
尽管存在大量工具来分析节律性数据,但许多工具分析基于动物行为的测定,而不是发光报告基因表达3,4,5,6,7(补充表S1)。有些工具要求研究人员具备计算机编程技能,例如 Python 技能或访问 MATLAB。其他工具需要购买软件,这可能很昂贵。一些免费的可行解决方案可在线获得。BioDare28 就是这样的工具之一,它提供了多种不同的方法来分析节律性数据。BioDare2 是一个用户友好的在线工具,需要最少的计算专业知识。用户需要在线上传输入的数据,并从在线界面下载数据输出以进行进一步处理。
在这里,我们展示了用户友好的 R 脚本,具有多种功能,可以轻松分析大规模数据集。我们使用免费的开源软件 RStudio9(R 和 Python 接口)来运行脚本。RStudio 可用于各种计算机系统,包括 Windows、Mac 和 Linux。在本报告中,提供了详细的分步说明来指导用户如何使用 R 脚本,特别是在协议第 1 节和第 2 节中。此方法需要用户最少的输入。没有 R 知识且没有编程经验的初学者应能够使用该方法分析来自荧光素酶测定的大型数据集或其他类型的具有时间序列数据的数据集。所有输入和输出数据都存储在本地计算机上,因此,一旦首次下载所有相关的 R 包,就可以在任何地方进行分析,而不受互联网访问的限制。输出数据被分类到组织良好的文件夹中,结果可以处理以供发布。统计分析也作为输出的一部分包含在内,以便快速评估样本之间的差异。因此,R方法可以为研究人员分析大型数据集提供一种简单而强大的解决方案。
1. 基于荧光素酶的生物钟分析
2. 基于鲁米诺的 ROS 测定
案例研究 1.拟南芥幼苗生物钟活动的发光测定
我们之前表明,在野生型GRP7启动子(pGRP7wt:LUC)的控制下,使用表达荧光素酶报告基因的转基因Col-0植物,富含甘氨酸的RNA结合蛋白7(GRP7)基因由主时钟蛋白CIRCADIAN CLOCK-ASSOCIATED 1(CCA1)控制,GRP7的昼夜节律表达对其在植物防御中的作用很重要21.我们使用名为 LUC_2025.R 的 R 脚本(协议第 1 节中的补充文件 1)分析了这些转基因植物以及对照植物 CCA1:LUC/Col-0 的生物钟活动。
名为NO7.csv(补充文件2)的输入文件具有七个独立的pGRP7wt:LUC线和CCA1:LUC / Col-0对照(补充文件2(NO7.csv))的发光读数。运行脚本后,将在与输入文件NO7.csv(补充文件 2 (NO7.csv))相同的文件夹下生成名为 NO7 output 的输出子文件夹。NO7输出文件夹的文件如表1所述,可以方便地使用补充图S2中的树结构查看。对NO7输出文件夹中的值进行进一步处理,形成图3和图4。图3显示,CCA1:LUC报告基因显示振幅为3,000 RLU,周期为23.5 h,相位为3.5 h。这些时钟参数与之前的报告基本一致22,23。在pGRP7wt:Luc品系中观察到不同的表达模式。虽然所有pGRP7wt:LUC系在周期和阶段上似乎相似,但这些系的振幅值存在差异,这可能是由于转基因在染色体中的位置效应。当通过R脚本计算周期、幅度和相位参数时,这些观察结果得到了进一步证实(图4)。为了验证这一分析,使用BioDare2重新分析了同一数据集,BioDare2是一个用于昼夜节律数据分析的免费在线平台8。R 分析的结果与 BioDare2 FFT-NLLS (NLLS) 算法 8,24 获得的结果相当(图 4)。
案例研究 2.哺乳动物细胞生物钟活动的发光测定
R 脚本 LUC_2025.R(补充文件 1 进一步用于分析哺乳动物细胞25 显示的生物钟活动。表达昼夜节律时钟报告基因的U2 OS细胞系是测量哺乳动物昼夜节律时钟活动的常用模型细胞系26,27。我们重新分析了在 96 孔板中培养的表达 Per2d:Luc 报告基因的 U2 OS 细胞生成的时间序列数据。用靶向特定基因的 siRNA 分子处理细胞。图5显示,未用siRNA处理的阴性对照细胞显示出23.3小时的周期,2.8小时的相位和184.8 RLU的振幅。正如预期的那样,靶向CRY2基因的siRNA显著抑制了振幅,并影响了报告基因的周期和相位。PSMD4 和 PSMD7 基因编码蛋白质,这些蛋白质是 26S 蛋白酶体盖成分的一部分,用于蛋白质降解。与之前的报告25一致,R分析表明,通过各自的siRNA敲低PSMD4或PSMD7不会影响时钟参数。因此,该 R 脚本很容易适用于生物钟研究的不同实验系统。
案例研究 3.用于防御反应的 ROS 测定
除了来自发光生物钟测定的大型数据集外,R 脚本还可以用于分析其他数据类型。在这里,我们提出了一种用于定量活性氧 (ROS) 的应用。众所周知,植物已经进化出各种策略来对抗病原体入侵。其中一种策略是识别病原体中的非自身分子,然后激活先天免疫反应。一种这样的早期免疫反应是 ROS 爆发,当宿主遇到非自身分子时,它会在几分钟内发生。典型的ROS测定是用96孔板进行的,每次处理每种基因型包含12个叶盘(方案第2节)。在这里,使用两种常见的诱导子分子 flg22(一种源自细菌鞭毛蛋白28 保守区的 22 个氨基酸肽)和 elf26(一种源自延伸因子 Tu 蛋白29 的 26 个氨基酸肽)来诱导 ROS 爆发。该脚本补充 文件 3 (ROS_2025.R) 是为 ROS 数据分析而开发的。可从“补充材料”部分下载来自 ROS 测定的两个 CVS 文件,补充 文件 4 (ROS_flg22.csv) 和 补充文件 5 (ROS_elf26.csv),已转换为 R 分析的格式。R分析后,输出文件夹应与自己计算机中的每个输入文件在同一文件夹中生成,其中包含测定期间的ROS爆发曲线和总ROS值,以及统计分析(补充图S4)。对数据进行进一步处理,形成图6。此处显示的结果与已发布的结果相似,后者是手动处理的30.

图1:用于R分析的荧光素酶测定流程图。 将表达由时钟启动子驱动的荧光素酶报告基因的幼苗灭菌并在LD中的1/2 MS培养基上生长4天。将幼苗转移到含有 180 μL 含有 D-荧光素的 1/2 MS 培养基的 96 孔板中。每口井包含一棵幼苗。在 LD 中 1 天后,在 LL 中 1 天后,用酶标仪记录发光。通常记录平板上的幼苗在LL中以1 h的间隔发光,持续5-7天。记录后,对平板进行拍照以评估幼苗生长情况,并将原始数据保存为 CSV 文件以进行 R 分析。缩写:LD = 12 小时光照/12 小时暗;LL = 恒定光。 请点击此处查看此图的大图。

图2:发光数据采集和R分析的流程图。(A)概述了使用R脚本进行生物钟分析的五步程序。步骤 1.将实验设置为每个基因型和/或每个处理 8 或 12 个幼苗;步骤 2.以 1 小时的间隔记录 LL 中的发光,持续 5-7 天;步骤 3.获取 CSV 文件中的数据并格式化;步骤 4.使用 R 分析数据;和步骤 5。查看输出数据。录制的开始时间可以是任何时间。但是,由于 R 脚本只接受整数(整数),因此记录间隔必须是整数。(B) 针对 R 脚本正确格式化的输入 CSV 文件的屏幕截图。原始输入文件 NO7.csv 可在补充文件 2 中找到。请点击此处查看此图的大图。

图3:转基因植物中pGRP7wt:LUC的昼夜节律表达。 显示了pGRP7wt:LUC的发光痕迹。x 轴下方的条形表示主观白天(开放条形图)和黑夜(灰色条形图)。每个基因型的发光痕迹平均为 12 次重复。由于曲线数量众多,未显示误差线。缩写:RLU = 相对发光单位。 请点击此处查看此图的大图。

图 4:R 脚本和 BioDare2 的输出数据比较。 图 3 中所示的同一组数据通过 R 脚本和 BioDare2 分析了生物钟参数、幅度、周期和相位。数据代表 SEM ±平均值 (n=12)。不同字母表示样本间差异显著(P < 0.05;使用事后 Tukey HSD 检验的单因素方差分析)。 请点击此处查看此图的大图。

图5:哺乳动物细胞生物钟活动的分析。 用表达在DD中的96孔板上培养的Per2dLuc报告基因的U2 OS细胞生成的时间序列数据在前面描述了25。靶向CRY2、PSMD4或PSMD7的siRNA分子用于处理细胞。(A) 发光痕迹。(b)Per2d:Luc的振幅、周期和相位。数据代表 SEM ±平均值 (n = 3)。面板(B)中的不同字母表示阴性对照与siRNA处理的样品之间存在显着差异(P<0.05;使用事后 Tukey HSD 检验的单因素方差分析)。缩写:RLU = 相对发光单位。 请点击此处查看此图的大图。

图 6:R 的 ROS 突发分析。 在用 1 μM flg22(左)或 1 μM elf26(右)处理后立即记录幼苗的相对发光单位。(A) 在引出后的时间过程中,每个基因型 (n = 12) 的 12 只幼苗的平均发光痕迹。每次处理的每个基因型的平均值是 R 输出的一部分。(B)每种基因型的平均总发光计数,采用flg22或elf26处理。数据代表 SEM ±平均值 (n = 12)。不同字母表示样本间差异显著(P < 0.05;使用事后 Tukey HSD 检验的单因素方差分析)。缩写:RLU = 相对发光单位。 请点击此处查看此图的大图。
| #1__Plate_NO7 平均Per_Pha_Amp | 这是 CSV 文件,包含每次处理的周期、相位和振幅的平均值。该治疗被定义为有或没有特定治疗的基因型。 |
| #2__Plate_NO7 图表 | 这是一个 PDF 文件,其中包含周期、相位和幅度的图形输出。图表以组和单独的形式呈现,适用于每种治疗。这包括 ARS 方法的周期、相位和幅度的条形图和箱线图,以及发光曲线。 |
| #3__Plate_NO7 平均 LUC 数据 | 这是 CSV 文件,其中对每个时间点的每种处理进行平均,以便用户可以轻松制作自己的发光图,以包含或排除他们想要的任何处理,并可能使用他们喜欢的方法对发光进行归一化。 |
| >#4__Plate_NO7 单个井 | >此文件夹包含单个孔的值。其中一个文件是 CSV 文件,其中每个单独样品(幼苗)的周期、相位和振幅所在。这对于查看单个幼苗特别有用,以防用户在获得数据后希望稍后排除受污染的井。这些数据还针对周期、相位和振幅组织在单独的文件中,以方便使用 Prism 等工具进行图形化。为了方便用户绘制图表,还可以根据处理方式组织时间序列中的单个发光数据。 NO7 96 孔个体 PerPhaAmp:每种基因型和处理的周期、相和振幅的平均值。 NO7 LUC 重复:按基因型和处理分组的单个 well-LUC 值。 NO7 PrismAmplitude:可用于棱镜分析的振幅平均值。 NO7 PrismPeriod:准备用于 Prism 分析的周期的平均值。 NO7 PrismPhase:相位的平均值,可用于棱镜分析。 |
| >#5__Plate_NO7方差分析 | >此文件夹包含与方差分析中的 p 值合并的平均周期、相位和振幅文件。文件 #1-8 显示了与一种特定处理相比的 p 值,例如,#1 文件使用 #1 样本作为比较的基线。此外,如果用户想要全面视图,NO7 所有方差分析结果是一个包含所有方差分析比较的文件。NO7 DataForANOVA 是一个文件,它使用数据设置,以使用我们的辅助脚本在 R 中运行新的方差分析。这是为了防止用户想要运行自己的统计数据或图表,因为它与在 R 中制作箱线图兼容,可能是在删除受污染的井之后。 |
| >#6__Plate_NO7 t 检验 | >该文件夹包含与 t 检验的 p 值合并的平均周期、相位和振幅文件。文件 #1-8 显示了与一种特定处理相比的 p 值,例如,#1 文件使用 #1 样本作为比较的基线。 |
表 1:R 分析的输出文档列表。 这是由 LUC_2025.R 脚本(补充文件 1)和输入文件 NO7.csv(补充文件 2)生成的输出文档的列表。
补充图S1:协议第1节中输入I和输入II的屏幕截图。 必须更改用户输入 I 才能根据本地计算机上的特定数据集定制分析。对用户输入 II 的更改是可选的,具体取决于实验设置。请务必注意, 补充文件 1 (LUC_2025.R) 脚本希望所有孔都存在于文件中,而不仅仅是选定或使用的孔。 请点击此处下载此图。
补充图 S2:输出文档的树结构。 此输出是使用 LUC_2025.R 脚本(补充文件 1)和输入文件 NO7.csv(补充文件 2)生成的。LUC_2025.R 脚本根据输入文件名生成输出文件夹。有关输出文件的更多详细信息,请参阅 表 1。框表示文件夹。 请点击此处下载此图。
补充图S3:协议第2节中用户输入I和用户输入II的屏幕截图。补充文件 3 (ROS_2025.R) 脚本使用与补充文件 1 (LUC_2025.R) 脚本相同的常规输入格式。必须更改用户输入 I 才能根据本地计算机上的特定数据集定制分析。对用户输入 II 的更改是可选的,具体取决于实验设置。请务必注意,补充文件 3 (ROS_2025.R) 脚本希望所有孔都存在于文件中,而不仅仅是选定或使用的孔。请点击此处下载此图。
补充图 S4:输出文档的树结构。 此输出是使用 ROS_2025.R 脚本(补充文件 3)和输入文件 ROS_flg22.csv(补充文件 4)生成的。ROS_2025.R 脚本根据输入文件名生成输出文件夹。该文件夹中有一个用于 Total ROS Counts 的文件和一个用于图形的文件。还有用于 PRISM 和图形数据、方差分析检验和 t 检验的子文件夹。框表示文件夹。 请点击此处下载此图。
补充表 S1:用于昼夜节律数据分析的可用生物信息学工具列表。请点击此处下载此文件。
补充文件 1:LUC_2025.R. 这是用于分析生物钟数据的 R 脚本。 请点击此处下载此文件。
补充文件 2:NO7.csv。 这是包含生物钟数据示例的输入文件。 请点击此处下载此文件。
补充文件 3:ROS_2025.R. 这是用于分析 ROS 数据的 R 脚本。 请点击此处下载此文件。
补充文件 4:ROS_fig22.csv。 这是包含 ROS 数据示例的输入文件。通过1 μM flg22处理诱导ROS。 请点击此处下载此文件。
补充文件 5:ROS_elf26.csv。 这是包含 ROS 数据示例的输入文件。ROS由1 μM elf26处理诱导。 请点击此处下载此文件。
作者没有需要披露的利益冲突。
本报告介绍了一种在开源软件RStudio中使用R脚本来分析从时间序列实验中获得的大规模数据集的方法。
我们感谢卢实验室成员对这项工作的帮助。我们感谢 Min Gao 和 Matthew Fabian 使用他们未处理的数据,并感谢 Benjamin Harris 在制作此 R 脚本时提供的帮助和/或指导。我们感谢辛辛那提儿童医院医疗中心的 John B. Hogenesch 为案例研究 2 提供了哺乳动物细胞的发光数据。我们进一步感谢爱丁堡大学的 John B. Hogenesch、Andrew Millar 和史密斯学院的 Mary Harrington 在开发该方法期间进行的有益讨论。这项工作得到了美国国家科学基金会、NSF 1456140 和 NSF 2223886 对 华 Lu 的资助的部分支持。
| R | R项目 | https://www.r-project.org/ | 一个免费的开源平台,可以从网上下载并用于编码,尤其是统计学方面。 |
| Rstudio | Posit 软件 | https://posit.co/download/rstudio-desktop/ | 一款免费软件,可从网上下载,方便用户更友好地使用R。 |
| 元周期 | 吴刚、李泽维尔、马修·卡鲁奇、罗恩·阿纳菲、迈克尔·休斯、卡尔·科纳克和约翰·霍格内施 | https://cran.r-project.org/web/packages/MetaCycle/vignettes/implementation.html | MetaCycle软件包中的ARSER算法用于评估时钟参数、周期、相位和幅度。 |
| GGPLOT2 | Posit 软件 | https://cran.r-project.org/web/packages/ggplot2/index.html | 创建数据可视化,特别是用于统计图形。 |
| DPLYR | Posit 软件 | https://cran.r-project.org/web/packages/dplyr/index.html | 一个用于高效数据作的基础R库。 |
| 马格里特尔 | Posit 软件 | https://cran.r-project.org/web/packages/magrittr/index.html | 提供一组作符,以提升代码可读性,促进数据作更自然的流转。 |
| 弦 | Posit 软件 | https://cran.r-project.org/web/packages/stringr/index.html | 提供一套一致、简单且易用的字符字符串函数。 |
| 文件字符串 | 罗里·诺兰和塞尔吉·帕迪利亚-帕拉 | https://cran.r-project.org/web/packages/filesstrings/index.html | 提供方便作文件和字符串的功能,尤其是与文件名和路径相关的文件。 |
| 圆形 | 乌尔里克·伦德、克劳迪奥·阿戈斯蒂内利、新井浩义、亚历山多·加利亚尔迪、爱德华多·加尔蒂亚库特;葡萄牙语及尖锐;迪米特里·朱恩奇、让-奥利维耶·艾里松、马修·波切尼奇和费德里科·罗托洛 | https://cran.r-project.org/web/packages/circular/index.html | 提供循环数据的统计分析和图形表示。 |
| AICcmodavg | 马克·J·马泽罗尔 | https://cran.r-project.org/web/packages/AICcmodavg/index.html | 基于赤池信息准则(AIC)及相关信息创建模型选择表。 |
| 扫帚 | Posit 软件 | https://cran.r-project.org/web/packages/broom/index.html | 将各种统计模型和对象的输出转换为“整齐”的 tibbles(现代数据框架格式),使模型结果的处理、分析和可视化更加便捷。 |
| 高压灭菌器 | 斯特里斯 Amsco Eagle Century SG120 科学公司 | 8901400012 | 高压灭菌器介质 |
| 化学排气罩 | 实验室设计与供应 | 灭菌种子 | |
| 欧米茄荧光读者 | BMG 实验室科技公司 | 车牌识别器 | |
| 层流箱 | NuAire Nu-408FM-400 | 二级/A型及nbsp; | 将幼苗转移到96孔板上 |
| 96孔微板 | 珀金-埃尔默 | OptiPlate-96 | 培育幼苗以进行荧光素酶检测 |
| FLG22 | GenScript公司 | RP19986 | 细菌鞭毛蛋白的引诱剂。nbsp; |
| 精灵26 | 阿尔法诊断国际公司 | 2427 | 细菌翻译中的一个引出因子——伸长因子-Tu。 |
| D-路西法林萤火虫,钾盐 | 生物合成化学与生物学 | L-8220 | 荧光素酶底物 |
| L-012(鲁米诺) | 费舍尔科学 | NC0733364 | ROS测定试剂 |