Summary
我们构建了一个非靶向代谢组学工作流程,将XY-Meta和metaX集成在一起。在该协议中,我们展示了如何使用XY-Meta从开放获取光谱参考中生成诱饵光谱库,然后进行FDR控制,并在鉴定代谢组学光谱后使用metaX定量代谢物。
Abstract
近年来,非靶向代谢组学技术被广泛使用。然而,快速增加的通量和样品数量会产生大量的光谱,这给质谱光谱的质量控制带来了挑战。为了减少误报,必须进行错误发现率(FDR)质量控制。最近,我们开发了一种用于FDR控制非靶向代谢组鉴定的软件,该软件基于名为XY-Meta的目标诱饵策略。在这里,我们演示了一个完整的分析管道,它将 XY-Meta 和 metaX 集成在一起。该协议展示了如何使用XY-meta从现有参考数据库生成诱饵数据库,并使用Target-诱饵策略在开放获取数据集上进行大规模代谢组鉴定来执行FDR控制。差异分析和代谢物注释是在运行metaX进行代谢物峰检测和定量后进行的。为了帮助更多的研究人员,我们还为这些分析开发了一个用户友好的基于云的分析平台,无需生物信息学技能或任何计算机语言。
Introduction
代谢物在生物过程中起着重要作用。代谢物通常是各种过程的调节剂,如能量转移,激素调节,神经递质调节,细胞通讯和蛋白质翻译后修饰等1,2,3,4。非靶向代谢组学提供了许多代谢物的全球视图5,6。随着质谱和色谱技术的进步,代谢组MS/MS谱的通量近年来迅速增加7,8,9,10,11。为了从这些庞大的数据集中鉴定代谢物,开发了各种注释软件11,例如MZmine12,MS-FINDER13,CFM-ID14,MetFrag15和SLAW16。但是,这些标识通常包含许多误报。原因包括:(1)MS/MS光谱包含随机噪声,这可能会误导峰值匹配。(2)异构体和碎片能量的差异导致多个光谱指纹,从而增加参考库的体积。(3) 参考库的质量各不相同。需要一个适当的标准来建立一个良好的参考光谱库。因此,非目标代谢组学的系统性错误发现率(FDR)控制对于功能代谢组研究7,8,9,17至关重要。
经验贝叶斯方法和目标诱饵策略都普遍解决了罗斯福的控制问题。Kerstin Scheubert等人认为,基于碎片树的方法对诱饵数据库生成的目标诱饵策略是FDR控制9的最佳方法。王旭生等人设计了一种基于化学八位字节规则的诱饵生成方法,提高了FDR估计的精度17。演示了用于生成诱饵数据库的光谱库以获得更好的性能18.在这里,我们改进了基于光谱库的方法,并开发了一种名为XY-Meta19 的软件,可以进一步提高FDR估计的精度。它使用现有的参考光谱库为目标诱饵方案下的 FDR 控制生成诱饵库。XY-Meta 支持自己的光谱匹配和余弦相似性算法。它允许传统的搜索和迭代搜索模式。在 FDR 评估的步骤中,它支持目标诱饵串联模式和分离模式。为了获得更好的灵活性,XY-Meta 接受外部诱饵库。
代谢物的峰检测和定量也是非靶向代谢组分析的重要步骤。峰检测是代谢组鉴定的主要方法。一般而言,代谢物峰检测的准确性受多种因素的影响,如质谱的噪声信号、代谢物丰度低、污染物、代谢物降解产物20等。当样品数量过多或液相色谱柱被非靶向代谢组实验替换时,可能会出现显著的批次效应,这是代谢组定量的主要挑战21、22、23。目前,XCMS24、Workflow4蛋白质25、iMet-Q26和metaX19 等软件可以对非靶向代谢组进行峰检测和定量,但我们建议metaX的管道更完整,更易于使用。在这里,我们演示了使用XY-Meta的公开数据集msv000084112的鉴定和FDR控制过程,以及使用metaX对代谢物的峰检测和定量。此工作流只需要两个组,每个组至少需要两个样本。无论质谱仪平台、电离模式、电荷模式和样品类型如何,都需要MS/MS光谱数据,并且可以支持基于样品的归一化和基于峰的归一化。按照这个例子,研究人员可以以易于处理的方式进行代谢组学鉴定和定量。使用此管道需要 R 编程功能。为了帮助没有任何编程知识的研究人员,我们还开发了一个用于代谢组学分析的云分析平台。我们在 补充材料 5 中演示了此云分析平台。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1. 准备代谢组学数据集进行分析
注意:在本演示中,我们使用不含QC样品的代谢组学数据集。需要病例组和对照组的数据。为了进行演示,我们使用GNPS数据库27中的公共数据集。
- 转到网页 https://gnps.ucsd.edu/ProteoSAFe/static/gnps-splash.jsp。单击浏览数据集。
- 在 “标题 ”列中搜索关键字“msv000084112”。单击数据集 ID 号了解详细信息,然后使用 FTP 下载数据集。
- 将原始数据放在文件夹 /msv000084112 中。
注意:该数据集是在正模式下使用Q精确平台上的C18 RP-UHPLC获取的。它代表了一个具有尿样代谢数据的特征性疾病的队列,包括33个健康人样本,12个空白样本,2个混合样本和82个患者样本28 (补充材料8)。为了演示工作流程,我们随机选择了六个健康人样本(NH)作为对照组,六个具有该疾病(NT)的样本作为病例组来执行工作流程。
2. 数据格式转换
注意:如果数据集是直接从质谱仪生成的原始数据,则通常采用.raw,.wiff或.cdf格式。它们应转换为 mzXML 和 mgf 格式。在这里,我们使用变形巫师29 软件包中的msconvert工具进行格式转换。
- 从 https://proteowizard.sourceforge.io/download.html 下载变形巫师并安装它。
- 使用毫秒转换转换数据格式.exe在保护向导安装路径下。
- 将原始数据转换为 mzXML 格式并将其存储在 /mzXML 文件夹中:/msconvert.exe /原始/*.raw -o /raw/mzXML/ --过滤器“峰值选择为真 [1,2]” --过滤器“零采样删除外传” --mzML --zlib --mz64 --过滤器“毫秒级 1-2” --筛选“标题制作器
.<扫描次数>.<扫描次数>。<收费状态>“。 - 将原始/mzXML 数据转换为 mgf 格式并将其存储在 /mgf 文件夹中:/msconvert.exe /msv00084112/*.raw -o /msv000084112/mgf/ --过滤器“峰值选择为真 [1,2]” --过滤器“零采样删除表达式” --mgf --mz64 --过滤器“毫秒级 1-2” --过滤器“标题制作器
.<扫描号码>.<扫描次数>。<收费状态>“。
- 将原始数据转换为 mzXML 格式并将其存储在 /mzXML 文件夹中:/msconvert.exe /原始/*.raw -o /raw/mzXML/ --过滤器“峰值选择为真 [1,2]” --过滤器“零采样删除外传” --mzML --zlib --mz64 --过滤器“毫秒级 1-2” --筛选“标题制作器
3. 准备代谢物的参考光谱库
注意:XY 元仅支持 mgf 格式的参考光谱库。
- 转到网页 https://gnps.ucsd.edu/ProteoSAFe/libraries.jsp。搜索关键字“NIST”以查找该项目。单击“查看 ”了解详细信息并下载库。
注意:GNPS公共光谱库收集了许多代谢物库,按类型,来源,物种和收集模式排列。虽然这些库中只有一小部分是使用标准材料生成的,但它们通常足以用于大多数基础研究。 - 将下载的库“GNPS-NIST14-匹配”mgf 放入 /database 文件夹中。
4. 代谢物鉴定和罗斯福控制
- 下载 XY 元数据库(视窗版)。在 /XY 元-Win/config/ 文件夹下找到参数配置文件参数.default。根据 补充材料1更改其内容。
注意:在溶液中,代谢物通常与阴离子或阳离子形成加合物,这导致母离子的质量转移。因此,有必要设置加合物的类型。在/adduct文件夹中,提供了正电荷模式和负电荷模式下离子交换柱和反向分析柱的加合物列表。用户还可以根据他们的研究项目编辑自己的内收列表。内收列表的格式应与提供的列表相同。 - 使用 XY 元:XY 元.exe -S /XY 元/配置/参数执行代谢物鉴定和 FDR 控制.默认 -D /msv000084112/ pos_wt-1_a.mgf -R /数据库/NIST14-MATCHES.mgf。
注意:XY 元不支持参数中的通配符。因此,应使用单个命令来处理每个 mgf 文件。对于大量文件,建议使用批处理文件。
5. 差异分析
注意:metaX 是一个开源的 R 包。请根据 https://github.com/wenbostar/metaX 的指南进行安装。此分析需要 8GB 内存。
- 编辑示例列表.txt文件以指定示例及其相应的 MS 数据。请参阅 补充材料 2。
注意:metaX 支持对包含 QC 样本的数据集进行定量分析。使用 QC 样品时,请将 QC 样品的类属性修改为 NA。 - 创建 /output 文件夹以存储定量分析的结果。使用 R 运行 补充材料 3 中的脚本,以使用 metaX 量化 MOCK 和 WT 组。
注意:在 运行补充材料 3 中的脚本之前,请将脚本中的路径修改为实际的本地路径。
6. 定性和定量结果的整合
- 运行 补充材料4 中的R脚本,以使用代谢物鉴定在定性和定量分析中注释峰。
注意:在运行 补充材料 4 中的脚本之前,请将脚本中的路径修改为实际的本地路径。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
msv000084112的原始数据通过ms转换进行转换.exe并生成mgf文件(补充材料S6)。
XY 元生成的 GNPS-NIST14-MATCHES_Decoy.mgf 文件位于 /database 文件夹下。这是从原始参考光谱库GNPS-NIST14-Match.mgf生成的诱饵库。这个诱饵库可以重复使用。重用此诱饵库时,用户应在 parameter.default 文件中将decoy_pattern设置为 1,并将诱饵输入设置为诱饵库的绝对路径。鉴定结果在/mgf文件夹(后缀为.meta)下生成,其中包括光谱匹配评分,FDR,代谢物的m / z,保留时间和代谢物的名称(补充材料7)。
metaX 的定量分析位于 /输出文件夹中。NH和NT的一般定量分布相似,平均值波动小(图1A)。只有一小部分缺失值:只有3.39%的代谢物具有超过30%的缺失值(图1B)。metaX显着增加了CV≤0.3的代谢物的比例(图1C)。箱形图存储在 /metaX_box 文件夹中。洗脱配置文件存储在 /metaX_eic 文件夹中。代谢物峰记录在metaX特征.txt中。在两组中鉴定的代谢物的定量值和差异分析结果存储在metaX_peaks.txt中(图1D)。应用|阈值对数|≥1和p值<0.05,差异检测代谢物342个,上调206个,下调136个(补充材料9)。
我们使用FDR<0.01识别来注释metaX检测到的峰值。如果一个峰可以被多个代谢物注释,我们采用光谱匹配得分最高的那个作为最终注释。使用这些标准,我们注释了六个差异代谢物峰(图2)。
图 1.通过 metaX 进行定量分析。 (A)所有样品的定量代谢物的箱形图。(B) 缺失值分布的直方图。(C)两组样品的PCA图。(D)来自三种统计测试方法的差异检测代谢物的维恩图。 请点击此处查看此图的大图。
图 2.所有注释代谢物的保留时间(RT)和m / z分布。 红点代表重要和差异检测的代谢物。 请点击此处查看此图的大图。
补充材料1: 元的参数文件。 请按此下载此档案。
补充材料2: metaX 样品的分组信息表。 请按此下载此档案。
补充材料3: 用于集成 XY 元和元 X 工作流的脚本。 请按此下载此档案。
补充材料4: 使用代谢组鉴定注释峰的脚本。 请按此下载此档案。
补充材料5: 使用云平台进行代谢组分析的完整工作流程。 请按此下载此档案。
补充材料6: 从 ms转换转换为 msv000084112 的示例数据的 mgf 文件。 请按此下载此档案。
补充材料7: 来自 XY-Meta 的标识结果表,用于 msv000084112 的示例数据。 请按此下载此档案。
补充材料8: msv000084112的队列临床信息表。 请按此下载此档案。
补充材料9: 所有代谢物的鉴定列表和所有代谢物峰的差异分析结果。 请按此下载此档案。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
罗斯福对非靶向代谢物的控制一直是一个巨大的挑战。在这里,我们展示了一个完整的大规模非靶向代谢组学分析(定性和定量)管道,具有罗斯福控制。这有效地减少了在MS分析中非常常见的误报。
为您的研究准备适当的参考光谱库是一个关键点。成功且灵敏的MS/MS识别不仅需要适当的匹配算法,还需要适当的参考光谱库。由于以下原因,公共光谱库的适用性受到限制:(1)许多公共光谱库不包括完整的代谢物列表。(2) 公共光谱库中的光谱源自各种MS仪器和/或各种碎片条件30,31。因此,我们建议您使用标准代谢物在同一仪器和相同的碎片条件下收集光谱,以构建“独家”光谱库。此外,在实际测量过程中应保持这些条件。此外,在修改参数文件时,前体离子和碎片离子的容差应与仪器的参数一致。通常,前驱体耐受范围应在10 ppm至20 ppm之间,片段耐受性应设定在0.01 Da至0.5 Da之间。对于该数据集,仪器的参数未知,但0.05 Da的片段容差是该工作流程正常运行的保守选择。
用户在运行此管道时可能仍会收到各种错误消息。常见的错误包括错误的输入文件路径、缺少参数文件和文件访问冲突(例如,访问作系统拒绝并同时访问同一文件)。
需要注意的是,该工作流程目前仅适用于小于1,000 Da的小分子的靶向和非靶向代谢组分析,不能用于分析聚糖链或脂质链等大分子的代谢组。此外,数据独立采集(DIA)数据和离子淌度数据都不适合使用此工作流程进行分析。该工作流程不支持使用代谢物的m / z和保留时间来注释峰检测结果,仅支持对两组具有两个以上样品的数据进行差异分析。
长期以来,以峰检测技术为主的非靶向代谢组的鉴定结果往往含有大量的假阳性,这主要是由于代谢物异构体数量多,离子加合物形式不同。将代谢物的MS / MS谱与已知代谢物的参考谱进行比较可以解析代谢物的结构以区分异构体32。然而,如果代谢物的参考谱不是公开的或商业上可获得的,则无法鉴定代谢物7。因此,建立可靠的代谢物参比谱库是一个巨大的挑战。低质量和相似结构的参考光谱导致实验光谱的随机匹配。因此,罗斯福对识别结果的控制对于确保可靠的识别是必要的。用户可以使用该管道通过 FDR 控制以及定量和差异分析自动识别代谢组,方法是根据需要提供必要的输入数据。对于许多研究人员来说,这是方便和经济的,特别是对于初学者。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
无利益冲突。
Acknowledgments
本研究由国家重点研发计划(2018YFC0910200/2017YFA0505001)和广东省重点研发计划(2019B020226001)支持。
Materials
Name | Company | Catalog Number | Comments |
GNPS | open source | n/a | https://gnps.ucsd.edu/ProteoSAFe/static/gnps-splash.jsp |
XY-Meta | open source | n/a | https://github.com/DLI-ShenZhen/XY-Meta |
metaX | open source | n/a | https://github.com/wenbostar/metaX |
ProteoWizard | Free Download | 3.0.22116.18c918b-x86_64 | https://proteowizard.sourceforge.io/download.html |
CHI.Client | Free Download | ndp48-x86-x64-allos-enu | http://www.chi-biotech.com/technology.html?ty=ypt |
References
- Misra, B. B., Fahrmann, J. F., Grapov, D. Review of emerging metabolomic tools and resources: 2015-2016. Electrophoresis. 38 (18), 2257-2274 (2017).
- Idle, J. R., Gonzalez, F. J.
Metabolomics. Cell Metabolism. 6 (5), 348-351 (2007). - Fiehn, O. Metabolomics — the link between genotypes and phenotypes. Functional Genomics. Town, C. , Springer. Netherlands. Dordrecht. 155-171 (2002).
- Functional Genomics. Town, C. , Springer. Netherlands. Dordrecht. (2002).
- Dettmer, K., Aronov, P. A., Hammock, B. D.
Mass spectrometry-based metabolomics. Mass Spectrometry Reviews. 26 (1), 51-78 (2007). - Vinayavekhin, N., Saghatelian, A.
Untargeted metabolomics. Current Protocols in Molecular Biology. , Chapter 30, Unit 30.1 1-24 (2010). - Chaleckis, R., Meister, I., Zhang, P., Wheelock, C. E. Challenges, progress and promises of metabolite annotation for LC-MS-based metabolomics. Current Opinion in Biotechnology. 55, 44-50 (2019).
- Palmer, A., et al. FDR-controlled metabolite annotation for high-resolution imaging mass spectrometry. Nature Methods. 14 (1), 57-60 (2017).
- Scheubert, K., et al. Significance estimation for large scale metabolomics annotations by spectral matching. Nature Communications. 8 (1), 1494 (2017).
- Schrimpe-Rutledge, A. C., Codreanu, S. G., Sherrod, S. D., McLean, J. A. Untargeted metabolomics strategies-challenges and emerging directions. Journal of the American Society for Mass Spectrometry. 27 (12), 1897-1905 (2016).
- Blaženović, I., Kind, T., Ji, J., Fiehn, O. Software tools and approaches for compound identification of LC-MS/MS data in metabolomics. Metabolites. 8 (2), (2018).
- Katajamaa, M., Miettinen, J., Oresic, M. MZmine: toolbox for processing and visualization of mass spectrometry based molecular profile data. Bioinformatics. 22 (5), Oxford, England. 634-636 (2006).
- Tsugawa, H., et al. Hydrogen rearrangement rules: computational MS/MS fragmentation and structure elucidation using MS-FINDER software. Analytical chemistry. 88 (16), 7946-7958 (2016).
- Wang, F., et al. CFM-ID 4.0: More accurate ESI-MS/MS spectral prediction and compound identification. Analytical Chemistry. 93 (34), 11692-11700 (2021).
- Ruttkies, C., Schymanski, E. L., Wolf, S., Hollender, J., Neumann, S. MetFrag relaunched: incorporating strategies beyond in silico fragmentation. Journal of Cheminformatics. 8, 3 (2016).
- Delabriere, A., Warmer, P., Brennsteiner, V., Zamboni, N. SLAW: A scalable and self-optimizing processing workflow for untargeted LC-MS. Analytical chemistry. 93 (45), 15024-15032 (2021).
- Wang, X., et al. Target-decoy-based false discovery rate estimation for large-scale metabolite identification. Journal of Proteome Research. 17 (7), 2328-2334 (2018).
- Li, D., et al. XY-Meta: a high-efficiency search engine for large-scale metabolome annotation with accurate FDR estimation. Analytical Chemistry. 92 (8), 5701-5707 (2020).
- Wen, B., Mei, Z., Zeng, C., Liu, S. metaX: a flexible and comprehensive software for processing metabolomics data. BMC Bioinformatics. 18 (1), 183 (2017).
- Aberg, K. M., Torgrip, R. J. O., Kolmert, J., Schuppe-Koistinen, I., Lindberg, J. Feature detection and alignment of hyphenated chromatographic-mass spectrometric data. Extraction of pure ion chromatograms using Kalman tracking. Journal of Chromatography. A. 1192 (1), 139-146 (2008).
- Liu, Q., et al. Addressing the batch effect issue for LC/MS metabolomics data in data preprocessing. Scientific Reports. 10 (1), 13856 (2020).
- Han, W., Li, L. Evaluating and minimizing batch effects in metabolomics. Mass Spectrometry Reviews. 41 (3), 421-442 (2022).
- Fei, F., Bowdish, D. M. E., McCarry, B. E. Comprehensive and simultaneous coverage of lipid and polar metabolites for endogenous cellular metabolomics using HILIC-TOF-MS. Analytical and Bioanalytical Chemistry. 406 (15), 3723-3733 (2014).
- Smith, C. A., Want, E. J., O'Maille, G., Abagyan, R., Siuzdak, G. XCMS: processing mass spectrometry data for metabolite profiling using nonlinear peak alignment, matching, and identification. Analytical Chemistry. 78 (3), 779-787 (2006).
- Giacomoni, F., et al. Workflow4Metabolomics: a collaborative research infrastructure for computational metabolomics. Bioinformatics. 31 (9), Oxford, England. 1493-1495 (2015).
- Chang, H. -Y., et al. iMet-Q: A user-friendly tool for label-free metabolomics quantitation using dynamic peak-width determination. PloS One. 11 (1), 0146112 (2016).
- Wang, M., et al. Sharing and community curation of mass spectrometry data with Global Natural Products Social Molecular Networking. Nature Biotechnology. 34 (8), 828-837 (2016).
- Schmid, R., et al. Ion identity molecular networking for mass spectrometry-based metabolomics in the GNPS environment. Nature Communications. 12 (1), 3832 (2021).
- Kessner, D., Chambers, M., Burke, R., Agus, D., Mallick, P. ProteoWizard: open source software for rapid proteomics tools development. Bioinformatics. 24 (21), Oxford, England. 2534-2536 (2008).
- Johnson, S. R., Lange, B. M. Open-access metabolomics databases for natural product research: present capabilities and future potential. Frontiers in Bioengineering and Biotechnology. 3, 22 (2015).
- Horai, H., et al. MassBank: a public repository for sharing mass spectral data for life sciences. Journal of Mass Spectrometry: JMS. 45 (7), 703-714 (2010).
- Rawlinson, C., et al. Hierarchical clustering of MS/MS spectra from the firefly metabolome identifies new lucibufagin compounds. Scientific Reports. 10 (1), 6043 (2020).