Genetics

一种快速、定量的后向基因组转化和变异的多肽映射方法

Published: May 22, 2018 doi: 10.3791/57633

Christoph N. Schlaffner^1,2,3, Georg J. Pirklbauer², Andreas Bender³, Judith A.J. Steen¹, Jyoti S. Choudhary^2,4

¹Department of Neurobiology, F. M. Kirby Neurobiology Center, Boston Children's Hospital, Harvard Medical School, ²Proteomic Mass Spectrometry, Wellcome Trust Sanger Institute, Wellcome Genome Campus, ³Centre for Molecular Informatics, Department of Chemistry, University of Cambridge, ⁴Functional Proteomics Group, Chester Beatty Laboratories, Institute of Cancer Research

Summary

在这里, 我们提出了 proteogenomic 工具的弹跳和协议的快速, 数量, 后平移修改和变种启用映射的肽识别通过质谱的参考基因组。该工具用于集成和可视化 proteogenomic 和个人蛋白质组学的研究, 并与正交基因学数据相衔接。

Abstract

基因、转录和蛋白质之间的交叉交谈是细胞反应的关键;因此, 对分子水平的分析作为不同的实体正在慢慢地扩展到综合研究, 以增强对细胞内分子动力学的理解。目前的工具, 以可视化和集成的蛋白质组与其他组学数据集是不足够的大规模研究。此外, 它们只捕获基本序列识别, 丢弃平移后修改和定量。为了解决这些问题, 我们开发了用于将多肽与相关的平移后修饰和定量相结合以参考基因组注释的弹簧。此外, 还开发了该工具, 以使从定制的序列数据库中识别出的多肽能够被纳入单一氨基酸变种。虽然弹跳是一个命令行工具, 图形界面 PoGoGUI 使非生物信息学研究人员可以轻松地将肽映射到由 Ensembl 基因组注释支持的25种物种。生成的输出借用了基因组学领域的文件格式, 因此, 大多数基因组浏览器都支持可视化。对于大规模的研究, TrackHubGenerator 支持的弹跳, 以创建 web 可访问的数据存储库, 映射到基因组, 也可以方便地共享 proteogenomics 数据。由于很少的努力, 这个工具可以映射数以百万计的肽, 以参考基因组在短短几分钟内, 优于其他可用的序列标识的工具。该协议展示了通过 proteogenomics 映射的最佳方法, 它具有公开的定量和 phosphoproteomics 数据集以及大规模的研究。

Introduction

在细胞中, 基因组、转录和蛋白质组织相互影响, 调节对内部和外部刺激的反应, 并相互作用, 以执行导致健康和疾病的具体功能。因此, 对基因、转录和蛋白质进行定性和定量是充分理解细胞过程的关键。下一代测序技术是识别和量化基因和转录表达的最常用的策略之一。然而, 蛋白质表达通常由质谱 (MS) 评估。在过去十年中, MS 技术的显著进步使蛋白质组的识别和量化更加完整, 使数据与转录^组学1相比较。Proteogenomics 和多组学作为整合和 MS 数据的方法, 已成为评估跨多个分子水平的细胞过程的有力方法, 确定癌症的亚型, 并导致癌症的新潜在药物靶点 2^,³. 值得注意的是, proteogenomics 最初用于为基因和转录注释⁴提供蛋白质组证据。以前认为是非编码的几个基因最近经过重新评估, 考虑到大规模的人体组织数据集⁵^,⁶^,⁷。此外, 蛋白质组数据成功地用于支持非模型生物体中的注释工作⁸^,⁹。然而, proteogenomic 数据集成可以进一步利用, 以突出显示与基因组特征的蛋白质表达, 并阐明转录和蛋白质之间的交叉交谈, 提供了一个联合的参考系统和方法, 以协同可视化。

为了为蛋白质组学、转录组学和基因组学数据提供一个共同的参考, 许多工具已经实现, 通过 MS 识别到基因组坐标的多 ^肽10, 11, 12^,¹³^,¹⁴^,¹⁵^,¹⁶^,¹⁷。方法在映射参考、支持基因组浏览器以及与其他蛋白质组工具的集成程度方面有所不同, 如图 1所示。有些工具将反向翻译的肽映射到基因组¹⁶上, 另一些则使用一个在蛋白质和基因注释中的搜索引擎标注的位置来重建肽¹⁵的核苷酸序列。还有一些人使用3或6帧的基因组翻译来映射肽对¹¹^,¹³。最后, 几个工具跳过核苷酸序列, 并使用氨基酸序列翻译从 RNA 排序映射转录作为一个中间, 以映射肽到相关的基因组坐标¹⁰^,¹²^, ¹⁴^,¹⁷。但是, 核苷酸序列的翻译是一个缓慢的过程, 自定义数据库容易出现错误, 传播到肽映射。对于快速和高吞吐量的映射, 一个小而全面的参考是至关重要的。因此, 一个标准化的蛋白质参考与相关的基因组坐标是准确的肽基因组图谱的关键。proteogenomics 中的一些新方面, 例如变体和后翻译修改 (PTMs)²^,³, 在最近的研究中获得了势头。但是, 这些通常不受当前 proteogenomic 映射工具的支持, 如图 1所示。为了提高制图的速度和质量, 我们开发了一种可以快速、定量地将多肽映射到基因组¹⁸的工具。此外, 弹跳可以使多肽的映射多达两个序列变体和注释后的平移修改。

为了应付快速增加的数量高分辨率数据集, 捕获蛋白质组和全球修改, 并为诸如个人变异和精确医学等大规模分析提供了一个中心效用。本文介绍了该工具的应用, 以可视化后修改的存在与基因组特征。此外, 本文重点介绍了通过映射肽识别可选剪接事件, 以及通过自定义变体数据库识别的多肽的映射到参考基因组。此协议使用从自豪感存档¹⁹下载的公共可用数据集, 以演示这些弹跳的功能。此外, 本协议还描述了 TrackHubGenerator 的应用, 用于创建映射到基因组的在线可访问集线器, 用于大规模 proteogenomics 研究。

Protocol

1. 准备、下载和安装

注意: 文件和文件夹路径示例以 Windows 格式显示, 以方便标准用户访问。macOS 和 Linux 操作系统也可使用弹簧和 PoGoGUI。

从 GitHub 下载弹簧和 PoGoGUI
1. 打开 web 浏览器并导航到 GitHub (http://github.com/cschlaffner/PoGo/) 上的弹簧。选择释放并下载最新的发行 zip 压缩文件。将压缩文件解压到可执行文件夹 (例如, C:\PoGo\executables \)。
2. 在 web 浏览器中导航到 GitHub (http://github.com/cschlaffner/PoGoGUI/) 上的 PoGoGUI。选择发布并下载最新的发行 jar 文件 (例如, "PoGoGUI v1.0 2. jar")。将 jar 文件存储在 "可执行文件" 文件夹中。
下载基因组注释和翻译的蛋白质编码序列
注: 从 GENCODE⁷ (www.gencodegenes.org) 或 Ensembl²⁰ (www.ensembl.org) 的常规传输格式 (GTF) 和蛋白质序列中, 为受支持物种下载基因组注释和翻译的蛋白质编码序列FASTA 格式。
1. 在 web 浏览器中, 导航到 www.gencodegenes.org 并选择数据 |人 |当前发布。通过 GTF 链接下载综合基因注释, 并使用解压程序 (例如、7 Zip) 将该压缩文件解压到数据文件夹 (例如、C:\PoGo\Data \) 中。
2. 通过 FASTA 链接下载蛋白质编码成绩单转换序列, 并将该广州压缩文件解压到上一步生成的数据文件夹中。
  1. 或者, 在 web 浏览器中导航到 www.ensembl.org, 然后选择下载, 然后通过 FTP 下载数据。查找受支持的物种 (例如, 人类)。使用基因集列中的 GTF 链接下载最新的版本文件以进行成绩单批注。选择具有名称结构 "species.release.gtf.gz" 的文件, 然后将该压缩文件解压到数据文件夹中。
3. 使用蛋白序列 (FASTA)列中的 FASTA 链接下载最新版本的蛋白编码成绩单翻译序列。选择具有名称结构 "species.release.pep.all.fa.gz" 的文件, 然后将该压缩文件解压到数据文件夹中。
准备肽识别文件
注意: 弹簧只支持4列格式, 包含样本标识符、肽序列、多肽谱匹配 (PSMs) 和定量值。但是, PoGoGUI 支持标准化的身份验证文件格式 mzIdentML、mzid 和 mzTab, 并使用公共可用的框架 ms 数据核心 api²¹将它们转换为弹簧4列格式。可以从自豪感存档¹⁹下载 mzIdentML、mzid 或 mzTab 格式的文件。或者, 数据可以以制表符分隔的文件格式提供, 扩展名为. tsv 或. 弹跳。该格式包含4列, 具有以下列标题: 样本标识符 (样本), 肽序列 (肽), 多肽谱匹配 (PSMs) 和肽定量 (定量)。图 2中显示了一个示例。
1. 从自豪感存档¹⁹ (https://www.ebi.ac.uk/pride/archive/projects/PXD006465/files²²) 的蛋白质组学研究中下载 mzTab 格式的示例文件。
2. 将广州压缩文件保存并解压到在步骤1.2.1 中创建的数据文件夹中。
  注意: 或者, 下载与 MaxQuant 一起搜索的人类 phosphoproteomics 示例数据 (从 https://www.ebi.ac.uk/pride/archive/projects/PXD005246/files²³中的 "文件" Traktman_2013_MaxQuantOutput 完全. zip)。
3. 保存并解压在步骤1.2.1 中创建的数据文件夹中的 zip 压缩文件。
4. 打开一个空白电子表格并从文件夹 C:/PoGo/Data/Traktman_2013_MaxQuantOutput-full/combined/txt/导入 peptides.txt 文件, 方法是使用选项数据 |从文本/CSV。在 "打开" 窗口中, 单击编辑。
5. 删除所有列, 除 "序列"、"实验 BR1"、"实验 BR2"、"实验 BR3"、"比值 h/l 规范化 BR1"、"比值 h/l 规范化 BR2" 和 "比值 h/l 规范化 BR3"。
6. 选择列 "比 h/l 规范化 BR1", "BR2 规范化" 和 "BR3 规范化的比率", 然后单击转换 |逆透视列。选取 "实验 BR1"、"实验 BR2"、"实验 BR3" 等栏目, 重复逆透视操作。
7. 选择结果列 "属性", 然后使用转换 |拆分栏 |通过分隔符。在下拉菜单中选择空格作为分隔符。对列 "属性 1" 重复操作。
8. 移除结果列 "属性 1.1"、"属性 2"、"属性 3" 和 "属性 1.1. 1"。
9. 使用添加列 | 添加列 |自定义列选项。调整自定义列公式以表示以下内容: "= [属性. 4] = [属性. 1.2]"。
10. 将筛选器应用于生成的自定义列, 以筛选出包含 "FALSE" 的所有行;只有包含 "TRUE" 的行才会保留。
11. 删除列 "属性 1.2" 和 "自定义", 然后将其余列的顺序更改为以下内容: "属性 4"、"序列"、"值 1" 和 "值"。
12. 分别将列名改为 "实验"、"肽"、"PSMs" 和 "量化"。使用首页 |关闭 & 加载。
13. 使用文件 | 将文件另存为制表符分隔的文件|另存为并选择类型 "文本 (制表符分隔) (.txt)"。将名称更改为 "peptides_pogo", 并将其保存到文件夹 C:/弹跳/数据中。

2. 用带注释的平移后修饰和可视化 (包括定量) 绘制多肽

注意: 生成的输出文件可以在任何支持浏览器可扩展数据 (床) 格式的基因组浏览器中加载。浏览器的选择是集成的基因组浏览器 (IGV)²⁴ (用于以下内容)、UCSC 基因组浏览器²⁵和 Ensembl 基因组浏览器²⁰。重要的是要注意的是, 注释 GTF 和蛋白质 FASTA 版本用于弹跳映射匹配的版本基因组在基因组浏览器。为人类 Ensembl 发布57-75 和 GENCODE 版本 3 d-19, 使用 GRCh37/hg19;对于 Ensembl 版本76或更高, GENCODE 20 或更高, 请使用 GRCh38/hg38。对于鼠标 Ensembl 版本74或更高和 GENCODE M2 或更高, 请使用 GRCm38。

使用 PoGoGUI 映射多肽 (见图 3)。
1. 导航到 "可执行文件" 文件夹。通过双击图标PoGoGUI-vX x.x. jar来启动程序。
  注意: 图形用户界面将启动并允许轻松和直观地选择选项。
2. 使用 "跳过弹簧" 可执行文件旁边的选择按钮。然后, 在可执行文件文件夹中导航到相关的操作系统子文件夹 (例如, C:\PoGo\Executables\Windows \)。选择 "弹簧" 的可执行文件 (例如, PoGo.exe) 并通过单击打开按钮确认其选定内容。
3. 单击选择, 选择用于蛋白质序列的参考输入文件。导航到数据文件夹并选择翻译 FASTA 文件。单击打开按钮以确认其选定内容。
4. 使用选择按钮选择成绩单批注文件。导航到 "数据" 文件夹并选择 "注释 GTF 文件"。通过单击打开按钮确认所选内容。
5. 添加多肽标识文件-通过使用 "肽文件" 旁边的添加按钮, 启用了多个文件选择。选择支持格式 mzTab、mzIdentML 或 mzid 中的文件, 或在步骤1.3 中下载并准备的以制表符分隔的4列格式。
6. 勾去掉在 "输出格式" 选择中的 "床" 和 "GTF" 旁边的复选框。只留下 PTM 床和 GCT 检查。
7. 从下拉选项中选择相应的数据种类。FASTA 文件、GTF 文件和下拉选项对于相同的种类是非常重要的。
8. 单击开始按钮开始映射。
  注: 如有必要, PoGoGUI 会将输入文件转换为弹簧式, 在同一个文件夹中提供跳过的文件, 以便将来方便, 并启动映射过程。在步骤1.3.1 中下载的单个 mzTab 文件的转换将在映射开始之前的 10-20 分钟之间持续。
整合基因组查看器中的可视化
注意: 请参见图 4。
1. 通过文件 | 在 IGV 中加载 "_ptm" 中结束的弹簧输出文件|从文件加载并选择该文件。
  注意: 由于大小, 某些文件可能需要生成索引, 以允许快速重新加载基因组区域。IGV 将自动提示用户生成。按照指示的说明进行操作。
2. 对以 "_noptm" 结尾的文件重复加载步骤。此文件包含未进行任何修改的所有发现的肽。
3. 请注意, 每个加载的文件都将显示为单独的曲目, 文件名标识了曲目。通过将曲目拖放到列表中所需的位置来重新排列跟踪。
4. 请注意, 每个曲目最初以折叠的方式显示。要展开它们, 请右键单击曲目名称, 然后选择 "展开" 以查看多肽的完整视图, 包括序列或堆叠视图的压扁。
5. 对以 ". gct" 结尾的文件重复加载步骤。此文件包含每个带注释的样本的肽定量。
6. 与上面加载的文件不同, 每个批注的示例都将作为单独的曲目加载。通过拖放操作重新组织示例。
7. 在基因组内导航, 选择下拉菜单中的染色体, 键入基因组坐标, 搜索基因符号, 或单击并按住以选择要放大的染色体部分。

3. 通过自定义变体数据库确定的用于参考基因组的映射肽

注意: 可以使用图形用户界面 (GUI) 或通过命令行界面来进行弹跳映射。它们是可互换的。在协议的这一部分中, 命令行界面用于突出显示互换性。此协议部分的第二部分要求软件工具 R²⁶。请确保软件包已安装。

将参考肽映射到参考基因组。
1. 打开命令提示符 (cmd), 然后导航到跳过的可执行文件文件夹 (例如, C:\PoGo\Executables \)。
2. 键入下面的命令:
  PoGo.exe-gtf \ 路径 \ gtf-fasta \ 路径 \ 在格式化床-物种 fasta 中的 MYSPECIES
  1. 使用 "注释 GTF"、"蛋白质序列 FASTA" 和 "多肽标识" 文件 (以文件结尾为 ". tsv" 或 ". 弹跳") 的路径, 用4列格式替换 GTF、\ FASTA 和 \ 路径 \。还可以用与数据 (例如,人类) 一致的物种替代 MYSPECIES。
3. 按 "Enter" 键确认执行。等到执行完成后再继续前进。
  注意: 这可能需要几分钟。生成的文件将存储在与多肽输入文件相同的文件夹中, 并且将被视为 \ 路径 \ 到 \ 输出. 弹簧床在下面。
仅从输入文件中提取变体多肽。
1. 使用以下命令打开 R 并加载输入文件 \ 路径 \ 到 \ in:
  inputdata <-读. 表 ("路径/入/in", 页眉 = TRUE, 9月 = "\ t")
2. 使用命令加载已映射的多肽:
  mappedpeptides <-读. 表 ("路径/进出/出. 弹簧床", 9月 = "\ t", 页眉 = FALSE)
3. 删除已从 inputdata 映射的多肽:
  peptidesnotmapped <-inputdata [!inputdata $ 肽%in% mappedpeptides $ V4),]
4. 将未映射的多肽打印到新的输入文件中:
  写. 表 (peptidesnotmapped, "路径 \ notmapped. 弹跳", 标题 = FALSE, 9月 = "\ t", 列名 = TRUE, 行. 名称 = false, 引号 = false)
将剩余的肽映射到参考基因组, 允许不匹配。
1. 与步骤3.1 中一样, 打开命令提示符并导航到弹簧的可执行文件夹。
2. 在下面键入命令, 允许1氨基酸不匹配, 并替换 \ 路径 \ GTF, \ 路径 \ FASTA, 和 \ 路径 \ notmapped. 在步骤3.2 中创建的注释 GTF、蛋白质序列 FASTA 和肽标识文件的路径。还可以用与数据 (例如, 人类) 一致的物种替代 MYSPECIES。
  1. PoGo.exe-gtf \ 路径 \ gtf-fasta \ 路径 \ 在格式化床-物种 fasta-mm 1
3. 按 "Enter" 键确认命令的执行。等到执行完成后再继续前进。
  注意: 这可能需要几分钟。生成的文件将存储在与多肽输入文件相同的文件夹中, 并且将被视为 \ 路径 \ pogo_1MM. 床在下面。
如步骤2.2 所述, 可视化 IGV 中映射的不匹配的多肽。

4. 使用多个文件进行映射并为大型数据集生成跟踪集线器

使用 PoGoGUI 从多个文件映射多肽
1. 导航到 "可执行文件" 文件夹, 并通过运行PoGoGUI x.x. jar来启动程序 GUI。
2. 为所使用的操作系统 (这里是 Linux) 选择一个可选的可执行文件, 以及参考输入蛋白质序列 FASTA 文件和注释 GTF 文件, 如协议步骤 2.1.2 2.1.4 所述。
3. 使用 "多肽文件" 旁边的添加按钮添加多肽标识文件;启用了多个文件选择, 以及拖放到 "多肽文件" 下面的空白字段中。
4. 在 "输出格式" 部分勾去掉 PTM 床、GTF 和 GCT 旁边的复选框, 并只检查离开床。
5. 选择将多个输入文件合并到单个输出中的选项。
  注意: 这将导致单个输出文件组合输入文件的所有多肽。将此选项保留为未选中将导致单独执行每个输入文件的程序。
6. 从下拉选择中选择与 FASTA 和 GTF 文件一致的数据的适当种类。
7. 单击开始按钮开始映射。如有必要, 该程序将把输入文件转换成弹簧式格式。这可能需要一些时间来执行。同时, 下载跟踪集线器生成所需的工具和脚本。
为轨道集线器的生成做好准备
1. 打开 web 浏览器, 导航到 https://github.com/cschlaffner/TrackHubGenerator 并下载文件 "TrackHubGenerator.pl"。将文件保存到可执行文件夹。
2. 在 web 浏览器中, 导航到 www.hgdownload.soe.ucsc.edu/admin/exe/并选择正在使用的操作系统的文件夹 (这里是 Linux)。将工具bedToBigBed和脚本fetchChromSizes下载到可执行文件文件夹²⁷中。
从映射的多肽生成轨道集线器
注意: PoGoGUI 完成了对多肽的映射后, 可以自动为存储在同一文件夹中的所有生成文件生成跟踪集线器。
1. 打开终端窗口并键入以下命令:
  Perl TrackHubGenerator.pl 路径/到/名称程序集 FBED UCSC 电子邮件
  1. 替换路径/to/名称, 其中包含跟踪集线器的文件路径和名称 (例如、~/跳过/跳过/数据/Mytrackhub)、带有注释所基于的基因组组件的程序集 (例如、hg38)、FBED 的文件夹路径。跟踪集线器将基于的床文件 (例如, ~/弹簧/数据/), UCSC 与从 UCSC 下载的工具的文件夹存储 (例如, ~/跳过/跳过/可执行/), 电子邮件与电子邮件地址的负责人的轨道枢纽。
2. 按 "Enter" 键确认执行;执行将只需要很短的时间完成。
3. 将生成的跟踪集线器 (即、已创建的文件夹 ~/跳过/数据/Mytrackhub/) 传输到 web 可访问的 FTP 服务器。
  注意: 具有关联的 web 服务器的 ftp 服务器可以通过协议 FTP 和 http 访问跟踪集线器。存储库 github (github.com) 和 figshare (figshare.com) 支持这种类型的访问, 可以使用它代替 FTP 服务器。
在 UCSC 基因组浏览器中可视化轨道中枢
1. 在 web 浏览器中, 导航到 https://genome.ucsc.edu/并选择MyData |跟踪集线器。单击我的集线器选项卡。
2. 将 URL 复制到 "文本" 字段中的曲目集线器。
  注意: URL 由服务器地址、轨道集线器位置和名称以及 hub.txt 文件 (例如http://ngs.sanger.ac.uk/production/proteogenomics/WTSI_proteomics_PandeyKusterCutler_tissues_hi/hub.txt) 组成。
3. 通过单击添加集线器加载跟踪集线器。
  注意: 将加载集线器, 并显示一条短消息, 其中说明轨道集线器的名称、负责跟踪中心的人员的联系信息以及使用的基因组组件。网站将返回主页。
4. 选择GenomeBrowser以输入浏览器视图。
  注意: 自定义轨道集线器将显示在列表的顶部。如果多张床文件为轨道集线器建立了基础, 则每个文件将在集线器内作为单独的轨道表示。

Representative Results

图 5中显示了一个图形化的描述, 其中突出显示了常规蛋白质组工作流弹簧¹⁸的阶段, 以及可视化的下游选项。猎枪蛋白质组学 (即, 蛋白质的蛋白水解消化和串联质谱联用液相色谱法) 是 proteogenomic 映射的一个前兆步骤。所产生的串联质谱通常与从蛋白质序列数据库中提取的理论谱相比较。Proteogenomics 研究引入编码电位和非同义单核苷酸变体 (SNVs) 的新成绩单的翻译序列到数据库中, 使其难以轻易地与参考基因组⁸联系起来。PoGoGUI 的图形用户界面支持从质谱实验中对肽类标识进行标准化报告的文件格式, 并将其转换为简化的4柱式弹跳格式。PoGoGUI 包装命令行工具的弹簧, 从而使肽在基因组坐标上的映射, 利用 GTF 中通常提供的蛋白质编码基因的参考注释和 FASTA 格式的翻译转录序列。不同的输出格式是由弹簧产生的, 以使通过质谱识别的多肽的不同方面的可视化, 包括翻译后的修改和肽水平的量化。床上的输出文件可以进一步转换并组合成可在线访问的目录, 称为轨道集线器。单个输出文件以及跟踪集线器可以在浏览器 (如 UCSC 基因组浏览器²⁵、Ensembl 基因组浏览器²⁰、IGV²⁴和 Biodalliance²⁸ (参见图 5底部) 中可视化。

我们应用了弹簧的再分析, 在高意义上过滤的人类蛋白质组地图草稿, 如赖特et 。⁷ , 并将其与其他两个用于 proteogenomic 映射的工具进行比较, 即 iPiG¹⁴和 PGx¹⁰。该数据集包括233055个独特的多肽横跨59个成人和胎儿组织导致总共超过300万序列。在运行时 (分别较快6.9x 和 96.4x) 和内存使用率 (分别为20% 和60% 内存) 中, 弹跳比这些工具的表现更优于图 6¹⁸。成功映射的肽的一个示例显示在图 7中。

虽然在速度和记忆方面, 弹跳明显优于其他工具, 但它也能够将转化后的修改和与肽相关的定量信息映射到基因组。图 8A示意性地描述了基因组浏览器中的床格式可视化, 用于将多肽映射到一个外显子和交叉拼接结点。在基因组内的肽图谱的唯一性方面, 弹跳利用着色选项提供简单的视觉帮助。红色的映射表示单个记录的唯一性, 而黑色突出显示单个基因的映射。然而, 肽是共享的不同转录。灰色映射显示多基因间共享的肽。例如, 这些是不可靠的基因量化或不可信的调用基因的表达。PTM 床选项重新定义颜色代码, 以适应不同类型的后翻译修改, 如图 8B所示。此外, PTMs 由粗块表示 (请参见图 8B)。一个类型的单一 PTM 在修饰的氨基酸残渣的位置上突出了一个厚块, 而同一类型的多个 PTMs 则由从第一个修饰的氨基酸到最后的一个厚块来跨越。

我们应用了弹簧, 随后 TrackHubGenerator 到50个结直肠癌细胞系的数据集, 包括整个蛋白质组和 phosphoproteome²⁹。在 UCSC 基因组浏览器中加载的轨道集线器显示了映射到基因组的多肽, 突出了映射和磷酸化站点的唯一性 (请参见图 9), 补充文件夹中提供了其他数据。GCT 文件, 然后使肽和磷酸定量的可视化在基因组上下文中。但是, GCT 文件不提供一个简单的可视化多肽跨越拼接结点 (请参见图 10顶部)。跨接接头的肽分成各自的部分, 映射到外显子。虽然可以通过与外显子映射相同的数量值来识别拼接肽, 但加载基于序列的映射文件 (如床或 GTF) 将外显子连接到一个薄的内含子跨越线来支持解释 (请参见图 10底部)。

为了突出变体启用映射的效用, 我们在两种配置中应用了弹跳, 将一个人类睾丸蛋白质组的数据集用于搜索 neXtProt, 使用多酶策略²²来寻找缺失的蛋白质。neXtProt 除参考蛋白质序列以外包括500万个单一氨基酸变形³⁰。其他映射工具不支持用单个氨基酸变体标识的映射肽。总共发现了177012种独特的肽。其中, 99.8% (176694) 肽首先成功地映射, 不允许不匹配。从已确定的肽表中去除这些肽, 结果导致 0.2% (318) 个蛋白质组随后被映射, 允许一种氨基酸替代。这导致了3446个162肽的映射, 它们不会用任何其他可用的工具映射到参考基因组。虽然映射的平均数目 (包括不匹配) 很高, 但62个多肽只映射到一个轨迹, 表示真正的变体序列。在图 11中, 用单个氨基酸置换绘制的肽的一个例子突出显示了它的序列和翻译的基因组序列。

图1。不同肽对基因组映射工具的视觉比较.这一比较显示在各个方面。这些方面包括映射引用、集成到框架的级别以及联机和脱机浏览器的支持。此外, 还分别突出了 proteogenomics 的新方面及其功能支持。与其他工具相比, 弹跳只缺乏直接映射到基因组序列的能力。但是, 它支持大多数其他工具不支持的所有新功能。请单击此处查看此图的较大版本.

图2。用于映射多肽的示例输入文件."弹簧" 接受以制表符分隔的格式的输入数据 (4 列)。第一行中的列标题为 "实验"、"肽"、"PSMs" 和 "定量", 在下面的行中表示实验或样本标识符、肽序列、多肽谱匹配的数量和肽的定量值,分别。支持的文件扩展名为 .txt、*. tsv 和 *。请单击此处查看此图的较大版本.

图3。PoGoGUI 界面, 其中突出显示了文件选择和参数选项的步骤.该图显示了选择和上载所有所需文件的步骤, 以及选择用于将多肽与平移后修改映射到人类参考基因组的选项。请单击此处查看此图的较大版本.

图4。集成基因组查看器 (IGV) 数据上传过程的截图.该图突出显示了在 IGV 浏览器中上载 "弹簧" 输出文件的步骤。此外, 它还显示了扩展映射肽的轨迹以突出映射和序列的选项。请单击此处查看此图的较大版本.

图5。在基因组浏览器中, 从 LC ms/毫秒到可视化步骤的简化流程.通过对串联质谱中肽的识别, 进行了弹簧的映射。为了实现对基因组的映射, 弹跳利用提供的参考注释作为基因组注释 (GTF) 和转录序列 (FASTA)。生成不同的输出格式, 可以在基因组浏览器中单独加载。此外, 文件的床格式可以结合到轨道枢纽支持可视化的大规模数据集。请单击此处查看此图的较大版本.

图6。对 PGx 和 iPiG 进行基准弹跳。在标杆方面, 弹跳优于其他工具.在59个成人和胎儿组织中绘制233055个独特的肽, 导致超过300万个序列, PGx 和 iPiG 的跳跳比分别快了6.9x 和96.4x。此外, 与 PGx 和 iPiG 相比, 弹簧的记忆体需要的内存少20% 和60%。当弹跳和 PGx 成功完成时, iPiG 导致内存错误为 16 GB。请单击此处查看此图的较大版本.

图7。UCSC 基因组浏览器示例视图的映射肽.图中显示了基因 mTOR 的肽。虽然组合轨道显示跨拼接连接的多肽和仅映射到一个外显子与相关的序列, 组织特定的轨道只突出显示的映射以凝聚的格式。请单击此处查看此图的较大版本.

图8。映射可视化和颜色编码示意图.(A) 在标准床输出文件中, 对外显子的多肽映射显示为单块 (左), 而跨多个外显子的多肽映射突出显示了外显子覆盖部分作为块 (右)。内含子显示为薄串联线。弹簧的颜色-编码的唯一的映射或肽的基因, 和成绩单使用3层系统。(B) 除了床格式的块结构外, PTM 床输出还突出了平移后修改作为厚块的位置。一个类型的单一 PTM 的存在突出了修改后的氨基酸残留物与厚块, 而同一 PTM 的多个地点组合成长块, 跨越从第一个修改的网站。基于修改的 PTM 型和彩色编解码器进一步划分了多肽映射。请单击此处查看此图的较大版本.

图9。跟踪中心视图在 UCSC 基因组浏览器中结直肠癌蛋白和 phosphoproteome 数据.该轨道集线器包括整个蛋白质组数据以及 phosphoproteome。虽然蛋白质组和 phosphoproteome 轨道上的红色颜色表明了映射到 SFN 单记录的唯一性, 但 _ptm 中的轨迹在肽中显示了磷酸化部位。在这里, 红色表示修改的类型为磷酸化。只有两个肽被发现每显示一个单一的磷酸化 (厚块)。请单击此处查看此图的较大版本.

图10。IGV 大肠癌磷酸肽持及相关定量的看法。该图显示了50癌细胞系的一个子集。此外, 它还显示了四列不同色调的光红色块。颜色表示从低 (白) 到高 (红色) 的相对丰度。虽然四列可能最初会导致相信有4多肽, 它变得清楚与相关的基于序列的 GTF 输出文件, 这些实际上是两个肽, 每一个跨越拼接连接。请单击此处查看此图的较大版本.

图11。IGV 中氨基酸变异肽的观点.该图显示了一种肽, 其单个氨基酸变体映射到基因GPSM1的翻译开始处的参考基因组。该变种定位在氨基酸残留物 8, 并导致取代丙氨酸的缬 A→V。注释的记录 (蓝色) 的翻译序列突出了变异与肽序列比较。请单击此处查看此图的较大版本.

Discussion

该协议描述了软件工具的弹跳及其图形用户界面 PoGoGUI 如何使多肽快速映射到基因组坐标上。该工具提供了独特的功能, 如量化, 后翻译修改和变体启用映射到基因组使用引用注释。本文演示了大规模 proteogenomic 研究的方法, 并与其他可用工具¹⁸相比, 突出了其速度和内存效率。与工具 TrackHubGenerator, 它创建在线可访问的中心基因组和基因组链接的数据, 弹簧, 与其图形用户界面, 使大规模的 proteogenomics 研究, 以快速可视化他们的数据在基因组的上下文。此外, 我们还演示了在变量数据库中搜索数据集和量化 phosphoproteomics²²^、²⁹时的跳过的独特特性。

单个文件 (如 GCT 文件) 提供了多肽特征和基因组基因座之间的有价值的可视化和链接。然而, 重要的是要注意, 基于这些单独的解释可能是困难或误导, 因为它们的局限性, proteogenomics 的单一方面, 如唯一性, 翻译后的修改, 和数量的价值。因此, 仔细选择哪些输出文件、选项和组合适合手边的 proteogenomic 问题并修改组合是很重要的。例如, 有关映射到特定基因组轨迹的唯一性的信息可能对基因组特征⁷的注释有很大的价值, 而跨不同样本的量化可能更适合于相关的研究基因组特征对蛋白质丰度的变化²⁹。输出应由每个设置的跳过弹簧生成。如果没有生成输出, 或者在输出文件夹中显示空文件, 建议检查输入文件中所需的内容和所需的文件格式。如果文件格式或内容不遵循 "跳过" 的期望 (例如, 则假定包含文本转换序列的 FASTA 文件包含成绩单的核苷酸序列), 错误消息将要求用户检查输入文件。

协议和工具的限制大多基于基因组学常用的文件格式的重用。重新调整用于 proteogenomic 应用程序的基因组学的文件格式伴随着特定的限制。这些都是由于基因组和 proteogenomic 数据的中心可视化所要求的不同, 例如需要从蛋白质组学数据中想象转化后的修改。这在基因组文件格式被限制以单一特征用法。许多方法和工具已经开发的蛋白质组, 以自信地本地化后, 在肽序列的翻译修改³¹^,³²^,³³^,³⁴。但是, 基因组文件格式的结构阻碍了对基因组进行多种修饰的可视化。因此, 同一类型的多个 PTMs 的单块可视化并不构成修改站点的任何歧义, 而是来自基因组社区不同要求的结果, 一次只可视化单个特征。然而, 弹簧的优点是将平移后的修改映射到基因组坐标上, 以使研究聚焦于基因组特征 (如单核苷酸变体) 对平移后修饰的影响。使用 "弹簧", 变体映射会增加总映射数。然而, 映射肽的独特的颜色编码突出了可靠的映射从不可靠的。从已知的单核苷酸变体中识别出的变异肽的映射可以伴随着在 VCF 格式的变体旁边形象化映射的肽。这样, 表示不可靠的变异肽映射的颜色代码就会被已知核苷酸变体的存在所推翻。

使用 "弹簧" 的关键步骤是使用正确的文件和格式。使用翻译的转录序列作为蛋白质序列伴随 GTF 格式的注释是主要标准。另一个关键的因素, 当考虑使用弹簧的映射肽与氨基酸不匹配的是内存。虽然对于标准应用程序来说, 高内存效率, 但有一个或两个不匹配的可能映射的数量和指数的增加也会导致内存使用率¹⁸的相似指数增长。我们建议一个分段映射, 如本协议所述, 首先映射多肽而不匹配, 并将它们从集合中移除。随后的先前未映射的多肽然后可以使用一个不匹配来映射, 并且该过程可以用两个不匹配的方法重复, 其余的多肽仍未映射。

由于质谱的吞吐量显著增加, 近年来研究基因组和蛋白质的数据越来越频繁, 因此在同一坐标系下方便地将这些类型的数据接口的工具是日益不可或缺。这里提供的工具将帮助需要结合基因组和蛋白质的数据, 以提高更好地了解跨小数据集的综合研究, 通过将多肽映射到参考注释。令人鼓舞的是, 弹簧已被应用于将肽与参考标注相同格式的基因候选者映射到支持人类睾丸中表达的新基因的注释努力³⁵。这里提出的方法与用于肽识别的数据库无关。该协议可以帮助识别和可视化新的翻译产品, 通过使用改编的输入文件从翻译序列和相关的 GTF 文件从 RNA 序列实验。

一些方法和工具, 具有广泛的特殊应用场景, 以映射肽到基因组的坐标, 从映射多肽直接到基因组序列到 RNA 排序引导映射, 已经介绍了¹⁰^,¹¹^,¹²^,¹³^,¹⁴^,¹⁵^,¹⁶^,¹⁷. 然而, 这些可能导致在翻译后的修改出现后无法正确地映射多肽, 而 RNA 排序读取的底层映射中的错误可能会传播到肽水平。已开发出用于具体克服这些障碍, 并应对快速增加的数量高分辨率蛋白质组数据, 以集成正交遗传学研究平台。此处描述的工具可以集成到高通量工作流中。通过图形界面 PoGoGUI, 该工具使用简单, 无需专门的生物信息学培训。

Disclosures

作者没有什么可透露的。

Acknowledgments

这项工作由威康信托基金 (WT098051) 和 NIH 赠款 (U41HG007234) 资助 GENCODE 项目。

Materials

Name	Company	Catalog Number	Comments
PoGo (software)	NA	NA	https://github.com/cschlaffner/PoGo
PoGoGUI (software)	NA	NA	https://github.com/cschlaffner/PoGoGUI
TrackHubGenerator (software)	NA	NA	https://github.com/cschlaffner/TrackHubGenerator
Integrative Genomics Viewer (software)	NA	NA	http://software.broadinstitute.org/software/igv/
UCSC genome browser (website)	NA	NA	https://genome.ucsc.edu/
GENCODE (website)	NA	NA	http://gencodegenes.org
Ensembl (website)	NA	NA	http://ensembl.org
bedToBigBed (software)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/
fetchChromSizes.sh (software)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/

DOWNLOAD MATERIALS LIST

References

Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).
Mertins, P., et al. Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).
Zhang, H., et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).
Jaffe, J. D., Berg, H. C., Church, G. M. Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).
Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
Wright, J. C., et al. Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778 (2016).
Nesvizhskii, A. I. Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).
Armengaud, J., et al. Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).
Askenazi, M., Ruggles, K. V., Fenyo, D. PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).
Choi, S., Kim, H., Paek, E. ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).
Ghali, F., et al. ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).
Has, C., Lashin, S. A., Kochetov, A. V., Allmer, J. PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293 (2016).
Kuhring, M., Renard, B. Y. iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246 (2012).
Pang, C. N., et al. Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).
Sanders, W. S., et al. The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).
Wang, X., et al. ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).
Schlaffner, C. N., Pirklbauer, G. J., Bender, A., Choudhary, J. S. Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).
Vizcaino, J. A., et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).
Aken, B. L., et al. Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).
Perez-Riverol, Y., et al. Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).
Wang, Y., et al. Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).
Greseth, M. D., Carter, D. C., Terhune, S. S., Traktman, P. Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).
Thorvaldsdottir, H., Robinson, J. T., Mesirov, J. P. Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).
Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
The R Development Core Team. R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).
Kent, W. J., Zweig, A. S., Barber, G., Hinrichs, A. S., Karolchik, D. BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).
Down, T. A., Piipari, M., Hubbard, T. J. Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).
Roumeliotis, T. I., et al. Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).
Gaudet, P., et al. The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).
Fermin, D., Walmsley, S. J., Gingras, A. C., Choi, H., Nesvizhskii, A. I. LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).
Fermin, D., Avtonomov, D., Choi, H., Nesvizhskii, A. I. LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).
Hansen, T. A., Sylvester, M., Jensen, O. N., Kjeldsen, F. Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).
Taus, T., et al. Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).
Weisser, H., Wright, J. C., Mudge, J. M., Gutenbrunner, P., Choudhary, J. S. Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).

Genetics

一种快速、定量的后向基因组转化和变异的多肽映射方法

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.