Biology

聚糖介导的蛋白质相互作用研究的生物信息学资源

Published: January 20, 2022 doi: 10.3791/63356

¹Proteome Informatics Group, SIB Swiss Institute of Bioinformatics, ²Computer Science Department, University of Geneva, ³Section of Biology, University of Geneva

Summary

该协议说明了如何使用在线资源探索，比较和解释人类蛋白质糖组。

Abstract

Glyco@Expasy倡议是作为相互依存的数据库和工具的集合而发起的，这些数据库和工具跨越了糖生物学知识的几个方面。特别是，它旨在突出糖蛋白（如细胞表面受体）与聚糖介导的碳水化合物结合蛋白之间的相互作用。在这里，通过两个以人前列腺特异性抗原（PSA）的N-糖组和人血清蛋白的O-糖组为中心的说明性示例介绍了该系列的主要资源。通过不同的数据库查询和可视化工具的帮助，本文演示了如何在连续体中浏览和比较内容，以收集和关联原本分散的信息片段。收集的数据注定要为更复杂的聚糖功能方案提供信息。因此，这里介绍的Glycoinformatics被提议作为一种在给定背景下加强，塑造或反驳对蛋白质糖组特异性的假设的手段。

Introduction

聚糖、它们附着的蛋白质（糖蛋白）和它们结合的蛋白质（凝集素或碳水化合物结合蛋白）是细胞表面的主要分子参与者¹。尽管在细胞 - 细胞通讯中发挥了核心作用，但与基因组学和蛋白质组学中的对应物相比，包括糖组学，糖组学或聚糖相互作用组学数据的大规模研究仍然稀缺。

直到最近，尚未开发出表征复杂碳水化合物的分支结构，同时仍与载体蛋白偶联的方法。糖蛋白的生物合成是一个非模板驱动的过程，其中单糖供体，接受糖蛋白底物以及糖基转移酶和糖苷酶起着相互作用的作用。由此产生的糖蛋白可以具有具有多个分支点的复杂结构，其中每个单糖组分都可以是自然界中存在的几种类型之一¹。非模板驱动的过程将生化分析作为生成寡糖结构数据的唯一选择。附着在天然蛋白质上的聚糖结构的分析过程通常具有挑战性，因为它需要灵敏，定量和稳健的技术来确定单糖组成，键和分支序列²。

在这种情况下，质谱（MS）是糖组学和糖蛋白质组学实验中使用最广泛的技术。随着时间的推移，这些都是在更高的吞吐量设置中执行的，数据现在正在数据库中积累。各种格式的聚糖结构³，填充GlyTouCan4，通用聚糖数据存储库，其中每个结构都与稳定的标识符相关联，而不管定义聚糖的精度水平如何（例如，可能缺少链接类型或模糊的组成）。收集了非常相似的结构，但清楚地报告了它们的微小差异。糖蛋白在GlyConnect5和GlyGen6中进行了描述和策划，这两个数据库相互交叉引用。支持结构性证据的MS数据越来越多地存储在GlycoPOST7中。为了更广泛地覆盖在线资源，参考手册的第52章“糖生物学精要”专门介绍glycoinformatics8。有趣的是，糖肽鉴定软件近年来激增⁹^，¹⁰尽管没有达到可重复性的好处。后一种担忧促使HUPO GlycoProteomics Initiative（HGI）的领导者在2019年设定了软件挑战。通过处理CID，ETD和EThcD片段化模式下的N-和O糖基化人血清蛋白的复杂混合物获得的MS数据可供竞争对手使用，无论是软件用户还是开发人员。关于这一挑战的结果¹¹的完整报告仅在此概述。首先，观察到身份的传播。它主要被解释为由搜索引擎中实施的方法的多样性，它们的设置以及输出如何过滤和肽“计数”引起的。实验设计也可能使一些软件和方法处于（不）优势。重要的是，使用相同软件的参与者报告了不一致的结果，从而突出了严重的可重复性问题。通过比较不同的提交得出的结论是，某些软件解决方案的性能优于其他软件解决方案，并且某些搜索策略产生了更好的结果。这种反馈可能会指导自动化糖肽数据分析方法的改进，进而影响数据库内容。

glycoinformatics的扩展导致创建了门户网站，提供信息和访问多个相似或互补的资源。最新和最新的在综合糖科学丛书的一章中进行了描述¹²，通过合作，以开放获取模式提供了数据共享和信息交换的解决方案。在对Expasy平台¹⁴进行重大改革之后，开发了一个这样的门户网站，最初称为Glycomics@ExPASy ¹³，并更名为Glyco@Expasy，该平台托管了数十年来在几个组学中使用的大量工具和数据库，最受欢迎的项目是UniProt15 - 通用蛋白质知识库。Glyco@Expasy基于可视化分类和显示其相互依赖关系，对数据库和工具的目的和用途进行了教学性发现。以下协议说明了探索糖组学和糖组学数据的程序，并从该门户网站中选择资源，通过糖组学明确地将糖组学和聚糖相互作用组学之间的联系明确化。事实上，糖组学实验产生的结构是完全定义的单糖和部分或完全确定的键，但它们的蛋白质位点附着很差，如果有的话，表征得很差。相反，糖蛋白质组学实验产生精确的位点附着信息，但聚糖结构的分辨率较差，通常仅限于单糖组合物。这些信息在GlyConnect数据库中拼凑在一起。此外，GlyConnect中的搜索工具可用于检测潜在的聚糖配体，这些配体与UniLectin16中识别它们的蛋白质一起描述，通过聚糖与GlyConnect相关联。这里介绍的方案分为两个部分，以涵盖N-连接和O-连接聚糖和糖蛋白特异性的问题。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

注意：需要具有互联网连接的设备（最好是大屏幕）和最新的Web浏览器，如Chrome或Firefox。使用 Safari 或 Edge 可能不那么可靠。

1. 从GlyConnect中的蛋白质N-糖组到UniLectin的凝集素

从Glyco@Expasy访问资源
注意：此处描述的过程是访问 GlyConnect，但可以应用于访问平台中记录的任何资源。
1. 转到 https://glycoproteome.expasy.org/glycomics-expasy，并考虑右侧显示不同类别的气泡图，例如糖结合物 或 聚糖结合。在反映气泡中类别的最左侧菜单中，选中 “糖蛋白 ”框，以便右侧的气泡图立即放大与该类别匹配的气泡。
  注：绿色气泡是工具，黄色气泡是数据库。单击任一选项将再次放大以提供有关资源的详细信息。在执行此操作之前，用户可能希望了解该资源对其他人的依赖关系。
2. 要获取有关依赖关系的信息，请从 “资源专题分类 ”选项卡移动到“ 资源依赖关系轮 ”选项卡。将鼠标放在滚轮中的 GlyConnect 上，以检查其与其他源的集成程度（图1）。
3. 返回“ 资源主题分类 ”选项卡以访问 GlyConnect 气泡，如步骤 1.1.1 所示，然后单击它（补充图 1），以在新选项卡中显示 GlyConnect 主页，该选项卡显示最新版本数据库中内容的统计信息。
  注： 表 1 中详述的配色方案与数据库中存储的不同类型的信息相匹配。此颜色代码在 GlyConnect 中的所有实体页面中都有效，并且始终保持一致。主页还显示了四个部分，专门用于重点数据集，例如描述SARS-Cov-2刺突蛋白（COVID-19）糖基化或广泛详述母乳低聚糖（HMO）的部分。这些将不在本协议中探讨。
探索蛋白质N-糖组的上下文信息
注意：GlyConnect中的所有聚三聚糖结构都以三种替代和常用的格式显示：（1）聚糖符号命名法（SNFG）¹⁷ （2） IUPAC 冷凝¹⁸和（3）牛津¹⁹.相反，没有标准的符号来表达聚糖组成。在GlyConnect中，使用以下代码：十六进制用于己糖，六进制用于N-乙酰己糖胺，dHex用于岩藻糖，NeuAc用于唾液酸。为了简单起见，可视化工具依赖于缩合的符号：H代表己糖，N代表N-乙酰己糖胺，F代表岩藻糖，S代表唾液酸。此外，小写字母表示修饰，例如“a”表示乙酰化，“p”表示磷酸化，“s”表示硫酸化，用于这些所谓的取代基中最常见的。
1. 要查看和探索人类前列腺特异性抗原（PSA）的N-糖组，请从GlyConnect主页执行以下操作。
  注意：多年来一直在研究人类PSA的糖基化，特别是在前列腺癌的背景下。GlyConnect数据库存储了三个参考文献²⁰^，²¹^，²²，它们结合了糖组学和糖蛋白质组学数据。请注意，此处提供的结果是通过 GlyConnect 的 2021 年 9 月版本获得的。由于频繁的数据更新，对数据库的别有用心的使用可能会产生略有不同的统计信息。
2. 选择 “蛋白质 ”按钮以打开数据库的蛋白质视图。在蛋白质视图页面中，在搜索窗口中键入 前列腺 。查找输出中列出的两个条目，以区分具有不同 pI 值的 PSA 的两种亚型。单击与PSA的常见同种型相对应的 790 （Id列）。
  注意：在上面详述的方案中查找显示从已发表作品中提取的摘要信息的顶部多色条。可以采用多个导航选项，如下所述。
3. 在顶部的多色条上，单击绿色的 “源” 按钮以显示处理已发布数据的样本类型：尿液和。若要进一步浏览此信息，请单击这些示例类型之一。这同样适用于单击彩色按钮时显示的任何项目。
4. 要检查数据库中与健康相关的内容，请单击“ 疾病 ”按钮，其中包含两个项目，其中一个是链接到GlyConnect中相应专用疾病页面的 前列腺癌 。该页面的摘要显示，三项大规模研究报告了在308种人类蛋白质中发现的1，087个位点的319种成分。
5. 单击“ 结构 ”按钮，从糖组学数据中查看与PSA相关的135种结构的完整列表。单击由糖组学实验确定的相关78种组合物 的“组合 物”按钮。单击任何结构或组成以获取更多详细信息。
  注意：可以获得诸如携带特定结构的替代蛋白质列表或与组合物匹配的结构列表之类的详细信息。已知PSA在Asn-69上只有一个N-糖基化位点（只有一个项目计入棕色 SITE 按钮）。
6. 为了减少组合物的模糊性，请单击所选组合物下方 的“建议结构” （例如，Hex：6 HexNAc：3 NeuAc：1）。每次单糖计数与上面列出的结构计数一致时，都会提出建议（图2）。
  注意：由糖组学实验生成的Hex：6 HexNAc：3 NeuAc：1组合物与糖组学数据中的四种更高分辨率的结构相匹配。在PSA的情况下，没有位点歧义需要解决，因为只有Asn-69被糖基化。
7. 要全面浏览蛋白质页面，请在页面右侧查看更多详细信息（图3）。
  1. 查看PSA的默认 3QUM PDB（蛋白质数据库²³）条目，该条目显示为每个单体附着两个复合聚糖（图3）或替代 的2ZCK 条目，该条目也因附着碳水化合物而可用。第二个条目显示单个链。
    注意：这两个条目都使用3D LiteMol插件²⁴ 可视化，该插件以PDB-RCSB中采用的SNFG-3D符号显示聚糖。
  2. 单击其他交叉引用的相应链接，以探索来自主要蛋白质组学数据库（如UniProt）的相关功能信息（图3）。
可视化和关联蛋白质N-糖组的上下文信息
注意：如上一节所示，结构或组合的长列表可能很难作为一个整体理解，GlyConnect依靠两种不同的工具来可视化关键信息，即GlyConnect Octopus和GlyConnect Compozitor（第一个扩展了彩色按钮中捕获的摘要信息，第二个工具根据结构/组合包含在另一个结构/组合方面提出了结构依赖性）。如下图所示，GlyConnect Octopus通过突出显示多个或单个连接作为数据库内容的反映来探索存储在数据库中的各种实体之间的关联。
1. 执行GlyConnect章鱼搜索以确认附着在PSA上的聚糖多样性中存在共同的结构特征，例如杂交核心结构和高度频繁的含唾液酸结构，如下所述。
2. 前往八达通主页 https://glyconnect.expasy.org/octopus/。默认情况下，将 N 个链接 选项卡保持选中状态。移动到 “核心 ”子选项卡，然后单击“ 混合 ”图标。移动到 “属性” 子选项卡，然后单击“ 序列化 ”图标。单击下面的绿色搜索按钮。
  注：搜索结果以图形方式显示为三类项目之间的关系。默认情况下，中心列表与组合物查询匹配，左侧集合跨越相关蛋白质，右侧集合跨越相关聚糖。
3. 在显示的关系图中，将鼠标悬停在 H6N4F1S1 上以突出显示与六种蛋白质和三种结构的链接。与此形成鲜明对比的是，将鼠标悬停在 H6N4F2S1上，该H6N4F2S1 挑出了PSA的两个同种型（均称为UniProt ID：KLK3_HUMAN）和一个结构（ID：10996）。将鼠标悬停在结构 ID 上以显示其 SNFG 表示形式，然后单击它以打开相应的页面（补充图 2）。
4. 将章鱼的节点更改为描述糖基化上下文的任何其他主题。颜色代码与前面描述的颜色代码相同（请参阅 表 1）。
  1. 将 “中心节点” 更改为 “组织” ，以在图形中间显示 15 个选项，其中许多是体液。根据组织信息查找与查询匹配的蛋白质和聚糖之间的所有关联。将光标放在图表中间的尿液或上以查看不同的关联（ 图 4A ， B ）。
  2. 将“ 中心节点” 更改为 “疾病” 以显示 13 个选项，其中一个是 “前列腺癌”。唯一相关的蛋白质是PSA（KLK3_HUMAN）（补充图3）。
    注意：仔细观察蛋白质页面中显示的PSA N-糖组，可以找出末端NeuAc（a?-?）的非常高的频率。加尔（b?-?）GlcNAc子结构在许多情况下在具有两个或三个天线的结构上。另一张八达通可在此基础上生成，如下所述。
5. 单击“ 清除 ”按钮以刷新搜索。移动到属性子选项卡，然后单击 双天线 图标。移动到行列式子选项卡，然后单击 3-唾液基-LN（类型 2） 图标。单击下面的绿色搜索按钮。
6. 检查章鱼检索到的与含有末端3-唾液酰基-LN（2型）基序的双触端聚糖的关联，即NeuAc（a1-3）Gal（b1-4）GlcNAc。将 中心节点 更改为 “组织” 以便于阅读，并将鼠标悬停在 KLK3 _ HUMAN 上，以直接将与 PSA 通用亚型和七种结构连接（ 补充图 4 ）。
  注意：第二个可视化工具GlyConnect Compozitor执行扫描其列表中每个组合之间的潜在关系（见下文）。关系被定义为两种组合物之间只有一种单糖不同。这些在图表中绘制的已识别关系暴露了糖组的（不）连续性。
7. 使用GlyConnect Compozitor扫描其列表中每个组合之间的潜在关系，如下图所示。
  注意：GlyConnect Compozitor处理与上下文关联的合成。它提供了用于查询GlyConnect的不同选项卡，例如， 蛋白质，来源，细胞系，疾病 ，这些选项卡不言自明以限定上下文。PSA在这里对此进行了如下说明。
8. 回到PSA的蛋白质页面：https://glyconnect.expasy.org/browser/proteins/790。在PSA条目页面的右侧，单击Compozitor链接。确保Compozitor搜索字段预先填充了“蛋白质”选项卡中Id 790条目的详细信息（蛋白质：前列腺特异性抗原，物种：智人和聚糖类型：N连锁）。
9. 单击“ 添加到所选内容” 按钮，从数据库中检索数据并显示已连接合成的图形。取消选择“ 包括虚拟节点” 选项。单击“ 计算图 ”按钮可显示一个图形，显示代表PSA N-糖组的78种组合物的良好连接，以及显示聚糖主要特征的条形图。
10. 将鼠标悬停在条形图中的紫色条形图上，该条形图定位图中的所有唾液化结构，以显示对唾液基化结构的可观察到的偏差。
11. 保留在“蛋白质”主选项卡中，然后在“蛋白质（名称）”字段中选择“前列腺特异性抗原 - 高 Pi 亚型（psah）”。
  注意： 聚糖类型 和 聚糖站点 字段将自动填充。
12. 单击“ 添加到所选内容” 按钮，从数据库中检索总计 57 个合成的数据。单击“ 计算图 ”按钮可生成两种同种型的叠加图，并评估两种PSA亚型的糖组差异。将鼠标悬停在节点标签上以提示显示与组合/标签对应的结构数量（图5）。
聚一凝素中的聚糖结合信息
注意：回想一下在章鱼中测试的行列式，称为NeuAc（a2-3）Gal（b1-4）。根据定义，它是聚糖结构的已建立的结合部分，因此可以在UniLectin3D数据库中搜索²⁵。
1. 转到 https://www.unilectin.eu/ 然后单击 UniLectin3D 按钮。或者，直接转到页面：https://www.unilectin.eu/unilectin3D/.Click 聚糖搜索 按钮上以打开此页面：https://www.unilectin.eu/unilectin3D/glycan_search（补充图6）。
2. 单击代表唾液酸的紫色菱形，提示显示所有以存储在数据库中的唾液酸结尾的聚糖结合基序。该基序集合的顶部包含之前研究的NeuAc（a2-3）Gal（b1-4）GlcNAc基序（补充图7）。
3. 单击 NeuAc（a2-3）Gal（b1-4）GlcNAc 基序，提示显示所有已知有 3D 结构确认与 NeuAc（a2-3）Gal（b1-4）GlcNAc 相互作用的凝集素。默认情况下，结果显示所有物种中的凝集素。使用“ 按字段搜索 ”选项可将视图限制为以人为中心的信息。
4. 单击“ 按字段搜索” 选项。在物种领域中，输入智人。单击“ 探索 X 射线结构” 按钮以过滤掉原始列表。只剩下一个条目，即人半乳糖凝集素-8。单击所列项目右上角的“ 查看3D结构和信息 ”按钮，以显示人半乳糖凝集素-8与NeuAc（a2-3）Gal（b1-4）GlcNAc相互作用的详细信息。
5. 访问页面上显示的关于人半乳糖凝集素-8的结构信息，其中包含两个不同的查看器。
  1. 握住鼠标转动分子，并使用集成的Litemol软件²⁶将配体带到前面，以显示凝集素3D结构。将鼠标悬停在左侧列出的一个相互作用上以更新右侧的视图，并使用集成的 PLIP 软件²⁷ 找到该特定相互作用在结构中的位置，以详细说明凝集素和配体之间的原子相互作用（图 6）。
6. 单击链接到 UniProt、PDB（欧洲或美国站点）和 GlyConnect 中相应条目的任何绿色按钮，以浏览这些交叉引用。

2. 探索和比较GlyConnect中的O-糖组

浏览 HGI 挑战高置信度数据集
注：简介中提到的HGI数据集存储在GlyConnect数据库中。它含有163种N-和23种O-糖肽，这些肽在37种糖蛋白中被发现，被认为是高置信度列表。GlyConnect ^Compozitor28 是评估糖组数据一致性的关键。重要的是，当只需要一个中间步骤来连接隔离的节点时，Compozitor 允许使用虚拟节点（以灰色显示）。通过这种方式，虚拟节点收紧了图形，并且可以被解释为实验结果中可能遗漏的结构。
1. 从GlyConnect主页浏览HGI数据集，直接转到文章的参考页面：https://glyconnect.expasy.org/browser/references/2943。
  注：彩色按钮中的摘要部分反映了本文中提供的数字。然而，如果只列出69种独特的肽，这反映了肽与位点或结构之间的多种关联。在本文中，糖肽被定义为肽和组合物的独特组合。在GlyConnect中，首先考虑糖酸盐，它们被描述为具有结构的肽的组合。这解释了GlyConnect与上述引用之间的数字差异。
2. 检查在43个肽的42个位点上鉴定的N连锁组合物（例如Hex：5 HexNAc：4 NeuAc：2）的高发生频率，而不是在1个肽中的1个位点上鉴定的大多数O-连锁组合物的频繁唯一性。
3. 单击参考条目页面右侧的 Compozitor 链接以评估数据集的一致性。确保 Compozitor 工具直接处理引用的 DOI，并在工具的“高级”选项卡中用 reference=10.1101/2021.03.14.435332 填充搜索字段。在 DOI 号后键入 &glycan_type=O-linked，将搜索范围缩小到 O-linked 聚糖，以便查询变为：参考编号=10.1101/2021.03.14.435332&glycan_
  类型 = O 链接
4. 单击“ 添加到所选内容” 按钮以从数据库中检索数据（有 20 个 O 链接组合）。保持选中 “包括虚拟节点” 选项。单击“ 计算图形 ”按钮以显示连接的组合的图形。这一结果凸显了聚糖生物合成的预期连续性中的几个差距，完成图形需要九个虚拟节点（图7）。
与GlyConnect中所选血清蛋白的O-糖组比较
注意：为了评估是否可以通过存储在GlyConnect中的数据来填补空白，从与参考文献一起列出的37种O-糖基化蛋白质中选择了一种。在数据集中，据报道，α间胰蛋白酶抑制剂重链H4（Q14624）是Thr-725上的O-糖基化物。
1. 转到 GlyConnect Compozitor 的“蛋白质”选项卡（请参阅步骤 2.1.3）。从蛋白质列表中，选择间α-胰蛋白酶抑制剂重链H4。确保“物种”选择默认为“智人”。取消选择聚糖型中的 N 连锁。在“站点”列表中仅选择 Thr-725，方法是首先单击“站点”左侧的减号以取消选择所有站点，然后从列表中选择仅选择 Thr-725。
2. 单击“ 添加到所选内容” 按钮（请注意，有六个合成与 Thr-725 相关联）。单击“ 计算图 ”按钮以显示连接的组合图（补充图 8）。
3. 观察显示的图表，该图表以蓝色显示文章数据集的 20 个 O 链接组合中的 17 个唯一组合，以红色显示数据库中六个独特组合中的三个。换句话说，两个源之间的重叠存在于以洋红色表示的三种组合物中。请注意，图形的 45° 旋转是自动生成的。
  注意：虚拟节点数减少了 1。事实证明，在文章数据集的20个O-linked组合物中缺失并表示为虚拟节点的H2N2S1现在充满了与数据库中的Inter-α-胰蛋白酶抑制剂重链H4的Thr-725相关的附加组合物。这简化了图形的拓扑结构，因为另外两个虚拟节点变得毫无用处，因为它们是填充H1N2S1和H2N2S2之间间隙的替代选项。然而，如果不创建两个新的替代虚拟节点H2N2F1S1和H1N2F2S1，则从数据库导入的第二个组合将被隔离。
4. 要理解虚拟节点，请检查 GlyConnect 中是否存在相应的组合。为此，请单击图表下方的“ 导出 ”按钮。通过取消选择所有其他选项来选择“仅虚拟 ”。单击剪贴板图标以复制8首乐曲的选择。
5. 将所选内容粘贴到 Compozitor 的“自定义”选项卡的查询窗口中。在聚糖类型字段中选择 O-linked。例如，将“合成”字段中的“选择标签”设置为“VN”，以命名包含 8 个合成的列表。单击“添加到所选内容”按钮，然后单击“计算图形”按钮。所有虚拟节点现在都显示为绿色节点（图 8）。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

该协议的第一部分（第1节）显示了如何使用GlyConnect平台研究附着在人前列腺特异性抗原（PSA）的Asn-69上的N-聚糖的特异性或共性。使用两种可视化工具强调聚糖表达的组织依赖性（尿液和）以及同种型依赖性（正常和高 pI ）变化（ 图 4 和 图 5 ）。

首先，GlyConnect八达通显示储存在数据库中的实体之间的关联，透过（1）选择八达通中显示的不同实体及（2）点击连结以检查相关条目，提供探索上下文资料的机会。结局是取决于组织的独特关联。

其次，GlyConnect Compozitor最初设计用于定义/完善用于糖肽鉴定的组合物文件，用于评估两种已知PSA亚型（正常和高pI）中的聚糖表达。每个同种型糖组的比较产生了一个连接良好的图，其中四个节点（组合物），其中两个是高pI同种型的特征。尽管糖组重叠是显着的，但聚糖性质条形图显示从普通到高pI同种型的唾液酸化下降（补充图5）。

此外，对UniLectin3D的探索将半乳糖凝集素-8作为PSA糖组的可能读者，因为后者包含许多具有NeuAc（a2-3）Gal（b1-4）GlcNAc末端表位的结构。这提供了一个可以遵循的线索，不能被视为最终证据。尽管如此，已知PSA和半乳糖凝集素在前列腺癌中起着至关重要的作用²⁹ ，并且最近强调了半乳糖凝集素-8的特定作用³⁰。该协议的第一部分将结构（糖组学）和功能（结合）数据相关联，以建立由聚糖介导的蛋白质 - 蛋白质相互作用的可能场景。

在方案的第二部分（第2节）中，检查了一组与特定组织（人血清）相关的高质量O-聚糖组合物，并将其与GlyConnect数据库内容进行比较，从而提供了定制聚糖组合物文件以精制鉴定糖肽的选项（图7 和图8).它可以依赖于一个数据集中可用的20个合成的最小集合（HGI挑战结果），或者通过GlyConnect中合理收集的23到26个项目来增强，以增强集合的一致性。

红	浅橙色	绿	浅蓝色	紫色	粉红色	深蓝色	棕色	深橙色
物种	蛋白	组织来源	结构	组成	疾病	参考	糖矿	肽

表 1：与 GlyConnect 数据库的每个实体关联的配色方案，并且自始至终有效。

图 1：为 GlyConnect 实例化的Glyco@Expasy依赖轮。 请点击此处查看此图的放大版本。

图2：所建议的聚糖结构用于选定的聚糖组合物。建议的聚糖结构来自糖组学实验，用于针对相同糖蛋白的糖蛋白组成的糖蛋白，这里是人类前列腺特异性抗原（PSA），如PSA的GlyConnect页面中提出的（ID：790）。请点击此处查看此图的放大版本。

图3：PSA的GlyConnect页面的右侧菜单。可点击交叉引用其他主要数据库，并与PDB中现有3D结构的LiteMol聚糖插件一起显示。请点击此处查看此图的放大版本。

图4：GlyConnect Octopus的输出显示了蛋白质和聚糖之间的组织依赖性关联。 查询杂交和唾液酸化返回了与这些标准匹配的所有组合物，并且每个组合物将数据库中记录的有关蛋白质和聚糖的相关信息链接在一起。请注意，默认情况下，物种设置为智人，但此选项是可修改的。在这里，GlyConnect Octopus显示所有携带杂交和唾液基化聚糖结构（右节点）的人类蛋白质（左节点）以及它们表达的组织（中心节点）。（A）与尿液的相关性突出显示，显示两种蛋白质：绒毛膜促性腺激素（GLHA_HUMAN）和PSA普通亚型（KLK3_HUMAN），与分散的（异质性）聚糖结构相连。（ B ）突出显示了与的关联，显示 PSA （ KLK3 _ HUMAN ）的两种蛋白质亚型与分组（相似）聚糖结构相连。请点击此处查看此图的放大版本。

图5：GlyConnect Compozitor的输出显示了PSA两种亚型的叠加N-糖组。压缩符号的组合标记每个节点。与共同同种型相关的聚糖表示为蓝色节点，高pI同种型的聚糖表示为红色节点。糖组之间的重叠显示为洋红色节点。节点内的数字表示根据GlyConnect数据库关于PSA的内容与标记组合物匹配的聚糖结构的数量。所示的 Compozitor 图已从原始输出稍作修改，以解开由 D3.js 库生成的网络。这很容易做到，因为任何节点都可以在浏览器窗口空间中拖动，因此可以缩短或拉伸路径。用户可以在右上角的 “缩放” 字段中键入特定的合成，以放大图形并将其居中显示在相应的节点上。请点击此处查看此图的放大版本。

图6：人半乳糖凝集素-8与NeuAc（a2-3）Gal（b1-4）GlcNAc结合细节的摘要条目。单击绿色的“ 查看 3D 结构和信息 ”按钮（用红色椭圆表示）将打开一个新页面，其中显示了与 PLIP 应用程序（由红色箭头指示）的残留相互作用的特写。请点击此处查看此图的放大版本。

图7：GlyConnect Compozitor的输出显示了HGI挑战的人血清高置信度数据集的O-糖组。如果没有虚拟节点（请参阅文本），则该图形的连接性较低。请点击此处查看此图的放大版本。

图8：GlyConnect Compozitor的输出显示了使用GlyConnect数据库内容完成HGI挑战的人血清高置信度数据集的O-glycome的可能性。使用 Compozitor 的“ 自定义 ”选项卡访问整个 GlyConnect 数据库的内容，会发现与虚拟节点对应的组合与节点标签中突出显示的现有定义结构进行映射。节点大小表示存储在数据库中并报告相应组合的引用数。节点的数字标签表示存储在 GlyConnect 中的相应结构的数量。所选作品在数据库中似乎有 0 到 18 个可能的匹配项。事实上，这些节点只是虚拟的，作为实验数据集内容的反映。建议优化图中的信息，以测试这些附加节点的真实度。请点击此处查看此图的放大版本。

补充图1：Glyco@Expasy主页的气泡图。 放大Glyco@Expasy主页的气泡图，以专注于 糖蛋白 类别。软件以绿色气泡显示，数据库以黄色气泡显示。单击任何气泡都会汇总资源的用途。请点击此处下载此文件。

补充图 2：根据组合，八达通检索到的关联与查询匹配。 默认 GlyConnect 章鱼显示携带杂交和唾液基化聚糖结构（右节点）的人类蛋白质（左节点）和匹配的组合物（中心节点）。组合物H6N4F12S1似乎是两种PSA亚型（KLK3_HUMAN）所独有的。单击唯一结构ID（10996）打开相应的页面，其中包含详细信息，显示这两种亚型确实是携带这种特定聚糖的唯一蛋白质。请点击此处下载此文件。

补充图3：根据疾病，八达通检索到的关联与查询相匹配。 GlyConnect章鱼显示所有携带杂交和唾液酰化聚糖结构（右淋巴结）的人类蛋白质（左淋巴结）及其表达的疾病（中心淋巴结）。突出显示了与前列腺癌的关联，显示了PSA的常见亚型（KLK3_HUMAN）。请点击此处下载此文件。

补充图4：根据组织信息检索到的与查询匹配的章鱼关联。 GlyConnect章鱼显示所有携带双触端聚糖结构的人类蛋白质（左节点），包括NeuAc（a1-3）Gal（b1-4）GlcNAc基序（右节点）及其表达的组织（中心节点）。突出显示了与的关联，仅显示 PSA （ KLK3 _ HUMAN ）和七种结构的共同同种型。请点击此处下载此文件。

补充图5：GlyConnect Compozitor的输出显示了PSA的两种亚型的叠加N-糖组。 压缩符号中的组合标记每个节点。与共同同种型相关的聚糖表示为蓝色节点，高pI同种型的聚糖表示为红色节点。糖组之间的重叠显示为洋红色节点。节点内的数字表示根据GlyConnect数据库关于PSA的内容与标记组合物匹配的聚糖结构的数量。将鼠标悬停在聚糖性质的条形图上，将频率和节点之间的对应关系显示为橙色气泡。几乎所有PSA常见同种型节点都已涵盖。该频率在高pI同种型中下降。请点击此处下载此文件。

补充图6：UniLectin3D中的聚糖搜索界面。 单击唾液酸SNFG符号（用红色圆圈圈出）将启动搜索所有含有NeuAc的配体，这些配体存储在UniLectin3D中。请点击此处下载此文件。

补充图7：包含NeuAc的所有配体的搜索输出摘录。 感兴趣的NeuAc（a2-3）Gal（b1-4）GlcNAc基序以红色圈出。请点击此处下载此文件。

补充图8：GlyConnect Compozitor的输出，显示了与GlyConnect中的O-glycome叠加的HGI数据集的O-glycome。 GlyConnect Compozitor的输出显示HGI激发试验的人血清高置信度数据集的O-糖组以蓝色与参考文献列出的37种O-糖基化蛋白中的一种O-糖组叠加，即α间胰蛋白酶抑制剂重链H4，GlyConnect中包含的附加信息。这增强了图形的连通性。请点击此处下载此文件。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

GlyConnect Octopus作为揭示意外相关性的工具
GlyConnect Octopus最初设计用于查询具有松散的聚糖定义的数据库。事实上，文献经常报道糖组中聚糖的主要特征，例如岩藻糖基化或唾液酸化，由两个或多个触角组成等。此外，无论是N-还是O-连接的聚糖都被归类为核心，如参考手册《Glycobiology的精要^》1中所述，这些聚糖也经常在已发表的文章中引用。最后，聚糖表位（如血型抗原）是在结构中寻求的另一种特性，并可能被挑出来用于输入聚糖。最后，可能相关的是寻找在特定组织或选定物种中表达的糖组的共同或独特特征。从这个意义上说，收集到的信息应该被用作新假设的来源，而不是独特的事实。

GlyConnect Compozitor作为塑造聚糖组合集的工具
浏览蛋白质页面中描述的结构信息具有局限性，因为列表往往会模糊项目化结构之间的关系以及组合物之间的关系。GlyConnect Octopus关注前者，GlyConnect Compozitor关注后者。仔细查看大多数GlyConnect条目中列出的结构，可以发现存在常见的子结构。然而，如果没有专门的观众的帮助，这些信息并不容易在视觉上掌握。

通过分析HGI挑战的结果，建立了支持聚糖部分鉴定的聚糖组成文件的内容，作为糖肽鉴定软件的关键参数。大多数经典的蛋白质组学搜索引擎都适应从数据库/存储库或文献中收集的数据中获取的集合中选择基于糖的修饰。其他糖蛋白质组学专用工具使用聚糖生物合成的知识。这样，组合锉理论上被定义为预期的酶活性的结果。最后，合成文件的数量与搜索引擎的数量一样多，并且它们之间的重叠是高度可变的。尽管如此，从蛋白质组学过去的经验中学习，特别是当考虑到翻译后修饰时，揭示了搜索引擎的性能与限制搜索空间相关³¹。在糖蛋白质组学中也进行了类似的观察，GlyConnect Compozitor旨在支持有根据的组成数据选择，其重要性之前已经讨论过³²。

该协议中未完全说明此工具的用法，特别是关于“高级”选项卡，其中可以表示通过其API（应用程序编程接口）直接启动对GlyConnect的编程访问的查询。例如，在“高级”选项卡的查询窗口中键入 taxonomy=homo sapiens&glycanType=N-linked&tissue=urine&disease=prostate cancer 等效于在“源”选项卡中填写相应的字段（在“物种”中选择“智人”，在“聚糖类型中选择尿液”和“聚糖类型中选择 N-linked”）和“疾病”选项卡（在“物种”中选择“智人” 疾病中的前列腺癌和聚糖型中的N连锁）。换句话说，它一步到位地提供了一个需要多次选择的结果。

最后，虽然协议中解释了虚拟节点的创建，但它们的潜在冗余需要额外的注释。两个并发选项可能无法区分，因为图中酶的模拟作用不考虑酶活性的年表。这就是为什么Compozitor建议通过两个虚拟节点的两条路径来桥接两个未连接的节点，对应于单糖计数，最多有两个差异。纳入新数据往往会造成缺失的环节。用户始终可以自由地考虑或关闭虚拟节点，方法是（取消）勾选 “包括虚拟节点 ”框。

已知的数据库和软件限制
总体而言，与 Web 上的任何导航一样，上述协议偶尔会导致页面不存在，这通常是由于站点的更新或两个站点之间的更新冲突。在这种情况下，实际上，在所有导航不流畅的情况下，最简单的方法是向Expasy帮助台发送便笺，其效率在过去28年中为门户的成功做出了重大贡献。

GlyConnect的内容偏向于反映了文献中当前的不平衡。大多数出版物报道了哺乳动物中的N-糖基化，并且数据库中的人N-糖蛋白含量更高。尽管如此，我们过去曾被要求包括不太常见的数据集，并保持完全开放的态度，接受意见和建议。

此外，Compozitor目前仅限于比较三个组合数据集。计划对八达通中的 行列式 子选项卡进行重大修订。Glyco@Expasy的资源需要定期更新，有些资源可能无法在适当时候进行;尽管如此，警告和/或公告会在发生这种情况时发布。

称为 GlyGen（https://www.glygen.org）和 GlyCosmos（https://www.glycosmos.org）的合作伙伴门户提供了不同的选项和工具。最终，浏览和搜索有关任何一个选项的信息都需要高度的主观性，并且在很大程度上取决于用户的习惯和关注点。我们只能希望我们的解决方案适合社区的一部分。

糖科学的投入在生命科学项目中正在增长，并且不断产生建立聚糖在健康问题中的作用的研究。最近对SARS-Cov-2的关注再次揭示了糖基化蛋白的重要性，特别是在结构方法中³³。Glycoinformatics支持糖科学家进行数据分析和解释的日常任务。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

作者声明没有利益冲突。

Acknowledgments

作者热烈感谢过去和现在参与开发本教程中使用的资源的蛋白质组信息学小组的成员，特别是GlyConnect的Julien Mariethoz和Catherine Hayes，UniLectin的François Bonnardel，Octopus的Davide Alocci和Frederic Nikitin，以及Octopus的Compozitor和最后的Totouch的Thibault Robin。

glyco@Expasy项目的发展得到了瑞士联邦政府通过国家教育、研究和创新秘书处（SERI）的支持，目前还得到了瑞士国家科学基金会（SNSF：31003A_179249）的补充。ExPASy由瑞士生物信息学研究所维护，并在Vital-IT能力中心托管。作者还感谢Anne Imberty在AnR PIA Glyco@Alps（ANR-15-IDEX-02），Alliance Campus Rhodanien共同基金（http://campusrhodanien.unige-cofunds.ch）Labex Arcane/CBH-EUR-GS（ANR-17-EURE-0003）共同支持的UniLectin平台上的出色合作。

Materials

Name	Company	Catalog Number	Comments
internet connection	user's choice
recent version of web browser	user's choice

DOWNLOAD MATERIALS LIST

References

Spring Harbor Laboratory Press. Essentials of Glycobiology. , Spring Harbor Laboratory Press. Cold Spring Harbor (NY). (2015).
Gray, C. J., et al. Advancing solutions to the carbohydrate sequencing challenge. Journal of the American Chemical Society. 141 (37), 14463-14479 (2019).
Tsuchiya, S., Yamada, I., Aoki-Kinoshita, K. F. GlycanFormatConverter: a conversion tool for translating the complexities of glycans. Bioinformatics. 35 (14), 2434-2440 (2018).
Fujita, A., et al. The international glycan repository GlyTouCan version 3.0. Nucleic Acids Research. 49, 1529-1533 (2021).
Alocci, D., et al. GlyConnect: glycoproteomics goes visual, interactive, and analytical. Journal of Proteome Research. 18 (2), 664-677 (2019).
York, W. S., et al. GlyGen: computational and informatics resources for glycoscience. Glycobiology. 30 (2), 72-73 (2020).
Watanabe, Y., Aoki-Kinoshita, K. F., Ishihama, Y., Okuda, S. GlycoPOST realizes FAIR principles for glycomics mass spectrometry data. Nucleic Acids Research. 49, 1523-1528 (2020).
Campbell, M. P., Aoki-Kinoshita, K. F., Lisacek, F., York, W. S., Packer, N. H. Glycoinformatics. Essentials of Glycobiology. , (2015).
Cao, W., et al. Recent advances in software tools for more generic and precise intact glycopeptide analysis. Molecular & Cellular Proteomics. 20, 100060 (2021).
Mariethoz, J., Hayes, C., Lisacek, F. Glycan compositions with Compozitor to enhance glycopeptide identification. Proteomics Data Analysis. 2361, 109-127 (2021).
Kawahara, R., et al. Communityevaluation of glycoproteomics informatics solutions reveals high-performance search strategies of serum glycopeptide analysis. Nature Methods. 18, 1304-1316 (2021).
Lisacek, F., Aoki-Kinoshita, K. F., Vora, J. K., Mazumder, R., Tiemeyer, M. Glycoinformatics resources integrated through the GlySpace Alliance. Comprehensive Glycoscience. 1, 507-521 (2021).
Mariethoz, J., et al. Glycomics@ExPASy: bridging the gap. Molecular & Cellular Proteomics. 17 (11), 2164-2176 (2018).
Duvaud, S., et al. Expasy, the swiss bioinformatics resource portal, as designed by its users. Nucleic Acids Research. 49, 216-227 (2021).
The UniProt Consortium et al. UniProt: the universal protein knowledgebase in 2021. Nucleic Acids Research. 49, 480-489 (2021).
Bonnardel, F., Perez, S., Lisacek, F., Imberty, A. Structural database for lectins and the UniLectin web platform. Lectin Purification and Analysis. 2132, 1-14 (2020).
Neelamegham, S., et al. Updates to the symbol nomenclature for glycans guidelines. Glycobiology. 29 (9), 620-624 (2019).
Sharon, N. IUPAC-IUB Joint Commission on Biochemical Nomenclature (JCBN). Nomenclature of glycoproteins, glycopeptides and peptidoglycans: JCBN recommendations 1985. Glycoconjugate Journal. 3 (2), 123-133 (1986).
Harvey, D. J., et al. Proposal for a standard system for drawing structural diagrams of N- and O-linked carbohydrates and related compounds. Proteomics. 9 (15), 3796-3801 (2009).
Song, E., Mayampurath, A., Yu, C. -Y., Tang, H., Mechref, Y. Glycoproteomics: identifying the glycosylation of prostate specific antigen at normal and high isoelectric points by LC-MS/MS. Journal of Proteome Research. 13 (12), 5570-5580 (2014).
Moran, A. B., et al. Profiling the proteoforms of urinary prostate-specific antigen by capillary electrophoresis - mass spectrometry. Journal of Proteomics. 238, 104148 (2021).
Wang, W., et al. High-throughput glycopeptide profiling of prostate-specific antigen from seminal plasma by MALDI-MS. Talanta. 222, 121495 (2021).
wwPDB consortium metal. Protein Data Bank: the single global archive for 3D macromolecular structure data. Nucleic Acids Research. 47, 520-528 (2019).
Sehnal, D., Grant, O. C. Rapidly display glycan symbols in 3D structures: 3D-SNFG in LiteMol. Journal of Proteome Research. 18 (2), 770-774 (2019).
Bonnardel, F., et al. UniLectin3D, a database of carbohydrate binding proteins with curated information on 3D structures and interacting ligands. Nucleic Acids Research. 47, 1236-1244 (2019).
Sehnal, D., et al. LiteMol suite: interactive web-based visualization of large-scale macromolecular structure data. Nature Methods. 14 (12), 1121-1122 (2017).
Salentin, S., Schreiber, S., Haupt, V. J., Adasme, M. F., Schroeder, M. PLIP: fully automated protein-ligand interaction profiler. Nucleic Acids Research. 43, 443-447 (2015).
Robin, T., Mariethoz, J., Lisacek, F. Examining and fine-tuning the selection of glycan compositions with GlyConnect Compozitor. Molecular & Cellular Proteomics. 19 (10), 1602-1618 (2020).
Compagno, D., et al. Glycans and galectins in prostate cancer biology, angiogenesis and metastasis. Glycobiology. 24 (10), 899-906 (2014).
Gentilini, L. D., et al. Stable and high expression of Galectin-8 tightly controls metastatic progression of prostate cancer. Oncotarget. 8 (27), 44654-44668 (2017).
Schwämmle, V., Verano-Braga, T., Roepstorff, P. Computational and statistical methods for high-throughput analysis of post-translational modifications of proteins. Journal of Proteomics. 129, 3-15 (2015).
Khatri, K., Klein, J. A., Zaia, J. Use of an informed search space maximizes confidence of site-specific assignment of glycoprotein glycosylation. Analytical and Bioanalytical Chemistry. 409 (2), 607-618 (2017).
Sztain, T., et al. A glycan gate controls opening of the SARS-CoV-2 spike protein. Nature Chemistry. 13, 963-968 (2021).

Biology

聚糖介导的蛋白质相互作用研究的生物信息学资源

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.