该方案提出了一种通过整合突变图谱、拷贝数改变、基因表达和临床结局,利用癌症基因组图谱(TCGA)、基因型-组织表达(GTEx)项目和微阵列平台的公开数据集,进行m6A修饰调控因子 的计算机模拟 遗传、分子和预后分析方法。
Method Article
该方案提出了一种通过整合突变图谱、拷贝数改变、基因表达和临床结局,利用癌症基因组图谱(TCGA)、基因型-组织表达(GTEx)项目和微阵列平台的公开数据集,进行m6A修饰调控因子 的计算机模拟 遗传、分子和预后分析方法。
N6-甲基腺苷(m6A)是真核转录本中最丰富的内部RNA修饰,在RNA代谢、基因表达和细胞稳态中起关键作用。m6A调控因子的失调,包括“写字者”、“橡皮擦者”和“读者”,越来越多地被认为与癌症生物学有关;然而,它们在乳腺癌中的作用仍有待充分了解。本文的主要目标是为生物信息学初学者提供一个逐步框架,帮助利用公开的癌症数据集进行突变分析、评估基因表达变化,并评估其与患者存活期的关联。作为案例研究,利用癌症基因组图谱(TCGA)、基因型-组织表达(GTEx)项目和微阵列平台的数据集分析了乳腺癌中的m6A调控因子。系统分析了转录组图谱,以展示评估m6A调控成分在乳腺癌预后相关性的工作流程。利用该分析框架,发现关键m6A调控因子之间遗传变异和表达差异的显著模式。包括METTL14、CBLL1、YTHDC1、HNRNPC、HNRNPA2B1和RBMX在内的多种调控因子与较佳患者生存率相关,而YWHAG则与较差的总体生存率相关。本研究提供了乳腺癌中m6A调控基因的全面系统基因组学概述,同时展示了一种实用且可重复的基于网络的生物信息学工作流程。这些发现推动了对乳腺癌表观转录调控的理解,并为基于m6A的新型诊断和治疗策略的发展奠定了基础。
表转录组修饰是转录后基因调控的重要一层,并对多种细胞过程和疾病状态有贡献。在迄今为止识别的170多种RNA修饰中,N6-甲基腺苷(m6A)是真核mRNA中最普遍且最为充分的1。m6A由包括METTL3/METTL14在内的“写入”复合物安装,通过FTO和ALKBH5等“橡皮擦”去除,并由包括YTH和IGF2BP家族成员的“读读”蛋白解读,协调RNA的剪接、稳定性、运输和翻译,从而影响发育、分化和应激反应等关键生物过程2,3。
m6A调控成分在广泛恶性肿瘤中均有报告。在许多癌症中,异常的m6A活性驱动恶性表型;例如,METTL3表达升高通过调节刺猬通路和MYC RNA甲基化促进前列腺癌的起始和进展5,6。最初被发现与急性骨髓性白血病的致癌效应有关,FTO被证明能驱动肝癌、肺癌和结直肠癌的肿瘤进展(7,8,9,10)。然而,FTO和ALKBH5的情境依赖性作用被发现,表明m6A介导调控的双重特性,可以促进致癌性和肿瘤抑制信号传导(11,12,13,14)。M6A读读器,包括YTHDF1/2/3、异质核核糖核蛋白(hnRNPs)和胰岛素样生长因子-2 mRNA结合蛋白(IGF2BP1-3),也被发现与致癌相关 15,16,17。
在乳腺癌中,越来越多的证据表明m6A调控因子常常失调,可能与肿瘤亚型、免疫相关特征及临床结局相关(18,19)。多项机制研究将METTL3定位为乳腺癌中常被上调的促致癌因子。METTL3介导的m6A安装可以稳定或增强促进增殖、上皮间充质转变(EMT)、转移和化疗耐药的转录本的翻译。METTL3还被证明通过靶向Bcl-2促进乳腺癌进展。ALKBH5被认为通过NANOG及其他与干相关的分子调控癌症干细胞,但其影响可能因肿瘤环境而异22。
随着近年来m6A监管因子名单的不断扩大,亟需更新新识别的监管因子在乳腺癌中可能的失调机制。表1列出了m6A调节器,包括写入器、读者和擦除器,适用于m6A修改。此外,包括LRPPRC和YWHAG在内的新型m6A调控因子已被鉴定与癌症进展有相关影响 23,24,25。因此,研究人员利用有限生物信息学背景的研究人员,对所有已知m6A调控因子进行了全面的遗传和分子表征。
本文旨在提出基于平台的逐步生物信息学方案,利用公开的癌症基因组学资源分析乳腺癌中的m6A调控因子。利用癌症基因组图谱(TCGA)(www.cancer.gov/tcga)、基因型组织表达(GTEx)项目26以及基于网络的分析平台如cBioPortal和UCSC Xena的数据集,该方案展示了评估突变谱、基因表达变化及患者存活相关性的可重复工作流程。这种可视化且易于理解的方法旨在促进癌症生物信息学新手采用表观转录组数据分析。
注意:编码m6A甲基化调控基因的列表,分为写入基因、读取基因和橡皮擦基因,见 表1。所有列出的基因均纳入后续突变、表达模式和总体生存分析。本研究中使用的所有软件和工具均列于 材料表中。
1. m6A调控因子遗传变异的鉴定
2. 使用UCSC Xena对m6A调控因子进行比较转录组分析。
3. 使用Kaplan-Meier绘图仪评估m6A调控因子的预后意义。
乳腺癌中m6a甲基化调控因子的突变景观
在早期对TCGA数据集进行基因组分析的研究中,报告了编码DNA甲基化调控因子的多个基因的反复突变,31。本研究利用cBioPortal分析“乳腺浸润性癌(TCGA,PanCancer Atlas)”数据集,以分析编码m6A RNA甲基化写入者、读者和擦除者基因的突变谱。该分析揭示了乳腺癌患者中存在多样的基因变异,基因间变异频率差异显著——CNBP和RBM15B的0.4%到VIRMA的12%不等(见图1A)。基因扩增是最常见的变异,其他事件还包括深度缺失、碱基替换和多次同时发生的变异。值得注意的是,调控m6A相关功能的基因在476例患者中(占队列的48%)中被检测到变化(见图1B),强调了m6A修饰动态在乳腺癌中的显著性。尽管不同类型的变异频率有所不同,但所有乳腺癌分子亚型均观察到此类突变(见图1C)。为验证,PIK3CA、TP53、CDH1和GATA3被纳入参考对照基因(见图1A)。值得注意的是,m6A调控机制的变化并不限于乳腺癌。对TCGA泛癌图谱中32项研究中10,953名患者的10,967个样本进行了分析,揭示了多种癌症类型中保守的突变模式。最近研究表明,m6A通路在前列腺癌(PCa)中经常被改变,整体上具有促致癌作用32。这些发现表明,影响编码m6A RNA修饰写入者、读取者和擦除基因的突变在多种癌症中是共同特征(见图2)。
乳腺癌中的异常基因表达谱
新兴证据强调转录组破坏是肿瘤发生的关键因素,异常的基因表达在乳腺癌中具有作为生物标志物的潜力。为此,利用TCGA和基因型组织表达项目(GTEx)中代表正常乳腺组织的数据,分析了调控m6A修饰基因的转录本水平。如 图3A所示,多种m6A相关基因在乳腺癌样本中表现出显著的失调。肿瘤组织中观察到上调和下调,与正常对照组相比。METTL3和WTAP这两个写入复合体的组成部分在其他基因中被下调,而包括VIRMA、YTHDF1和YTHDF3在内的若干基因则被上调。 图3B 进一步划分了TCGA和GTEx队列中单个基因的差异表达谱。综合来看,这些发现表明编码m6A甲基化写入剂、读写器和橡皮擦的基因在乳腺癌中经历了广泛的转录失调,凸显了它们在疾病进展中的潜在相关性。
m6A机械基因及其在患者预后中的作用
鉴于癌症患者中基因改变和基因表达变化高度普遍,研究人员研究了这些表达变化在乳腺癌中的预后相关性。利用整合微阵列数据集的Kaplan-Meier(KM)绘图仪30号,根据m6A调控基因表达评估了1880名乳腺癌患者的总体生存期(OS)。分析显示,METTL14、CBLL1、YTHDC1、HNRNPC、HNRNPA2B1和RBMX的表达升高与整体生存期的改善显著相关。相比之下,YWHAG过度表达与较差的生存结果相关(见图4)。作为对照,纳入了CCND2和TOP2A,分别是已知的预后良好和不良标志物。编码m6A调控因子的其他基因与患者存活率无统计学显著相关性(补充图)。这些发现凸显了部分具有乳腺癌预后潜力的m6A甲基化调控基因子集。

图1: 乳腺癌中m6A写入者、读者和橡皮擦基因的基因变异。 (A)显示了996名乳腺癌患者中变异的分布,每条灰线代表一个个别病例。颜色编码的条表示不同的变异类型,包括错义突变、深度缺失、放大、帧内突变和截断突变。经过充分鉴定的基因PIK3CA、TP53、CDH1和GATA3因其已知的突变频率,被纳入阳性对照组。(B)患者队列中m6A调控基因的整体变异频率。(C)乳腺癌亚型对m6A调控基因的遗传改变模式。 请点击此处查看该图的放大版本。

图2: 编码m6A写入器、读取器和橡皮擦的基因在不同癌症类型中发生的基因变异频率。 该分析基于TCGA泛癌症图谱的数据,涵盖32项癌症研究中10,953名患者的10,967个样本。 请点击此处查看该图的放大版本。

图3:编码m6A写入器、读者和橡皮擦的基因表达异常。 (A)所有基因的过度表达(红色条)和低表达(蓝色条)均显示出来。使用GTEx和TCGA的数据比较正常与乳腺癌样本。(B)本图比较了正常与乳腺癌患者的个体基因表达。Xena采用韦尔奇t检验来确定每个基因的p值。 请点击此处查看该图的放大版本。

图4:m6A写作者、读者和橡皮擦的表达画像及其与乳腺癌预后关联。Kaplan-Meier生存曲线显示患者整体生存率,X轴表示时间(月),Y轴表示整体生存概率。红线代表高表达组,黑线表示低表达组。患者根据中位数基因表达水平进行分层。p值通过对数秩检验确定。请点击此处查看该图的放大版本。
补充图示:m6A调控因子成员与患者总体生存率无显著相关性,如Kaplan-Meier生存曲线所示。红线代表高表达组,黑线表示低表达组。请点击这里下载此文件。
| 类型 | 基因符号 |
| 编剧 | METTL3 |
| METTL14 | |
| ZC3H13 | |
| WTAP | |
| RBM15 | |
| RBM15B | |
| METTL16 | |
| CBLL1 | |
| KIAA1429/VIRMA | |
| 读者 | 一九一世 |
| 一世一翔2 | |
| 《一大双龙3》 | |
| YTHDC1 | |
| YTHDC2 | |
| HNRNPA2B1 | |
| HNRNPC | |
| HNRNPG/RBMX | |
| IGF2BP1 | |
| IGF2BP2 | |
| IGF2BP3 | |
| CNBP | |
| ELAVL1 | |
| SND1 | |
| PRRC2A | |
| PRRC2B | |
| PRRC2C | |
| EIF3A | |
| FMR1 | |
| FXR1 | |
| FXR2 | |
| LRPPRC | |
| MSI2 | |
| 橡皮擦 | ALKBH5 |
| FTO |
表1:编码 m6A写入者、读者和擦除器的基因。 表1概述了负责安装、识别和去除真核RNA中m6A修饰的主要基因家族。
该方法的文章提供了一个全面、易用且集成的工作流程,用于系统性多组学分析和癌症研究中任何基因签名的临床翻译,本文通过分析乳腺癌中的m6A RNA甲基化调控因子进行了展示。通过结合这些主要的公共生物信息学平台,这种方法使研究人员能够高效地从基因组发现到临床相关假设,而无需高级计算专业知识。
该方法的主要优势在于其模块化的假设生成流程。该协议引导用户按逻辑顺序进行;首先识别哪些基因被基因改造(使用cBioPortal),然后在批次校正环境中评估表达失调(使用UCSC Xena),最后评估该失调对患者生存的临床影响(使用Kaplan-Meier绘图仪)。这种从DNA到RNA再到临床结果的逐步分析,有效地优先选择候选基因进行进一步研究。例如,将此工作流程应用于m6A调控因子,能够高效地将像YWHAG(频繁变异、预测性较差的存活率)这样的基因定位为功能验证的高优先级目标。
该方案设计的泛癌分析进一步提升了其实用性,使研究人员能够快速判断分子特征是特定于某一癌症,还是肿瘤发生的共同特征,正如本研究中m6A机制的广泛变化所观察到的那样。泛癌分析显示,影响m6A写作者、读者和橡皮擦者的突变不仅限于乳腺癌,而是存在于多种恶性肿瘤中。这与越来越多的证据相符,即异常的m6A调控是多种肿瘤类型肿瘤发生的显著特征,因为它影响癌症和生理过程的多个特征,包括RNA剪接、稳定性、翻译和非编码RNA活性33。
这种方法论具有高度的适应性。虽然在m6A调控剂中已有验证,但相同的工作流程可以立即应用于表征免疫检查点基因、代谢酶或RNA测序实验中新基因特征,适用于这些数据库中任何癌症类型。这种逐步的格式降低了湿实验室科学家进行复杂 计算机 分析的门槛,加快了从基因组数据向生物学洞察的转变。
总之,该方案为癌症相关基因的情境化提供了坚实的框架。除了描绘突变景观外,研究还揭示了m6A调控因子的双向表达变化。这一发现凸显了表转录组的复杂性,并强化了情境依赖功能的既定范式,正如METTL3和YTHDF家族蛋白在不同癌症中双重作用所体现的那样(34,35)。m6A轴线也被证明在调节三阴性乳腺癌的增殖、转移和免疫逃避中发挥作用36,37。有趣的是,生存分析发现了一组具有预后意义的m6A调控因子。METTL14、CBLL1、YTHDC1、HNRNPC、HNRNPA2B1和RBMX的表达升高与良好结局相关,而YWHAG表达则与较差的总体生存率相关。这些发现支持了m6A调控剂作为预后生物标志物的潜在临床价值。CBLL1也被早期研究确定为预后良好因素之一。然而,当前纳入更新m6A调控器成员的分析发现,RBMX和YWHAG等其他成员的总体生存期分别更好或更差。不同调控因子能够预测不良或有利预后,这一观察强调了m6A修饰在癌症生物学中具有双重且特定情境的功能。尽管YTHDF1和YTHDF3在肿瘤中显著上调,但它们与整体生存率的相关性缺失可能反映了读者间的功能冗余、癌症亚型间的情境依赖性,或需要考虑其比率或净m6A调控网络,而非个体表达水平。此外,尽管VIRMA表现出最高的改变频率(12%,主要为扩增),但其表达与乳腺癌总体生存率并无显著相关。一种可能的解释是,hIgh VIRMA的表达仅表明m6A沉积潜力升高,而非是否存在必要的下游读读器或目标mRNA以转化为侵袭性肿瘤行为。值得注意的是,虽然YTHDF1和YTHDF3在队列中表达过高,但YTHDC1和YTHDC2显著下调。这种不匹配的表达模式表明,特定作者和读者的功能组合在乳腺癌中可能无法发挥作用。因此,尽管VIRMA表现较高,但在此语境下可能不具备主导作用(补充图)。
作者承认这种在计算机流水线中存在一个主要局限性。这些分析本质上是相关性的;它们识别了强关联,但未能确立机理因果关系。这种因果关系可以通过功能基因组学或使用针对m6A通路成分的小分子抑制剂来确定39。值得注意的是,首个靶向METTL3肽抑制剂RSM3最近被开发出来,并在体内前列腺癌模型中展现出抗癌潜力。因此,这种方法学工作流程成为识别候选目标和分层最有可能从这些治疗干预中受益的患者群体的宝贵工具。
该手稿的部分内容在基于人工智能的语言工具协助下进行了修订,以提高清晰度和可读性。所有实质内容、解释、分析和结论均为作者个人权威。我们声明不存在利益冲突。
感谢阿尔法萨尔大学(IRG 25450)向RM提供的资助。
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| cBioPortal | 纪念斯隆-凯特琳癌症中心 | https://www.cbioportal.org | |
| 基因型-组织表达(GTEx) | GTEx联盟 | https://gtexportal.org | |
| 卡普兰-迈尔绘图仪 | Gyorffy实验室/A5遗传有限公司 | https://kmplot.com | |
| 癌症基因组图谱(TCGA) | 美国国家癌症研究所(NCI) | https://www.cancer.gov/tcga | |
| UCSC Xena 浏览器 | 加州大学圣克鲁兹分校 | https://xenabrowser.net |
Request permission to reuse the text or figures of this JoVE article
Request Permission