Research Article

人类转录组数据的综合生物信息学分析识别出肺腺癌的三个关键诊断和预后生物标志物

DOI:

10.3791/71214

June 30th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究利用TCGA-LUAD和GEO GSE115002转录组数据,鉴定了肺腺癌的诊断和预后生物标志物。 B3GNT3FERMT1SPP1 上调,将肿瘤与正常组织区分开来。这些基因与上皮-间充质转变和免疫抑制有关。结合基因表达与TNM阶段的命名图显示出可靠的预测价值。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

肺腺癌(LUAD)是全球癌症相关死亡的主要原因。尽管手术、靶向治疗和免疫疗法取得了进步,晚期LUAD的5年生存率仍低于20%,表明急需可靠的分子生物标志物以实现早期检测和预后。在这项研究中,作者假设三个持续上调的基因可以作为LUAD的有效诊断和预后生物标志物。作者分析了两个独立队列TCGA-LUAD(535个肿瘤,59个正常样本)和GSE115002(52个肿瘤,52个正常样本匹配)的转录组数据,以筛选表达差异的基因。三个核心基因——B3GNT3FERMT1SPP1——在LUAD肿瘤中均持续过度表达。这些基因表现出优异的诊断性能,TCGA-LUAD中AUC值超过0.95,GSE115002中准确率较高。生存分析显示,每个基因的高表达与整体和无病期显著缩短相关,多变量Cox回归验证了其独立的预后价值。功能富集分析表明,这三个基因参与上皮-间充质转变、细胞外基质重塑和免疫抑制,这些都与LUAD的侵入和转移密切相关。作者进一步构建了结合三基因和TNM阶段的预后指标,达到0.743的一致性指数,并展现出良好的预测表现。这些发现证实B3GNT3FERMT1和SPP1是LUAD的有前景的诊断和预后生物标志物,支持其在风险分层和管理中的临床应用。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

肺癌是全球癌症死亡的主要原因,2020年约有180万人死亡。肺腺癌(LUAD)占所有肺癌病例的近40%。尽管手术、靶向治疗和免疫治疗取得了进步,晚期LUAD的5年生存率仍低于20%,3,4。急需可靠的分子生物标志物以实现早期检测和精确预测。高通量测序和公共数据库如癌症基因组图谱(TCGA)和基因表达综合目录(GEO)使癌症的系统转录组谱化成为可能 5,6。整合跨队列生物信息学提高了候选生物标志物发现的可靠性5.

许多基因和通路被认为与LUAD有关,包括细胞增殖、EGFR信号传导和免疫逃逸7。然而,很少有研究被转化为临床应用。结合基因特征和临床病理特征的风险模型——尤其是计型图——能提高LUAD8的预后准确性。虽然 B3GNT3FERMT1SPP1 已单独与癌症进展相关,但它们在LUAD中的综合诊断、预后和免疫-微环境调控价值尚未在独立队列间得到系统性验证。本研究首次作为LUAD统一生物标志物面板,实现了这三个基因的综合跨平台分析,并提供了临床适用的预后计量组。

B3GNT3编码一种糖基转移酶,能够稳定PD-L1并促进免疫逃避 9,10FERMT1kindlin-1)调控整合素活化,并推动非小细胞肺癌(NSCLC)的转移11,12SPP1(骨质素)介导细胞外基质重塑、上皮-间充质转变(EMT)和化学抵抗性 13,14,15。昼夜节律相关基因也被证明能预测LUAD的预后和诊断16,而LUAD中的性别差异则通过多组学整合蛋白信号网络被发现17。B3GNT3和SPP1为分泌或膜定位,支持其作为微创生物标志物的潜在应用。通过重叠的特征选择方法,还可以实现有效的LUAD分类和生物标志物鉴定,多组学相互作用在肺癌进展中发挥重要功能作用19。通过全面的多组学整合识别线粒体基因特征,对LUAD预后和个体化治疗也有价值20B3GNT3SPP1为分泌或膜定位,支持其作为微创生物标志物的潜在应用。本研究旨在利用整合生物信息学识别强健的LUAD生物标志物,评估其诊断和预后表现,探索其生物功能和免疫关联,并构建临床有用的预后指标。

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. 数据源与预处理

  1. 在R中处理原始数据(版本4.1.3;Windows 10 Pro)。
  2. 对于GSE115002,使用limma(版本3.52.3)进行分位数归一化。
  3. 过滤TCGA低表达基因:在≥50%的样本中保留CPM>0.5的基因。
  4. 过滤低表达基因以进行GSE115002:保留信号平均为>50的基因。
  5. log2变换表达式值,伪计数为 +1。
    注:LUAD基因表达和临床数据来源于TCGA-LUAD(版本33.0,GDC门户,下载时间2025年8月7日)和GSE115002(安捷伦微阵列,GEO,下载时间2025年8月7日)。TCGA-LUAD包含535个肿瘤和59个正常样本。GSE115002包括52个肿瘤和52个匹配正常样本。

2. 鉴定差异表达基因

  1. TCGA RNA-seq使用DESeq2(版本1.36.0),GSE115002用LIMMA(版本3.52.3)进行差异表达分析。使用本贾米尼–霍赫伯格方法计算调整后的P值(FDR)。
  2. 为确保跨数据集可比性,统一的 |log₂FC|≥1.0适用于两个群体。DEG定义为FDR(自由脱< 0.05和|log₂FC|≥ 1.0。通过VennDiagram(版本1.7.3)识别重叠的DEGs。 B3GNT3FERMT1SPP1 被选为持续上调且已知癌症相关候选药物。

3. 诊断价值评估

  1. 为每个候选基因构建ROC曲线。
  2. 利用尤登指数确定最优截止值。
  3. 计算每个基因的AUC、敏感性和特异性。
  4. 利用多元逻辑回归构建综合诊断面板。
    注:ROC分析使用pROC软件v1.18.0。使用带有二项族的glm函数构建诊断模型。

4. 生存分析

  1. 利用中位表达将患者分层为高表达组和低表达组。
  2. 为每个基因生成Kaplan–Meier生存曲线。
  3. 进行对数秩检验以比较生存差异。
  4. 进行单变量Cox回归分析。
  5. 进行多元Cox回归分析。
  6. 在回归模型中包含临床协变量。
  7. 利用舍恩菲尔德残差验证比例风险假设。
  8. 计算三基因风险评分。
    注意:使用的是Survival v3.3.1和survminer v0.4.9。协变量包括年龄、性别、T阶段、N阶段和M阶段。风险评分计算方式为:
    风险得分 = (0.328 × B3GNT3) + (0.331 × FERMT1) + (0.321 × SPP1)。(1)

5. 基因集富集与功能注释

  1. 使用DEG进行GO富集分析。
  2. 使用DEG进行KEGG通路富集分析。
  3. 进行基因集富集分析(GSEA)。
  4. 通过皮尔逊相关性与候选基因表达对基因进行排序。
  5. 使用调整后的P <0.05识别显著词。
    注:clusterProfiler v4.6.2 用于 GO 和 KEGG 分析。GSEA 使用 了 FGSEA v1.22.0 和 MSigDB Hallmark v7.5。

6. 相关性与网络分析

注意:Pearson相关分析用于正态分布的基因表达;斯皮尔曼相关性与免疫细胞分数。PPI网络使用STRING(版本11.5,置信度>0.7)生成,并在Cytoscape(版本3.9.1)中可视化。免疫浸润使用CIBERSORT(绝对模式,100种排列)估算。单细胞RNA测序已被证明能揭示NSCLC微环境中的生态位转变,这与免疫浸润分析21,22相关,整合单细胞分析还能进一步剖析免疫细胞(如CD8+记忆细胞)在LUAD中的作用 23,24,25

7. 诺莫图的构建与验证

注:命名组变量基于多变量Cox显著性(P < 0.05)选定:T期、N期、 B3GNT3FERMT1SPP1。该计程图采用了有效方值(6.5.0版本)构建。内部验证使用了1000引导重采样并替换。校准曲线和决策曲线分析(DCA)使用RMDA(版本1.7)进行。计算环境包括R 4.1.3、Windows 10 Pro和Bioconductor 3.15。分析脚本可根据合理要求在 https://github.com/[已编辑]/LUAD-biomarker-2025 获取。

8. 统计分析

注意:所有统计检验均为双面;P<0.05被认为具有显著性。

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

LUAD中的全局基因表达变化

肺腺癌组织与正常肺组织的转录组比较发现了广泛的基因表达变化。图1A显示了TCGA-LUAD数据集中差异表达基因的火山图,图1B显示了GSE115002数据集中的基因。在TCGA-LUAD队列(图1A)中,1865个基因显著上调,1247个基因被下调。在GSE115002队列(见图1B)中,645个基因上调,609个下调。两组数据中共计421个基因持续上调。在这些重叠基因中,B3GNT3FERMT1SPP1图1A图1B中被标记为肿瘤样本中明显过度表达。在TCGA-LUAD中,B3GNT3表达较正常组织增加了约5倍,FERMT1增加8倍,SPP1增加10倍。GSE115002年也证实了类似的上调,三个基因均显示出超过两倍的升高。

B3GNT3FERMT1SPP1的诊断性能

采用受试者工作特征曲线分析评估B3GNT3FERMT1SPP1的诊断表现。图2A展示了TCGA-LUAD队列中的ROC曲线,图2B展示了GSE115002队列中的曲线。这三个基因在两个队列中均实现了较高的诊断准确性。在TCGA-LUAD队列(图2A)中,所有标记曲线下的面积均超过0.95。在独立GSE115002队列(图2B)中,曲线值下的面积也同样较大。灵敏度和特异度在最佳截止值下范围为85%至95%。这些结果证实每个基因都能在肿瘤与正常组织之间提供极佳的区分能力。

B3GNT3FERMT1SPP1表达的预后意义

图3中的Kaplan–Meier生存曲线显示,每个基因的高表达与两组整体生存期均显著缩短。 图3A–3C 显示了TCGA-LUAD队列中 B3GNT3FERMT1SPP1 的总体生存曲线。图3D–3F显示了GSE115002队列中的对应曲线。 B3GNT3FERMT1SPP1 表达较高的患者中位生存率降低,5年生存率较低。多变量回归分析证实,高 SPP1 表达仍是独立的不良预后因素。三个基因表达升高也与较短的无病期相关。两组队列的一致趋势表明 ,B3GNT3FERMT1SPP1 的过度表达可预测肺腺癌的不利临床结局。

功能富集分析

功能富集分析结果总结于图4中。图4A显示TCGA-LUAD队列中的GO和KEGG富集情况,图4B显示GSE115002队列的富集情况。上调基因在细胞周期进展、细胞外基质组织、局部粘附和致癌信号传导方面表现显著增强。下调基因与正常上皮分化和p53信号传导相关。这些观察表明,这三种候选基因参与促进肺腺癌增殖、侵袭和免疫失调的通路。

共表达网络

B3GNT3FERMT1SPP1相关的共表达网络如图5所示。 图5A显示了TCGA-LUAD队列中的网络,图5B显示了GSE115002队列中的网络。节点代表基因,边代表相关系数。这三个关键基因与ECM重塑、免疫调控和细胞骨架组织基因聚集。这些发现表明,这三个基因的过度表达与免疫抑制性肿瘤微环境有关。

预后计程图的表现

预后指线图如 图6所示。该模型通过整合病理T阶段、病理N阶段及 B3GNT3FERMT1SPP1 的表达水平构建,以预测LUAD中1年、2年和3年总体生存期。每个变量都分配积分,总积分对应预测的存活概率。该模型实现了0.743的一致性指数,显示出良好的预测表现。校准曲线显示预测与实际存活概率高度吻合。决策曲线分析证实了临床净益处。该命名图提升了个体化生存预测,超越了传统TNM分期。

总之,本研究强调 B3GNT3FERMT1SPP1 作为LUAD致病机制的核心分子。其过度表达与侵袭性肿瘤表型、基质重塑和免疫逃避相关。通过多组学整合,我们展示了这些基因在诊断、预后和患者分层中的综合价值。未来研究应探讨其对免疫治疗反应的预测相关性,并评估其作为LUAD治疗靶点的潜力。

figure-results-1
图1:LUAD肿瘤与正常组织中差异表达基因的火山图。A) TCGA-LUAD数据集。(B) GSE115002数据集。红色表示基因显著上调;蓝色表示基因下调。 B3GNT3FERMT1SPP1 被标记为持续上调。 请点击此处查看该图的放大版本。

figure-results-2
图2:用于区分LUAD与正常组织的 B3GNT3FERMT1SPP1 的ROC曲线。A)TCGA-LUAD队列。(B)GSE115002队列。AUC值显示出高度的诊断准确性。 请点击此处查看该图的放大版本。

figure-results-3
图3:按B3GNT3FERMT1SPP1表达水平分层的Kaplan-Meier总体生存曲线。 A–C TCGA-LUAD队列。(AB3GNT3,(BFERMT1,(CSPP1。(D–F)GSE115002同学。(D B3GNT3,(EFERMT1,(FSPP1。每个基因的高表达与两组整体生存期缩短显著相关。提供对数秩检验中的心率和P值。请点击此处查看该图的放大版本。

figure-results-4
图4:DEGs的GO和KEGG富集分析与三个关键基因相关。 A) TCGA-LUAD队列。(B GSE115002同学。富集术语包括生物过程(BP)、细胞组分(CC)、分子功能(MF)和KEGG途径。上调基因在增殖、ECM重塑和致癌信号传导中得到丰富。 请点击此处查看该图的放大版本。

figure-results-5
图5:与B3GNT3FERMT1SPP1相关的基因共表达网络。 A) TCGA-LUAD队列。 BGSE115002队列。节点代表基因,边代表相关系数。这三个关键基因与ECM重塑、免疫调控和细胞骨架组织基因聚集。请点击此处查看该图的放大版本。

figure-results-6
图6:综合病理T期、病理N期、 B3GNT3FERMT1SPP1 表达的预后调目图,用于预测LUAD中1年、2年和3年总体生存期。 每个变量都分配积分,总积分对应预测的存活概率。 请点击此处查看该图的放大版本。

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该组图基于TCGA-LUAD队列,采用多元Cox回归分析构建。预测因子包括病理性T阶段、病理性N阶段,以及B3GNT3FERMT1SPP1的基因表达状态(根据中位表达分为高与低)。对于每位患者,将每个变量的得分相加生成“总积分”值,对应估计的1年、2年和3年总体存活概率。总分越高表示死亡风险越高。该工具提供个性化的生存预测,并有助于LUAD风险分层。机器学习已被用于揭示LUAD预后和治疗中的多样细胞死亡模式21,22,23,这有望进一步优化我们的命名模型。

本研究通过综合生物信息学分析鉴定B3GNT3FERMT1SPP1作为LUAD中稳健的诊断和预后生物标志物。这三种基因在肿瘤中均持续过度表达,能够高精度区分肿瘤与正常组织,预测生存率低,并调控与EMT、基质重塑和免疫逃避相关的通路。综合命名图有助于提升风险分层,超越TNM分期。B3GNT3通过糖基化稳定PD-L1促进免疫逃脱9,10FERMT1增强整合素信号传导和细胞运动,推动侵袭和转移11,12SPP1作为EMT、血管生成和M2巨噬细胞极化的分泌驱动因子13,14,15。它们共同定义了一种具有侵袭性和免疫抑制的侵袭性LUAD亚型。

先前研究报告了B3GNT3FERMT1SPP1在LUAD中的个别作用。本研究首次将这三种数据作为独立转录组队列的统一面板验证,并在TCGA和GEO数据中均确认了诊断和预后表现。近期关于LUAD生物标志物的研究支持免疫相关基因签名在预后和免疫治疗指导中的价值。近期利用综合生物信息学和机器学习的研究已识别出多种基因特征,用于LUAD诊断和预后 21,22这些方法与我们的三基因面板类似,强调了基于转录组的生物标志物在临床分层中的价值。

细胞外基质重塑是积极LUAD的核心特征,ECM相关特征已被验证为独立的预后因子。我们的发现是,FERMT1SPP1与局部粘附和ECM-受体相互作用密切相关,进一步支持基质重塑在LUAD进展中的关键作用。类似于跨学科医学(IMed)21,23中报道的CHAF1B和泛素相关基因特征,我们的三个基因与免疫浸润密切相关,可能既作为预后标志物,也可能作为预测标志。识别LUAD生物标志物的替代策略包括单细胞RNA测序、空间转录组学、基于机器学习的特征选择以及等离子体蛋白质组剖析242526。机器学习算法如随机森林算法或LASSO可以进一步优化生物标志物选择。使用qPCR、IHC和ELISA进行湿实验室验证对于确认临床翻译27282930至关重要。

本研究受限于其回顾性设计、依赖公开转录组数据以及缺乏外部临床验证。诺莫图验证仅限于内部引导重抽样。大批量转录组数据无法解析细胞层面的表达。机理因果关系需要功能实验。与免疫浸润的相关性基于计算解卷,应谨慎解读。未来研究应利用IHC、qPCR和血清ELISA验证前瞻性队列中的这些生物标志物。单细胞和空间转录组学将澄清细胞源和空间分布。应评估免疫治疗和靶向治疗反应的预测价值。 B3GNT3FERMT1SPP1 的治疗靶向可能为LUAD治疗提供新策略。

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者声明没有利益冲突。

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该工作得到了2024年福建中医药大学大学级项目(资助号:XB2024012)的支持,该项目由福建中医药大学附属人民医院的林宇辉领导。以及福建省科技创新联合基金(拨款号:2025Y9530),由晋江市立医院(福建上海第六人民医院)陈晓婷领导。

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Publicly Available DatasetsTCGA-LUAD DatasetThe Cancer Genome Atlas (TCGA) Portal (https://portal.gdc.cancer.gov/); 535 LUAD tumor samples, 59 adjacent normal lung tissue samples (RNA-sequencing count/FPKM values + clinical data: survival, TNM staging)Transcriptomic and clinical data for differential expression, survival, and nomogram analysis; primary study cohort
GSE115002 DatasetGene Expression Omnibus (GEO) (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE115002); Agilent microarray, 52 LUAD tumor tissues, 52 matched adjacent normal lung tissues (treatment-naïve primary tumors)Independent validation cohort for differential expression, diagnostic performance, and immune infiltration analysis
Bioinformatics Software & Programming EnvironmentR Programming LanguageVersion 4.1Core platform for all transcriptomic, statistical, and graphical analyses
R Packages (Differential Expression)DESeq2, limmaDESeq2: TCGA RNA-seq raw count differential expression analysis; limma: GSE115002 microarray normalization and differential expression analysis (Benjamini–Hochberg FDR correction)
R Packages (Diagnostic Analysis)pROCConstruction of ROC curves, calculation of AUC (95% CI), optimal cutoff determination (Youden’s index) for diagnostic performance assessment
R Packages (Survival Analysis)survival, survminerKaplan–Meier survival curve generation, log-rank test, univariate/multivariate Cox proportional hazards regression (HR + 95% CI); patient stratification by median gene expression
R Packages (Functional Enrichment)clusterProfiler, fgseaclusterProfiler: GO (BP/CC/MF) and KEGG pathway enrichment analysis (adjusted P < 0.05); fgsea: GSEA for MSigDB Hallmark/KEGG gene sets (FDR < 0.25)
R Packages (Nomogram Construction & Validation)rmsDevelopment of prognostic nomogram (integration of gene expression + TNM stage); Harrell’s C-index calculation, bootstrap resampling (1000 repetitions) for bias correction, calibration plot generation
R Packages (Statistical & Visualization)ggplot2, ComplexHeatmap, corrplotGeneration of volcano plots, bubble plots (enrichment), heatmaps (immune infiltration correlation), scatter plots (gene co-expression); Pearson/Spearman correlation analysis
Bioinformatics Databases & Tools (Network/Immune Analysis)STRING DatabaseConfidence score > 0.7Construction of protein–protein interaction (PPI) networks for B3GNT3/FERMT1/SPP1 and first-degree interactors
Cytoscape-Visualization of PPI and gene co-expression networks (edge weighting by correlation strength, hub gene identification)
Immune Deconvolution AlgorithmCIBERSORTEstimation of immune cell infiltration abundance (M2 macrophages, CD8+ T cells, neutrophils, NK cells, etc.) in LUAD samples; correlation with candidate gene expression
Other ToolsMicrosoft Office/LaTeX-Manuscript preparation, figure assembly, and table formatting; statistical result compilation

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Cancer ResearchLung adenocarcinomaB3GNT3FERMT1SPP1biomarkerprognosisgene expressionnomogramBioinformatics

Related Articles