专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物学霸  ·  广州医科大学罗雅艳课题组招收 2026 ... ·  22 小时前  
生信人  ·  Cancer ... ·  昨天  
生物制品圈  ·  【品质议程,重磅发布】1.5天×20先锋大咖 ... ·  3 天前  
生信宝典  ·  新课第四期,7 月 | ... ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

18 种人类癌症中的基因表达深度剖析 | Nature Biomedical Engineering

生信菜鸟团  · 公众号  · 生物  · 2025-04-10 13:44

正文

请到「今天看啥」查看全文


普遍重要的途径包括细胞周期、免疫系统和氧化磷酸化

Para_01
  1. 接下来,为了研究DeepProfile捕获的通路级别信息,我们研究了嵌入与通过KEGG、BioCarta和Reactome数据库提供的注释通路基因集之间的关系(补充数据集3)。
  2. 如果一个通路与至少一个DeepProfile潜在变量重叠,并且错误发现率(FDR)校正的P值低于0.05,我们认为该通路在一个给定的癌症类型中显著富集(方法部分)。
  3. 然后,我们提取了出现在最大数量的癌症类型中的通路,根据功能类别对这些通路进行分组,并按各功能类别在其中被显著检测到的癌症类型的平均数量排序。
Para_02
  1. 正如预期的那样,与细胞周期相关的基因集几乎是普遍重要的,这证实了增殖指数的差异是癌症转录组变异的主要来源(图4)。
  2. 这一观察结果与长期的临床经验一致——某些癌症显然具有比其他癌症更高的有丝分裂率——因此细胞周期在几乎每一种形态学或分子特征的癌症中都被发现起作用。
  3. 四种文献(42,43,44,45,46)中的两种癌症类型对与细胞周期相关的基因集的贡献明显不那么显著:急性骨髓性白血病(AML),其潜空间主要捕获了与适应性免疫反应相关的通路;以及甲状腺癌,对于后者,最重要的通路与线粒体功能有关(补充数据集3)。
  4. 最常见的两种甲状腺癌(乳头状和滤泡状)是非常缓慢生长的肿瘤,这可能解释了为什么与细胞周期相关的通路相对缺乏贡献。
  5. 在AML中,增长速度更难以评估47,但可能是由于疾病的侵袭性和缺乏空间限制,大多数患者经历了均匀高的生长速度。
  6. 在这两种情况下,患者之间增殖分数的变化不足可以解释为什么DeepProfile没有检测到细胞周期作为这些癌症转录组变异的重要贡献者。

Fig. 4: List of top KEGG, BioCarta and Reactome pathways that are universally important.

- 图片说明

◉ 这些通路根据显著捕获该通路的癌症类型数量进行排序。所有通路的所有得分可以在补充数据集3中获得。 ◉ a, 在18种癌症中有多少种显著捕获(FDR校正后的P < 0.05)每条通路。 ◉ b, 所有显著捕获该通路的癌症的富集P值的-log10平均值。 ◉ c, 表示顶级通路和所有癌症类型的富集P值显著性的热图。星号注释对应于富集的显著性(*P < 0.05, **P < 0.01, ***P < 0.001, ****P < 0.0001)。 ◉ d, 通路的癌症特征评分。癌症特征评分表示每条通路与正常或癌变组织的相关性,其中较高的分数表明该通路对于癌变组织特别重要。根据功能关系手动将通路分组。各通路组的顺序由各通路组的平均癌症特征评分决定。 ◉ 数据来源

Para_03
  1. 免疫相关的通路,如上文详细讨论的,是捕获频率第三高的类别(图4),其次是与氧化磷酸化(OXPHOS)相关的基因集,表明个体肿瘤在糖酵解和需氧呼吸之间的代谢连续体上的位置解释了它们在基因表达谱方面的全球差异。
  2. 与RNA代谢和核糖体功能相关的基因也在大量癌症中凸显出来;这一类别的富集P值特别显著(图4)。
  3. 与之前的泛癌分析一致11,45,46,49,我们的研究进一步强调了免疫相关和代谢相关通路在各种癌症类型中的重要性,突显了它们在癌症生物学中的关键作用。
  4. 这些已确立通路的识别最初验证了我们方法的有效性,证实DeepProfile正在捕获癌症中已知至关重要的关键生物过程,并为后续分析部分揭示更深层次的见解铺平了道路。

DeepProfile latent variables capture both cancer and normal tissue-specific expression signatures

DeepProfile的潜在变量捕获了癌症和正常组织特异性表达特征

错误!!! - 待补充

Cancer-type-specific genes and pathways define molecular disease subtypes

癌症特异性基因和通路定义分子疾病亚型

Para_01
  1. 在研究了DeepProfile认为普遍相关的基因和通路之后,我们旨在识别仅捕获特定癌症类型变异的基因。
  2. 我们计算了一个基因每种癌症类型的特异性评分,定义为该癌症类型中基因百分位得分与所有其他癌症类型中最高基因百分位得分之间的差(补充数据集6)。
  3. 高特异性评分表明,一个基因在一个癌症类型中捕获了大量的变异,但在其他癌症类型中的作用更为次要(方法)。
  4. 我们发现,具有高特异性评分的基因通常定义了组织类别内的主导‘亚型’或‘分化等级’(图5a)。
  5. 例如,排名靠前的乳腺癌特异性转录物包括泌乳诱导蛋白(PIP),这是一种主要在雌激素受体阳性且分化良好的肿瘤中表达的基因;FOXC1,一种在基底样乳腺癌中表达的基因;以及GFRA1,这种基因特异性地存在于腔内A亚型中(图5a)。

Fig. 5: DeepProfile cancer-specificity analysis.

- 图片说明

◉ a, 展示了4种癌症类型的特异性基因图谱。每种癌症类型分别展示了前20个差异得分最高的基因中,该特定癌症类型与其余17种癌症类型中最高百分位分数之间的差异。彩色点显示了一个基因在特定癌症类型中的百分位分数,灰色点显示了该基因在所有其他癌症类型中所具有的最高百分位分数。基因根据差异值排序。所有癌症类型的基因百分位分数可在补充数据集3中获得。 ◉ b, 展示了4种癌症类型的特异性通路及其癌症特征评分。通路根据特定癌症类型与其余17种癌症类型中−log10(P值)的差异进行排序。每个点对代表一个通路对应于特定癌症类型的−log10(P值)以及该通路在所有其他癌症类型中所具有的最高−log10(P值)。癌症特征评分向量显示了捕获所示通路的潜在变量的癌症特征百分位分数。较高的癌症特征评分表明给定的潜在变量(因此是通路)在癌性组织中特别重要。所有癌症类型的通路富集评分可在补充数据集3中获得。 ◉ 源数据

错误!!! - 待补充

Para_03
  1. 同样地,AML特异性基因包含了先前与AML亚型相关(如HOXA7、TRH、MYL4、ANK1)的转录物55,56(图5a),并且显示出与识别AML亚型的基因显著重叠(P=4.2×10^-5)57,而PCA再次未能做到这一点(P=1.0)。
  2. 在大脑中,DeepProfile识别了区分少突胶质瘤和星形细胞瘤的基因(如CNP58)或在胶质母细胞瘤亚型之间变化的基因(如BCAN59)。
  3. 甲状腺癌特异性基因中最突出的包括甲状腺过氧化物酶(TPO)和促甲状腺激素受体(TSHR),这两种转录物在正常甲状腺生理中具有关键功能。
  4. 这些基因可能表明存在分化良好的甲状腺癌,这类癌症在某种程度上保留了其正常组织来源的表达谱,而高度未分化的癌症则更大程度上失去了组织特异性转录物的表达。
  5. 为了支持这一假设,我们将DeepProfile甲状腺癌特异性基因与与甲状腺癌亚型相关的基因进行了比较60。
  6. 我们观察到这两组基因显著重叠(P=4.4×10^-10),而PCA发现的甲状腺癌特异性基因的同一分析则没有显著性(P=1.0)。
  7. 这些案例研究证明了DeepProfile如何成功检测出区分癌症亚型的基因,而线性模型无法捕捉到这些模式。
  8. 每种人类癌症的癌症特异性基因见补充数据集6。
Para_04
  1. 接下来,我们提取了DeepProfile识别为癌症特异性的精选通路基因集(方法和补充数据集7)。
  2. 这种方法可能比基因层面的观点更具信息量,它可以超越对亚型‘标记基因’进行分类,揭示在来自不同组织起源的癌症中占主导地位的连贯通路。
  3. 因此,这种分析提供了关于驱动癌症类型内表达异质性的分子机制的具体信息。
  4. 事实上,DeepProfile为每种癌症类型分配了高度特征性的分子过程。
Para_05
  1. 顶级AML特异性通路与卟啉代谢和血红素生物合成有关(图5b)。
  2. 已经知道白血病细胞显示出增加的血红素生物合成超过半个世纪61,但对于卟啉生产途径在白血病发生中的机制相关性知之甚少。
  3. 重要的是,最近的证据表明MYC过表达的白血病前体细胞需要卟啉生物合成来实现自我更新62,这证明了该通路在驱动或促进某些癌症的白血病发生中起作用。
  4. 值得注意的是,DeepProfile将此途径识别为与AML相关,因为我们不知道以前有任何无监督分析突出显示卟啉生产。
  5. 正如我们在对普遍重要的基因和通路的分析中所做的那样,在癌症中,我们还计算了‘癌症相关性’评分(通过比较来自GTEx的匹配正常组织嵌入),以确定一个通路的重要性在多大程度上特定于恶性肿瘤。
  6. 与恶性肿瘤相关的最高评分的AML特异性通路是MHC II类抗原呈递途径,由HLA-DMA、HLA-DRB1、HLA-DMB、HLA-DPA1和HLA-DPB1基因表示。
  7. AML中下调的HLA-DPA1、HLA-DPB和HLA-DRB1在异基因骨髓移植后复发期间最近被报道,并被解释为移植物对白血病细胞施加压力的证据63。
  8. 然而,DeepProfile识别出MHC II类抗原呈递途径的显著性表明,MHC II类蛋白表达的异质性可能是区分AML亚型的更一般的疾病特征,据我们所知,这一概念迄今为止尚未在文献中描述。
Para_06
  1. 在脑癌(图5b)中,脂质运输被评为最重要的途径,具有较高的癌症相关性得分。
  2. 胆固醇是髓磷脂的重要组成部分,大脑中含有身体总胆固醇的大约20%。
  3. 星形胶质细胞通常产生大部分大脑中的胆固醇,因为胆固醇无法通过血脑屏障运输。
  4. 在胶质母细胞瘤中,大脑正常的脂质代谢发生了改变:胶质母细胞瘤细胞限制了胆固醇的生物合成,并依赖于外源性胆固醇的摄取以维持生存。
  5. 这使得DeepProfile选择这一途径成为一个显著的结果。
  6. Sprouty(SPRY)通路获得了最高的癌症相关性得分,主要由SPRY1和SPRY4驱动。
  7. 这两个基因负向调节FGFR信号通路,该通路对胶质母细胞瘤的进展至关重要,并且目前正被临床试验所针对。
  8. 这些以及其他例子,例如识别过氧化物酶体在肝癌中的重要作用(图5b和补充数据集7),说明了DeepProfile从大量无结构数据存储库中提取特定于癌症和生物学上有意义的表达模式的能力。
  9. 虽然从基础科学的角度理解表达亚型及其定义的途径是有价值的,但确定与临床变量相关的途径可能从转化角度来看更为重要。
  10. 因此,我们着手开发一种严格的方法来连接DeepProfile嵌入与相关的患者和肿瘤水平特征。

Detecting survival- and mutation burden-associated pathways via DeepProfile

通过DeepProfile检测与生存负担和突变负担相关的通路

Para_01
  1. 一个通路对DeepProfile潜在变量的贡献反映了它在主要基因表达数据中捕获变异的程度,但并不能揭示该通路是否与临床相关的变量有关。
  2. 我们开发了一种通用方法,通过DeepProfile潜在变量将通路与临床特征连接起来(扩展数据图6和方法部分)。
  3. 我们通过提取与两个重要患者层面和肿瘤层面特征相关联的通路来测试这种方法:生存率和肿瘤突变负荷(TMB)。
  4. 具体来说,我们将每个DeepProfile潜在变量与生存率或TMB关联,并生成P值表示每个潜在变量与表型之间的关联显著性。
  5. 然后,利用DeepProfile潜在变量的通路级归因,我们将潜在变量级表型关联映射到通路级关联,从而获得每个通路的生存率和TMB关联P值(扩展数据图6、方法部分和补充数据集8-10)。
  6. 同样的方法可以很容易地适应其他感兴趣的变量,例如肿瘤分期、肿瘤分级或治疗反应。
  7. 使用DeepProfile潜在变量(而不是基因或通路本身)有两个优势。
  8. 首先,正如我们所展示的,DeepProfile嵌入编码了癌症样本之间稳健的变异来源;因此,关联搜索空间被减少到可能更具有生物学意义的变量。
  9. 这些潜在变量从数据中提炼出全面且复杂的生物信息,而不依赖于预定义的特征,使得探索与任何生物学和临床特征的关系成为可能。
  10. 借助这些潜在变量,DeepProfile允许研究人员发现那些在基因表达数据的高维空间中可能被掩盖的模式和关联。
  11. 其次,由于每个DeepProfile潜在变量是基因的非线性组合,它具有独特的能力来捕捉基因与感兴趣表型之间的复杂相互作用。
  12. 这种非线性映射允许整合多方面的生物信息,超越简单的加法效应,以建模基因调控和细胞功能中固有的复杂且通常是非线性的关系。
  13. 尽管这些来自深度神经网络的潜在变量可以提供更细致的观点,但这些模型的内在复杂性常常使解释变得困难。
  14. 然而,通过利用XAI方法,我们可以澄清这些模型,提供可解释的见解,为发现癌症生物学的新见解铺平道路。
Para_02
  1. 为了测试这种方法的有效性,我们首先调查了DeepProfile识别出的经过整理的通路基因集,这些基因集被认为与最重要的患者层面特征——生存显著相关。
  2. 正如我们之前的分析一样,我们最初关注的是与所有癌症类型相关的生存途径(图6a、补充数据集11和方法部分)。
  3. 值得注意的是,在这项泛癌分析中,大多数与生存相关的途径的核心主题是适应性免疫(图6a)。
  4. 高分基因集包括适应性免疫系统、MHC I类抗原呈递、抗原处理交叉呈递、B细胞受体信号传导、蛋白酶体途径以及NF-κB激活(在五种癌症类型中均被显著检测到)。
  5. 有三条途径因其在超过五种癌症类型中的得分而脱颖而出。
  6. 这些途径包括DNA错配修复(六种癌症),这一过程在受损时可能导致大量新抗原的产生,以及MHC II类抗原呈递,这是总体上得分最高的途径(在七种癌症类型中被显著检测到)。
  7. 这两种途径将在下文中进行更详细的探讨。

Fig. 6: DeepProfile survival and mutation analysis.

- 图片说明

◉ 网络中的顶级生存相关(a)和TMB相关(b)途径。对于每个途径组,我们展示了该途径显著富集且与生存/TMB显著相关的癌症数量(P < 0.05)。我们进一步展示了跨越所有检测到该途径与生存/突变相关的癌症的平均–log10(P值)富集度和–log10(P值)生存/TMB关联度。 ◉ 途径之间的连接是基于基因成员Jaccard相似性确定的。 ◉ c, 大脑癌(左)和肉瘤(右)的顶级生存和突变相关途径图。 ◉ 顶部:展示的癌症中生存评分最高的前10条途径以及生存和富集的–log10(P值)。 ◉ 底部:展示的癌症中突变评分最高的前10条途径。 ◉ 所有途径和癌症类型的评分可在补充数据集9中获得。原始数据

Para_03
  1. 为了对比和比较这些结果,我们接下来研究了与肿瘤水平特征TMB显著相关的通路(图6b、补充数据集11和方法部分)。
  2. 与生存率不同,与TMB相关的通路最一致地与细胞周期相关(图6b),其中包括DNA复制、有丝分裂M-M/G1期、有丝分裂前中期、染色体维持等。
  3. 得分最高的TMB相关通路是有丝分裂G2-G2/M期,这在18种癌症中的11种中被显著检测到。
  4. 这些结果建立了肿瘤增殖活性与其突变负荷之间的联系,与DNA复制作为强大的诱变剂相一致。
  5. 鉴于人们对TMB作为免疫治疗反应预测指标的浓厚兴趣,这种联系具有有趣的含义。
Para_04
  1. 与之前的分析类似,我们还研究了每种癌症类型中生存率和TMB分数最高的通路。
  2. 再次发现,DeepProfile识别出了不同的通路集,这些通路对两种特征都是相关的。
  3. 例如,在脑癌中,与生存率相关的通路主要由I型和II型干扰素信号传导以及MHC I类介导的免疫组成,
  4. 而与TMB相关的通路则明显涉及细胞-细胞和细胞-基质相互作用(图6c)。
  5. 在肉瘤中,与生存率相关的通路几乎完全关注DNA修复过程(错配修复、核苷酸切除修复)和复制叉功能,
  6. 而与TMB相关的基因集则与葡萄糖代谢密切相关(图6c)。
  7. 所有18种癌症中与生存率和TMB相关的特定癌症通路关联可以在补充数据集8中找到。

DNA-mismatch repair and antigen presentation via MHC class II are common survival-related pathways

DNA错配修复和通过MHCII类分子的抗原呈递是常见的与生存相关的通路

Para_01
  1. 我们随后详细探讨了生存与DNA错配修复和MHC II类抗原呈递之间的意外泛癌关联。
  2. DeepProfile检测到路径和生存之间稳健的相关性;然而,它并没有揭示这些关联的方向。
  3. 因此,为了定义这种方向,我们在正在研究的路径中的基因上拟合了单变量Cox回归模型。
  4. 这为每对基因和癌症类型返回了一个生存z分数(方法和补充数据集10;负z分数意味着较低的表达量会导致更好的生存机会,而正z分数意味着较高的表达量会导致更好的生存机会)。
Para_02
  1. 检查所有癌症中DNA错配修复基因的z分数,我们确认了其与生存率之间存在强烈的相关性(图7a),验证了DeepProfile在主要基因表达水平上的发现。
  2. 关联的方向往往为负(表明DNA错配修复蛋白的低表达与改善的生存率相关),特别是在基于DeepProfile分析的六种癌症中,这些癌症具有统计学上显著的评分(图6a)。
  3. 我们进一步通过Kaplan-Meier分析确认了这一发现,该分析得到了一致的结果(图7b、扩展数据图7和方法部分)。
  4. 鉴于DeepProfile确定适应性免疫反应是与生存相关的中心通路节点,DNA错配修复基因表达在许多癌症中的预后相关性尤为值得注意。
  5. 抗肿瘤免疫反应被认为很大程度上依赖于新抗原的存在,而新抗原的丰度在DNA错配修复缺陷的癌症中增加。
  6. 同样,错配修复蛋白的减少表达可以增加突变性和微卫星不稳定性。
  7. 因此,在错配修复蛋白较少的肿瘤中,新抗原水平较高可能会使这些肿瘤更容易被免疫系统识别,从而有助于低DNA错配修复蛋白表达患者的生存率提高(图7c)。

Fig. 7: Mismatch-repair-pathway survival analysis.

- 图片说明

◉ a, 包含在KEGG错配修复途径中的所有基因的生存z分数热图(z分数的大小>1, z分数的大小>2, z分数的大小>3, ***z分数的大小>4)。通过DeepProfile检测到的六种癌症类型用红色突出显示。 ◉ b, 错配修复途径平均表达量的Kaplan–Meier图。高于平均值+1个标准差的样本标记为高表达,低于−(平均值+1个标准差)的样本标记为低表达。阴影区域代表置信区间。每种癌症报告了log rank检验P值和被审查样本的百分比。展示了log rank检验P值低于0.05的五种癌症类型。 ◉ c, 错配修复机制示意图。数据来源

Para_03
  1. 接下来,我们更深入地研究了MHC II类抗原呈递途径。
  2. 我们重点关注HLA-D基因,因为它们在整个MHC II类抗原呈递途径中的所有18种癌症类型中具有顶级的归因评分和生存z分数。
  3. (MHC II类抗原呈递途径中全部91个基因的z分数见补充数据集12)。
  4. 与显示大多数癌症类型中表达和生存率之间呈负相关的DNA错配修复z分数不同,HLA-D表达的关联是分叉的(图8a)。
  5. 胰腺、肾脏、AML和脑癌在HLA-D基因表达和生存变化之间存在强烈的负相关,而大多数其他癌症(尤其是黑色素瘤和子宫癌)之间的相关性是正向的。
  6. 再次通过Kaplan-Meier分析确认了这些发现(图8b和扩展数据图8)。
  7. 这些结果表明,在某些癌症类型(如黑色素瘤、子宫癌、乳腺癌)中,肿瘤和/或其环境中的HLA-D基因表达是有益的,而在其他一些癌症类型(如脑癌、肾癌)中则是有害的。

Fig. 8: MHC-class-II-pathway survival analysis.

- 图片说明

◉ a, 包含在Reactome MHC II类抗原呈递通路中的所有HLA-D基因的生存z分数热图。通过DeepProfile检测到的七种癌症类型用红色突出显示。 ◉ b, 表达水平低于平均值+1个标准差的样本被标记为高表达,低于-(平均值+1个标准差)的样本被标记为低表达。Kaplan–Meier曲线展示了log rank检验P值低于0.05的癌症类型的HLA-D基因的平均表达情况。阴影区域代表置信区间。每个癌症类型的log rank检验P值和被审查样本的百分比都被报告。 ◉ c, 展示了18种癌症中树突状细胞、B细胞和巨噬细胞的平均百分位得分比较。 ◉ d, 展示了18种癌症中HLA-D基因表达与三种细胞类型的细胞类型特征之间的平均皮尔逊相关系数比较。 ◉ e, 展示了18种癌症中促炎和抗炎巨噬细胞的平均百分位得分比较(补充图8)。源数据

Para_04
  1. 由于大多数癌症不表达MHC II类基因(急性髓系白血病除外,其中HLA-D的表达与炎症表型和治疗复发相关),我们想知道肿瘤微环境中哪种细胞类型可能是HLA-D转录物的主要来源,并由此关联到不同的生存率。
  2. 表达MHC II类基因的肿瘤驻留免疫细胞类型包括巨噬细胞、树突状细胞和B细胞。
  3. 为了评估这些细胞在肿瘤微环境中的相对丰度,我们测量了每种细胞类型的特征基因的平均百分位分数,其中最高表达的基因得分为100(方法)。
  4. 我们发现,在所研究的所有癌症中,三种细胞类型中,巨噬细胞特异性基因的丰度远高于其他两种,这与巨噬细胞在许多癌症类型中可能高度丰富的事实一致。
  5. 此外,我们发现在所有癌症中,巨噬细胞特征与HLA-D表达的相关性最好,进一步支持了巨噬细胞是大量肿瘤样本中HLA-D转录物的主要贡献者的观点。
  6. 考虑到巨噬细胞的功能从促肿瘤作用到抗肿瘤作用各不相同,我们想知道与HLA-D表达相关的肿瘤相关巨噬细胞的表型是否可以解释HLA-D表达与生存率之间观察到的分歧。
  7. 为此,我们检查了可能反映巨噬细胞功能的基因转录物。






请到「今天看啥」查看全文