专栏名称: 生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

重医张泽民院士 | 今日Nature | 全面的单细胞转录组图谱，全文精读

生信菜鸟团 · 公众号 · 生物 · 2025-05-29 20:10

正文

请到「今天看啥」查看全文

这一分析显示，在几乎所有非生殖组织中，男性和女性个体的CM模式是相似的，而胸腺在不同年龄组中表现出显著差异。

与与年龄相关的胸腺退化一致，胸腺富集的CM09在老年人中活性降低，其中成分如初始T细胞（CD8T01）和调节性T细胞（CD4T08）在年轻个体中更为丰富。

Para_02

在脾脏中还观察到另一个与年龄相关的关联，其中CM05随年龄增长而增加，而CM06则减少（图4a和扩展数据图7c）。
由于脾脏包含各种免疫细胞（图1c），我们系统地检查了脾脏中的所有免疫亚群，确定了10种在不同年龄组中有所变化的亚群（扩展数据图7e,f）。
其中80%（10个中的8个）是CM05或CM06的组成部分（图4b），这表明这些跨组织的CM有效地捕捉了组织特异性的变化。
值得注意的是，四个CM05亚群（B03、B05、CD4T03和I06）的扩增在衰老过程中比之前报道的ABCs（B08）7,20更为明显（图4b和扩展数据图7g），这表明它们可能在衰老过程中发挥作用。
随着年龄增长，脾脏中NR4A1高表达的CD4+ T细胞（CD4T03）的积累可能是免疫耐受29和胸腺退化共同作用的结果。

Fig. 4: Multicellular dynamics in context.

- 图片说明

◉ a，不同年龄组脾脏样本中CM05和CM06的活性。点代表单个样本。 ◉ <35岁，n = 3；40–49岁，n = 8；50–59岁，n = 10；60–69岁，n = 7；70–85岁，n = 1。Kruskal-Wallis检验和双尾无配对Wilcoxon检验。 ◉ b，不同年龄组中细胞亚群的平均频率。 ◉ c，圆形热图（左）显示了CM05（右）中17个收敛调控子在不同年龄组中的细胞活性。Min，最小值；max，最大值。 ◉ d，样本平均表达的CM12 MCP基因（行）在乳腺样本（列）中的表达情况。基因按其方向（上调或下调，左色条）和相关细胞亚群（右色条）进行分类。样本按总体表达排序（顶部柱状图），并按绝经状态标记（顶部色条）。 ◉ e，根据细胞亚群分组的绝经前和绝经后乳腺细胞中CM12 MCP总体表达的分布。垂直黑色线表示分布的中位数。双尾无配对Wilcoxon检验。 ◉ f，绝经前（n = 93）和绝经后（n = 18）样本中CM12活性（左）以及成纤维细胞亚群S10（中）和S06（右）的频率。双尾无配对Wilcoxon检验。 ◉ g，乳腺的Visium分析显示组织病理学区域注释（左）以及成纤维细胞亚群S10（中）和S06（右）的空间分布。 ◉ h，PHATE（基于亲和力轨迹嵌入的热扩散势）可视化乳腺样本（点），按绝经状态（左）、伪时间（中）或CM12活性（右）着色（方法）。 ◉ i，热图显示按伪时间排序的乳腺样本中CM12亚群（行）的频率。 ◉ j，趋势线显示乳腺样本中沿伪时间的成纤维细胞炎症评分的LOESS平滑趋势。误差带显示95%的置信区间。 ◉ 对于a和f中的箱形图，中心线表示中位数，箱体上下限表示四分位数，须线延伸至四分位距1.5倍内的最高和最低值。

Para_03

为了更深入地了解这些协调的动态，我们应用了SCENIC30来揭示这些亚群的调控因子。
对于四个CM05亚群中的每一个，我们确定了它们相对于其细胞类型内其他亚群的特异性调控网络（方法和补充表5）。
值得注意的是，这些亚群在调控网络上表现出显著的重叠，而CM05中汇聚的调控网络在衰老过程中表现出更高的活性（图4c），这揭示了支撑多细胞协调的共同调控机制。
此外，这些亚群共享一组特征基因，包括20个转录因子基因，如NR4A1和NR4A2（扩展数据图8a–c）。
进一步分析确定了八个关键的转录因子基因（ATF3、FOS、FOSB、JUN、JUNB、JUND、KLF6和NFKB1）作为调控网络和特征基因（扩展数据图8c）。
这些关键调控因子往往作为调控枢纽（扩展数据图8d），针对不同细胞类型中的许多共同基因（扩展数据图8e）。
这些发现与小鼠中的先前报道一致，强调了AP-1复合体成员Jun和Fos的激活是免疫衰老的标志。
值得注意的是，作为T细胞功能障碍的关键介质的NR4A1，在不同细胞类型中被多个关键调控因子调控（扩展数据图8e），这表明衰老可能与免疫功能障碍有关。
总之，这些结果在成人的最大外周免疫器官脾脏中，突显了分子、细胞和多细胞层面的协调行为。需要进一步研究以确定这些动态在人类衰老中的功能机制。

Fibroblast-engaged menopausal trajectory

Para_01

为了探索成纤维细胞在多细胞生态系统中的作用，我们专注于乳腺富集的CM12，它包含三种特化的成纤维细胞亚群（S06、S09和S10）以及其他多种细胞（图2b,c）。
我们首先利用DIALOGUE3来研究乳腺中的局部微环境是否触发了与CM12相关的协调多细胞程序（MCPs），这些程序代表了不同细胞亚群之间基因程序的组合。
值得注意的是，这项分析识别出一个在绝经前样本中比绝经后样本上调的MCP（图4d,e，补充图7和补充表6）。
例如，SCGB2A2和SCGB1D2等基因的表达在大多数亚群中在绝经后样本中增加（图4d），这与之前报道的SCGB2A2作为乳腺癌检测的有希望的生物标志物一致。
此外，许多炎症基因，包括人类白细胞抗原基因，在细胞亚群中在绝经前样本中表达更高（补充表6）。
进一步分析证实了绝经后炎症评分的下降（扩展数据图9a）。
尽管这似乎与文献中关于衰老导致全身炎症增加的说法相矛盾，但我们假设乳腺组织作为生殖器官，受雌激素水平的影响更大，从而导致局部炎症的减少。
这些结果表明，CM12内多样化亚群在面对更年期时表现出协调的表型变化。

Para_02

接下来，我们系统地检查了所有非上皮亚群与乳腺绝经状态之间的关联。
成纤维细胞与绝经表现出特别强的关联，亚群 S10 和 S06 在绝经后样本中显示出最显著的减少（图 4f 和扩展数据图 9b）。
值得注意的是，S10 表达高水平的胶原蛋白基因（COL1A1、COL1A2 和 COL3A1）（扩展数据图 9c），这与之前报道的 50 岁以上女性此类成纤维细胞减少的情况一致。
空间分析显示，S10 在结缔组织中均匀分布，而 S06 主要位于小叶中（图 4g）。
相比之下，在 CM12 中的免疫亚群和 S09 成纤维细胞在乳腺导管组织中被发现共定位（扩展数据图 9d），在绝经后其丰度几乎没有变化。
这些发现突显了不同成纤维细胞亚群在乳腺中的不同功能作用。

Para_03

与这些分子和细胞观察结果一致，绝经后女性的CM12活性低于绝经前女性（图4f）。
值得注意的是，50岁以上的女性这种下降不那么明显（扩展数据图9e），这表明CM12再现了与更年期相关的生物变化，而不仅仅是年龄的自然变化。
需要进一步的针对性研究，以完全阐明年龄和更年期各自的影响以及它们的潜在相互作用。

Para_04

鉴于这些变化通常是渐进的，我们假设CM12的变化可以作为更年期进展的指标。
通过CM12细胞亚群的频率，我们确定了一个从绝经前到绝经后状态转变的更年期轨迹（图4h）。
具体而言，S10的频率沿着这一轨迹持续下降，而S06则在过程后期趋于下降（图4i）。
值得注意的是，这些成纤维细胞（S06、S09和S10）在轨迹中表现出炎症评分的降低，尤其是在绝经后尤为明显（图4j）。
值得注意的是，我们使用外部乳腺数据集验证了更年期轨迹和成纤维细胞变化（扩展数据图9f,g），这突显了我们结果的稳健性。
总之，这些多细胞分析突显了乳腺中特化成纤维细胞的时空动态。

Multicellular rewiring in cancer

Para_01

为了系统地理解癌症中的多细胞生态系统，我们将分析扩展到了肿瘤微环境（TME），这是一个病理组织生态位，在这里多种免疫细胞和基质细胞相互作用，形成一个复杂的网络。
我们首先建立了一个涵盖多种癌症的单细胞转录组图谱，包括来自29种癌症类型的1,062个临床样本，鉴定了91种细胞亚群，其中包括之前在各种癌症类型中报道的15种与癌症相关的亚群。
（图5a,b，扩展数据图10，补充图8和补充表7–9）（http://cm.cancer-pku.cn）

Fig. 5: Rewiring of multicellular ecosystems in cancer.

- 图片说明

◉ pan-cancer单细胞图谱概述。 ◉ 癌症相关细胞亚群的标志基因表达。 ◉ 癌症中多细胞分析概述。 ◉ 不同癌症类型中健康、邻近非肿瘤和肿瘤样本中主要健康心肌细胞（CMs）的样本平均活动（方法）。 ◉ CESC，宫颈鳞状细胞癌；col.，结肠；CRC，结直肠癌；cSCC，皮肤鳞状细胞癌；HCC，肝细胞癌；HNSC，头颈鳞状细胞癌；KIRC，肾透明细胞癌；LUAD，肺腺癌；ora.muc.，口腔黏膜；OV，卵巢癌；rec.，直肠。 ◉ CRC中CM03活动（左）和HNSC中CM08活动（右）在健康、邻近非肿瘤和肿瘤样本中的情况。点代表个别样本。结肠/直肠-CRC：健康，n = 16；邻近，n = 51；肿瘤，n = 132。口腔黏膜-HNSC：健康，n = 23；邻近，n = 27；肿瘤，n = 73。双尾未配对Wilcoxon检验。 ◉ 左侧，显示个体癌症类型中细胞亚群对的共现情况的热图（方法）。右侧，显示个体对在多少种癌症类型中被检测到的条形图。仅显示在至少三种癌症类型中被检测到的对。 ◉ 不同癌症类型中健康、邻近非肿瘤和肿瘤样本中cCM02的样本平均活动（方法）。 ◉ CRC（左）和HNSC（右）中cCM02活动在健康、邻近非肿瘤和肿瘤样本中的情况。点代表个别样本，与e中的一致。双尾未配对Wilcoxon检验。 ◉ 在肿瘤进展过程中，共现cCM02网络的动力学（方法）。 ◉ 在TCGA癌症类型中，肿瘤与邻近非肿瘤样本之间cCM02程序的差异表达。BLCA，膀胱尿路上皮癌；BRCA，乳腺癌；COAD，结肠腺癌；ESCA，食管癌；KICH，肾嗜色细胞癌；KIRP，肾乳头状细胞癌；LIHC，肝细胞癌；LUSC，肺鳞状细胞癌；PRAD，前列腺腺癌；STAD，胃腺癌；THCA，甲状腺癌；UCEC，子宫内膜癌。 ◉ cCM02程序在自发消退或进展为癌症结果的癌前病变中的表达。双尾未配对Wilcoxon检验。 ◉ 对于e、h、k中的箱线图，中心线表示中位数，箱体上下限表示四分位数，须线延伸至1.5倍四分位距内的最高和最低值。来源数据

Para_02

先前的研究表明，肿瘤周围组织中存在遗传改变，并表现出介于健康组织和肿瘤组织之间的独特中间状态。
因此，我们使用邻近非肿瘤样本作为癌前组织的替代物。
为了研究肿瘤进展过程中的多细胞动态变化，我们关注了八种癌症类型，这些类型具有匹配的健康组织、肿瘤组织和邻近非肿瘤组织样本（图5c）。
在各种癌症类型的肿瘤样本中观察到健康CM活动显著减少，这表明组织特异性多细胞生态系统的广泛破坏（图5d,e和扩展数据图11a）。
值得注意的是，CM08在健康组织、邻近非肿瘤组织和肿瘤组织中保持一致的活性，这表明健康组织中的多细胞生态系统在皮肤鳞状细胞癌中相对保存完好（扩展数据图11a）。
这一发现与皮肤癌（如黑色素瘤和皮肤鳞状细胞癌）相比其他癌症类型对免疫治疗的优越反应相一致，强调了在癌症研究框架内将健康生态系统纳入背景的重要性（补充图9和10以及补充表10）。

Para_03

鉴于癌症中多细胞生态系统的广泛重塑，我们接下来检查了不同癌症类型中细胞亚群的共现情况。
我们的分析显示，癌症相关的亚群在多种癌症类型中频繁共现（图5f），表明了一个跨癌症共享的收敛性多细胞生态系统出现。
为了进一步探索这一点，我们将CoVarNet应用于八种癌症类型，并识别出四种癌症相关的CMs（cCMs）（扩展数据图11b–d）。
其中，cCM02主要由癌症相关的细胞亚群组成，在大多数癌症类型的肿瘤样本中富集（扩展数据图12a,b），代表了一种癌症相关的TME生态系统。
值得注意的是，cCM02的活性在各种癌症类型中从健康组织到邻近非肿瘤组织，再到肿瘤组织逐渐增强（图5g,h和扩展数据图12c），突显了其作为肿瘤进展指标的作用。
我们还观察到，在肿瘤样本中，cCM02内的细胞亚群共现程度比邻近非肿瘤样本更高，提供了肿瘤进展的明显证据（图5i）。
综上所述，这些发现突显了在肿瘤进展过程中两种多细胞生态系统的同步重布——表现为组织特异性健康组织结构的丧失以及一种收敛性癌症生态系统的出现（扩展数据图12d）。

Para_04

对cCM02的进一步细胞因子分析显示，细胞间调控的关键介质包括干扰素、IL-18和IL-15（扩展数据图12e和补充表11），这与一项近期研究结果一致，该研究强调CD8+ T细胞来源的IFNγ在与TNF相比时是TME的关键调节因子。
此外，DIALOGUE分析识别出一种与肿瘤样本中cCM02活性增加相关的MCP，其特征是S100家族成员基因（S100A2、S100A9和S100A8）在大多数细胞亚群中的上调（扩展数据图12f和补充表12）。
该TME程序通过来自癌症基因组图谱（TCGA）的外部数据集进行了验证（图5j）。
为了评估其临床意义，我们检查了51名已知预后的非侵袭性肺部病变中的表达。
值得注意的是，进展为浸润性肺癌的非侵袭性病变比自发消退的病变表现出更高的该程序表达（图5k），这表明其在癌症早期诊断中的潜力。

Discussion

Para_01

理解不同细胞类型如何协调以维持组织稳态并参与疾病进展仍然是生物学中的一个基本挑战。
在此，我们提出了一种计算框架，用于系统地识别跨组织共现的细胞模块及其在癌症中的重布线。
我们整理的泛组织和泛癌症单细胞图谱是社区的宝贵资源。
CoVarNet弥合了已知的细胞多样性与组织复杂组织和功能之间的差距。
通过将细胞模块与表型数据联系起来，我们发现了基本的生物学见解，突出了细胞模块作为研究多细胞组织结构的基础。
这些发现阐明了多细胞生态系统的核心原则，并推进了我们对健康和疾病中组织水平协调的理解，为未来的研究和潜在治疗洞察打开了新的途径。

Para_02

从方法论上看，CoVarNet 在利用空间数据识别细胞微环境或空间域方面相比现有策略具有多项优势。
首先，空间数据集通常受到基因覆盖范围或分辨率的限制，阻碍了多细胞生态系统的全面分析。
相比之下，我们的方法利用单细胞转录组来定义细粒度的细胞模块，这些模块可以映射到空间数据上，以发挥两种模态的优势。
例如，CM02 和 CM03 的空间映射揭示了不同的分布情况，这些在仅凭空间数据的情况下并不明显。
该框架能够在广泛的生物背景下实现整合性的多模态分析。
其次，许多现有方法依赖于空间邻近性来推断细胞间关系，可能会忽略更广泛的协调机制。
相比之下，我们的方法基于共现模式，能够捕捉局部和远距离的多细胞相互作用，这可能对于理解复杂的网络（如系统性免疫和跨组织调控）至关重要。

Para_03

本研究存在一些局限性。
我们当前的框架并未明确纳入上皮细胞、细胞外基质或微生物组成分。
在未来分析中包括这些关键要素将提供更全面的组织水平功能协调视角。
此外，将协调的细胞间网络与细胞内调控回路相结合，有望更深入地理解组织功能。
扩大分析范围至更大的队列和更广泛的表型将进一步推进我们对多细胞生态系统及其在转化医学中的意义的理解。

Methods

Single-cell data collection and preprocessing of healthy samples

健康样本的单细胞数据收集与预处理

Para_01

为了构建一个全面的跨组织细胞图谱，我们收集了单细胞RNA测序数据集，并通过Scanpy48工具包进行了质量控制程序，具体细节见后续章节（扩展数据图1和补充表1）。默认参数被使用，除非另有说明。

Data collection

数据收集

Para_01

我们包含了符合以下标准的成人样本的scRNA-seq数据集：(1) 使用新鲜样本，而非冷冻样本；(2) 基于细胞类型富集纳入样本：(a) 无细胞类型富集；(b) 包含免疫、上皮、内皮和基质区室的混合样本；(c) 富集免疫或非免疫细胞群体；以及(3) 使用10x Genomics平台生成单细胞数据，而非单核数据。这些标准是为了减少数据集之间的批次效应。
最终，共纳入了来自26个队列的33个数据集，共同代表了35种人类组织的细胞图谱。

Quality control

质量控制

Para_01

为了标准化使用不同版本人类基因组组装标注的数据集，我们将转录组限制在三个最常用的10x Genomics基因注释中发现的21,812个共同基因，具体为GRCh38（Ensembl 84）、GRCh38（Ensembl 93）和GRCh38（GENCODE v32/Ensembl 98）。
原始研究中被识别为低质量或生殖细胞的细胞被排除，仅保留满足以下标准的细胞：500–8,000个基因，1,000–100,000个基因计数，且线粒体基因计数低于20%。
我们对每个队列应用了Scrublet50，该工具集成于Scanpy中，并移除了在所有队列中双细胞评分超过第90百分位的细胞。
随后排除了具有少于50个高质量细胞的样本。
最终，分析包含了超过700个通过严格质量控制措施的样本。

Preprocessing

预处理

Para_01

从所有数据集的联合基因计数矩阵开始，我们通过使用比例因子10,000对每个细胞的总计数进行归一化（库大小），然后进行对数变换，得到了归一化的基因表达矩阵。
然后使用函数 scanpy.pp.highly_variable_genes 选择高度可变基因（HVGs），参数如下：(n_top_genes=2000, flavor = "cell_ranger", batch_key = "datasetID")。
值得注意的是，在移除特定基因后进行了 HVG 选择，这些基因包括免疫球蛋白基因、T 细胞受体基因、核糖体蛋白编码基因、热休克蛋白相关基因和线粒体基因。
使用函数 scanpy.pp.regress_out 解决了若干混杂因素，包括每个细胞的总基因计数、线粒体基因计数的百分比以及细胞周期。
最后，所有细胞中的 HVGs 被中心化和标准化。

Single-cell data integration and annotation

单细胞数据整合与注释

Para_01

为了整合这些大规模数据集，我们使用了 Scanpy 工具包，默认参数除非另有说明。

Benchmarking integration methods

基准测试集成方法

Para_01

为了确定最适合我们数据集的整合方法，我们使用scIB来评估几种常用的基于Python的工具：BBKNN、Harmony、Scanorama以及基于深度学习的scVI、scANVI和SCALEX。
在scIB的14个指标中，HVG和轨迹的生物学保守性不适用，由于内存需求超过2 TB，kBET指标被排除。
总体得分是通过批次校正和生物学方差保守性的加权平均值（40/60）计算得出的。
重要的是，我们分别对整个图谱和子图谱进行了两次独立的基准测试分析。
最后，BBKNN成为表现最佳的工具，并用于泛组织数据集的整合（扩展数据图2）。

Dataset integration

数据集集成

Para_01

对中心化和标准化的高变基因表达矩阵进行了主成分分析，以提取50个主成分。
然后使用BBKNN（集成到Scanpy中）并以数据集作为批次变量执行。
然后使用批次校正后的图来执行UMAP56，以在二维布局中可视化细胞。

重医张泽民院士 | 今日Nature | 全面的单细胞转录组图谱，全文精读

正文

请到「今天看啥」查看全文

Para_02

Para_03

Fibroblast-engaged menopausal trajectory

Para_01

Para_02

Para_03

Para_04

Multicellular rewiring in cancer

Para_01

Para_02

Para_03

Para_04

Discussion

Para_01

Para_02

Para_03

Methods

Single-cell data collection and preprocessing of healthy samples

Para_01

Data collection

Para_01

Quality control

Para_01

Preprocessing

Para_01

Single-cell data integration and annotation

Para_01

Benchmarking integration methods

Para_01

Dataset integration

Para_01

Cell clustering and annotation

请到「今天看啥」查看全文