专栏名称: 生物探索
探索生物科技价值的新媒体
目录
相关文章推荐
BioArt  ·  NSMB | ... ·  昨天  
生物学霸  ·  做够 4200 ... ·  昨天  
生物制品圈  ·  机器学习与AI在连续流工艺优化中的实践探索 ·  2 天前  
BioArt  ·  Molecular ... ·  2 天前  
51好读  ›  专栏  ›  生物探索

Nature Methods | 基因“看见”形态,图像“听懂”基因:OmiCLIP如何打破生命科学...

生物探索  · 公众号  · 生物  · 2025-06-07 15:30

正文

请到「今天看啥」查看全文



OmiCLIP的炼金术——将基因“翻译”成图像语言
OmiCLIP是如何实现这种神奇的“翻译”的呢?它的核心秘密在于构建一个连接 H&E 图像和转录组学数据的 双编码器(Dual-Encoder)基础模型,并通过对比学习(Contrastive Learning)的方式,让这两种看似迥异的数据模式在同一个“嵌入空间”(Embedding Space)中相互“理解”。

数据的炼金炉:ST-bank数据集
为了训练OmiCLIP,研究团队打造了一个迄今为止规模空前的、跨模态(Cross-Modality)数据集—— ST-bank。这个数据集有多庞大呢?它囊括了 220万个 成对(Paired)的组织图像斑块(Tissue Patch)和空间转录组学数据!这些数据来源于 1007个 样本,涵盖了人体 32种 不同器官类型,包括脑(Brain)、心脏(Heart)、乳腺(Breast)、皮肤(Skin)、肝脏(Liver)、肾脏(Kidney)、胚胎(Embryo)、前列腺(Prostate)等,甚至还包括了癌症(Cancer)、心力衰竭(Heart Failure)、阿尔茨海默病(Alzheimer’s Disease)等多种健康与疾病状态。
如此大规模且多样化的数据,是OmiCLIP能够学习到普适性和稳健性的关键。

基因的“翻译官”:从基因表达谱到“基因语句”
这是OmiCLIP最具创新性的设计之一。传统的转录组学数据通常以基因表达量(Gene Expression Value)矩阵的形式存在,这对于语言模型(Language Model)来说是难以直接理解的。OmiCLIP巧妙地借鉴了大型语言模型(Large Language Model, LLM)的成功经验,将每个组织斑块内表达量最高的基因符号(Gene Symbol)串联起来,形成一个独特的“基因语句”(Gene Sentence)。
举例来说,如果一个组织斑块中表达量最高的基因是“SNAP25”、“ENO2”、“CKB”和“GRIN2C”,那么它的“基因语句”可能就是“SNAP25 ENO2 CKB GRIN2C…”。这种将基因数据“语言化”的处理方式,使得 OmiCLIP 的文本编码器能够像理解自然语言(Natural Language)一样处理转录组学信息,从而打通了基因与图像之间的“语言障碍”。

双编码器的魔法:对比学习(Contrastive Learning)
OmiCLIP 采用了一个基于 CoCa 框架的双编码器结构,它包含一个图像编码器(Image Encoder)和一个文本编码器(Text Encoder)。这两个编码器各自负责将图像和“基因语句”转换成高维的数字向量(即嵌入,Embedding)。
对比学习 的精髓在于:对于成对的(即来自同一组织斑块的)图像和基因语句,OmiCLIP会努力让它们在嵌入空间中的距离尽可能近;而对于不匹配的图像和基因语句,则让它们的距离尽可能远。通过这种方式,模型逐渐学会了如何从图像中提取与基因表达相关的形态学特征,以及如何从基因语句中提取与形态学相关的分子特征,最终使两种模态的信息能够相互映射、相互补充。

OmiCLIP的稳健性:数据质量的“考验”
在实际研究中,H&E 图像的质量和空间转录组学数据的测序深度(Sequencing Depth)往往参差不齐。OmiCLIP 在这些方面表现如何呢?
该研究严谨的评估证明了OmiCLIP作为一个基础模型的强大潜力:它不仅能够连接不同的数据模态,还能应对真实世界数据中常见的质量挑战。
图像质量变异性: 研究团队通过向原始 H&E 图像添加高斯噪声(Gaussian Noise)来模拟低质量图像。OmiCLIP 在处理这些模拟低质量图像时,其图像嵌入与原始转录组学嵌入的相似性得分(Similarity Score)仍然保持了较高的水平。这表明 OmiCLIP 对图像质量的波动具有强大的抵抗力,比 PLIP 和 OpenAI CLIP 等基准模型更加稳定。
测序深度变异性: 研究团队将 ST-bank 中的样本分为高(平均11,792个唯一分子标识符,UMI)、中(平均4,512个UMI)和低(平均615个UMI)测序深度组。通过对高测序深度数据进行下采样(Downsampling)来模拟中、低测序深度。结果显示,OmiCLIP 在不同测序深度下,配对图像与原始转录组学嵌入的相似性得分依然保持了良好的性能。这强调了 OmiCLIP 对不同技术生成的数据的适应性。

Loki五大绝技——从细胞图谱到三维组织重建
基于 OmiCLIP 的强大能力,研究团队进一步开发了 Loki 平台。Loki 不仅仅是一个工具,更是一个多模态(Multimodal)分析的统一基础设施(Infrastructure),它提供了五项核心功能,每一项都旨在解决当前生物医学研究中的痛点,加速新发现:

绝技一:Loki Align(组织对齐)——解构生命的三维图谱
挑战: 想要完整地理解组织在三维空间中的复杂结构和细胞相互作用,需要将连续切片(Serial Section)的H&E图像或ST数据进行精准对齐。然而,空间畸变、生物学变异,甚至切片过程中的旋转和倾斜,都使得这一任务极具挑战性。
Loki的解决方案: Loki Align 利用 OmiCLIP 的嵌入能力,将 H&E 图像和 ST 数据中的组织斑块转换成 768 维的嵌入向量,然后运用相干点漂移(Coherent Point Drift, CPD)方法进行非刚性(Non-Rigid)配准。CPD 是一种强大的算法,它能在保持数据拓扑结构的同时,有效地处理空间扭曲。
在低噪声(Low-Noise)模拟数据中,Loki 在 ST-to-ST 对齐任务中,其对齐后数据与真值(Ground Truth)之间的平均距离仅为 0.08毫米;在图像-to-ST 对齐任务中,平均距离为 0.13毫米。在高噪声(High-Noise)模拟数据中,Loki 在 ST-to-ST 对齐任务中,平均距离为 0.12毫米;在图像-to-ST 对齐任务中,平均距离为 0.18毫米。相较于基准方法 PASTE 和 GPSA,Loki 展现出显著的优越性,后者在某些情况下对齐距离高达数毫米,甚至扭曲了组织的拓扑结构。这证明了 Loki 在处理不同噪声水平数据时的稳健性。
真实世界数据的考验: 研究团队在 八个相邻的人体小肠组织切片上测试了 Loki Align。结果显示,Loki 在图像-to-ST 对齐任务中,高变基因(Highly Variable Gene)表达的中位皮尔逊相关系数(Pearson Correlation Coefficient, PCC)在 0.67到0.80之间;在 ST-to-ST 对齐任务中,中位 PCC 在 0.62到0.83之间。同期,肯德尔相关系数(Kendall’s Tau Coefficient)在图像-to-ST 对齐任务中介于 0.16到0.27,在ST-to-ST对齐任务中介于 0.18到0.27。相比之下,PASTE 和 GPSA 的中位 PCC 在许多情况下都显著低于 Loki,甚至出现负值,表明它们对齐效果不佳。
癌症样本的精细对齐: 在 两个相邻的人体卵巢癌肉瘤(Ovarian Carcinosarcoma)切片 上,经过微调(Fine-Tuning)的 Loki 在 ST-to-ST 和图像-to-ST 对齐任务中表现最佳,中位 PCC 分别达到 0.88和0.86,肯德尔相关系数分别为 0.21和0.18。而 CAST、GPSA 和 PASTE 的中位 PCC 仅在 0.26到0.71之间。这进一步验证了 Loki 在复杂病理组织上的高精度对齐能力。
训练策略的优化: 研究发现,“预训练加微调”(Pretraining plus Fine-tuning)策略效果最佳,中位 PCC 达到 0.86,肯德尔相关系数为 0.17。纯预训练(Pure Pretraining)的效果也接近,中位 PCC 为 0.85,肯德尔相关系数为 0.18。而从头训练(Training from Scratch)的表现最差,中位 PCC 仅为 0.53,肯德尔相关系数为 0.06。这表明 OmiCLIP 的预训练对于下游任务的性能至关重要。
Loki Align 能够精准地对齐不同模态的组织切片,为构建高质量的组织三维结构提供了关键技术支持,这对于理解复杂的组织结构、细胞异质性以及疾病的空间病理学具有里程碑式的意义。






请到「今天看啥」查看全文