专栏名称: 生物探索
探索生物科技价值的新媒体
目录
相关文章推荐
生信人  ·  Nature万字综述:癌细胞代谢与抗肿瘤免疫 ·  2 天前  
BioArt  ·  Nature ... ·  22 小时前  
生物探索  ·  Nature Medicine | ... ·  昨天  
生信人  ·  癌症治疗新突破:改写 STING ... ·  6 天前  
51好读  ›  专栏  ›  生物探索

Nature Methods | 从“猜”到“预见”:AI模型PUPS揭示单细胞蛋白质定位的秘密

生物探索  · 公众号  · 生物  · 2025-05-20 16:35

正文

请到「今天看啥」查看全文


听起来很棒,对吧?但是,细胞的“城市”实在太大了,里面的“居民”和“住所”组合多到令人难以想象。HPA虽然是目前最大的蛋白质亚细胞定位数据集之一,但它只涵盖了由13,147个基因编码的蛋白质,这大约是已知人类蛋白质编码基因总数的65%。而且,每个蛋白质最多只在3个细胞系中分析过,整个数据集总共也就包含了37种细胞系。
想象一下,如果地球上只有几十个城市被绘制在地图上,而你却需要去世界上任何一个地方,这张地图显然是远远不够的。更何况,蛋白质的定位并不是一成不变的,它可能在不同细胞系之间有差异,甚至在同一个细胞系内的单个细胞之间也可能存在变异性(variability),比如细胞周期(cell cycle)等因素都可能影响蛋白质的位置。现有的数据集很难捕捉到这种细致的、跨细胞系和单细胞层面的变异。同时,通过实验手段同时标记和观察大量蛋白质也是有限制的,典型实验一次可能只能标记约30种蛋白质。
这给我们留下了一个巨大的空白:对于那些HPA中没有分析的蛋白质,以及那些未在HPA中使用的细胞系,它们的蛋白质位置信息,尤其是单细胞层面的位置信息,我们几乎一无所知。我们需要新的工具来“预测”这张缺失的地图。

PUPS登场:一款能预测“陌生”蛋白质位置的AI向导
好消息来了!来自麻省理工学院(MIT)等机构的研究人员开发了一种新的计算方法,他们称之为 PUPS(Prediction of Unseen Proteins' Subcellular localization) ,意为“预测未知蛋白质的亚细胞定位”。PUPS就像一个聪明的AI向导,它能够预测那些在训练数据集中从未见过的蛋白质在从未见过的细胞系中的亚细胞定位,而且是预测到单细胞水平!
PUPS最厉害的地方在于,它不像传统方法那样只依赖蛋白质序列或只依赖细胞图像。它巧妙地结合了两者:
蛋白质序列信息: 提供了蛋白质本身的“身份”和内在属性,使模型能够泛化到新的蛋白质。
细胞标志物图像信息: 提供了细胞内部的“环境”信息,使模型能够捕捉单细胞变异性和细胞类型特异性。
通过融合这两类信息,PUPS能够克服现有方法的局限性,预测出更全面、更精细的蛋白质定位图景。

PUPS的秘密武器:蛋白质语言和细胞图像的魔术
那么,PUPS具体是怎么做到的呢?它主要依赖两个强大的AI模型:
蛋白质语言模型(Protein Language Model): 想象一下,蛋白质序列就像一种特殊的语言。PUPS利用一个预训练的蛋白质语言模型(具体是ESM-2模型,曾被证明能准确预测蛋白质结构),来理解和学习蛋白质序列中蕴含的特征。这个模型会将蛋白质序列(取前2000个氨基酸)转化为一种高维度的“序列表示”(sequence representation),捕捉到与蛋白质定位相关的模式。同时,PUPS还训练了一个辅助任务(auxiliary task):利用这个序列表示来预测蛋白质可能属于哪个细胞区室,这有助于蛋白质序列模块更好地学习定位相关信息。
图像修补模型(Image Inpainting Model): 细胞标志物图像(cellular landmark images)是PUPS的另一个关键输入。这些图像通常标记了细胞内的几个关键结构,比如细胞核(用DAPI染色)、微管(microtubule)和内质网(endoplasmic reticulum, ER)。PUPS使用一个卷积神经网络(convolutional neural network, CNN),特别是借鉴了U-Net的架构,来从这些标志物图像中学习细胞内部的“环境”信息,生成一种“图像表示”(image representation)。神奇的是,这个模型设计得有点像“图像修补”,它利用已知的标志物信息来推断细胞内部的整体结构和潜在的空间关系。
最后,PUPS将蛋白质的“序列表示”和细胞的“图像表示”结合起来(通过连接,也就是concatenate),输入到一个新的卷积网络中,最终预测出目标蛋白质在特定细胞中的图像。模型的训练目标就是让预测的蛋白质图像与实验中实际观察到的图像尽可能相似(最小化均方误差,mean-squared error, MSE)。

真金不怕火炼:PUPS在“未见过”的实验中表现如何?
研究人员为了验证PUPS的预测能力,进行了严格的测试,包括在HPA数据集中留出(held-out)一部分数据进行测试,甚至在HPA之外进行了全新的实验验证。
首先是HPA数据集内的测试。研究人员从HPA中随机留出了9个细胞系和10,355个蛋白质用于测试,这些数据在训练过程中是完全不可见的。为了更全面地评估,他们将测试数据分成了两组:一组(holdout 1)包含与训练数据中蛋白质更相似的蛋白质,另一组(holdout 2)包含来自不同蛋白质家族、序列相似性较低的蛋白质。

结果令人振奋:
PUPS在holdout 1测试集上的蛋白质图像预测中位数MSE仅为0.00705。
在更具挑战性的holdout 2测试集上,中位数MSE也仅为0.00960。
与此形成鲜明对比的是,一个简单的基准模型(random baseline,假设蛋白质均匀分布在细胞内)的预测中位数MSE高达0.408(holdout 1)和0.412(holdout 2)。这意味着PUPS的预测误差远低于随机水平,能够非常准确地预测未知蛋白质的图像。






请到「今天看啥」查看全文