专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
目录
相关文章推荐
生物探索  ·  Nature Medicine | ... ·  19 小时前  
生物学霸  ·  安徽省发文:开展高校机构编制动态调整 ·  昨天  
生物学霸  ·  Nature ... ·  昨天  
生信宝典  ·  快讯 | ... ·  2 天前  
51好读  ›  专栏  ›  生信宝典

Cell Research 一作冯桂海专访 | 不以短期的文章产出为目标

生信宝典  · 公众号  · 生物  · 2025-06-11 21:00

主要观点总结

本文报道了冯桂海研究员及其团队构建的世界首个知识与数据联合驱动的多物种生命基础大模型GeneCompass。该模型同时处理了人类和小鼠两个物种高达1.3亿的转录组数据,通过训练整合数据信息及先验知识,实现了对基因表达调控规律的全景式学习理解,支持细胞状态变化预测及多种生命过程的精准分析。文章还涉及了GeneCompass的开发过程、难点、迭代思路、AI在科研中的机遇和挑战以及对Open Science模式的看法。

关键观点总结

关键观点1: GeneCompass大模型的特点和功能

GeneCompass是一个基础大模型,通过训练单细胞转录组数据,理解特定细胞状态中基因相互调控形成表达稳态的逻辑。模型可以应用于细胞类型注释、基因扰动预测、药物反应预测等任务,并具有定量表征基因的功能。

关键观点2: GeneCompass开发过程中的难点和解决方法

开发过程中遇到的主要难点包括模型架构设计、先验知识融入、特征有效性消融等。其中,数据处理的难度超出了预期,实验室同学进行了多轮次的手工标注以确保数据原始信息的准确。

关键观点3: GeneCompass的迭代思路和未来发展方向

GeneCompass的迭代思路包括增加数据模态的多样性、融入更多物种的数据以及优化模型架构。未来发展方向是扩大模型的应用范围,解决多物种尤其非模式物种的相关问题。

关键观点4: AI在科研中的机遇和挑战

AI的出现给生命科学带来巨大机遇,如AlphaFold的出现为蛋白从头设计和药物开发等领域带来重大利好。但同时,AI也提高了学术开展的门槛,需要多学科的高度融合交叉。此外,科研范式变革初期出现了“蹭热点”、 “抢资源”的现象,对领域持续创新和国家竞争力提升有害。

关键观点5: Open Science模式的态度和未来涉及

冯桂海研究员对Open Science模式持赞同态度,认为开放科学对解决学术诚信问题、提升大众科学素养具有重要作用。他计划在未来科研过程中涉及开放科学的模式,包括开放数据和代码。


正文

请到「今天看啥」查看全文


让模型理解特定细胞状态中,基因相互调控形成表达稳态的逻辑 ,也就是我们试图让人工智能学习细胞内基因表达的综合调控机制。有了这样一个“懂得”细胞运作的模型后,原则上所有跟基因表达相关的任务,这个模型都能提供有用的信息。比如基于模型,进行细胞类型注释、基因扰动预测、药物反应预测等,此外模型还具有定量表征基因的功能,可以微调后进行细胞命运预测和关键基因筛选等任务。

02. 除了数据输入还需要一些人为干预,这些人为的部分是怎么设计和考虑的,对于 GeneCompass 模型构建的意义是什么?


冯桂海:


模型的“人为干预”主要包括两个部分,一部分是模型的超参数,超参数调优本身就是算法的一部分,主要涉及模型的学习率、批量大小 (Batch size)、激活函数等。这些参数除了已有的一些工具模拟外,主要还是依赖我们合作者已有的实践经验,这也是领域普遍面临的问题。


另外一个“人为干预”则是我们模型特色的“ 生物先验知识融入 ”。我们在构建模型时候考虑,现代生命科学发展了近百年的时间,产生的诸如基因家族定义、启动子区等信息,一定是对模型是有帮助的,而加入哪些知识、如何加入是我们需要人为干预的,在这个选择的过程中,我们通过与生命科学领域专家深入交流,最后选定了加入的知识及加入方式,尤其通过 特征消融实验证明了这些知识对模型性 能的提升是有作用的。这样一个创新实际是生物智慧积累“干预”人工智能的一个探索。


GeneCompass 主要开发者合影GeneCompass 部分共同第一作者合影

03. GeneCompass 构建过程中最大的难点是什么,怎么解决的?整个构建过程中是否有使用 AI 来解决你的科研难题?


冯桂海:


作为首个跨物种的单细胞转录组基础大模型,在构建过程中遇到很多的困难,比如模型架构设计、先验知识融入、特征有效性消融等,但印象比较深的难点反倒是一个看起来比较简单的问题,输入数据处理。


开始我们估算了模型达到性能要求所需的数据量要达到 1 亿个 以上的单细胞,然后开始数据采集,数据主要来自 GEO 数据库,以及已经发表的专门的单细胞相关数据库。本来以为这是一个很简单的工作,但采集过程中,我们发现数据库中对数据注释质量非常的不稳定,许多样品对器官、细胞系等信息的描述非常不规范,甚至连物种、性别、发育阶段等信息的标注都是错的。而有些信息对我们建模又非常重要,因此我们发动了实验室很多的同学进行了多轮次的手工标注,确保数据原始信息的准确,这对模型性能提供了重要保障。在这过程中我们也利用了一些人工智能工具对数据进行质量控制,但由于这些人工智能工具在处理如此规模的元数据上还是有一定的局限,因此人工智能有时候还需要“人工”的支持。

04. 我国的科研工作者什么时候可以用上 GeneCompass?GeneCompass 下一步的迭代会是怎样的更新,希望能实现什么样的功能?







请到「今天看啥」查看全文