主要观点总结
本文介绍了人工智能(AI)对科学界产生的重大影响,特别是在2024年诺贝尔奖颁发后,AI在科学研究中的应用得到了广泛关注。文章详细描述了AI如何赋能科学家,推动各领域研究进步,以及面临的现实问题和挑战,如数据、算力等。同时,也介绍了西湖大学在AI研究方面的积极探索和取得的成果。
关键观点总结
关键观点1: AI在科学研究中的应用已经成为一个新的研究范式,推动各领域研究进步。
AI的赋能使得科学家能够更高效地处理和分析数据,识别模式和提出假设,从而加速科学研究的进程。此外,AI也在跨学科研究中发挥着重要作用,打破了学科界限。
关键观点2: AI研究面临着数据、算力等现实问题和挑战。
高质量、统一标准的数据是AI研究的基础,而算力则是支撑AI研究的重要资源。目前,高校面临着算力资源不足的问题,制约了科学发展和创新。因此,加强高校算力储备,提高科研人员的计算资源利用效率是当务之急。
关键观点3: 西湖大学在AI研究方面走在了国内高校的前列。
西湖大学在计算中心的建设上,不仅构建了先进的算力系统,还打造了领先的算力平台AIStation,为全校各研究机构提供高质量、高可靠性、高定制化的科学计算和数据分析解决方案,满足了各学科领域与人工智能融合对于大规模数据处理和大规模科学计算的需求。
正文
2018年,西湖大学成立,其高性能计算中心几乎同时成立,为学校“高起点、小而精、研究型”的办学定位提供算力支撑。
2020年,西湖大学开始携手浪潮信息等企业共建计算中心,满足各学科领域对于大规模数据处理和大规模科学计算的需求。
正是在这些算力的支持下,申恩志才得以顺利地进行自己的那项传统方法无法进行的研究。
申恩志是西湖大学非编码核酸生物学实验室的研究员,他的研究对象是非编码RNA。
非编码RNA,即那些不编码蛋白质的RNA。从DNA到RNA再到蛋白质,这是遗传学的“中心法则”,然而,这条“中心法则”中的DNA、RNA、蛋白质,3种物质在数量上并不均等。人类的蛋白质编码基因大约有2万个,但蛋白质的种类却超过5万个,而在所有的RNA中,98%都是没有编码蛋白质的非编码RNA。MicroRNA
(小RNA,是非编码RNA的一种)
曾两次获得过诺贝尔奖。
然而,因为非编码RNA不编码蛋白质,要研究他们的分子机制和生理功能,“经典生物化学缺少技术工具支撑”。且随着高通量技术带来的数据指数级的膨胀,高效解析测序数据,分析出其中的调控关系,找到调控规律,用经典的方法几乎成了不可能完成的任务。
这是人类基因序列中的“暗物质”,它们庞大、复杂,在生命体里是高度动态的,可以跟很多其他生命分子相互作用、相互调节。目前的研究发现,这些非编码RNA不仅参与生物体的各种基本生命过程,且与很多重大疾病的发生密切相关。用申恩志的话讲,这些非编码RNA“可能谱写着更复杂更精确的生命现象”。
幸而,在这个时代,已经有了可以帮助科学家的AI,申恩志这个领域也正是较早利用AI实现科研模式变革的领域,正是在这个模式下,本届化学奖得主Demis Hassabis团队开发的AlphaFold自问世以来,已被广泛应用在很多生物学领域研究中。
对于新的科研模式变革,中国科学院院士鄂维南曾经评价:过去科学界的研究模式刻意称为“小农模式”,数百年里,科学家们在各自的领域内深耕细作,往往由同一团队完成从理论到开发的全过程,这是一种相对低效的,不互通有无的方式。AI for science的推进,使得我们可以消弭的界限,从统一的基础研究平台来考虑不同学科的各类不同问题,从“小农模式”转为“安卓模式”。
在申恩志那个由信息学、生化、生物物理、遗传学、制药等等各种不同背景的科研人员组成的几乎涵盖“海陆空”的实验室团队,交叉学科的研究几乎是常态,研究者们不单利用数据建模型,也用AI做分析,用AI做其他各种辅助,努力加速自己对生命研究的进程。
对于实验室中的
这些
AI
辅助,申恩志说:
“
很多疾病的发生是因为蛋白编码基因的异常导致的,如果我们了解了小
RNA
的靶向规律,理论上来说,几乎所有的疾病都能包括进来
……
我们要感谢
AI
时代的到来,把从
1
到
n
的事情留给机器去做,留出更多的时间来做从
0
到
1
的分析,我们就可以有更多的精力来真正做事,进而加快了我们对现在整个人类面临问题的解决的速度
”
。
这是个变革的时代,
AI
在前沿科技领域取得了诸如
AlphaFold2
、核聚变智能控制、新冠药物设计等诸多令人瞩目的成果,
AI for Science
正在成为一种新的研究范式。
时至今日,AI for Science在科学研究的各个阶段,从阅读文献、设计实验、材料/靶点的筛选,到数据的分析,文献的辅助写作,甚至无人实验,几乎都有了一些成型的产品。
然而,此时此刻,AI for Science的深度发展所面临的问题是什么?
杨金龙曾提到过两个方面:数据,以及,“如何打造人工智能的思维能力”。前者,高质量,统一标准的数据,需要各个学科的努力,而后者,压力给到了那些真正希望探寻智力本源的研究者们。