正文
该挑战赛名为 CASP(Critical Assessment of Protein Structure Prediction,蛋白质结构预测关键评估),自1994年起举办,旨在推动计算方法从氨基酸序列预测蛋白质三维结构的发展。参赛队伍需在比赛前对未知结构的蛋白进行预测,之后与X射线晶体学、冷冻电镜等实验数据进行对比验证。
AlphaFold 在2020年的预测结果与这些传统实验方法不相上下,自此成为结构生物学界的宠儿。AlphaFold 蛋白质结构数据库现已收录约2亿个结构,2024年其开发者因此荣获诺贝尔化学奖的一半。
但这仅限于蛋白质。2022年,CASP将挑战目标转向另一类复杂但极其关键的生物大分子:RNA。
RNA结构预测为何更难?
与蛋白质类似,RNA结构的解析也依赖昂贵且耗时的实验方法,而计算方法可以成为辅助工具。但RNA的结构预测难度更高。
香港中文大学计算机科学家李喻指出,部分原因是“历史上的忽视”:长期以来,RNA被认为不够“有趣”,因而研究较少。此外,RNA本身在分子层面具有复杂性,而现有可用于训练AI模型的数据量又非常有限。
尽管如此,研究者正变得愈发有创造力。越来越多的RNA结构预测工具正在出现,其中不少结合了人工智能(AI)的最新成果,包括类似ChatGPT这类大型语言模型(LLMs)。
“RNA折叠是一个非常困难的问题。”密苏里大学哥伦比亚分校的计算生物物理学家陈世杰(Shi-Jie Chen)承认,但他补充:“AI正变得越来越强大。”
RNA:曾被忽视的“功能分子”
长期以来,RNA被视为DNA与蛋白质之间的“中介”。尽管只有一小部分人类基因组编码蛋白质,但大量非编码DNA会被转录成RNA。过去几十年,科学家发现这些非编码RNA在正常细胞功能中扮演着至关重要的角色,也参与多种疾病的发生。
理解这些RNA如何发挥功能,仍然是一个悬而未决的课题。科学家希望通过解析RNA的三维结构来揭示其功能机制,体现“结构决定功能”的生物学经典理念。
正如李喻所说:“在生物学中,我们假设序列决定结构,结构决定功能。”