专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

Science:AI模拟5亿年生物进化,创造了一种「前所未有」的蛋白质

大数据文摘  · 公众号  · 大数据  · 2025-01-18 19:19

正文

请到「今天看啥」查看全文



随着 AI 技术的发展,科学家们开始尝试利用深度学习模型,如大语言模型(LLM),将这些遗传信息“解码”,以揭示蛋白质序列中隐藏的深层模式和逻辑,并通过这些模式推断、设计全新的蛋白质结构和功能。


当前,已有多个语言模型(如 ProtBERT、ProtGPT)证明了蛋白质序列中的模式能够被语言模型“解码”,从而可以帮助理解其功能。这一领域的研究还表明,随着模型规模的扩大,语言模型的能力和准确性也随之提升。


为此,研究人员使用了超过 31.5 亿条蛋白质序列、2.36 亿个蛋白质结构,以及 5.39 亿个带有功能注释的蛋白质数据来训练 ESM3 模型。该模型总共有三种不同的规模,分别为 14 亿、70 亿和 980 亿参数。


实验表明,随着模型参数规模的增加,ESM3 在生成能力和表示学习上的性能有显著提升,特别是在生成蛋白质结构时,980 亿参数的模型表现出超越现有模型的强大能力。


作为该领域的前沿成果,ESM3 不仅仅是一个传统的序列生成模型,而是一个多模态生成模型,能够同时处理蛋白质的序列、三维结构和功能。


ESM3 还展示了其在多种生成任务上的卓越性能。ESM3 使用了一种名为“生成掩码语言模型”的方法,在输入中对蛋白质的序列、结构和功能进行随机掩码,然后通过模型推理生成缺失的部分。


(来源:Evolutionary Scale)
研究人员通过随机掩码并生成序列和结构,对比生成结果与真实蛋白质的匹配情况,发现模型能够生成高质量的蛋白质序列和结构,其与真实结构的平均差异仅为 0.5Å。


此外,研究表明,ESM3 能够通过不同的提示生成具有目标功能的蛋白质,这为蛋白质设计带来了高度灵活性。与传统的三维空间中的复杂建模方法不同,ESM3 将三维结构离散化为 token,这使得它能够与序列和功能信息一同被输入模型进行处理。这种方法避免了复杂的三维空间扩散架构,使得生成过程更加高效、可控。


生成需 5 亿年进化的荧光蛋白


为了展示了 ESM3 模型在生成全新蛋白质方面的巨大潜力,研究人员尝试选择绿色荧光蛋白进行挑战。






请到「今天看啥」查看全文


推荐文章
朱莉生活日记  ·  手把手教会你有关馄饨的一切!
8 年前
全球见证分享网  ·  饶恕,是饶了别人赎了自己
8 年前