科学家开发知识引导的图数据学习法，解决药物互作用预测场景数据受限难题（微信文章未删减版）

我们在去药店买药时，会发现这样一种普遍的现象：不同的药物具有不同的颜色、形状和功效。

那么，这些药物哪些可以同时服用，哪些不能同时服用？我们能不能提前了解到不同药物之间的协同效应呢？

带着这样的思考，以机器学习为主要研究方向的清华大学电子工程系助理教授姚权铭，开启了基于机器学习对药物性质的研究。

为解决在药物互作用预测场景下数据受限训练大模型的问题，清华大学、第四范式以及腾讯团队开发出图神经网络 EmerGNN。

图丨清华大学助理教授姚权铭（来源：姚权铭）

姚权铭本科毕业于华中科技大学电子与信息工程系，在香港科技大学计算机系获得博士学位，研究方向为机器学习中的优化算法。

随后，他加入人工智能独角兽第四范式任高级科学家，创建和领导该公司的机器学习组，成为国内最早一批从事结构化数据与机器学习自动化方法的研究小组。

期间，姚权铭与团队开发的抗燥标签算法 Co-teaching（NeurIPS 2018），总引用达近 2000 余次，已成为该领域的基石性工作；表格数据特征自动生成算法 AutoCross（KDD 2019），已集成公司核心产品 AIOS，服务国有五大行助理金融理财产品推荐；自动化图学习系列技术（ICDE 2019、NeurIPS 2020等），在图学习领域的著名榜单 OGB 上常居榜首。

一个起点：新药互作用预测

研究人员借助医药网络在深度学习中的先验知识和药物研发中的共性知识，来降低样本数据的依赖性。

通过生物医学网络的数据信息，充分利用网络结构和节点之间的关系，首次能够基于深度学习有效地对新兴药物的相互作用（Drug-Drug Interaction，DDI）进行预测。

该团队将流程信息（如药物代谢途径）纳入到图神经网络中，提高了药物相互作用预测的准确性。EmerGNN 在流程信息方面，能够自动学习和提取特征，从而提供更多的上下文和生物医学背景知识，有助于更好地理解药物之间的相互作用机制。

该研究基于数据驱动加速药物研发的整体流程，降低在物理过程中投入的时间和成本，从而提高药物研发的筛选准确性和效率，对于药物研发具有重要的意义和潜在的应用价值。

从科学价值的角度，EmerGNN 能够通过机器学习看到从前需要研究人员直接做实验才能看到的结果，或单个样本难以体现的客观规律和高层信息，为 DDI 等领域的研究提供了新的技术手段和理论基础。

日前，相关论文以《由基于流的图神经网络和生物医学网络实现的新兴药物相互作用预测》（Emerging drug interaction prediction enabled by a flow-based graph neural network with biomedical network）为题发表在 Nature Computational Science 上[1]。

第四范式研究员张永祺博士为第一作者，清华大学助理教授姚权铭担任通讯作者。

图丨相关论文（来源：Nature Computational Science）

一种技术：知识引导的图数据学习方法

为实现有效地预测新兴药物的相互作用，研究人员将机器学习的方法用到 AI for Science 类似的问题中，并以关系结构化数据的类人学习方法作为研究的整体设计思路。

具体来说，在关系结构化数据达到模仿人脑的学习与推理能力。通过建立类人思维方式的模型，更好地理解和处理复杂的关系结构化数据。

其中，关键在于以下三点：

第一，像通过机器学习对新药的 DDI 进行预测，需要有效监督的数据，但很多问题并不是在标准机器学习场景下能解决的问题。

近期的 Transformer 主要集中在电子领域或信息领域，在实际的训练样本或测试样本，需要输入到物理过程（AI for Science阶段）时，在科学场景中获取样本的代价很高、需要漫长的等待，并且很多时候无法提供大数据。

姚权铭指出，“因此，我们以降低样本依赖性作为解决问题的突破口，通过小样本获得语言学习，并提高样本的利用率来更好地适配科学场景的数据需求价值。”

图 1丨（a）基于小样本学习技术启发的 EmerGNN 框架；（b）EmerGNN 在预测准确性、数据需求量、可解释能力方面与基线方法的比较（来源：清华大学）

第二，在除了数学和计算机领域以外，将物理、化学或生物领域的先验知识融入进标准的机器学习或深度学习模型，来实现 AI for Science，从而能够更好地调整模型设计，以及输出对科学家来说可解释性的重要结果。

需要了解的是，在科学场景下，重点并不只是在预测效果本身，更重要的是算法用后给科学领域带来的启发。

“从我们的预测结果和展现的可解释过程中，有可能看到一些直观做实验或收集数据中看不到的、更高层次的模型效果、信息或统计规律。”姚权铭表示。

图 2丨（a）人工智能助力药物研发的重要挑战：可解释性不足和样本数量稀缺；（b）现有的药物研发相关任务研究方法存在的局限（来源：清华大学）

第三，设计的算法具有一定的普遍性（可迁移性）。

“机器学习的预测不是纯‘黑盒’预测，至少需要了解药物和另外药物互相作用时包含哪些小分子，或哪种共同靶点能够让它们产生相关的副作用。这意味着我们在拥有科学知识后，需要做一个具有关键解释性的模型。”他说。

药物在生产过程中，有一些研发的物理世界的数据可以和其他药物共享，它可能导致相同的副反应，也可能有相同的小分子。

因此，要预测一个新药和已知药的副反应，重要的是看新药和已知药共性的科学知识，然后作为外部数据引入到深度学习模型或大模型中，从而能够有效地预测新药和哪种已知药物具有比较强的相互作用。

举例来说，在药物研发中，头孢拉定和头孢呋辛钠的药物分子式相似，这意味着可以开发分子式相似的不同的药物，以克服细菌的耐药性。

有意思的是，化学领域中有“性质断崖”的概念，即将分子中的官能团稍微改变后，它的化学性质可能完全相反。而性质断崖在机器学习中，是指两个类似的样本，但其级别差异性较大，这意味着学习难度巨大。

姚权铭表示：“实际上，它们的数学原理是相同的，得益于 AI for Science，让我们重新审视做分子性质预测的方法，怎么能够更好地避免性质断崖的问题。”

一类愿景：AI for Science

随着信息技术的进步和人们需求的发展，近年来，经历了数字化和智能化的浪潮。

而目前 AI for Science 面临的问题是：在原始阶段完成智能化算法之后，很多时候这些智能化算法不能很好地适配到 AI for Science 的场景中。

其中的典型问题包括：小样本数量监督数据的问题，以及训练和预测的目标会发生偏移等。

因此，设计一种方法能够自动化或自适应地设计适配科学问题下的不同任务尤为重要。解释说道：“这意味着在智能化的基础上，AI for Science的问题变为语言学习化。”

科学价值方面，除了本次研究中所提及的药物研发，该技术在城市的复杂网络模拟也具有重要价值。例如，在只有少量观测样本的情况下，进行疫情传播模拟。

“通过关系结构化数据的类人学习方法，我们能够在疫情传播模拟过程中，观测到疾病产生的变化、疫情的未来发展趋势等。”姚权铭说。

该模型的优势集中体现在：

第一，观测样本的利用率高，也就是说，在实际场景中收集阴性或阳性样本数量可相应减少。

第二，具有科学知识的迁移性、延展性和扩增性。

第三，能够自动化适应和设计模拟各城市的疫情传播，而不用每个城市都重复开发相关模型。因此，其比之前的一些算法模拟效果得更好。

姚权铭认为，机器学习目前在人机交互、ChatGPT、AI for Science 中发挥作用，极大程度扩增了 AI 结合社会生活和需求的各个场景，未来它还会持续在数字化方向发挥作用。

参考资料：

1. Zhang, Y., Yao, Q., Yue, L. et al. Emerging drug interaction prediction enabled by a flow-based graph neural network with biomedical network. Nature Computational Science 3, 1023–1033 (2023). https://doi.org/10.1038/s43588-023-00558-4

2. Yaqing Wang, Zeifei Yang, Quanming Yao. Accurate and Interpretable Drug-drug Interaction Prediction Enabled by Knowledge Subgraph Learning. Communications Medicine (Nature Series). https://www.nature.com/articles/s43856-024-00486-y.pdf

3. Quanming Yao, Zhenqian Shen, Yaqing Wang, Dejing Dou. Property-Aware Relation Networks for Few-Shot Molecular Property Prediction. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). https://ieeexplore.ieee.org/document/10443285

4. Xu Wang, Huan Zhao, Wei-Wei Tu, Quanming Yao. Automated 3D Pre-Training for Molecular Property Prediction. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). https://dl.acm.org/doi/10.1145/3580305.3599252

本文内容不代表平台立场，不构成任何投资意见和建议，以个人官网/官方/公司公告为准。

#In Science We Trust#

小程序/APP：络绎科学

官网：https://www.luoyikexue.com