专栏名称: 测序中国

测序中国（seq.cn）：基因行业新媒体

太强啦！6篇Nature齐发！我国在医药领域再创奇迹！成为全球药学领域“领跑者”！

测序中国 · 公众号 · · 2025-05-12 19:33

正文

请到「今天看啥」查看全文

Transformer 模型基本知识：分词、位置编码、注意力机制、编码器、解码器、预训练 - 微调框架、 huggingface 生态介绍

(4) 模型的评估与验证：准确率、精确率、召回率、 F1 分数、 ROC 曲线、 AUC 计算，平均绝对误差、均方差、 R2 分数、可释方差分数，交叉验证等

第 2 天：顶刊复现专题 1—— 分子与生化反应的表示学习与性质预测助力药物发现

培训背景： 在人工智能辅助药物发现（ AIDD ）中， 分子与生化反应的表示学习与性质预测 是整个研究流程的基石。分子的结构决定其功能，如何将复杂的分子结构和生化反应过程有效地表示为计算模型能够理解的形式，是实现高效预测和优化的前提。通过构建合理的分子表示（如图神经网络、 SMILES 编码、指纹等），我们可以让 AI 模型捕捉关键的化学特征，进而用于预测分子的物理化学性质、生物活性、毒性等，为后续的虚拟筛选、分子生成与反应设计提供可靠基础。因此，本专题不仅奠定了 AIDD 中建模与预测能力的核心能力框架，也为整个药物发现过程中的智能决策打下了坚实基础。

培训内容 1:

Nature Machine Intelligence ｜基于注意力的神经网络在化学反应空间映射中的应用《 Mapping the space of chemical reactions using attention-based neural networks 》

1. 数据集

1.1. Pistachio 数据集：包含 260 万化学反应，来自专利数据，涵盖 792 个反应类别。数据经过去重和有效性过滤（使用 RDKit ）。

1.2. USPTO 1k TPL 数据集：基于 USPTO 专利数据，包含 44.5 万反应，通过原子映射和模板提取生成 1,000 个反应模板类别。

1.3. Schneider 50k 数据集：公开数据集，包含 5 万反应， 50 个类别，用于与传统指纹方法对比。

2. 模型。 研究对比了两种 Transformer 架构：

2.1. BERT 分类器：基于编码器的模型，通过掩码语言建模预训练后，在分类任务上微调，使用 [CLS] 标记的嵌入作为反应指纹（ rxnfp ）。

2.2. Seq2Seq 模型：编码器 - 解码器结构，将分类任务分解为超类、类别和具体反应的层级预测。两者均采用简化版 BERT （隐藏层 256 维），输入为未标注的 SMILES 序列，无需反应物 - 试剂区分或原子映射。

3. 训练。模型训练分为两步：

3.1. 预训练： BERT 通过掩码 SMILES 令牌预测任务进行自监督学习，学习反应通用表示。

3.2. 微调：在分类任务上优化模型，使用交叉熵损失，学习率 2×10⁻⁵ ，序列长度 512 。评估采用混淆熵（ CEN ）和马修斯相关系数（ MCC ）以处理数据不平衡。

培训内容 2:

TOP 期刊｜基于深度学习的生化反应产量预测《 Prediction of chemical reaction yields using deep learning 》

1. 数据。研究使用了三类数据：

1.1. Buchwald-Hartwig HTE 数据集：包含 3955 个 Pd 催化 C-N 偶联反应，涵盖 15 种卤化物、 4 种配体、 3 种碱和 23 种添加剂组合，产率通过统一实验测量，数据质量高。

1.2. Suzuki-Miyaura HTE 数据集：包含 5760 个反应，涉及 15 对亲电 / 亲核试剂、 12 种配体、 8 种碱和 4 种溶剂的组合，产率分布均匀。

1.3. USPTO 专利数据集：从公开专利中提取，包含不同规模（克级与亚克级）的反应产率，数据噪声大且分布不一致，需通过邻近反应产率平滑处理以提升模型表现。

2. 模型。核心模型基于预训练的 rxnfp （反应指纹） BERT 架构，新增回归层构成 Yield-BERT 。输入为标准化反应 SMILES ，通过自注意力机制捕捉反应中心及关键试剂的上下文信息。模型无需手工特征（如 DFT 计算描述符），直接端到端预测产率。实验表明，其性能优于传统方法（如随机森林和分子指纹拼接），尤其在 HTE 数据上接近化学描述符的预测水平，且参数鲁棒性高（超参数调整影响小）。

3. 训练。训练分为两步：

3.1. 预训练： BERT 通过掩码语言任务学习 SMILES 的通用表示。

3.2. 微调：采用简单 Transformers 库和 PyTorch 框架，以 MSE 损失优化回归层，学习率（ 2×10⁻⁵ ）和 dropout 率（ 0.1–0.8 ）为主要调参对象。 HTE 数据采用随机 / 时间划分验证， USPTO 数据通过邻近反应产率平滑缓解噪声影响。小样本实验（ 5% 训练数据）显示模型能快速筛选高产反应，指导合成优化。

培训内容 3:

TOP 期刊｜ 基于 T5Chem 模型的生化反应表示学习与性质预测 : 《 Unified Deep Learning Model for Multitask Reaction Predictions with Explanation 》

1. 数据来源和处理。 通过自监督预训练与 PubChem 分子数据集进行训练，以实现对四种不同类型的化学反应预测任务的优异性能。模型处理包括反应类型分类、正向反应预测、单步逆合成和反应产率预测。

2. 模型架构和原理 。 T5Chem 模型是基于自然语言处理中的 “Text-to-Text Transfer Transformer”(T5) 框架开发的统一深度学习模型，该模型通过适应 T5 框架来处理多种化学反应预测任务。 T5Chem 模型包含编码器 - 解码器结构，并根据任务类型引入了任务特定的提示和不同的输出层，如分子生成头、分类头和回归头，以处理序列到序列的任务、反应类型分类和产品产率预测。

3. 训练过程和细节。

3.1. T5Chem 模型首先在 PubChem 的 97 million 分子上进行自监督预训练，使用 BERT 类似的 “masked language modeling” 目标。

3.2. 在预训练阶段，源序列中的 tokens 被随机掩蔽，模型的目标是预测被掩蔽的正确的 tokens 。

3.3. 预训练完成后，模型在下游的监督任务中进行微调，使用不同的任务特定提示和输出层。

3.4. 模型在测试阶段通过生成分子 token by token 的方式进行预测，直到生成 “ 句子结束标记 ” 或达到最大预测长度。

通过培训可以掌握的内容：

1. 分子与化学反应的表示方法。学习如何将分子和化学反应编码为机器可处理的格式，如 SMILES （ Simplified Molecular-Input Line-Entry System ）和反应 SMILES 。理解分子指纹（如 Morgan 指纹）和反应指纹（如 rxnfp ）的构建方式，以及它们在化学信息学中的应用。掌握 Transformer 架构（如 BERT ）如何用于化学反应的特征提取，并生成具有化学意义的向量表示。

2. 深度学习在化学反应预测中的应用。了解如何利用序列到序列（ Seq2Seq ）模型和 BERT 进行化学反应分类（如反应类型识别）和产率预测。学习如何通过自注意力机制分析化学反应的关键部分（如反应中心、试剂影响），提高模型的可解释性。掌握如何利用预训练 + 微调策略，使模型在少量标注数据下仍能取得良好性能。

3. 数据驱动的化学研究范式。认识不同数据来源（如高通量实验 HTE 、专利数据 USPTO ）的特点及其对模型训练的影响。学习如何处理数据噪声，并通过数据平滑、邻近分析等方法优化模型表现。了解小样本学习在化学中的应用，例如如何用 5%-10% 的训练数据筛选高产率反应，指导实验优化。

第 3 天：顶刊复现专题 2—— 蛋白质的表示学习与性质预测助力药物发现

培训背景 ：在 AIDD 中，蛋白质是药物作用的主要靶标，其结构与功能的复杂性决定了药物设计的成败。 蛋白质的表示学习与性质预测 是理解分子 - 靶点相互作用、发现候选药物的重要环节。蛋白质，尤其是酶，作为药物的主要作用靶点，其功能、结构与动力学性质直接影响药物的设计与效果。本专题通过两篇前沿研究工作展开讲解： * 《 Enzyme function prediction using contrastive learning 》展示了如何利用对比学习从蛋白质序列中提取高质量的功能表征，实现对酶功能的精确预测；《 CatPred 》 * 则提出了一个整合性深度学习框架，用于体外酶动力学参数（如 Km 、 kcat 等）的预测，这对于建立药效模型与优化先导化合物至关重要。这些方法显著提升了蛋白质建模的准确性与泛化能力，为 AI 驱动的靶点发现、机制理解及候选药物筛选提供了强有力的支持。

培训内容 1:

Nature Communication ｜体外酶动力学参数深度学习的综合框架《 CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters 》

CatPred 提出了一种全面的深度学习框架，用于预测体外酶动力学参数（ kcat 、 Km 、 Ki ），以解决实验测定成本高、数据稀疏和泛化能力差的问题。该方法不仅提供了准确的预测，还引入了对预测不确定性的量化，支持对训练集外（ out-of-distribution ）酶序列的稳健预测。此外，作者还构建了新的标准化数据集（ CatPred-DB ），并对多种酶表示方法进行了系统比较。

1. 数据： CatPred 使用的数据集来自 BRENDA 和 SABIO-RK 数据库，作者构建了 CatPred-DB ，包括： 23197 条 kcat ， 41174 条 Km 和 11929 条 Ki 数据，每条记录都包含酶的氨基酸序列、 AlphaFold 或 ESMFold 预测的结构、底物的 SMILES 表达式。数据经过清洗和标准化处理，去除缺失值和重复值，并对参数取对数转换以符合正态分布。

2. 模型： CatPred 采用模块化设计，酶和底物分别通过不同的神经网络模块进行表征学习，并采用概率回归输出（高斯分布形式的均值和方差），允许进行不确定性估计（ aleatoric + epistemic ）。

3. 训练

3.1. 所有模型采用负对数似然损失函数（ NLL ）训练，以同时预测参数均值和不确定性。

3.2. 使用训练 - 验证 - 测试三分法（ 80%-10%-10% ），并设立 “ 训练集外 ” 的测试子集用于泛化能力评估。

3.3. 为了评估不确定性， CatPred 使用 10 个模型的集成，通过不同初始参数训练，以此量化 epistemic uncertainty 。

3.4. 模型训练时考虑了不同相似性（序列 identity<99% 、 80% 、 60% 、 40% ）的测试集，体现其鲁棒性。

培训内容 2:

Science ｜基于对比学习的 蛋白质 分类 属性预测 《 Enzyme function prediction using contrastive learning 》

1. 数据来源和处理： CLEAN 模型的训练基于 UniProt 数据库中的高质量数据，该数据库收录了约 1.9 亿个蛋白质序列。 CLEAN 模型以氨基酸序列作为输入，输出按可能性排序的酶功能列表（以 EC 编号为例）。为了验证 CLEAN 的准确性和鲁棒性，作者进行了广泛的 in silico 实验，并将 CLEAN 应用于内部收集的未表征的卤酶数据库（共 36 个）进行 EC 编号注释，随后通过案例研究进行体外实验验证。

2. 模型架构和原理： CLEAN 模型采用了对比学习框架，目标是学习一个酶的嵌入空间，其中欧几里得距离反映了功能相似性。嵌入是指蛋白质序列的数值表示，它由机器可读，同时保留了酶携带的重要特征和信息。在 CLEAN 的任务中，具有相同 EC 编号的氨基酸序列具有较小的欧几里得距离，而具有不同 EC 编号的序列则具有较大的距离。

3. 训练过程和细节：

3.1. 在训练过程中， CLEAN 模型使用对比损失函数进行监督训练，通过优先选择与锚点（ anchor ）嵌入具有小欧几里得距离的负序列，以提高训练效率。

3.2. 模型使用语言模型 ESM1b 获得的蛋白质表示作为前馈神经网络的输入，输出层产生细化的、功能感知的输入蛋白质嵌入。

3.3. 预测时，通过计算查询序列与所有 EC 编号聚类中心之间的成对距离来预测输入蛋白质的 EC 编号。

3.4. CLEAN 还开发了两种方法来从输出排名中预测自信的 EC 编号：一种是贪婪方法，另一种是基于 P 值的方法。

通过培训可以掌握的内容：

1. 蛋白质表示学习的基本方法：理解蛋白质序列、结构信息如何被编码为适用于深度学习模型的向量表示，包括基于序列的预训练模型（如 ESM 、 ProtBERT ）和结构感知模型的原理与应用。

2. 对比学习在生物功能预测中的应用：深入学习对比学习策略，掌握如何通过正负样本构建来提升蛋白质功能分类模型的判别能力。

3. 酶动力学参数预测建模框架：学员将理解如何结合序列、结构及辅助特征，利用深度学习模型预测关键的酶学参数（如 Km 、 kcat ），并掌握模型架构设计与性能评估的思路。

4. 评估与可解释性分析方法：学习如何分析模型预测结果，评估性能指标，并探索特征重要性等可解释性技术，帮助理解模型的决策依据。

5. 应用于真实药物研发场景的思维框架：建立从蛋白质建模到下游任务（如药物筛选、作用机制分析）的系统性理解，增强将 AI 方法应用于实际生物医药问题的能力。

第 4 天：顶刊复现专题 3—— 基于深度学习的分子生成助力药物发现

培训背景：分子生成是化学、生物学和材料科学等领域的关键技术，对于新药开发、新材料设计和化学反应预测具有重要意义。传统的分子生成方法依赖于专家知识和试错实验，耗时且成本高昂。随着人工智能技术的发展，特别是自然语言处理和扩散模型在分子生成中的应用，我们现在能够利用计算模型来加速这一过程。本课程将介绍从 NLP 到扩散模型的设计模式，这些模型能够理解和生成分子结构，从而提高分子设计的效率和准确性。通过本课程的学习，参与者将能够掌握分子生成的最新技术和方法，以及如何将这些技术应用于实际问题。

培训内容 1 ：

Nature Communication ｜基于 端到端的图生成框架的分子生成 ：《 Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing 》

1. 数据来源和处理： Graph2Edits 模型使用了公开可用的基准数据集 USPTO-50k ，包含 50016 个反应，这些反应被正确地原子映射并分类为 10 种不同的反应类型。数据集被分为 40k 、 5k 、 5k 的反应用于训练、验证和测试集。

2. 模型架构和原理： Graph2Edits 模型是一个端到端的图生成架构，基于图神经网络（ GNN ）预测产品图的编辑序列，并根据预测的编辑序列顺序生成中间体和最终反应物。该模型将半模板方法的两阶段过程（识别反应中心和完成合成子）合并为一锅学习，提高了在复杂反应中的适用性，并使预测结果更易于解释。模型的核心是图编码器和自回归模型，用于生成编辑序列，并应用这些编辑来推断中间体和反应物。

3. 训练过程和细节：

3.1. Graph2Edits 模型使用有向消息传递神经网络（ D-MPNN ）作为图编码器，以获取原子表示和全局图特征，并预测原子 / 键编辑和终止符号。

3.2. 模型训练使用 教师强制策略 ，即使用真实的编辑序列作为模型输入。在每个编辑步骤中，模型会计算所有可能的编辑的概率，并选择最高分的 k 个编辑，将这些编辑应用于输入图以获得