正文
(4)
切换
pip
和
conda
镜像源
(5)
虚拟环境的创建
3.
RDKIT
工具包的使用
(1)
基于
RDKit
的分子读写
(2)
基于
RDKit
的分子绘制
(3)
基于
RDKit
的分子指纹与分子描述符
(4)
基于
RDKit
的化合物相似性与子结构
4.
药物综合数据库的获取方法
(1)
基于
requests
的基本爬虫操作
(2)
小分子数据库
PubChem
数据获取
(
pubchempy / requests
)
(3)
蛋白质数据库
PDB
、
UniProt
数据获取
5.
深度学习辅助药物设计
(1)
神经网络基本概念与
sklearn
工具包介绍
(2)
图神经网络与消息传递机制基本知识
(3)
Transformer
模型基本知识:分词、位置编码、注意力机制、编码器、解码器、预训练
-
微调框架、
huggingface
生态介绍
(4)
模型的评估与验证:准确率、精确率、召回率、
F1
分数、
ROC
曲线、
AUC
计算,平均绝对误差、均方差、
R2
分数、可释方差分数,交叉验证等
第
2
天:顶刊复现专题
1——
分子与生化反应的表示学习与性质预测助力药物发现
培训背景:
在人工智能辅助药物发现(
AIDD
)中,
分子与生化反应的表示学习与性质预测
是整个研究流程的基石。分子的结构决定其功能,如何将复杂的分子结构和生化反应过程有效地表示为计算模型能够理解的形式,是实现高效预测和优化的前提。通过构建合理的分子表示(如图神经网络、
SMILES
编码、指纹等),我们可以让
AI
模型捕捉关键的化学特征,进而用于预测分子的物理化学性质、生物活性、毒性等,为后续的虚拟筛选、分子生成与反应设计提供可靠基础。因此,本专题不仅奠定了
AIDD
中建模与预测能力的核心能力框架,也为整个药物发现过程中的智能决策打下了坚实基础。
培训内容
1:
Nature Machine Intelligence
|基于注意力的神经网络在化学反应空间映射中的应用《
Mapping the space of chemical reactions using attention-based neural networks
》
1.
数据集
1.1.
Pistachio
数据集:包含
260
万化学反应,来自专利数据,涵盖
792
个反应类别。数据经过去重和有效性过滤(使用
RDKit
)。
1.2.
USPTO 1k TPL
数据集:基于
USPTO
专利数据,包含
44.5
万反应,通过原子映射和模板提取生成
1,000
个反应模板类别。
1.3.
Schneider 50k
数据集:公开数据集,包含
5
万反应,
50
个类别,用于与传统指纹方法对比。
2.
模型。
研究对比了两种
Transformer
架构:
2.1.
BERT
分类器:基于编码器的模型,通过掩码语言建模预训练后,在分类任务上微调,使用
[CLS]
标记的嵌入作为反应指纹(
rxnfp
)。
2.2.
Seq2Seq
模型:编码器
-
解码器结构,将分类任务分解为超类、类别和具体反应的层级预测。两者均采用简化版
BERT
(隐藏层
256
维),输入为未标注的
SMILES
序列,无需反应物
-
试剂区分或原子映射。
3.
训练
。模型训练分为两步:
3.1.
预训练:
BERT
通过掩码
SMILES
令牌预测任务进行自监督学习,学习反应通用表示。
3.2.
微调:在分类任务上优化模型,使用交叉熵损失,学习率
2×10⁻⁵
,序列长度
512
。评估采用混淆熵(
CEN
)和马修斯相关系数(
MCC
)以处理数据不平衡。
培训内容
2:
TOP
期刊|基于深度学习的生化反应产量预测《
Prediction of chemical reaction yields using deep learning
》
1.
数据。研究使用了三类数据:
1.1.
Buchwald-Hartwig HTE
数据集:包含
3955
个
Pd
催化
C-N
偶联反应,涵盖
15
种卤化物、
4
种配体、
3
种碱和
23
种添加剂组合,产率通过统一实验测量,数据质量高。
1.2.
Suzuki-Miyaura HTE
数据集:包含
5760
个反应,涉及
15
对亲电
/
亲核试剂、
12
种配体、
8
种碱和
4
种溶剂的组合,产率分布均匀。
1.3.
USPTO
专利数据集:从公开专利中提取,包含不同规模(克级与亚克级)的反应产率,数据噪声大且分布不一致,需通过邻近反应产率平滑处理以提升模型表现。
2.
模型。
核心模型基于预训练的
rxnfp
(反应指纹)
BERT
架构,新增回归层构成
Yield-BERT
。输入为标准化反应
SMILES
,通过自注意力机制捕捉反应中心及关键试剂的上下文信息。模型无需手工特征(如
DFT
计算描述符),直接端到端预测产率。实验表明,其性能优于传统方法(如随机森林和分子指纹拼接),尤其在
HTE
数据上接近化学描述符的预测水平,且参数鲁棒性高(超参数调整影响小)。
3.
训练。训练分为两步:
3.1.
预训练:
BERT
通过掩码语言任务学习
SMILES
的通用表示。
3.2.
微调:采用简单
Transformers
库和
PyTorch
框架,以
MSE
损失优化回归层,学习率(
2×10⁻⁵
)和
dropout
率(
0.1–0.8
)为主要调参对象。
HTE
数据采用随机
/
时间划分验证,
USPTO
数据通过邻近反应产率平滑缓解噪声影响。小样本实验(
5%
训练数据)显示模型能快速筛选高产反应,指导合成优化。
培训内容
3:
TOP
期刊|
基于
T5Chem
模型的生化反应表示学习与性质预测
:
《
Unified Deep Learning Model for Multitask Reaction Predictions with Explanation
》
1.
数据来源和处理。
通过自监督预训练与
PubChem
分子数据集进行训练,以实现对四种不同类型的化学反应预测任务的优异性能。模型处理包括反应类型分类、正向反应预测、单步逆合成和反应产率预测。
2.
模型架构和原理
。
T5Chem
模型是基于自然语言处理中的
“Text-to-Text Transfer Transformer”(T5)
框架开发的统一深度学习模型,该模型通过适应
T5
框架来处理多种化学反应预测任务。
T5Chem
模型包含编码器
-
解码器结构,并根据任务类型引入了任务特定的提示和不同的输出层,如分子生成头、分类头和回归头,以处理序列到序列的任务、反应类型分类和产品产率预测。
3.
训练过程和细节。
3.1.
T5Chem
模型首先在
PubChem
的
97 million
分子上进行自监督预训练,使用
BERT
类似的
“masked language modeling”
目标。
3.2.
在预训练阶段,源序列中的
tokens
被随机掩蔽,模型的目标是预测被掩蔽的正确的
tokens
。
3.3.
预训练完成后,模型在下游的监督任务中进行微调,使用不同的任务特定提示和输出层。
3.4.
模型在测试阶段通过生成分子
token by token
的方式进行预测,直到生成
“
句子结束标记
”
或达到最大预测长度。
通过培训可以掌握的内容:
1.
分子与化学反应的表示方法。学习如何将分子和化学反应编码为机器可处理的格式,如
SMILES
(
Simplified Molecular-Input Line-Entry System
)和反应
SMILES
。理解分子指纹(如
Morgan
指纹)和反应指纹(如
rxnfp
)的构建方式,以及它们在化学信息学中的应用。掌握
Transformer
架构(如
BERT
)如何用于化学反应的特征提取,并生成具有化学意义的向量表示。
2.
深度学习在化学反应预测中的应用。了解如何利用序列到序列(
Seq2Seq
)模型和
BERT
进行化学反应分类(如反应类型识别)和产率预测。学习如何通过自注意力机制分析化学反应的关键部分(如反应中心、试剂影响),提高模型的可解释性。掌握如何利用预训练
+
微调策略,使模型在少量标注数据下仍能取得良好性能。
3.
数据驱动的化学研究范式。认识不同数据来源(如高通量实验
HTE
、专利数据
USPTO
)的特点及其对模型训练的影响。学习如何处理数据噪声,并通过数据平滑、邻近分析等方法优化模型表现。了解小样本学习在化学中的应用,例如如何用
5%-10%
的训练数据筛选高产率反应,指导实验优化。
第
3
天:顶刊复现专题
2——
蛋白质的表示学习与性质预测助力药物发现
培训背景
:
在
AIDD
中,蛋白质是药物作用的主要靶标,其结构与功能的复杂性决定了药物设计的成败。
蛋白质的表示学习与性质预测
是理解分子
-
靶点相互作用、发现候选药物的重要环节。蛋白质,尤其是酶,作为药物的主要作用靶点,其功能、结构与动力学性质直接影响药物的设计与效果。本专题通过两篇前沿研究工作展开讲解:
*
《
Enzyme function prediction using contrastive learning
》
展示了如何利用对比学习从蛋白质序列中提取高质量的功能表征,实现对酶功能的精确预测;
《
CatPred
》
*
则提出了一个整合性深度学习框架,用于体外酶动力学参数(如
Km
、
kcat
等)的预测,这对于建立药效模型与优化先导化合物至关重要。这些方法显著提升了蛋白质建模的准确性与泛化能力,为
AI
驱动的靶点发现、机制理解及候选药物筛选提供了强有力的支持。
培训内容
1:
Nature Communication
|体外酶动力学参数深度学习的综合框架《
CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters
》
CatPred
提出了一种全面的深度学习框架,用于预测体外酶动力学参数(
kcat
、
Km
、
Ki
),以解决实验测定成本高、数据稀疏和泛化能力差的问题。该方法不仅提供了准确的预测,还引入了对预测不确定性的量化,支持对训练集外(
out-of-distribution
)酶序列的稳健预测。此外,作者还构建了新的标准化数据集(
CatPred-DB
),并对多种酶表示方法进行了系统比较。
1.
数据
:
CatPred
使用的数据集来自