正文
aid677062.txt | sed
's/\.Cl//'
> aid677062.smi
awk主要是进行了前后的颠倒,并且在标题后增加active标签,sed主要是将Cl进行替换,替换成空,中间用管道链接,输出到smi文件格式。
(d)将每个靶点的内容合并为单个文件
1
cat aid*.smi > activaes.msi
T.gondii
和
C.pavum
分别包含156个和89个活性化合物。你可以在这里下载合并好的文件。
1.2.2 创建诱饵数据集
该在线网站说只需要10min,实际上需要1-2天左右时间
由于这些靶点的无活性配体数量较少,我们使用诱饵数据库Database of Useful Decoys:Enhanced(DUDE)方法来从ZINC数据库中进行采样。这些诱饵被选择的方法为化学性质不相同(即和有活性的配体相比较不相似,认为是不结合的)。但分子质量,logP,旋转键和氢键受体供体这些简单的分子参数是相同的。
(a)使用DUDE网站创建诱饵数据集,将会生成dude-decoys.tar.gz文件,里面包含50个参数匹配的诱饵。
(b)将诱饵结合进入单个文件
1
cat decoys/* | grep -v ligand > decoys.msi
点此下载decoys文件,(
T.gondii
诱饵和活性化合物。
C.pavum
诱饵和活性化合物)。
1.2.3 生成三维结构
我们将使用开源软件RDKit利用2D SMILES生成3D构像
(a)将RDKit写入你的PYTHONPATH,并且执行rdconf.py脚本
1
2
wget http://bits.csb.pitt.edu/tdtCDPK1/rdconf.py
chmod + x rdconf.py
(b)每个active/decoy生成单一构像
1
2
rdconf.py --maxconfs 1 decoys.smi decoys.sdf
rdconf.py --maxconfs 1 actives.smi actives.sdf
(c)将文件合并
1
cat actives.sdf decoys.sdf > combined.sdf
由于有两个文件,我们将
T.gondii
和
C.pavum
分别命令为gondii.sdf和parvum.sdf
1.3 对接
我们使用SMINA通过对接化合物进入受体结构进行虚拟筛选,采用AutoDock Vina得分功能。由于我们对一个固定的受体对接,所以我们选择一个好的受体结构是非常重要的。我们将会使用CDPK1的测试集来模拟评价我们的对接工具和选择受体结构。
1.鉴定PDB中所有
C.parvum
和
T.gondii
文件,搜索’calcium-dependent protein kinase 1’,并且选择恰当的生物(organism.)
C. parvum
: 2QG5 2WEI 3DFA 3F3Z 3HKO 3IGO 3L19 3LIJ 3MWU 3NCG
T. gondii
: 3I79 3I7B 3I7C 3KU2 3N51 3NYV 3SX9 3SXF 3T3U 3T3V 3UPX 3UPZ 3V51 3V5P 3V5T 4M84
由于教程较老,故和自己搜索有差异
2.下载这些pdb文件,你可以用如下的简单方法,或者直接下载我下载好的。
将以下代码保存为脚本,例如
down.sh
1
2
3
4
5
6
7
8
9
#!/bin/bash
str="2QG5 2WEI 3DFA 3F3Z 3HKO 3IGO 3L19 3LIJ 3MWU 3NCG"
arr=(${str// / } )
for i in ${arr[@]}
do
wget https://files.rcsb.org/download/$i .pdb
done
执行如下命令:
1
2
chmod +x down.sh
./down.sh
3.比对和提取结构。在pymol中打开靶标pdb文件。比对他们。除去水和原子。提取每个配体到自己的对象。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from glob import glob
for fil in glob("*.pdb" ): cmd.load(fil)
alignto
remove solvent
remove metal
remove GOL
select unligand,byres resname BK1 gap 5 and hetatm
remove unligand
select ligand,hetatm
extract parvum,ligand
save parvumlig.pdb,parvum
remove ligand
4.保存受体和配体文件,注意的是
3LI9
没有酶结构域,
3DFA
和
2QG5
为未结合态结构,综合考虑我们将其删除。
1
remove 3L I9 and 3 DFA and 2 QG5
保存(注意一下需要保存为python文件后
run
进行操作)