专栏名称: 生物探索
探索生物科技价值的新媒体
目录
相关文章推荐
生物制品圈  ·  机器学习与AI在连续流工艺优化中的实践探索 ·  昨天  
生物学霸  ·  IF 从 3.4 飙升至 13 的 TOP ... ·  昨天  
生信菜鸟团  ·  DeepSeek助力快速生成DNBC4too ... ·  3 天前  
生信宝典  ·  Cell Research 一作冯桂海专访 ... ·  2 天前  
51好读  ›  专栏  ›  生物探索

Nature Methods | 蛋白质复合物研究的新利器:Foldseek-Multimer

生物探索  · 公众号  · 生物  · 2025-02-07 16:35

正文

请到「今天看啥」查看全文


在蛋白质复合物比对的挑战中,速度和准确性的平衡成为了核心问题。如何提高比对速度的同时,保证比对结果的准确性,始终是研究人员关注的焦点。随着Foldseek-Multimer的出现,这一问题得到了突破。Foldseek-Multimer利用高效的链对链比对和超位聚类算法,使得比对速度大幅提升。

Foldseek-Multimer:蛋白质比对的新革命
首先,Foldseek-Multimer的核心技术在于高效的链对链比对和超位聚类算法的结合。传统的蛋白质结构比对方法需要逐一处理每一对蛋白质链的对齐,而Foldseek-Multimer则通过Foldseek的快速链对链比对算法,极大提高了计算效率。其独特之处在于,Foldseek-Multimer将每一个链对链的比对表示为超位向量(superposition vectors),这些向量记录了链对链对齐的旋转和翻译信息。这使得比对过程不再局限于简单的逐对比对,而是通过超位聚类算法来高效地处理大规模的复合物比对。
通过DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法,Foldseek-Multimer能够对这些超位向量进行迭代聚类,识别出结构相似的复合物,并快速计算出最优的比对结果。值得注意的是,DBSCAN算法无需预先设定聚类数量,能够根据数据的分布自动调整聚类参数,这大大提高了比对的灵活性和准确性。通过这种方式,Foldseek-Multimer在短时间内可以完成数百万个蛋白质复合物对的比对,且比对质量与传统方法相媲美。
Foldseek-Multimer的速度提升尤为显著。研究人员将Foldseek-Multimer与传统工具US-align进行对比,结果显示,Foldseek-Multimer在执行相同的931对蛋白质复合物比对时,比US-align快了超过100倍。在面对庞大的数据库时,Foldseek-Multimer的优势更加明显。例如,它能够在11小时内完成对57亿对复合物的比对,而传统方法可能需要数月才能完成。这一突破使得蛋白质复合物比对的工作变得更加高效,极大地推动了结构生物学的研究进程。
此外,Foldseek-Multimer在处理低序列相似度的复合物比对时,表现出极高的灵敏度。在比对过程中,Foldseek-Multimer不仅依赖序列相似度,还通过结构信息的匹配识别出潜在的结构相似性。例如,在使用Foldseek-Multimer比对PDB数据库中的一个CRISPR-Cas系统时,尽管查询复合物与数据库中的相似复合物序列相似度仅为11.1%到19.8%,Foldseek-Multimer依然能够识别出这些结构之间的相似性,并提供有效的比对结果。这一点尤其重要,因为许多重要的生物学发现往往存在于低序列相似度的复合物之间,Foldseek-Multimer的高灵敏度能够确保这些潜在的结构相似性不会被忽视。
通过快速且准确的大规模比对,Foldseek-Multimer不仅加速了蛋白质复合物的比对过程,也为研究人员提供了更多的结构相似性线索,推动了复杂生物学问题的解决。

Foldseek-Multimer在蛋白质复合物结构比对中的工作原理和流程 (Credit: Nature Methods

快速查询功能: F oldseek-Multimer能够将输入的蛋白质复合物(或多个复合物)快速查询到一个大型数据库中,这个数据库可能包含数百万个目标复合物。通过这种方式,Foldseek-Multimer能够有效地缩小比对范围,提升比对效率。
链对链比对: 图中的每一个链(灰色)会与目标复合物中的每一个链(红色)进行比对。为了提高计算效率,Foldseek-Multimer使用了预筛选功能,能够快速排除那些不匹配的链对,确保仅对潜在的结构相似复合物对进行全面的比对。
超位对齐表示: Foldseek-Multimer将每一对链对链的比对表示为超位(superposition),通过旋转和平移来实现目标链与查询链的对接。在简化的示例中,两个链对链比对(上方和下方)是沿着同一轴旋转(用黄色和绿色高亮显示),而中间的比对则是沿着不同的轴旋转。这一过程体现了如何通过几何变换对链进行精确对齐。
复合物对复合物的比对: 通过对多个链对链的比对进行整合,Foldseek-Multimer推导出复合物对复合物的最终比对结果。在此过程中,链对链的超位表示相似性被用来确定复合物的比对质量。Foldseek-Multimer使用DBSCAN算法进行迭代聚类,通过逐步增大聚类半径来识别最佳的超位聚类,从而计算出复合物对复合物的最优比对。
TM评分计算: 在选择了得分最优的聚类后,Foldseek-Multimer会基于该聚类计算复合物之间的TM评分。TM评分是通过计算查询复合物与目标复合物之间的所有链对链的比对结果来评估复合物间的结构相似性。






请到「今天看啥」查看全文