专栏名称: 生物探索
探索生物科技价值的新媒体
目录
相关文章推荐
生信菜鸟团  ·  STRING网站:蛋白互作分析的高效利器 ·  3 天前  
华大集团BGI  ·  华大集团携多款创新产品亮相第11届上交会 ·  2 天前  
生物学霸  ·  做够 4200 ... ·  3 天前  
51好读  ›  专栏  ›  生物探索

Nature Methods | 核苷酸转换模型(Nucleotide Transformer, N...

生物探索  · 公众号  · 生物  · 2024-12-01 15:30

正文

请到「今天看啥」查看全文


探针测试(Probing): 对比了探针测试与微调的区别。 探针测试类似于微调,但不对模型权重进行缩放调整(rescaling),以评估预训练模型的通用性。
NT模型与其他基因组学基础模型的比较 (c) 感知野大小(Perception Field Size)、参数数量和性能的对比: 图表中比较了NT模型与其他基因组学基础模型(如DNABERT、HyenaDNA和Enformer)的关键指标:
感知野大小:NT模型的感知野更大,能够捕捉更长距离的序列依赖性,这在基因组学中尤为重要。
参数数量:NT模型的参数数量多样化(从500M到2.5B),使得它能够平衡性能与计算资源需求。
性能表现:在18个精心挑选的下游任务中,NT模型在大多数任务中优于其他模型,表现出卓越的跨任务预测能力。
下游任务中考虑的基因组特征 (d) 基因组特征的图示, 直观展示了用于下游任务的主要基因组功能区域和特征,包括外显子、内含子、剪接位点、增强子、启动子、组蛋白修饰等。 这些特征是基因组功能预测的核心元素。 图示的部分来源于其他研究,经过适当改编以适配NT模型的任务需求。

NT模型的多任务能力:解码DNA的多样化功能
研究团队将NT模型应用于18个核心基因组学任务,涵盖剪接位点预测、启动子识别、增强子活性分析和组蛋白修饰等多个领域。通过系统的对比实验,NT模型在大多数任务中都超越了传统模型。

剪接位点预测:让RNA的“拼接”更高效
RNA剪接是基因表达的重要步骤,剪接位点的准确识别对理解基因调控机制至关重要。NT模型在GENCODE数据集上的表现令人赞叹: 多物种2.5B模型在6 kb的输入序列中实现了95%的Top-k准确率,并在精确召回曲线(Precision-Recall AUC)上达到了0.98,这一表现远超传统模型SpliceAI-6k
这一结果表明,NT模型不仅能够高效识别剪接受体和供体位点,还能够在数据稀缺的情况下维持卓越的预测能力。这一特性特别适合应用于需要高精度的疾病研究。

启动子预测:基因“开关”的精准定位
启动子是基因表达的关键调控区域。NT模型在预测启动子时,展现出了极高的准确性: T ATA盒启动子预测的MCC为0.76,显著优于传统卷积网络BPNet(MCC为0.68)
NT模型的成功表明,它不仅能识别启动子的存在,还能精确区分不同类型的启动子,为基因调控研究提供了更强的工具。

增强子活性预测:基因表达的幕后推手
增强子是调控基因表达的重要“开关”。在果蝇S2细胞增强子活性任务中,NT模型表现尤为突出: 发育性增强子预测的AUC达到0.75,超过了DeepSTARR模型的AUC(0.74) 转录因子结合位点的突变效应预测: 在Dref位点的突变预测中,NT模型的准确率高于其他模型,提升约5%。

组蛋白修饰预测:揭示DNA的包装奥秘
在染色质特征预测任务中,NT模型通过识别组蛋白修饰区域,为表观遗传学研究提供了新的工具: 多物种模型的平均AUC为0.95,与DeepSEA模型(AUC为0.96)接近,但NT模型显著降低了计算成本。
这些结果表明,NT模型不仅能够高效预测基因组功能,还能在多种不同任务中实现跨领域的出色表现。






请到「今天看啥」查看全文