正文
m6A 预测现有工具的时间表
深度学习革命:多层人工神经网络(CNN、Transformer、BiLSTM)的出现
虽然传统的机器学习方法和机器学习任务中的集成学习算法推动了 RNA m6A 修饰位点预测的发展,但其固有的局限性,例如依赖手动提取的特征和无法自主学习特征,给研究人员带来了挑战。此外,随着大数据时代的到来,海量生物序列数据的积累推动了深度学习在甲基化位点鉴定中的应用和发展。深度学习的出色之处不仅在于它比传统机器学习分类器更强的预测性能,还因为它能够熟练地识别基因组序列中的基序。
基于深度学习的方法采用多层人工神经网络(例如 CNN、Transformer、BiLSTM)直接从原始 RNA 序列中自动学习分层、高维特征表示(使用独热嵌入或词嵌入),无需手动特征工程,并通过复杂序列模式的端到端建模实现 m6A 修饰的准确预测.此外,已经开发了将不同深度学习模型与不同架构或训练策略相结合的深度集成学习策略,用于 m6A 预测。通过加权平均或元学习等方法整合预测,这些方法增强了稳健性和特征多样性,克服了单一模型的局限性(例如,过拟合或偏向模式学习)
6. DL-m6A
🔗[(https://ieeexplore.ieee.org/document/9834146)]
在这项研究中,Mobeen 等人提出了一款基于深度学习的工具——DL-m6A,该工具通过三种不同的编码方案(One-hot编码、核苷酸化学属性编码、电子-离子相互作用潜力编码)来捕捉RNA序列的上下文信息。DL-m6A架构结合了卷积神经网络(CNN)和全连接层(Dense Layer),能够自动提取RNA序列中的深层特征,并精准预测m6A位点。通过在多种组织特异性和全转录数据集上进行训练和验证,DL-m6A展现出了优于现有工具的预测效果。DL-m6A 在 ACC、Sn 和 Sp 之间表现出平衡的性能,分别达到 0.7786、0.7870 和 0.7694。其 MCC 为 0.5763,AUC 评分为 0.8568,表明分类能力稳定。
通过多层神经网络的特征提取,该工具展现了优于现有工具的预测能力,并且在组织特异性数据集和全基因组数据集上均表现出了强大的泛化能力。
DL-m6A 架构。从每个编码方案中提取的特征被连接在一起形成一个特征向量。将串联的特征向量提供给 dropout 层,以选择重要特征并防止架构过度拟合。所选特征用于通过进一步使用两个卷积层来进一步提取输入序列的更深层次特征。其中,第一个卷积层后跟层归一化、最大池化层和随机失活层,而第二个卷积层后跟层归一化。这些层的最终输出使用 flatten layer 进行展平,并提供给密集层集。在致密层之间,有一个 dropout 层,而第二个致密层的输出被赋予 softmax 层,用于甲基化和非甲基化序列之间的分类。
模型亮点