正文
1
C
REAT
E
框架结构
CREATE
准确完成基因调控元件多类识别
。
在
K562
和
HepG2
两种细胞类型上的
10
折交叉验证结果表明,
CREATE
取得了显著优于基线方法的调控元件多分类效果,与第二好的方法相比,
CREATE
在
auPRC
上分别提高了
10.5%
和
9.1%
。对于研究较少、数量较少的沉默子和增强子,
CREATE
取得了相比于基线方法优越性更强的分类性能。通过消融实验和敏感性分析实验,
CREATE
验证了其多组学输入和模型设计的有效性,以及对不同超参数的鲁棒性。
图
2
C
REAT
E
准确完成调控元件多分类
CREATE
离散表征定量可解释地解析调控元件差异性
。
基于
CREATE
提取的调控元件离散表征,可以建立调控元件特异的特征频谱。对于每种调控元件,我们总能找到一组特别的特征(图中用虚线隔开)在该调控元件上具有最高的特异性分数,代表这些特征是该调控元件区别于其他调控元件的特异特征,以此来定量且可解释地揭示不同基因调控元件之间的差异。将沉默子特征频谱中最显著的特征作为沉默子的关键特征,通过对比发现沉默子的关键特征蕴含了沉默子特异的序列特性和表观基因组学特性,表明
CREATE
识别的关键特征蕴含了调控元件特异的生物学模式。