我们对调控元件结构和功能认识逐渐加深,急需对调控元件统一标准进行命名,与标准化分析方法同时进行。与基因不同,调控元件至今没有统一标准,参考他人研究成果往往费时费力。定义基因(或转录本)不仅可以用基因序列、DNA正负链、基因结构和参考基因组坐标等,还可以通过基因的唯一标识符(即基因名称)确认。不同数据库对相同转录本定义不同的名称和标识符,令人困惑
21-23
,调控元件则更加混乱。调控元件大约占了人类基因组大小的10%~20%,目前却没有统一标准。
建立基因组调控元件百科全书是将特定调控区域与某种疾病或表型联系起来的重要基础。例如,某研究发现双胞胎中一人健康另一人患病,这应该与基因组上相关基因位点的开放程度或甲基化程度改变相关。而另一研究发现,某些自身免疫病患者有20%与上述研究相同的基因组位点发生甲基化状态的改变。试想一下,如果没有统一标准的调控元件,不同研究发现之间的联系或许永远无法得知。第二个研究组成员也不会意识到这些位点和自身免疫病的相关性曾经被人研究过。
统一调控元件标准的工作较为复杂,原因如下。第一,与基因开放阅读框不同,调控元件没有确定的起始和终止位点。因此,确认增强子、启动子等其他调控元件的起始终止位点十分必要。第二,不同种类或状态细胞的调控元件大小不同,调控元件之间的相互作用也会形成更加有序、高级的调控单元。高级结构调控单元也应该在调控元件的百科全书中有所描述,才能更好的分析调控元件间错综复杂的关系。第三,调控元件不像蛋白编码基因那样保守,比较不同物种的调控元件时不能使用序列信息,而需要基于调控元件的功能及空间结构比较。第四,并非所有调控元件都有功能,而有功能的元件并非每个核苷酸都发挥调控功能。因此,高通量的鉴定调控元件的功能尤为重要
24
。
功能基因组学研究联盟如ENCODE项目、Roadmap表观基因组计划、国际人类表观基因组联盟(IHEC)、哺乳动物基因组功能研究联盟(FANTOM)等整合基因组染色质可及性数据、RNA-seq、ChIP-seq、Cap基因表达数据和DNA甲基化数据,在预测不同细胞类型的染色质状态,鉴定目标调控元件方面取得了较大进展
25-27
。例如,通过ENCODE数据库,我们通过输入坐标或附近的基因可以去查询某个调控元件的信息,可以输出该元件在不同组织类型中的表达量与染色质可及性信息。该领域发展速度很快,但依然存在一定的局限性。我们希望统一的标准能在本领域广泛采用,不仅用于国际大型项目,所有单位发表的科研文章同样需要统一调控元件的标准和命名方式。此外,类似于ENCODE项目的注释方法,同样也能够简化有关不同样本、区域、细胞类型、物种间的功能联系分析
28