Plus推荐 | 表观基因组学应用于精准医学中的挑战和建议

23Plus · 公众号 · 生物 · 2018-01-19 13:41

正文

请到「今天看啥」查看全文

图1 表观基因组学应用于精准医学的挑战和建议

建议1： 开发一种商业化且价格实惠的标准染色质样本

我们建议开发一种商业化且价格实惠的标准染色质DNA样本，作为不同实验室、不同项目差异比较的标准参照。想象一下某国家研究人员想检测一下一些已患有确定症状的儿童是否也处于与上述双胞胎之一相同的自身免疫疾病的早期阶段，这些儿童很有可能没有健康的双胞胎作为对照，因此需要与其他可获取的健康人数据进行比较，就像与其同卵双胞胎的数据进行比较一样。为了分析这些病人的DNA甲基化和染色质开放程度数据，研究人员必须要保证新的数据能与过去产出的数据进行比较。利用队列样本长期研究与环境相关的基因表达调控机制需要样本制备与分析的标准化。标准化操作将加快推进此类发现应用于临床医学的进程。尽管获得标准操作规程不难，我们仍然建议在所有的表观基因组实验中使用标准化样本确保实验质量、仪器稳定性及标准化。

标准样本在RNA-seq实验中比较常见，使用ERCC spike-in（外源RNA样本）作为对照 ¹⁹ 。这些外源RNA样本结合有唯一的分子标签（UMI），能够对待测样本分子进行绝对定量。同样，“Genome In a Bottle”联盟也开发了用于DNA测序的标准品 20 ，类似的标准品对于检测表观基因组持续变化的标志物和作为研究内参至关重要。假设一对双胞胎，患有自身免疫疾病的哥哥的一个重要免疫调节基因染色质开放程度为弟弟的四倍，而另一实验室由于技术的不稳定性导致检测结果患者可能为健康人的三倍，使用标准参照样本才能确定此类差异是否显著。甚至同一实验室，不同批次的染色质免疫共沉淀测序技术（ChIP-seq）和ATAC-seq整体信号富集程度、重亚硫酸盐测序的转换效率均存在差异。此外，文库制备和测序仪器的不同，也会导致DNA片段长度和测序深度的差异。因此制定一个区分“正常”和“患病”的标准是绝对有必要的。

标准染色质样本可以来自可再生的小鼠和人的样本，如常见的ENCODE（Encyclopedia of DNA Elements）项目细胞系，包括高质量的DNA可及性、组蛋白修饰、核小体定位、甲基化以及序列多态性的数据。这些标准样本应来自于同一批次或尽可能少的批次，并且是产业化标准的细胞系，以消除代次、核型、培养条件以及不同实验室间的差异。未来，我们应该持续性的制备标准化样本，在使用的样本用尽或其产生较大变化（遗传和表观遗传层面）之前周期性的更新标准化细胞系。正常的核型、相同基因型的样本和遗传多样性的样本具有重要价值。另外，合适的细胞系的选择，将与染色质结构捕获技术（如：Hi-C）与成像技术一起促进三维和四维（4D，包括时间）基因组结构的整合分析。

建议2： 标准化分析流程和数据存储

表观基因组的数据需要统一的质控标准，而不同实验室基于各自分析流程的数据分析结果难以比较。另外，与基因组不同，表观基因组是动态变化的，难以确定其标准阈值。研究人员通常需要整合多维度、大样本的队列信息，才能合理的解释表观层面变异的生物学意义。相关分析均需要标准化流程，尤其是质控环节。随着表观基因组实验技术的发展，我们能够获取不同组织、不同维度的表观信息，构建标准分析矩阵时，数据的信噪比和偏好性等也需要考虑在内。标准化的分析流程应该推广到相关领域的实验室，促进不同研究之间的相互比较和验证。

搭建新的分析流程、开发新的实验技术对于推动表观基因组的研究都至关重要，尤其临床样品更需要统一的分析和管理标准。ENCODE计划开发的分析流程是一个好的范例，不过目前各实验室未能充分利用此分析流程。多维度的表观基因组数据的简单化与可视化也要统一标准。除此之外，数据分析矩阵的存储格式也要统一，便于研究人员将新的数据与之前高质量的数据比较分析，通过统一的存储空间和用户友好型的网络界面可以简化数据比较，加快分析进程。

建议3： 统一收录和命名调控元件便于比较不同实验室，不同基因组版本，不同物种的数据

我们对调控元件结构和功能认识逐渐加深，急需对调控元件统一标准进行命名，与标准化分析方法同时进行。与基因不同，调控元件至今没有统一标准，参考他人研究成果往往费时费力。定义基因（或转录本）不仅可以用基因序列、DNA正负链、基因结构和参考基因组坐标等，还可以通过基因的唯一标识符（即基因名称）确认。不同数据库对相同转录本定义不同的名称和标识符，令人困惑 21-23 ，调控元件则更加混乱。调控元件大约占了人类基因组大小的10%～20%，目前却没有统一标准。

建立基因组调控元件百科全书是将特定调控区域与某种疾病或表型联系起来的重要基础。例如，某研究发现双胞胎中一人健康另一人患病，这应该与基因组上相关基因位点的开放程度或甲基化程度改变相关。而另一研究发现，某些自身免疫病患者有20%与上述研究相同的基因组位点发生甲基化状态的改变。试想一下，如果没有统一标准的调控元件，不同研究发现之间的联系或许永远无法得知。第二个研究组成员也不会意识到这些位点和自身免疫病的相关性曾经被人研究过。

统一调控元件标准的工作较为复杂，原因如下。第一，与基因开放阅读框不同，调控元件没有确定的起始和终止位点。因此，确认增强子、启动子等其他调控元件的起始终止位点十分必要。第二，不同种类或状态细胞的调控元件大小不同，调控元件之间的相互作用也会形成更加有序、高级的调控单元。高级结构调控单元也应该在调控元件的百科全书中有所描述，才能更好的分析调控元件间错综复杂的关系。第三，调控元件不像蛋白编码基因那样保守，比较不同物种的调控元件时不能使用序列信息，而需要基于调控元件的功能及空间结构比较。第四，并非所有调控元件都有功能，而有功能的元件并非每个核苷酸都发挥调控功能。因此，高通量的鉴定调控元件的功能尤为重要 24 。

功能基因组学研究联盟如ENCODE项目、Roadmap表观基因组计划、国际人类表观基因组联盟（IHEC）、哺乳动物基因组功能研究联盟（FANTOM）等整合基因组染色质可及性数据、RNA-seq、ChIP-seq、Cap基因表达数据和DNA甲基化数据，在预测不同细胞类型的染色质状态，鉴定目标调控元件方面取得了较大进展 25-27 。例如，通过ENCODE数据库，我们通过输入坐标或附近的基因可以去查询某个调控元件的信息，可以输出该元件在不同组织类型中的表达量与染色质可及性信息。该领域发展速度很快，但依然存在一定的局限性。我们希望统一的标准能在本领域广泛采用，不仅用于国际大型项目，所有单位发表的科研文章同样需要统一调控元件的标准和命名方式。此外，类似于ENCODE项目的注释方法，同样也能够简化有关不同样本、区域、细胞类型、物种间的功能联系分析 28