主要观点总结
本文研究了多组学单细胞分析在鉴定调控产后大脑发育关键因子中的应用。通过对来自10名捐赠者的四个脑区的101,924个单核的基因表达和染色质可及性分析,构建了基于增强子的基因调控网络,识别了特定细胞类型的脑发育调节因子,并解释了与十种主要脑疾病相关的全基因组关联研究位点。研究揭示了出生后大脑发育的关键时间点的细胞类型特异性基因调控,并确定了影响多种疾病表型的基因。伪时间分析揭示了少突胶质细胞生成的不同阶段及其调控程序。这些发现为理解出生后大脑发育提供了宝贵的数据集。
关键观点总结
关键观点1: 研究背景与目的
为了加深对出生后大脑发育的理解,研究同时分析了来自多个捐赠者的不同脑区的单核细胞基因表达和染色质可及性,以鉴定调控因子并解释全基因组关联研究位点。
关键观点2: 研究方法
使用多组学单细胞分析技术,结合基因表达和染色质可及性数据,构建基于增强子的基因调控网络,识别细胞类型特异性调控因子集合,并整合染色质接触图谱数据集以重建细胞类型水平的染色质峰-基因关联图谱。
关键观点3: 研究结果
研究鉴定了146个激活型eRegulons,并发现它们与出生后少突胶质细胞生成相关。此外,通过伪时间分析揭示了少突胶质细胞生成的不同阶段及其调控程序,并确定了与多种疾病表型相关的基因。
关键观点4: 研究意义
研究为理解出生后大脑发育的关键时间点的细胞类型特异性基因调控提供了全面的数据集,并确定了影响多种疾病表型的基因,为未来的大脑相关研究提供了重要的基础信息。
正文
◉ 根据峰所具有的至少一个 E–P ABC 链接的细胞类型数量,对峰进行分组后,突变约束 Z 分数的平均值。Z 分数来源于全基因组突变约束图。
◉ 每个 GWAS 特征在所有研究的细胞类型中解释的位点的相对比例(左 y 轴,柱状图)和绝对数量(右 y 轴,实线)。
◉ GWAS 风险变异与假设调控基因转录起始位点(TSS)之间的 E–PABC-MAX 距离直方图,其中红色和蓝色虚线分别表示中位数和平均值。
◉ 达到假设调控基因时被 E–PABC-MAX ‘跳过’ 的基因数量的直方图,其中红色和蓝色虚线分别表示中位数和平均值。
◉ 在所有研究的 GWAS 特征中,每种细胞类型解释的位点数量。
Para_02
-
虽然确定细胞类型富集有助于揭示疾病遗传力的一般模式,但我们的目标是通过以细胞类型特异性方式提名与疾病相关的候选基因来深入研究。
-
为此,我们使用 ABC 方法将与疾病相关的位点与候选效应基因联系起来,利用来自七个主要脑细胞类型的年龄组和细胞特异性 Hi-C 数据中的 E-P 相互作用(补充图 4a)。
-
包含 272 种细胞类型、脑区和供体特异性的调控组图谱的综合阵列改进了 eGRN 分析,通过为 E-P 相互作用提供直接的功能证据而优于传统方法。
Para_03
-
总体而言,我们鉴定了19,500个表达基因和273,815个独特的染色质可及性峰之间的4,707,778个增强子-启动子(E–P)链接。
-
不同细胞类型之间E–P链接的数量差异显著,其中谷氨酸能神经元的链接数量最高,反映了这些细胞中远端基因间调控复杂性的差异。
-
平均而言,21%的E–P链接在至少两种细胞类型中共享,而在相同细胞类型内跨脑区分析时,29%至52%的E–P链接是共享的。
-
与最近的一项全基因组突变约束图谱研究结果一致,该研究评估了整个基因组中遗传变异的缺失情况,我们的发现证实参与E–P相互作用的峰值受到更强的负向选择,而非预测为不参与此类相互作用的峰值。
-
给定峰值所涉及的调控相互作用的细胞类型数量越多,其负向选择的强度越高。
Para_04
-
接下来,我们旨在利用增强子-启动子(E-P)连接为全基因组关联研究(GWAS)确定的疾病相关位点提名候选的功能基因(补充图4a)。
-
首先,我们收集了一组与选定神经精神和神经退行性特征相关的1,156个全基因组显著变异(P < 5 × 10⁻⁸),并将该集合扩展到包括30,694个基于高连锁不平衡(LD,R² ≥ 0.8)的变异。
-
然后,我们对这些潜在与疾病相关的变异和细胞特异性E-P连接进行了重叠分析(方法)。
-
为了避免一个位点出现多个关联,我们采用了ABC-MAX方法,并对每个峰仅保留具有最高ABC评分的E-PABC连接(E-PABC-MAX)(补充数据8)。
-
在所有细胞类型中,我们总共提名了1,149个独特的基因,这些基因可能与所研究的GWAS特征中41%的位点相关(图3c,补充数据9和补充图5-10)。
-
E-PABC-MAX的距离差异显著,尽管其中大多数(61%)距离小于100 kb(中位数为53 kb)(图3d)。
-
尽管如此,绝大多数(66%)的E-PABC-MAX连接并未指向最近的基因(到最近基因的中位距离为7.8 kb),其中15%跨越了十个或更多基因(图3e和补充注释1)。
Para_05
-
基于我们之前的研究发现,即在神经元亚型中,所研究的脑相关疾病显示出最强的遗传力信号(图3a),我们进一步通过确认谷氨酸能和γ-氨基丁酸能神经元中最多的E–PABC-MAX数量验证了这一趋势(图3f)。
-
与已知的疾病生物学一致,小胶质细胞在神经退行性疾病中特异性富集,而在精神疾病中则不然,其中阿尔茨海默病、多发性硬化症显示出最高的E–PABC-MAX数量,并且小胶质细胞是帕金森病中富集程度最高的细胞类型之一(补充数据9)。
Prioritized enhancer–gene networks identify causal genes in selected brain disorders
优先级增强子-基因网络确定了选定脑部疾病中的致病基因
Para_01
-
这些E-P预测为识别GWAS位点的功能基因、通路和调控特性提供了资源。
-
我们的方法对与多发性硬化症(MS)相关的85个位点进行了预测,提名了总计164个独特基因。
-
其中许多基因之前已被证实与针对中枢神经系统(CNS)的自身免疫炎症过程有关,并导致神经退行性病变。
-
值得注意的是,最显著的富集出现在通过小胶质细胞E-PABC-MAX连接关联的基因中。
-
这些基因积极参与细胞因子反应的调节(18个基因,比值比=8),α/β T细胞激活(10个基因,比值比=15),白介素-2受体信号传导(IL2RB;5个基因,比值比=48)以及白介素-15信号传导(IL-15;4个基因,比值比=89)。
-
在多发性硬化症的背景下,调控这些富集通路相关基因的增强子主要表现出小胶质细胞特异性。
-
这一点在白介素-2受体信号传导通路中尤为明显,因为已知小胶质细胞表达白介素-2和其他细胞因子的受体,从而能够调节T细胞介导的免疫反应。
Fig. 4: Annotation of GWAS prioritized genes.
- 图片说明
◉ a,基因集之间的重叠(通过单侧 Fisher 精确检验评估),表示生物学通路和在 MS GWAS 中每种细胞类型优先级的基因。显示了前十个交集,垂直虚线表示 P 值 0.05 的名义显著性(单侧 Fisher 精确检验),点的大小反映了 FDR(Benjamini-Hochberg 校正)显著性。仅包括具有 FDR 显著富集的细胞类型。
◉ b,SynGO 数据库中突触层次结构内优先级基因的定位。日爆图以突触为中心,第一环为突触前和突触后位置,后续环为子术语。图例中的颜色方案表示每个术语中的基因数量。选择了部分功能术语和基因进行标记。
◉ c,我们方法为 ALS GWAS 优先级确定的 16 个基因集合。‘先前证据’来源于 ALS GWAS。红色刻度反映了连接基因与 GWAS 位点的 E-PABC-MAX 链接的 ABC 分数。蓝色分数描绘了增强子与启动子之间的 log10(E-PABC-MAX 距离)。
◉ d,归一化的 snATAC-seq 派生伪批量轨迹,展示了 C9orf72 基因复杂的细胞特异性调控,并突出显示了与 ALS GWAS 相关的小胶质细胞 E-P 链接。每个伪批量轨迹的 y 轴已归一化,对应信号强度(最大值为 120)。Chr 表示染色体。
Para_02
-
为了进一步证明我们方法的准确性,我们研究了137个SCZ位点(占所有SCZ位点的55%),这些位点具有预测的E–PABC-MAX链接(补充数据9)。
-
在将我们预测的因果基因与最新SCZ GWAS中通过SMR/FINEMAP优先级排序的基因进行比较时,我们发现两份研究共同覆盖的47个位点中有29个(62%)一致。
-
值得注意的是,在18个预测因果基因不同的位点中,有7个位点我们确认存在与SMR/FINEMAP预测相同基因的E–PABC链接(但不是E–PABC-MAX链接),这表明即使不是排名最高的链接,在我们的数据中仍然存在调控链接。
-
与全基因组富集测试结果一致,我们发现优先级较高的候选蛋白编码基因涉及突触前和突触后病理(图4b)。
-
这些优先级较高的基因与突触层次结构中的32个独特生物学术语相关(补充数据11),包括若干特定通路和过程。
-
例如,一些基因编码参与突触前和突触后元件之间黏附的蛋白质(EFNA5、PTPRD)、钙离子、氯离子和钾电压门控通道(CACNA1D、CLCN3和KCNB1),以及配体门控离子通道(GRIN2A、CHRNA3)(补充数据11)。
-
值得注意的是,GRIN2A编码N-甲基-D-天冬氨酸受体的一个亚基,并包含罕见和常见的SCZ风险变异。
-
其中一些罕见变异可能影响通道功能,大多数预计会导致蛋白质截短,最终导致基因表达降低,类似于常见变异(补充图12)。
Para_03
-
接下来,我们探讨了肌萎缩侧索硬化症(ALS)的精细定位结果——与多发性硬化症(MS)或精神分裂症(SCZ)相比,ALS 的全基因组关联研究(GWAS)中涉及的全基因组显著位点数量明显较少。
-
这种差异主要归因于 ALS 样本量较小以及其独特的遗传结构,表现为较低的多基因性特征。
-
我们的方法成功识别出 16 个位点中的 8 个潜在因果基因(图 4c)。
-
其中,七个基因被 E–PABC-MAX 和最新的 ALS GWAS 同时列为优先级较高的基因,包括 C9orf72 和 TBK1,这两个基因包含罕见和常见变异(图 4d 和补充图 13)。
-
值得注意的是,在 C9orf72 基因的情况下,导致疾病的变异是罕见的六核苷酸 (G4C2)n 重复扩展,而不是常见的指数变异 rs2453555,这才是 C9orf72 位点内的因果变异。
-
尽管 C9orf72 基因在大脑中广泛表达,但与指数变异 rs2453555 重叠的 E–PABC-MAX 调控区域仅在小胶质细胞中具有可及性(图 4d)。
-
这一发现进一步强调了外周髓系细胞,特别是小胶质细胞,在 ALS 病理生理学中的重要性。
Para_04
-
最后,我们的方法确定了一组与多种疾病相关的55个基因,其中显著的是叉头框蛋白P1(FOXP1)。
-
FOXP1在神经性厌食症(AN)、注意力缺陷多动障碍(ADHD)、精神分裂症(SCZ)和多发性硬化症(MS)中的关联表明其在多样化的认知和社会过程中起着关键作用。
-
这种转录因子对大脑发育至关重要,长期与智力障碍及相关认知表型有关,主要通过新生变异和拷贝数变异实现。
-
最近针对AN、ADHD、SCZ和MS的大规模GWAS研究显示,在3p13位点上优先级较高的基因座存在显著重叠,一致将FOXP1确定为因果基因。
-
这种联系得到了表达数量性状位点(eQTL)数据的支持,并且体内实验表明,敲除FOXP1的小鼠体重减轻,证实了其与神经性厌食症的功能联系。
-
对于其与精神分裂症、多发性硬化症和注意力缺陷多动障碍的关联,也存在类似的有力证据。
-
总体而言,这些发现强调了FOXP1作为各种脑相关疾病共有病理生理学的核心节点的关键作用。
Pseudotime analysis defines key steps in oligodendrogenesis
伪时间分析定义了少突胶质细胞生成的关键步骤
Para_01
-
少突胶质细胞生成是一个特别有趣的过程,因为它代表了大脑中少数几个产后细胞分化的例子之一。
-
鉴于我们的数据集中少突胶质前体细胞(OPC)和少突胶质细胞(OL)群体的富集,我们进行了重新聚类以解析更精细的亚簇,识别出13个不同的亚簇(七个 OL 和六个 OPC)。
-
为了简化解释并增强生物学相关性,我们随后根据共享的基因表达谱和独特的标志物特征,将这些亚簇分组为常见的 OPC 和 OL 亚型(图5a和扩展数据图5a–c)。
Fig. 5: Characterization of oligodendrogenesis by integrative pseudotime analysis.
- 图片说明
◉ a,联合 ATAC-seq 和 RNA-seq(WNN)UMAP 表示的 OPC 和 OL 群体,按亚型注释着色。
◉ b,堆叠条形图表示不同年龄组中 OPC 和 OL 亚型的比例,以及使用 crumblr(方法)计算的亚型组成随年龄的变化情况。x 轴表示效应大小,颜色和点的大小表示 log10(FDR);加号符号表示具有统计学显著性的结果;误差棒表示从标准误差计算出的 95% 置信区间。
◉ c,monocle3 计算的伪时间值投影到 RNA-UMAP 上。
◉ d,OPC 和 OL 亚型(左)及年龄组(右)的伪时间分布箱线图(左:n_OPC Type I = 12,445 核,n_OPC Type II = 1,371 核,n_OL Type I = 29,560 核,n_OL Type II = 3,691 核;右:n_infant = 5,153 核,n_childhood = 14,844 核,n_adolescence = 11,873 核,n_early_adulthood = 3,164 核,n_late_adulthood = 11,749 核)。中心线表示中位数,箱子表示四分位距(IQR),须表示在 1.5 倍 IQR 内的最大值和最小值。
◉ e,通过层次聚类将热点基因模块分类为三种主要的基因表达趋势(补充图 17b,c)。上升趋势(红色)、下降趋势(绿色)和恒定趋势(灰色)。
◉ f,每种趋势线的基因集富集分析(GSEA),显示生物过程中最富集的 Gene Ontology(GO)术语,点的大小表示基因数量,颜色表示调整后的 P 值(FDR,Benjamini–Hochberg 校正)(补充数据 15)。ER,内质网;SRP,信号识别颗粒。
Para_02
-
这导致发现了两类主要的 OPC,具体来说,I 型 OPC 表达 PDGFRA、GPC5、SNTG1、ATRNL1 和 NXPH1(与神经元信号传导相关),而 II 型 OPC 则显著表达 BCAS1、GPR17、BMPER 和 FRMD4A(补充数据 13),并与神经发育和神经退行性疾病存在潜在联系。
-
-
此外,基于 OPALIN 和 GPR37(标记 I 型)以及 RBFOX1 和 ACTN2(II 型)的表达,还识别出了两种不同的少突胶质细胞(OL),这一结果与近期的研究报告一致。
-
所有 OPC 和 OL 亚型都在皮层(ACC、DLPFC)和皮层下(CN、Hipp)区域被检测到(扩展数据图 5b)。
Para_03
-
为了验证我们在单核RNA测序(snRNA-seq)研究中关于OPC和OL群体中同时存在I型和II型亚型的发现,我们进行了RNAscope实验。
-
为了可视化不同的OPC和OL亚型,我们集中研究表达特定标志物的细胞:PDGFRA、ATRNL1和BMPER(指示OPC亚型)以及GPR37、RBFOX1和ACTN2(指示OL亚型)(扩展数据图6a–b)。
-
与我们的计算分析一致,我们识别出了表达PDGFRA和ATRNL1的独特亚群,标记为I型OPC(扩展数据图6c–d),以及表达BMPER的另一亚群,标记为II型OPC(扩展数据图6c,e)。
-
同样,对于OL亚型,我们确认了不同的细胞亚群;表达GPR37的细胞标记为I型OL(扩展数据图6f,g),以及表达RBFOX1和ACTN2的细胞,标记为II型OL(扩展数据图6f,h)。
Para_04
-
总体而言,我们在婴儿期后观察到 OL 比例增加,而成年后 OPC 比例相应减少(图 5b)。
-
为了验证 OPC/OL 亚型比例随年龄变化的显著程度,我们使用 crumblr 进行了细胞类型组成分析(方法)。
-
OPC Type II(GPR17、BMPER 富集)显示出最大的与年龄相关的效应大小,而 Type I(PDGFRA 富集)则具有边缘值,表明其在整个生命周期中的重要性。
-
随着年龄的增长,OL 的富集尤其体现在 OL Type I(OPALIN、GPR37 富集),而 Type II(RBFOX1 富集)仅表现出轻微的变化。
-
为了更深入地了解少突胶质细胞生成过程,我们进行了伪时间分析(图 5c 和扩展数据图 5c,d),该分析重现了之前从细胞亚型比例中观察到的结果:Type I 和 Type II OPC 富集在伪时间最低的细胞中。
-
Type I OL(OPALIN 富集)似乎在整个伪时间过程中逐渐发展,并在后期表现出更显著的富集;而 Type II OL(RBFOX1 富集)在婴儿期几乎不存在,主要在生命的后期阶段开始出现(图 5b-d)。
-
这一趋势通过几种独立的方法(monocle3、Palantir 和 PC1)得到了高度相关性的验证(扩展数据图 5d-f)。
Para_05
-
为了在功能背景下整合 OPC 和 OL 亚型的形成,进行了热点模块分析。
-
这确定了 12 个不同的热点基因模块,涵盖了各种生物过程。
-
为了了解少突胶质细胞生成中的功能关联,我们接下来检查了单个热点模块沿伪时间的基因表达模式,并根据它们的相似性对它们进行了聚类。
-
这揭示了三条主要趋势线:上升(热点模块 1、3、8),下降(热点模块 2、4、5、6、7、11、12)和恒定(热点模块 9、10)。
-
在探索功能关联时,下降趋势线显示在化学突触传递和神经元投射等过程中富集,这与 OPC 活动相关。
-
相反,上升趋势线在脂质代谢过程中表现出富集,这与 OL 形成一致。
-
Distinct eGRN activation reveals programs in oligodendrogenesis
不同的eGRN激活揭示了少突胶质细胞生成的程序
Para_01
-
在证明了某些 eRegulons 的活性与发育过程中的特定时间点相关联后,我们进一步试图通过伪时间与之前定义的 146 个激活型 eRegulons 活性评分的相关性分析,来识别维持少突胶质细胞生成的调控程序。
-
我们选择了与伪时间正相关和负相关的前十个 eRegulons(图 6a),这些 eRegulons 的基因表达模式与其对应的转录因子相同。
-
此外,这些与伪时间相关的 eRegulons 每一组都具有显著的目标基因重叠,但在目标区域水平上并未保留,这表明可能存在不同的共调控关系。
-
为了区分与伪时间早期阶段和晚期阶段相关的 eRegulons,我们将它们分别命名为早期或晚期少突胶质细胞生成相关 eRegulons(OLa-eRegulons)。
Fig. 6: Identification of key regulatory programs in oligodendrogenesis.
- 图片说明
◉ 排名前20的eRegulons与早期和晚期伪时间相关,条形图显示每个eRegulons中对应的基因数量(左侧)。
◉ 沿少突胶质细胞生成伪时间的eRegulon AUCell评分和eRegulon转录因子表达值的热图来自图5c,侧边空白处指示相对表达水平(截断值-2,2)(中间)。
◉ OPC和OL中OLa-eRegulons的AUCell评分分布。
◉ OPC和OL亚型中上调和下调基因之间的相对成对重叠,与早期(浅灰色)和晚期(深灰色)阶段相关的eRegulons。
◉ MAGMA富集分析针对十种与神经精神疾病和神经退行性疾病相关的特征,对早期和晚期OLa-eRegulons进行分析。带有井号标记的表示在MAGMA富集分析中P值<0.05具有显著性(经过所有测试的Benjamini-Hochberg校正多重检验);小黑方块表示在P值为0.05时具有显著性。
Para_02
-
在早期的 OLa-eRegulons 中,我们识别出了所有 OPC 特异性的调控因子(ETV5、ASCL1、OLIG2 和 PRRX1),以及更多的 OLa-eRegulons,包括 TCF/Lef 转录因子家族的两个成员、SMAD3、NFIB、KLF12 和 ZNF385D,其中 ZNF385D 被检测为 GABA 特异性的 eRegulon。
-
TCFL1 和 TCFL2 因其在 WNT 信号通路中的作用而闻名,这些通路对调节 OPC 的增殖和分化至关重要。
-
SMAD3 在中枢神经系统髓鞘化时间调控中起关键作用,作为转化生长因子 beta (TGFβ) 信号的介导者,调节 OPC 退出细胞周期。
-
有趣的是,NFIB(核因子-IB),lnc158 的目标转录本,已被报道显著促进少突胶质细胞(OL)分化。
-
而 KLF12 已被证明在大脑发育中发挥作用,可能通过神经元成熟的表观遗传转换实现这一功能,同时 ZNF385D 与阅读障碍和语言损伤有关,并且最近研究表明它可能在帕金森病(PD)进展中出现失调。
Para_03
-
在十大晚期少突胶质细胞(OL)特异性增强子调控网络中,我们鉴定出了CREB5和MYRF,它们是关键的少突胶质细胞特异性调控因子。
-
值得注意的是,ZNF536参与了对神经元分化的负向调控,而ZNF189则具有对抗应激诱导缺陷的保护作用,这两种因子被确定为重要的候选分子。
-
此外,ATF7与长寿相关,而NFIX则调控神经前体细胞的分化,这些转录因子在神经发育中的作用得到了强调。
-
MiTF/TFE家族成员调控大脑的关键功能,例如自噬和线粒体稳态;在神经元中过表达TFEB显示出对帕金森病的保护作用,而在少突胶质细胞中它通过减轻多系统萎缩中的α-突触核蛋白积累发挥细胞特异性的神经保护作用,这表明其通过自噬-溶酶体途径具有细胞特异性的神经保护功能。
-
FOXN2在少突胶质细胞中高表达,与大脑发育相关,并可能与语言和言语障碍有关。