专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生信人  ·  最新27+生信,原来只做了这些操作! ·  昨天  
生信人  ·  单细胞风向标!Seurat开发者总结2025 ... ·  2 天前  
BioArt  ·  Nat Cardiovasc Res | ... ·  2 天前  
生物学霸  ·  云南公示:拟获 2024 ... ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

转录组 | Nat.Genet | 扰动图谱的转录组范围差异表达分析

生信菜鸟团  · 公众号  · 生物  · 2025-05-22 19:58

正文

请到「今天看啥」查看全文


  • 在模拟中,我们确认 TRADE 扰动影响和反应富集估计器大约是无偏的,即使对于小基因集也是如此(补充图 14),并且我们通过阳性对照基因集进行了进一步验证(补充图 15)。
  • CRISPRi 敲低效率更高的基因未富集于扰动影响,表明富集并非由不同引导序列之间的差异驱动(补充图 15)。
  • Fig. 3: TRADE-derived enrichment estimates.

    - 图片说明

    ◉ 蓝色条表示扰动响应富集,即差异表达对扰动的富集。 ◉ 米色条表示扰动影响富集,即当基因集中基因被扰动时对其它基因的影响的富集。 ◉ 每个基因集的大小显示在 x 轴标签下方。 ◉ 误差条表示标准误差。

    Para_02
    1. 我们发现,受限基因(在一般人群中缺乏功能丧失变异)在扰动影响方面富集了1.6倍,这与其功能重要性一致(图3)。
    2. 另一方面,它们在扰动反应方面明显减少,仅为0.4倍,表明在基因层面,群体水平的限制性表现为调控的稳健性。
    3. 同样地,在K562细胞中具有强烈生长效应的基因(大致是在培养中必需的基因)在扰动影响方面强烈富集,为4.2倍,而在扰动反应方面则减少了0.7倍。
    4. 相比之下,高表达于K562细胞中的基因在扰动影响(2.3倍)和扰动反应(4.4倍)方面都强烈富集,支持了绝对表达量与功能重要性之间的相关性。
    5. 尽管核定位基因在转录调控中起直接作用,但我们观察到它们在扰动影响方面的富集程度仅为1.3倍。
    6. 而细胞骨架定位基因在扰动影响方面略微减少,为0.7倍。

    Consistency of transcriptome-wide effects across cell types

    跨细胞类型的转录组范围效应的一致性

    Para_01
    1. 基因扰动的效果可能在不同细胞类型中有所不同,特别是在它参与细胞类型依赖的功能时。
    2. 这些扰动效果在影响程度和受影响的基因方面都可能有所不同。
    3. 利用四种细胞系中常见必需基因的扰动数据(表1),我们(1)比较了各细胞系之间的TI,并(2)使用TRADE的二元扩展估计了每次实验差异表达效果之间的相关性。
    4. 我们将这种量称为‘TI相关性’(方法),并证明TRADE的相关性推断是无偏的(补充图16)。
    Para_02
    1. 如预期,TI 在不同细胞类型之间具有相关性(平均相关性为 0.62)。
    2. 平均而言,RPE1 细胞系中的 TI 比其他三个细胞系更大。
    3. 少数扰动在特定细胞类型中产生了超出预期的效果。
    4. 使用宽松的阈值(方法),我们确定了 241 种此类扰动(K562 中有 47 种;RPE1 中有 118 种;Jurkat 中有 10 种;HepG2 中有 66 种)。
    5. 其中一些扰动已知对其相应的细胞类型至关重要,包括 GATA1 对红细胞如 K562 和 HMGCR 对 T 细胞如 Jurkat 至关重要,但大多数扰动之前没有记录其细胞类型依赖效应的解释。
    6. 由于该数据集主要针对大多数细胞类型生长重要的常见必需基因,因此在一个更大的细胞扰动图谱中,预计将会有更多细胞类型特异性效应的例子。

    Fig. 4: Correlation of differential expression across cell types.

    - 图片说明

    ◉ a,每种细胞类型中基因扰动的 TI 与细胞类型中位数的对比,其中离群值(粉色)定义为偏离拟合线超过 1.64 个标准差。 ◉ b,K562 细胞中重复扰动差异表达(DE)效应的相关性。虚线表示原始相关性;实线表示通过 TRADE 估计的相关性。 ◉ c,常见必需基因在每对细胞类型之间的扰动效应中位数相关性。x 轴标签下方显示了每个估计中包含的扰动数量。误差条表示中位数的标准误差。 ◉ d,相似细胞类型内部和外部的效应大小相关性强度比较。高斯混合模型的密度分布叠加显示了簇 1(绿色)和簇 2(蓝色)。 ◉ e,DDX41 和 NIFK 扰动在关键细胞类型比较中的推断联合效应大小分布示例。

    Para_03
    1. 在计算不同细胞类型之间的相关性之前,我们首先比较了相同遗传扰动在重复实验中的差异表达效应(K562-GenomeWide 和 K562-Essential)。
    2. 不使用 TRADE 的 logFC 点估计值之间的中位数相关性仅为 0.16,显然表明可重复性较低。
    3. 然而,重复之间的中位数 TI 相关性为 0.90,表明具有出色的可重复性。
    4. 这种差异强调了在估计效应量相关性时建模抽样方差的价值(因为未关联的抽样变异会导致相关性估计的向下偏差)。
    5. 少数扰动确实表现出较低的跨实验 TI 相关性;其中大多数具有非常低的 TI,因此它们的相关性预计会很嘈杂。
    Para_04
    1. 我们使用TRADE来估计不同细胞类型之间的TI相关性,即在K562、RPE1、Jurkat和HepG2中对2053个共享必需基因的扰动效应在转录组范围内的相关性。
    2. 由于这些相关性在零TI设定下未定义,我们将分析限制在所有四种细胞类型中具有显著TI的1660个扰动,使用非常宽松的阈值(Z > 0.5,大约P < 0.3)。
    3. TI相关性最高的是K562和Jurkat之间(中位数,0.74)以及HepG2和RPE1之间(中位数,0.75)。
    4. K562和Jurkat是p53突变的造血细胞系,且悬浮生长;而HepG2和RPE1是p53野生型的上皮细胞系,且贴壁生长。
    5. K562和HepG2之间的相关性较弱(中位数,0.64),Jurkat和HepG2之间的相关性也较弱(中位数,0.69),K562和RPE1之间的相关性明显更弱(0.40),Jurkat和RPE1之间的相关性也明显更弱(0.56)。
    6. 这种分析的一个潜在局限性在于它依赖于所有四个细胞系中都必需的扰动;然而,推断的相关性与必需性并没有强烈变化。
    Para_05
    1. 在各种扰动中,我们观察到了两种细胞类型间 TI 相关性的模式(图 4d)。
    2. 一些扰动,例如 DDX41 的敲低,在所有四种细胞类型之间表现出高相关性(图 4e)。
    3. 其他扰动,例如 NIFK 的敲低,在 K562/Jurkat 和 RPE1/HepG2 细胞对之间的相关性明显高于其他细胞类型对(图 4e)。
    4. 使用高斯混合模型对这些扰动进行聚类(方法),我们发现 44% 的扰动属于一个在相似细胞类型对之间具有选择性更高相关性的聚类(聚类 1,相似细胞类型对内的平均相关性:0.61;非相似对:0.35),而 56% 的扰动属于一个在所有细胞类型之间具有高相关性的聚类(聚类 2,相似细胞类型对内的平均相关性:0.75;非相似对:0.66)。
    5. 我们观察到,聚类 1 中的基因(即具有细胞类型偏好相关性的基因)在不同细胞类型间的 TI 差异大约是聚类 2 中基因的两倍(P = 4 × 10−8;配对 t 检验)。
    6. 这表明,当一个基因具有特定细胞类型的功能时,扰动该基因在相关细胞类型中不仅会导致更大的效应幅度,还会导致基因间效应模式的不同(补充图 21)。

    Dosage sensitivity of TI

    TI 的剂量敏感性

    Para_01
    1. 在上述分析的实验中,CRISPRi 引导 RNA 被设计以最大化靶向敲低效果,但扰动的影响可能随剂量而变化,剂量-反应曲线可以揭示基因调控并指导治疗设计。
    2. 我们将 TRADE 应用于三个实验的数据。
    3. Jost 等人通过减弱的引导 RNA 使用 CRISPRi 调节基因表达。
    4. Naqvi 等人和 Weber 等人直接使用 dTag 降解系统耗尽蛋白质水平,该系统可以通过调节小分子来调整;这种方法通量较低,但可以直接控制蛋白质(而不是转录)水平。
    5. 我们量化了 (1) TI 的幅度作为剂量的函数,以及 (2) 每对剂量之间这些效应的相关性。
    Para_02
    1. 如预期的那样,更强的扰动始终具有更大的转录影响(图5a)。
    2. 对于SOX9的dTAG耗竭(补充表11)和Polycomb(补充表13),TI剂量反应曲线是非线性的。
    3. 这些蛋白质的弱到中等程度的扰动导致相对较小的全转录组效应,而强扰动则导致不成比例的大的全转录组效应。
    4. 这些基因是单倍体不足的(pLI = 1),表明50%的耗竭是有害的;我们的结果表明,更强的耗竭仍然会产生逐渐增大的细胞效应。
    5. 我们通常观察到在K562细胞中对25个必需基因进行CRISPRi敲低时,具有不同程度非线性的类似剂量反应曲线(图5a,补充表15和补充图22)。

    Fig. 5: Dose–response relationships.

    - 图片说明

    ◉ a部分,基因剂量与TI在四个实验中的关系:在CNCCs中通过dTAG减少SOX9;在小鼠ES细胞中通过dTAG减少Polycomb,在K562细胞中通过CRISPRi减少GATA1和BCR。(每个剂量的样本数:第一面板,每个剂量有七个样本,除了95%有六个样本;第二面板,每个剂量有四个样本;第三面板,按mRNA减少顺序分别为108、141、79、56、143和52个细胞;第四面板,按mRNA减少顺序分别为139、256、102、130、96和151个细胞。) 错误条表示刀切标准误差。 ◉ b部分,不同剂量下差异表达效应之间的相关性,针对每个实验。 ◉ c部分,来自一个扰动效应的玩具模型的观察,展示了响应动力学一致性与跨剂量相关性模式之间的关系。

    Para_03
    1. 接下来,我们量化了每个扰动在不同剂量水平之间的 TI 相关性(图 5b)。
    2. 对于 SOX9 的 dTag 耗尽和 Polycomb 的耗尽,TI 相关性随着剂量差异的增加而平滑下降,最小和最大的扰动之间仅中等程度相关(r = 0.60, 0.48),这表明弱扰动和强扰动具有定性不同的转录后果。
    3. CRISPRi 敲低必需基因产生了一系列模式。
    4. 例如,尽管反应幅度存在显著差异,BCR 敲低在所有剂量水平上的反应高度相关(图 5b)。
    5. GATA1 敲低的反应在所有扰动中高度相关,但最弱的扰动与最强的扰动之间仅中等程度相关(图 5b)。
    Para_04
    1. 我们将这些相关性解释为剂量-反应曲线在目标基因之间的变化情况。
    2. 如果所有下游基因的反应曲线完全相同(最多乘以一个常数),那么部分耗竭的效果将是完全耗竭效果的固定比例,导致跨剂量相关性恰好为一。
    3. 然而,如果反应曲线在目标基因之间有所不同,相关性将小于1,具体取决于反应曲线的变异性。
    4. 事实上,Naqvi等人发现SOX9的部分靶标在部分剂量耗竭时敏感,而更多的靶标只在完全剂量耗竭时受到影响。
    5. 存在一个阈值,使得反应曲线在此处突然变化,这会导致剂量阈值附近的相关性幅度发生显著变化。
    6. 在模拟中,我们通过不同的反应曲线集重现了上述三种相关性模式。
    Para_05
    1. 在遗传实验和遗传关联研究中,通常通过估计基因剂量-反应曲线上的一个点来研究基因的效果,这可能会遗漏定性不同的剂量依赖行为。
    2. 这种现象的一个例子是隐性遗传。
    3. 更广泛地说,即使是半合子不足的基因(如 SOX9)也可以根据剂量表现出定性不同的效应。
    4. 这些分析强调了在遗传关联研究中研究等位基因系列的价值,以及在临床上相关剂量设计敲低实验的重要性。

    Transcriptomic correspondence across neuropsychiatric conditions

    跨神经精神疾病的转录组对应关系

    Para_01
    1. Gandal 等人对患有神经精神疾病的死者脑组织进行了大规模差异表达分析,并将其与神经发育正常的对照组进行比较。
    2. 他们发现不同疾病之间的差异表达效应是相关的,而且这些相关性与这些疾病的遗传效应(遗传相关性)相平行。
    3. 由于遗传效应通常是因果关系,这种平行关系被解释为转录组重叠反映了上游的致病过程,而不是混淆因素或下游效应。
    4. 这项研究中转录组和遗传分析的一个显著区别在于,遗传相关性是通过一种考虑采样变异的受限最大似然方法估算的,而转录组效应相关性则是通过差异表达点估计值之间的样本斯皮尔曼相关性估算的,后者在样本量依赖的方式上存在向下偏差。
    Para_02
    1. 我们重新分析了该研究的差异表达汇总统计数据,并估计了几个诊断之间的TI相关性(图6a,b和补充表17)。
    2. 整合所有诊断对和技术的数据后,我们发现TI相关性明显大于样本Spearman相关性,在九个精神特质对中有九个显示出增加。
    3. 因此,与Spearman相关性估计不同,TRADE相关性估计大于条件间遗传相关性(图6a,b)。
    4. 可视化推断的双变量效应大小分布显示,通常情况下,效应在两种条件下要么都是零,要么是正相关的;几乎没有证据表明存在负相关成分或大量特定条件的基因(补充图24)。
    5. 相比之下,TRADE适当估计了较低的精神病诊断与肠易激综合征之间的TI相关性,后者是非精神病对照特征(补充表17)。
    6. 这一差异的一种解释是转录组效应通常是条件责任的下游,而这些下游效应往往在神经精神疾病之间共享。
    7. 另一种可能性是存在与基因表达和一般神经精神诊断相关的混淆因素。

    Fig. 6: Transcriptomic correspondence of neuropsychiatric conditions.

    - 图片说明

    ◉ 估计的 TI 相关性(橙色)与多个病例/对照数据集中神经精神诊断的点估计的 Spearman 相关系数(绿色)进行比较。 ◉ 来自 PsychENCODE 的微阵列数据集的估计(a)。 ◉ 来自 PsychENCODE 的 RNA-seq 数据集的估计(b)。 ◉ 误差条表示参数估计的标准误差。 ◉ 有关遗传相关性及其标准误差估计的详细信息,请参阅参考文献。 ◉ ASD 表示自闭症;BPD 表示双相情感障碍;IBD 表示肠易激综合症;MDD 表示重度抑郁症;SCZ 表示精神分裂症。

    Discussion

    Para_01
    1. 转录组学和差异表达是现代生物学的基石。
    2. 然而,传统的显著性检验框架可能会将生物学差异与实验设计或样本量的差异混淆。
    3. 我们展示了这些限制可以通过使用 TRADE 明确建模差异表达效应的分布来解决。
    4. 我们发现,在大规模 Perturb-seq 实验中,显著基因仅捕获了 TI 的一小部分。
    5. 在不同细胞类型或甚至重复实验之间,估计效应大小之间的一致性由于抽样变异而减弱,但在许多情况下,真实效应大小高度一致。
    6. 在剂量-反应实验中,我们发现剂量不仅影响转录组范围效应的大小,还影响受影响的基因。
    7. 在一个病例对照数据集而非扰动数据集中,我们发现同样的优势适用,并且我们的方法改变了对神经精神疾病关键分析的解释。
    Para_02
    1. 小的差异表达效应的普遍性与领域内现有的二分法有关,即测试单个基因差异表达的方法(例如,DESeq2)和测试细胞状态差异丰度的方法(例如,共变异邻域分析(CNA))之间的区别。
    2. 这些方法对差异表达有不同的假设:一种认为表达变化主要集中在少数具有大效应的基因上,另一种认为表达变化会分散在成百上千个基因中,反映细胞状态的变化。
    3. 特别是来自TRADE的估计,尤其是πDEG,可以通过量化差异表达是集中在特定目标基因还是分散在整个转录组中来为这些方法提供背景。
    Para_03
    1. 除了研究扰动之外,差异表达分析的一个重要应用是理解细胞类型之间的差异。
    2. 许多关于细胞类型变异的分析需要一个距离度量——一组细胞之间转录组差异的标量总结——并且已经提出了许多这样的度量。
    3. TI 可能是这种分析的一个合适距离度量,因为它在有限样本量下是无偏的(与常用的欧几里得距离不同;补充注释 6),并且可以从差异表达汇总统计中计算得出。
    4. 实际上,我们发现与欧几里得距离相比,TI 在 OneK1K 数据集中生成了更连贯的外周血单核细胞的细胞类型层次结构(补充图 26,补充表 19 和方法)。
    5. 然而,TRADE 的一个局限性是它依赖于预定义的标签,不能用于将细胞聚类成细胞类型。






    请到「今天看啥」查看全文