正文
。探针的设计需要具有足够的特异性,确保所设计的序列不会与其他基因的RNA发生交叉结合。
基因集性能比较(c):
通过对不同特征选择方法所选基因集的性能进行比较,包括基于主成分分析(PCA)、差异表达(DE)等方法。此外,还引入了一些基线比较,如随机选择基因和最高表达基因集的选择。测试指标主要分为以下几类:变异恢复、细胞类型分类、基因冗余、计算时间和实验
限制
的满足情况。
Spapros的设计理念
Spapros的设计基于以下核心目标:
-
细胞类型识别
(Cell Type Identification):优化基因选择,确保能精确区分不不同细胞类型,从而实现空间分析中细胞类型的准确标定。
-
变异捕捉
(Variation Recovery):选择能捕捉细胞间及同一细胞类型内基因表表达变异的基因,以揭示细胞的空间异质性。
-
探针设计的技术
限制
(Technical Constraints on Probe Design):探针设设计过程中必须考虑特定基因的序列特性,确保探针具有足够的特异性和灵敏度,避免非特异性结合。
Spapros结合多种评估手段,如
主成分分析
(Principal Component Analysis, PCA)和
差异表达分析
(Differential Expression, DE),并考虑技术
限制
进行基因集优化选择。例如,在针对人类肺组织的实验中,Spapros选择了一组针对成年肺组织的探针集,并通过
SCRINSHOT
实验验证其有效性。结果表明,这些探针不仅能够精准识别目标细胞类型,还能够捕捉同一细胞类型之间的空间变异,展示了其设计的精确性和有效性。
Spapros 探针集选择的整体流程
(Credit:
Nature Methods
)
探针集选择的流程示意图:
Spapros 的完整探针集选择流程,涵盖基于主成分分析(PCA)和差异表达(DE)方法的基因选择构建模块。
通过优化基因选择、设计探针序列,并考虑特定技术的技术限制,Spapros 能够提供一个最优的组合探针集,无需进一步的基因过滤即可直接生成。
转录组范围的探针设计流程:
Spapros 首先通过探针设计组件过滤掉无法为其设计探针的基因,这些基因由于技术
限制
如 GC 含量、熔解温度等不符合要求。此过程确保最终探针的结合位置不重叠,使用图搜索算法生成具有最佳热力学和序列特性的非重叠探针集。
基因集的最终选择和性能比较:
Spapros 为 Madissoon2020 人类肺数据集选择的探针集(50 个和 150 个基因)与包含 8,000 个 HVGs 的参考基因集的 UMAP 比较。结果表明,Spapros 选择的基因集能够有效保留细胞类型的多样性。
探针集的评估方法与结果
为了系统地评估探针集的有效性,Spapros团队开发了一套多维度的评估指标:
-
细胞类型识别准确率
(Classification Accuracy):衡量探针集在区分不同细胞类型时的表现。
-
捕获细胞类型的百分比
(Percentage of Captured Cell Types):反映探针集是否涵盖所有潜在的细胞类型。
-
表达变异的恢复能力
(Variation Recovery Metrics):评估探针集在重构全基因组表达变异方面的表现。
研究结果显示,Spapros在细胞类型识别和表达变异恢复方面均显著优于传统方法。例如,在多重误差鲁棒荧光原位杂交(MERFISH)数据集中,Spapros探针集的细胞类型识别和空间变异恢复的相关性高达
0.79
,表明其探针能够有效捕捉到空间中的细胞变异。
此外,研究人员将Spapros与其他基因选择方法在不同数据集上进行对比。在Madissoon2020肺数据集中,Spapros选择了50和150个基因,通过UMAP嵌入分析探针集的性能,结果显示Spapros选择的探针集能够有效保留细胞类型的多样性特征。尤其对于类似的细胞类型(如
1型
和
2型树突细胞
),Spapros选择的基因组合(如
CST3
、
FCER1A
、
IL1B
)表现尤为出色,使细胞类型识别和空间变异恢复均优于其他传统方法。
在对心脏和肝脏组织的实验中,Spapros在选择用于检测纤维化标志物的探针集方面也展现出显著优势。例如,在
纤维母细胞
与
心肌细胞
的区分中,Spapros选择的探针集显著提高了检测准确率,尤其在
TGFB1
和
COL1A1
等关键基因的检测上,表现出卓越的灵敏度和特异性。这些基因在纤维化过程中起重要作用,证明了Spapros不仅能精确区分细胞类型,还能捕捉疾病相关的关键状态。