数据库 | scImmOmics：一个人工编纂的单细胞多组学免疫数据资源

生信菜鸟团 · 公众号 · 生物 · 2025-05-08 15:02

正文

请到「今天看啥」查看全文

在文献中，‘数据可用性’部分通常记录了数据存储资源，主要包括NCBI GEO（15）、单细胞表达图谱（EMBL-EBI/SCEA）（16）、GitHub、Zenodo、人类细胞图谱门户（HCA）（17）和CellTypist（18），其中处理后的文件存储在各种格式中，例如MatrixMarket、RDS和H5。

我们首先下载并保留了包含元数据的数据，这些数据通常从原始文章继承了UMAP坐标和细胞/组织类型信息。

根据细胞类型信息提取并过滤了免疫细胞。

然后，我们手动调整并扩展了元信息，包括物种、组织、健康/疾病状态、数据来源、平台、PMID、文章名称、期刊和年份。

为了生成详细的分层免疫细胞结构，我们通过以下步骤进一步标准化了多样的元信息：（i）将缩写细胞类型转换为其全名，（ii）将细胞类型映射到细胞本体（19），（iii）向我们的细胞类型层次结构中添加细胞本体中不存在的新细胞亚型，（iv）统一组织名称。

最后，我们收集了来自不同平台的超过290万种免疫细胞，共计131种免疫细胞类型，包括10x Genomics、MARS-seq、Seq-Well、Smart-seq2、inDrop和Microwell-seq。

Differential gene and functional annotation

差异基因与功能注释

Para_05

基于已知的免疫细胞类型，我们使用了R包Seurat中的‘FindAllMarkers’函数来识别每种细胞类型的DEGs（差异表达基因）（20），并使用Wilcoxon检验来确定显著的P值。
基因的对数值变化（|logFC| >= 0.25）和P值小于0.01被认为是差异表达的。
接下来，我们使用R包clusterProfiler（21）对每个DEG集进行了功能富集分析。
这些GO术语、通路、标志物和免疫特征（来自MSigDB）经过调整后的P值小于0.05被认为显著富集，并使用条形图和气泡图进行可视化（22-25）。

Differentiation trajectories

分化轨迹

Para_06

轨迹分析有助于理解各种细胞类型之间的转换和相互作用，揭示免疫系统内的复杂动态变化。
在这里，我们使用了R包Monocle3（26）来推断免疫细胞的轨迹及其发育伪时间，采用‘get_earliest_principal_node’策略设置默认根节点。
R包CytoTRACE2被用来通过量化基因多样性来评估分化潜力和细胞状态（27）。

Co-expression modules

共表达模块

Para_07

我们使用高维加权基因共表达网络分析（hdWGCNA）构建了基因共表达网络模块，并在不同组中鉴定了关键调节因子（28）。
对于每个模块，使用‘ModuleConnectivity’函数计算基于特征基因的连接性（kME）和高度连接的枢纽基因。

Cell–cell communications

细胞间的通讯

Para_08

为了评估不同免疫细胞类型之间在信号通路水平上的细胞-细胞相互作用（CCIs），我们基于CellChatDB数据库进行了CellChat（29）分析。
每个与信号通路相关的配体-受体相互作用都被赋予了一个概率值，并进行了置换检验来推断细胞间的通信。
所有P值小于0.01的CCIs都基于权重或计数在圆形图中可视化了。

Identification and statistics of clonotypes

克隆型的识别和统计

Para_09

映射免疫细胞的克隆型景观可以帮助用户理解抗原受体识别和免疫系统内功能多样性的工作机制。
基于来自单细胞T细胞受体测序（scTCR-seq）或单细胞B细胞受体测序（scBCR-seq）数据中的CDR3序列，我们计算了每个细胞的克隆频率，当前细胞类型中具有该克隆型的细胞比例以及不同细胞类型之间的克隆型分布。
此外，使用R包scRepertoire可视化克隆网络，并使用源自(1)的Startrac生成多样性指数，包括克隆扩增、跨组织迁移和状态转换。
最后，scImmOmics提供了关于免疫细胞类型、V(D)J基因注释和CDR3序列的详细信息。
对于没有耦合scTCR-seq或scBCR-seq数据的scRNA-seq样本，我们进一步下载了它们的FASTQ或BAM格式文件，并应用TRUST算法进行从头组装免疫受体库，从而实现T细胞受体（TCR）和B细胞受体（BCR）的重建。

Differential accessibility regions (DARs) and functional annotation (scATAC-seq)

差异可及区域（DARs）和功能注释（scATAC-seq）

Para_10

研究不同细胞类型的差异可及区域（DARs）对于理解免疫细胞的异质性和多样性至关重要。
对于单细胞ATAC测序样本，我们使用scATAC-pro（34）的runDA模块计算了每种细胞类型的DARs，并使用assignGene2Peak函数来识别最近关联的基因。
最近的基因被定义为距离峰中心100kb范围内的最接近的基因。
基于DARs的最近基因，我们使用R包clusterProfiler进行了GO术语、通路、标志和免疫特征富集分析，以进一步阐明每种细胞类型的DAR功能。

Co-accessibility and gene activity scores (scATAC-seq)

共可及性和基因活性评分（scATAC-seq）

Para_11

为了阐明免疫细胞功能和多样性的调控机制，我们利用Cicero软件（35）基于相关方法计算了可及区域对的共可及性评分。
使用0.25的阈值来确定显著的共可及性相互作用。
随后，通过考虑这些共可及性区域与转录起始位点（TSS）的接近程度以及它们与基因启动子区域的共可及性，将这些共可及性区域与附近的基因联系起来。