专栏名称: 生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

数据库 | NAR | scLTdb：一个全面的单细胞谱系追踪数据库

生信菜鸟团 · 公众号 · 生物 · 2025-05-22 19:58

正文

请到「今天看啥」查看全文

Para_06

我们采用了四步流程来预处理单细胞长读长测序数据。
（i）根据原研究的标准，我们去除了低质量的细胞。
（ii）我们使用R包Seurat（版本4.4.0）中的‘NormalizeData’函数对数据进行了标准化处理。
（iii）我们通过主成分分析和均匀流形近似与投影（UMAP）减少了数据维度并可视化了细胞，使用的是R包Seurat中的‘RunPCA’和‘RunUMAP’函数。
（iv）对于细胞类型注释，我们基于CellMarker2.0数据库中已知的细胞标记物表达或原始研究提供的细胞身份信息对细胞进行了注释。

Pseudo-time inference

伪时间推断

Para_07

我们利用了 omicverse Python 包（版本 1.5.9）中实现的基于分区的图抽象（PAGA）方法，构建轨迹并推断每个数据集的伪时间。
为此，我们使用 ‘ov.single.TrajInfer’ 函数构建扩散图，并将参数 ‘n_comps’ 设置为 50，然后应用 ‘ov.Traj.inference’ 函数计算伪时间值。

Identification of high-confidence barcodes (clones)

高置信度条形码（克隆）的识别

Para_08

由于技术问题，在初始条形码阶段，一些条形码标记了多个细胞。这些条形码不能代表来自单个祖细胞的细胞，称为克隆。因此，在克隆分析之前需要过滤这些条形码。
我们应用原始论文的方法在 scLTdb 中呈现高置信度的条形码。

Alignment of single-cell lineage barcodes

单细胞谱系条形码的对齐

Para_09

scLT实验生成一个FASTQ文件，其中包含谱系条形码及其在单细胞RNA（或单细胞ATAC）数据中对应的细胞索引。
理论上，一个细胞只有一个谱系条形码，因此一个细胞索引应该只匹配一个条形码序列。
然而，由于测序错误，一个细胞索引可能会匹配多个条形码。
因此，有必要将唯一的条形码与每个细胞索引对齐。
在我们的数据库中，我们采用了原始研究的方法来识别每个细胞索引的唯一条形码。

Clone analysis and visualization

克隆分析与可视化

Para_10

为了分析和可视化单细胞长读测序数据中的谱系条形码，我们将所有分析步骤封装到一个名为 FateMapper 的 R 包中（https://github.com/jiang-junyao/FateMapper）。
FateMapper 主要包含四个功能：(i) ‘cal_clone_size’ 函数用于计算每个单细胞长读测序数据集中克隆的大小。克隆大小表示携带相同克隆条形码的细胞数量。克隆大小信息通过 R 包 ggplot2（版本 3.3.6）进行可视化。
(ii) ‘fate_mapping’ 函数用于通过可视化条形码在各种细胞类型中的传播来映射目标群体的细胞命运偏向。此函数计算特定条形码在目标群体中与所有细胞类型的比例。计算条形码比例的公式如下：

Para_11

‘lineage_relationship’ 函数用于分析和可视化各种细胞类型之间的谱系关系。它计算每对细胞类型之间的条形码特征的 Spearman 相关性，然后通过 R 包 pheatmap 中的 ‘pheatmap’ 函数可视化结果。
‘plot_clone_embedding’ 函数用于使用 R 包 ggplot2 在嵌入图中可视化具有相同命运偏好的单个克隆或一组克隆。

Clone fate bias analysis

克隆命运偏倚分析

Para_12

克隆命运偏倚代表了祖细胞分化为特定下游细胞类型的偏好。
对于定义了克隆命运偏倚的研究，我们直接使用这些信息在我们的数据库中标记克隆命运偏倚，确保我们的分析与原始研究一致。
对于其他研究，我们使用 R 包 FateMapper 中的 ‘clone_fate_bias’ 函数来评估每个克隆的命运偏倚。
该函数使用 Fisher 精确检验来量化克隆在一组细胞类型中的占有情况与其随机抽样预期之间的统计显著性差异。
随后，我们根据 Benjamini-Hochberg 程序对 ‘clone_fate_bias’ 分析获得的 P 值进行了假发现率（FDR）调整。
通过这种调整，我们识别出具有显著命运偏倚的克隆（FDR < 0.05）。

Identification and visualization of fate-related DEGs or DARs

命运相关差异表达基因或差异可及性区域的识别与可视化

Para_13

为了在单细胞 RNA 测序（scRNA-seq）数据中识别具有不同命运偏向的细胞的差异表达基因（DEGs），我们使用了 R 包 Seurat 中的‘FindMarker’函数。
‘FindMarker’函数中的‘test.use’参数设置为‘negbinom’。
为了在单细胞 ATAC 测序（scATAC-seq）数据中识别不同命运偏向之间的差异可及区域（DARs），我们将‘FindMarker’函数中的‘test.use’参数调整为‘wilcox’。
选择 P 值 <0.05 且 Log2FoldChange 绝对值 >0.5 的基因和峰作为 DEGs 和 DARs。
峰相关基因通过 R 包 IReNA（版本 1.0.0）中的‘get_related_genes’函数进行注释。
使用 R 包 Seurat 中的‘Doheatmap’函数和 R 包 ggplot2 中的‘ggplot’函数来可视化 DEGs 和 DARs。
我们使用 R 包 ClusterProfiler（版本 3.18.1）基于基因本体（GO）数据库进行功能富集分析，参数‘pvalueCutoff’设置为 0.05。

Motif enrichment analysis

基序富集分析

数据库 | NAR | scLTdb：一个全面的单细胞谱系追踪数据库

正文

请到「今天看啥」查看全文

Para_06

Pseudo-time inference

Para_07

Identification of high-confidence barcodes (clones)

Para_08

Alignment of single-cell lineage barcodes

Para_09

Clone analysis and visualization

Para_10

Para_11

Clone fate bias analysis

Para_12

Identification and visualization of fate-related DEGs or DARs

Para_13

Motif enrichment analysis

Para_14

请到「今天看啥」查看全文