首页   

“零基础”学习单细胞转录组测序

生信人  · 生物  · 6 年前

生信人的读者们,大家好!这里,我们将简要描述单细胞测序的各种方法,并对几种常用的单细胞转录组测序方法进行简单的比较,最后,我们提供基本的应用以供生信爱好者使用,同时,欢迎提供讨论。

 

第一部分:单细胞测序基本介绍

经典的人类细胞由约33亿个碱基对的DNA和6亿个碱基的mRNA组成。现阶段大部分测序是将数百万个细胞的混合物用Sanger测序或者Illumina测序对DNA或者RNA进行测序。而通过使用来自单个细胞的DNA和RNA的深度测序,我们可以更加深入广泛地研究细胞功能 [1]。

单细胞测序(Single Cell Sequencing,SCS)利用优化的二代测序(Next Generation Sequencing,NGS)技术检查来自单个细胞的序列信息,可以提供更高分辨率的细胞差异并更好地理解单个细胞在其微环境中的功能 [1]。其主要包括以下四个步骤:单个细胞的分离,核酸的提取和分离,测序文库的制备,测序和生物信息学数据分析。另外,因为我们主要针对的目标是生信人,所以,在本文的后半部分,我们将以2017年的一篇Cell文章为例子,讲一下单细胞转录组测序(Single Cell RNA Sequencing,scRNA-seq)数据分析的应用。

大数据技术在生物医学研究中具有许多应用 [2],特别是,NGS或单细胞技术已经成为了精准医疗的一个巨大的推动力 [3-6]。Yu等人在2016年1月通过使用关键词检索上载到NCBI中Gene Expression Omnibus(GEO)子库数据库的scRNA数据集的年增长以及过去7年PubMed中涉及scRNA-seq和大数据的新文章数量的增加(图1),他们预测scRNA-seq技术正在被广泛的应用 [2]。

 

 

图1.单细胞数据和大数据相关的论文数目和数据集数目 [2]

 

来自成千上万个单细胞的数据难以一个一个分别进行分析,而一些软件的进步使得这个过程变得更加简单方便(图2)。因为不存在两个完全一样的细胞,scRNA-seq可以揭示出导致每个细胞具有唯一性的微量变化。scRNA-seq作为研究转录组细胞与细胞变异的强有力的方法,可以用于揭示新的细胞类型并提供对发育过程和转录随机性的观察 [8]。然而,为了确保scRNA-seq数据能够得到适当的分析,开发特别针对处理单细胞数据并与实验技术进步相同步的计算方法至关重要。新的方法已经并将继续为标准化和细胞类型识别而开发,这些方法更加注重解剖细胞表面水平的变异性。另外,还有许多新的领域工具仍有待开发 [9]。因此,scRNA面临的挑战主要有以下几类:首先,scRNA-seq数据的标准化必须适当考虑细胞内转录的RNA总量的差异,并且对于非基于唯一分子标识(Unique Molecular Identifiers,UMIs)的方案,scRNA-seq数据的标准化必须适当考虑测序深度的差异;其次,如果scRNA-seq数据集中的生物相关信号要被强有力地发现,则需要建模已混淆变量和/或使用基于回归的分析去除它们的方法;最后,精确模拟技术变异性(即使去除混杂变量后)也是至关重要的,因为如果没有对scRNA-seq数据固有的基础噪音的基本理解,下游解释可能会严重受损 [9]。随着这些问题得到不断的解决,预计scRNA-seq方法将会在未来几年内得到发展,从组织生理学到系统生物学等领域都会有新的发现。

 

 

图2.单细胞测序使得一切变得简单 [7]

 

第二部分:各种单细胞转录组测序方法比较


接下来,我们将对scRNA-seq的几种常见方法进行简要的讨论。

已有研究显示出:在Fluidigm(C1平台)的自动化微流体平台中可用的小体积中进行实验,结果显示:scRNA-seq性能要优于CEL-seq2,Smart-seq或者其他市售微升容量的试剂盒 [10, 11]。此外,Smart-seq方法针对灵敏度,甚至是全长的覆盖度,精确度和成本均进行了优化,而这种改进的Smart-seq2方法也被广泛使用 [12]。还有一些方法为了用于对cDNA生成的部分引物进行测序,牺牲了全长范围的覆盖度。这就使得文库能够在早期加入barcode(即引入细胞特异性barcode),从而允许多重扩增cDNA的扩增,并由此将scRNA-seq文库的通量增加1-3个数量级 [13-16]。此外,这种方法允许引入UMI,标记单个mRNA分子的随机核苷酸序列,因此可以区分原始分子和源自cDNA或文库扩增的重复序列 [17]。利用UMI信息改进了mRNA分子的定量 [17, 18],并且已经在若干scRNA-seq方案中实施,例如STRT [18]、CEL-seq [10, 19]、CEL-seq2 [10]、Drop-seq [16]、inDrop [15]、MARS-seq [14]和SCRB-seq [20]。

然而,仍然缺乏scRNA-seq方法相关参数的全面系统的比较。为了解决这个问题,2017年Ziegenhain等人使用六种不同的方法重复两次,并进行比较 [21]。使用小鼠胚胎干细胞(mouse ESCs)的数据,用以系统地评估六种常见scRNA测序方法的灵敏性和准确性 [21]。他们使用功率仿真来比较不同方法的成本和效率,允许在现有的方法中作出明智的选择,并为将来的比较提供框架 [21]。Ziegenhain等人从小鼠胚胎干细胞中产生了583个scRNA-seq文库,比较了它们的灵敏度、准确性、精确度以及效能(图3)。


图3.六种不同的scRNA-seq的实验学和计算学技术路线 [21]

 

首先,在灵敏度方面对六种scRNA-seq方法进行比较(图4)。结果显示:Smart-seq2是最灵敏的方法,因为它可以检测到每个细胞中基因的最大数目和跨细胞总数最多的基因,并且在整个转录本中最均匀的覆盖率。Smart-seq/C1在每个细胞的敏感度略低,检测到的细胞几乎相同数量基因的覆盖度略低。在所有3’端计数的方法中,CEL-seq2/C1和SCRB-seq检测到的每个细胞的基因数目与Smart-seq/C1相同,而Drop-seq和MARRS-seq检测到的基因明显更少。

 

 

图4.六种不同的scRNA-seq的灵敏性比较 [21]

 

接下来,首先,在准确性方面六种scRNA-seq方法进行比较(图5)。为了在转录本水平衡量各种不同方法的准确性,Ziegenhain等人把已知的92个来源于External RNA Control Consortium(ERCCs)的转录本的表达值和观测值进行对比,对于每个细胞分别并建立线性模型用来计算共相关系数(R2)。这些方法在精确性上具有显著的差异(Kruskal-Wallis检验,p<2.2e-16)。其中,R2最高的是0.91(Smart-seq2),最低的是0.83(MARS-seq)。

 

 

图5.六种不同的scRNA-seq的准确性比较 [21]

 

再然后,在精确性方面对六种scRNA-seq方法进行比较(图6)。用UMI强烈地增加了扩增基因的精确度。结果显示与UMI方法相比,Smart-seq2在更多细胞中检测到共同的13,361个基因,但与预期相比,它具有比基于UMI的方法更多的放大噪声。不论从这个分析还是从忽略scRNA-seq数据的强均方差和平均dropout依赖性的总变异系数来看,dropout率和放大噪声的不同组合如何影响方法的功效并不明显。

 

图6.六种不同的scRNA-seq的精确度比较 [21]

 

再然后,在效能方面对六种scRNA-seq方法进行比较。SCRB-seq对于一百万个reads和五十万个reads的数据量而言,是最有效的方法,但是CEL-seq2/C1对于250,000个reads序列深度是最强大的方法。

 

 

图7.六种不同的scRNA-seq的效能比较 [21]

 

最后,对这六种scRNA-seq实验方法的花费和效能进行了整合的评估。Drop-seq、MARS-seq、SCRB-seq和Smart-seq2方法的花费效率具有相似的高的特征。

表一.推断scRNA-seq实验的花费和效能 [21]

 

 

第三部分:scRNA-seq数据分析的应用


scRNA-seq分析分为两个层次:细胞层面的分析和基因层面的分析。具体到细胞层面的分析,又包括了聚类和细胞起源推断等;而具体到基因层面的分析,又包括了识别不同细胞类型的marker、基因表达的动态分析以及根据基因-基因的表达相关性推荐基因调控网络 [22, 23]。

接下来,我们根据Zheng等人的研究“Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing”重点说明scRNA-seq技术的应用。Zheng等人通过使用scRNA-seq测序分析来自肝癌细胞患者的T细胞群揭示了不同的亚型和浸润淋巴细胞的克隆扩增 [24]。我们重点关注于以下几个分析:

(1) 细胞聚类和亚型分析

为了揭示整体T细胞群的内在结构和潜在功能亚型,Zheng等人使用SC3中实施的谱系聚类方法对所有的T细胞进行无监督的聚类分析(图8)。结果显示共出现了11个稳定的簇,其中包括了CD8+的5个簇和CD4+细胞的6个簇,并且每个簇具有其独特的标签基因。

 

 图8.使用t-SNE映射对来源于HBV+病人的T细胞进行亚型分析 [24]

 

(2) 差异基因表达分析

在33个常见的Treg标签基因中,其中的31个基因同时可以被Zheng等人的研究所鉴定出来(图9)。因此证明此scRNA-seq数据是可靠的稳定的。

 

 

图9.使用Volcanno plot和Violin plot显示肿瘤浸润细胞中的差异表达基因 [24]

 

参考文献


1.Eberwine, J., et al., The promise of single-cell sequencing. Nat Methods, 2014. 11(1): p. 25-7.

2.Yu, P. and W. Lin, Single-cell Transcriptome Study as Big Data. Genomics Proteomics Bioinformatics, 2016. 14(1): p. 21-30.

3.Campton, D.E., et al., High-recovery visual identification and single-cell retrieval of circulating tumor cells for genomic analysis using a dual-technology platform integrated with automated immunofluorescence staining. BMC Cancer, 2015. 15: p. 360.

4.Vicini, P., et al., Precision medicine in the age of big data: The present and future role of large-scale unbiased sequencing in drug discovery and development. Clin Pharmacol Ther, 2016. 99(2): p. 198-207.

5.Yadav, S.S., et al., Next-generation sequencing technology in prostate cancer diagnosis, prognosis, and personalized treatment. Urol Oncol, 2015. 33(6): p. 267 e1-13.

6.Zhang, X., et al., Investigating evolutionary perspective of carcinogenesis with single-cell transcriptome analysis. Chin J Cancer, 2013. 32(12): p. 636-9.

7.Perkel, J.M., Single-cell sequencing made simple. Nature, 2017. 547(7661): p. 125-126.

8.Svensson, V., et al., Power analysis of single-cell RNA-sequencing experiments. Nat Methods, 2017. 14(4): p. 381-387.

9.Stegle, O., S.A. Teichmann, and J.C. Marioni, Computational and analytical challenges in single-cell transcriptomics. Nat Rev Genet, 2015. 16(3): p. 133-45.

10.Hashimshony, T., et al., CEL-Seq2: sensitive highly-multiplexed single-cell RNA-Seq. Genome Biol, 2016. 17: p. 77.

11.Wu, A.R., et al., Quantitative assessment of single-cell RNA-sequencing methods. Nat Methods, 2014. 11(1): p. 41-6.

12.Picelli, S., et al., Smart-seq2 for sensitive full-length transcriptome profiling in single cells. Nat Methods, 2013. 10(11): p. 1096-8.

13.Hashimshony, T., et al., CEL-Seq: single-cell RNA-Seq by multiplexed linear amplification. Cell Rep, 2012. 2(3): p. 666-73.

14.Jaitin, D.A., et al., Massively parallel single-cell RNA-seq for marker-free decomposition of tissues into cell types. Science, 2014. 343(6172): p. 776-9.

15.Klein, A.M., et al., Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells. Cell, 2015. 161(5): p. 1187-1201.

16.Macosko, E.Z., et al., Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets. Cell, 2015. 161(5): p. 1202-1214.

17.Kivioja, T., et al., Counting absolute numbers of molecules using unique molecular identifiers. Nat Methods, 2011. 9(1): p. 72-4.

18.Islam, S., et al., Quantitative single-cell RNA-seq with unique molecular identifiers. Nat Methods, 2014. 11(2): p. 163-6.

19.Grun, D., L. Kester, and A. van Oudenaarden, Validation of noise models for single-cell transcriptomics. Nat Methods, 2014. 11(6): p. 637-40.

20.Soumillon, M., Cacchiarelli, D., Semrau, S., van Oudenaarden, A., and Mikkelsen, T.S., Characterization of directed differentiation by highthroughput single-cell RNA-seq. bioRxiv., 2014.

21.Ziegenhain, C., et al., Comparative Analysis of Single-Cell RNA Sequencing Methods. Mol Cell, 2017. 65(4): p. 631-643 e4.

22.Picelli, S., Single-cell RNA-sequencing: The future of genome biology is now. RNA Biol, 2017. 14(5): p. 637-650.

23.Haque, A., et al., A practical guide to single-cell RNA-sequencing for biomedical research and clinical applications. Genome Med, 2017. 9(1): p. 75.

24.Zheng, C., et al., Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing. Cell, 2017. 169(7): p. 1342-1356 e16.


欢迎关注生信人

TCGA | 小工具 | 数据库 |组装注释 |   基因家族  |  Pvalue

基因预测  |bestorf |  sci NAR | 在线工具 | 生存分析 | 热图

 生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos

 舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 |  进化 | 测序简史

 


推荐文章
读首诗再睡觉  ·  四片唇终结的分岔路  ·  2 年前  
天融信阿尔法实验室  ·  Java反序列化系列 ysoserial ...  ·  4 年前  
互联网er的早读课  ·  我的20条运营笔记  ·  6 年前  
© 2022 51好读
删除内容请联系邮箱 2879853325@qq.com