主要观点总结
本文介绍了如何利用TCGA数据库进行转录组数据分析的实战操作。文章详细说明了从下载转录组数据、查询项目信息、查询与下载数据、准备数据、基因信息、样本信息、表达矩阵到差异分析的全过程。
关键观点总结
关键观点1: 下载转录组数据:介绍如何使用TCGAbiolinks包从TCGA数据库中下载转录组数据。
加载必要的包,查询项目信息,选择需要下载的癌症种类的转录组数据。
关键观点2: 查询与下载数据:详细解释如何使用TCGAbiolinks包流程化完成数据查询与下载。
介绍网络问题对下载过程的影响,提供查询数据的代码示例。
关键观点3: 准备数据:介绍数据的结构,即SummarizedExperiment对象,包括样本矩阵、检测矩阵和基因矩阵的访问方式。
提供查看基因信息和样本信息的方法,以及过滤基因和样本的选项。
关键观点4: 表达矩阵:解释表达矩阵的多种类型,包括unstranded、stranded_first、stranded_second、tpm_unstrand、fpkm_unstrand等,并提供提取表达矩阵的方法。
强调使用assay函数提取表达矩阵的重要性。
关键观点5: 差异分析:介绍如何使用DESeq2包进行差异分析。
包括构建DESeq2数据集、过滤基因、运行DESeq2和提取差异基因的结果。
正文
workflow.type = "STAR - Counts"
)
GDCdownload(query)
data
我们可以看一下
data
这个数据结构,他使用的是
SummarizedExperiment
对象。https://bioconductor.org/packages/release/bioc/html/SummarizedExperiment.html
SummarizedExperiment 对象包含三个可通过 SummarizedExperiment 包访问的主要矩阵:
-
样本矩阵信息通过
colData(data)
访问:存储样本信息。TCGAbiolinks 会添加来自 TCGA 标志性论文的索引临床数据和亚型信息。类似于表达矩阵的列名,代表样本名,不过对这个样本名进行了多个信息记录。
-
检测矩阵信息通过
assay(data)
访问:存储分子数据。没有行名和列名的矩阵。
-
基因矩阵信息(基因信息)通过
rowRanges(data)
访问:存储特征的元数据,包括其基因组范围。类似于表达矩阵的行名,基因 ID 一样,不过对这个 ID 进行了多个信息记录。
说的通俗一点,这个结构相当于一个表达矩阵,不过我分成了三部分储存,一部分是行名(基因信息),一部分是列名(样本信息),一部分是矩阵(counts, TPM等)。
基因信息
我们分别谈每一部分,先看基因信息。
# 可以直接查看
data@rowRanges
# 也可以使用 SummarizedExperiment 对象专有提取命名。这里的rowRanges可以一个函数命令哦。