专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Cancer Cell丨靶向IL-15R信号 ... ·  4 小时前  
生物学霸  ·  手把手教学:用好 Word ... ·  19 小时前  
BioArt  ·  Cell Stem ... ·  昨天  
生信宝典  ·  iMeta期刊 第4卷第3期 在线正式发布 ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

玩转 TCGA 数据库 - 转录组分析(二)

生信菜鸟团  · 公众号  · 生物  · 2025-05-12 19:40

主要观点总结

本文介绍了如何利用TCGA数据库进行转录组数据分析的实战操作。文章详细说明了从下载转录组数据、查询项目信息、查询与下载数据、准备数据、基因信息、样本信息、表达矩阵到差异分析的全过程。

关键观点总结

关键观点1: 下载转录组数据:介绍如何使用TCGAbiolinks包从TCGA数据库中下载转录组数据。

加载必要的包,查询项目信息,选择需要下载的癌症种类的转录组数据。

关键观点2: 查询与下载数据:详细解释如何使用TCGAbiolinks包流程化完成数据查询与下载。

介绍网络问题对下载过程的影响,提供查询数据的代码示例。

关键观点3: 准备数据:介绍数据的结构,即SummarizedExperiment对象,包括样本矩阵、检测矩阵和基因矩阵的访问方式。

提供查看基因信息和样本信息的方法,以及过滤基因和样本的选项。

关键观点4: 表达矩阵:解释表达矩阵的多种类型,包括unstranded、stranded_first、stranded_second、tpm_unstrand、fpkm_unstrand等,并提供提取表达矩阵的方法。

强调使用assay函数提取表达矩阵的重要性。

关键观点5: 差异分析:介绍如何使用DESeq2包进行差异分析。

包括构建DESeq2数据集、过滤基因、运行DESeq2和提取差异基因的结果。


正文

请到「今天看啥」查看全文



workflow.type = "STAR - Counts"
)
GDCdownload(query)
data

我们可以看一下 data 这个数据结构,他使用的是 SummarizedExperiment 对象。https://bioconductor.org/packages/release/bioc/html/SummarizedExperiment.html

SummarizedExperiment 对象包含三个可通过 SummarizedExperiment 包访问的主要矩阵:

  • 样本矩阵信息通过 colData(data) 访问:存储样本信息。TCGAbiolinks 会添加来自 TCGA 标志性论文的索引临床数据和亚型信息。类似于表达矩阵的列名,代表样本名,不过对这个样本名进行了多个信息记录。
  • 检测矩阵信息通过 assay(data) 访问:存储分子数据。没有行名和列名的矩阵。
  • 基因矩阵信息(基因信息)通过 rowRanges(data) 访问:存储特征的元数据,包括其基因组范围。类似于表达矩阵的行名,基因 ID 一样,不过对这个 ID 进行了多个信息记录。

说的通俗一点,这个结构相当于一个表达矩阵,不过我分成了三部分储存,一部分是行名(基因信息),一部分是列名(样本信息),一部分是矩阵(counts, TPM等)。

基因信息

我们分别谈每一部分,先看基因信息。

# 可以直接查看
data@rowRanges
# 也可以使用 SummarizedExperiment 对象专有提取命名。这里的rowRanges可以一个函数命令哦。






请到「今天看啥」查看全文