专栏名称: 生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

玩转 TCGA 数据库 - 转录组分析（二）

生信菜鸟团 · 公众号 · 生物 · 2025-05-12 19:40

主要观点总结

本文介绍了如何利用TCGA数据库进行转录组数据分析的实战操作。文章详细说明了从下载转录组数据、查询项目信息、查询与下载数据、准备数据、基因信息、样本信息、表达矩阵到差异分析的全过程。

加载必要的包，查询项目信息，选择需要下载的癌症种类的转录组数据。

介绍网络问题对下载过程的影响，提供查询数据的代码示例。

提供查看基因信息和样本信息的方法，以及过滤基因和样本的选项。

强调使用assay函数提取表达矩阵的重要性。

包括构建DESeq2数据集、过滤基因、运行DESeq2和提取差异基因的结果。

workflow.type = "STAR - Counts"
)
GDCdownload(query)
data

我们可以看一下 data 这个数据结构，他使用的是 SummarizedExperiment 对象。https://bioconductor.org/packages/release/bioc/html/SummarizedExperiment.html

SummarizedExperiment 对象包含三个可通过 SummarizedExperiment 包访问的主要矩阵：

样本矩阵信息通过 colData(data) 访问：存储样本信息。TCGAbiolinks 会添加来自 TCGA 标志性论文的索引临床数据和亚型信息。类似于表达矩阵的列名，代表样本名，不过对这个样本名进行了多个信息记录。
检测矩阵信息通过 assay(data) 访问：存储分子数据。没有行名和列名的矩阵。
基因矩阵信息（基因信息）通过 rowRanges(data) 访问：存储特征的元数据，包括其基因组范围。类似于表达矩阵的行名，基因 ID 一样，不过对这个 ID 进行了多个信息记录。

说的通俗一点，这个结构相当于一个表达矩阵，不过我分成了三部分储存，一部分是行名（基因信息），一部分是列名（样本信息），一部分是矩阵（counts, TPM等）。

我们分别谈每一部分，先看基因信息。

# 可以直接查看
data@rowRanges

# 也可以使用 SummarizedExperiment 对象专有提取命名。这里的rowRanges可以一个函数命令哦。

推荐文章

BioArt · Cancer Cell丨靶向IL-15R信号传导来增强NK细胞的抗肿瘤免疫

4 小时前

BioArt · Nature丨肿瘤微环境中的牛磺酸驱动侵袭性髓系白血病的发生

4 小时前

生物学霸 · 手把手教学：用好 Word 审阅功能，让导师愉快的修改你的论文

19 小时前

BioArt · Cell Stem Cell丨优先靶向肿瘤HER2的新型CAR-T细胞克服实体瘤疗效多重障碍

昨天

生信宝典 · iMeta期刊第4卷第3期在线正式发布

2 天前

一块去旅行 · 这个90后混血姑娘跑回中国寻根，只用藏族牦牛绒就征服了LV、爱马仕

8 年前

新闻夜航 · 惊魂10分钟！垂直下落500米！乘客飞出座位！连空姐都哭了……昨天这架飞机在天上发生了什么？

7 年前

工程客 · 31个让人吃惊的真相！万万没想到...

7 年前

三川汇文化科技 · 【公示】住建部：第二批全国特色小镇名单

7 年前

金乡大蒜辣椒国际交易市场 · 近几年流行的大数据怎么服务三农？

7 年前