专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生信人  ·  孟德尔随机化 × vQTL ... ·  2 天前  
生信宝典  ·  iMetaOmics期刊 第2卷第2期 ... ·  昨天  
生物学霸  ·  手把手教学:用好 Word ... ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

GSE75421芯片数据分析-1

生信菜鸟团  · 公众号  · 生物  · 2025-04-26 09:38

正文

请到「今天看啥」查看全文


因为是2016年的数据,所以直接使用geoChina下载即可

#下载数据
library(AnnoProbe)
eSet = geoChina("GSE75421"

#提取数据
eSet = eSet[[1]]
下载得到的数据
下载得到的数据
整理后
整理后

提取表达矩阵和临床信息

提取表达矩阵

#(1)提取表达矩阵exp
exp

dim(exp)  #[1] 24479    12

range(exp)#看数据范围决定是否需要log,是否有负值,异常值,如有负值,结合箱线图进一步判断 
#[1]  1.1694 13.8943

boxplot(exp,las = 2) #看是否有异常样本

提取分组信息

#(2)提取临床信息
pd

if(T){
  k1 = str_detect(pd$title,"normal");table(k1)
  k2 = str_detect(pd$title,"tumor");table(k2)
  pd = pd[k1|k2,]
}

#(3)让exp列名与pd的行名顺序完全一致
p = identical(rownames(pd),colnames(exp));p
if(!p) {
  s = intersect(rownames(pd),colnames(exp))
  exp = exp[,s]
  pd = pd[s,]
}

获取芯片平台编号

gpl_number 

#[1] "GPL18802"

step2-整理分组信息和探针注释

分组信息整理







请到「今天看啥」查看全文