专栏名称: 小张聊科研
聊聊跟科研有关的感想心得,如基金,文章和实验。
目录
相关文章推荐
募格学术  ·  冲刺申博!师范学院,更名大学 ·  6 小时前  
募格学术  ·  35.65亿!985新校区,9月启用 ·  昨天  
研之成理  ·  中科院化学所,Nature Chemistry! ·  2 天前  
科研大匠  ·  Science重磅:全球首例!复旦科学家团队 ... ·  3 天前  
51好读  ›  专栏  ›  小张聊科研

这些图到底是在说些啥?

小张聊科研  · 公众号  · 科研  · 2017-05-12 09:05

正文

请到「今天看啥」查看全文


那如果我们要处理的数据是下面这样杂乱无章的:

我们要进行分析之前就需要对数据进行处理,我们通过 一个特殊的特征向量矩阵对数据进行降维。下图展示了一个三维数据降维到二维平面的过程,简单地说就是找一个最合适的平面,将所有点都投影到这个平面上。

PCA的思想是将n维特征映射到k维上(k 这k维特征称为主成分 。这新的k维特征由原来的k维特征线性组合而成的,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。为了说明我们重新构造的k维特征(主成分)能够区分两组样本,我们需要检测主成分对数据信息的贡献度( 协方差矩阵计算不同维度之间的协方差 ),下图是对筛选出来的20个差异最显著的基因做的PCA分析,结果发现两个主成分对整个数据信息的贡献度很高,表明筛选出来的20个差异基因可以用来明显地区分两组样本。


PCA分析的缺点:

1、在主成分分析中, 我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平 (即变量降维后的信息量须保持在一个较高水平上), 其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释 (否则主成分将空有信息量而无实际含义)。


2、 主成分的解释其含义一般多少带有点模糊性 ,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。


实现方法:







请到「今天看啥」查看全文