专栏名称: 互联网分析沙龙
为您提供专业的商业模式、产品、数据、用户、电子商务、社会化媒体、移动互联网等深度分析的信息网站!秉承“信息交流、深度分享”的理念,是为用户缩短获取信息途径,提升阅读质量的深度分析网站。
目录
相关文章推荐
51好读  ›  专栏  ›  互联网分析沙龙

解锁数据分析的正确姿势:描述统计(2)

互联网分析沙龙  · 公众号  · 科技媒体  · 2017-04-01 18:39

正文

请到「今天看啥」查看全文




因为每一个数据只能属于一个组,所以要规定组的上下限。上文划归的0~4组宽,实际是零到除五之间的数值,包括4.99这类。因为数值型数据可以连续地划分,分类数据没有这顾虑。


分组的过程也叫数据分桶bin,它是常见的一种数据清洗过程。在机器学习中,能提高模型泛化能力。


将汇总的结果生成条形图,调整系列样式,系列重叠和间隙宽度均为0。它的正式名字叫直方图。



条形图和直方图最大的区别在于矩形的间隔。直方图的矩形没有间隔,之间完全重合( 图中的白线是为了显示清楚才加上的 )。因为数值型数据的特点是连续性,不能有空档造成断开。


图中的直方图并不标准,横坐标的数字应该为[0,5,10,15,20…]且位于白线下方。我这里略过了。


频数既能用相对数表示,也能用百分比表示。区别在于纵轴。后者用于方便对比。


直方图的一个重要应用是提供了分布信息。不同直方图代表的业务意义不同。需要注意的是,分组将直接影响直方图的外形。



标准型的形态往往是中间高,两边低,呈中间的集中趋势。它代表一种稳定正常的形态。



双峰型,一般是混合了多种数据源或者类别数据造成的。








请到「今天看啥」查看全文


推荐文章
科技美学官方  ·  三星Galaxy S8/S8+上手体验
8 年前
美食家常菜谱做法  ·  人活着,少说这些话(句句在理)
8 年前
火影忍者  ·  来自“木叶”的正义
8 年前