正文
1)/5)即可正确获得分组后的结果,0代表0~4,1代表5~9。另外一种方式是用frequency( )函数,以数组形式输出。数据分析工具也能绘制频数表。
因为每一个数据只能属于一个组,所以要规定组的上下限。上文划归的0~4组宽,实际是零到除五之间的数值,包括4.99这类。因为数值型数据可以连续地划分,分类数据没有这顾虑。
分组的过程也叫数据分桶bin,它是常见的一种数据清洗过程。在机器学习中,能提高模型泛化能力。
将汇总的结果生成条形图,调整系列样式,系列重叠和间隙宽度均为0。它的正式名字叫直方图。
条形图和直方图最大的区别在于矩形的间隔。直方图的矩形没有间隔,之间完全重合(图中的白线是为了显示清楚才加上的)。因为数值型数据的特点是连续性,不能有空档造成断开。
图中的直方图并不标准,横坐标的数字应该为[0,5,10,15,20…]且位于白线下方。我这里略过了。
频数既能用相对数表示,也能用百分比表示。区别在于纵轴。后者用于方便对比。
直方图的一个重要应用是提供了分布信息。
不同直方图代表的业务意义不同。需要注意的是,分组将直接影响直方图的外形。
标准型的形态往往是中间高,两边低,呈中间的集中趋势。它代表一种稳定正常的形态。