专栏名称: 物流沙龙
中国物流行业大型知识社区,致力于推动中国物流发展,并为中国物流与供应链从业者提供交流、学习、讨论的专业型知识社区。影响行业超过40万人。
目录
相关文章推荐
洞见  ·  你情绪不好,是因为认知不够 ·  2 天前  
51好读  ›  专栏  ›  物流沙龙

如何发现物流大数据中的“异常值”

物流沙龙  · 公众号  ·  · 2017-07-16 19:09

正文

请到「今天看啥」查看全文




如果数据只有23条记录,那么异常值的获取完全可以依靠经验识别,但是这份数据其实一共有3505行记录,这就超出了经验识别的框架,必须通过数据分析的方式来辨别其真假。


而从数据分析的角度来看这份数据,至少有 三种方式 快速高效的 识别异常值


Ø 箱线图


箱线图是对数据进行描述性分析的时候 最经常使用的算法 最适宜提供有关数据的位置与分散的参考 ,尤其在不同的总体数据时更可表现其差异。对于原始数据集中的运费金额做箱线图的最终结果如下:



以出发点为类别轴分别做A出发点和B出发点的箱线图,图中的灰色箱子可以简单的看做是正常值的集合(如果将所有的数值从大到小依次排序,那么灰色箱子中的数据就是中间50%的数据),从灰色箱子到上下界线的垂直线可以简单的看做是另外几乎50%的数据,为什么说是几乎?因为还有异常值。


超过上下界线的数值都可能被认为是异常值,在本例中,上下界线的参数设置为1.5倍的正常数据集(灰色箱子)的跨度。可以看出,根据箱线图的算法,以B地点为出发点为例,原始数据集中第785,1405,2543,1028,2018,1299,1009,1504,2524,612,737,2126条运输记录在运费金额上可能存在异常。


箱线图在识别数据异常上的 最大优势 不仅仅在于 速度快 ,更在于 对于异常值的定义是根据原始数据集的整体趋势变化的,弹性且灵活 ,而不是一个简单的大于多少或者小于多少的硬性指标,这对于运价随天气,政策,供求,品类,急缓等多方因素随时变化的物流行业来说尤为重要。


Ø 回归


回归是数据分析的灵魂 ,当然回归也可以检测到数据的异常值。







请到「今天看啥」查看全文