正文
第一、排队等待某个工程师跑数据。
不管是产品、市场、运营等等,大家会有各种各样的数据需求。对于公司来说,不可能安排很多工程师去满足数据需求,那怎么办?一般就是排队,一个一个需求去响应。一般这个流程是:数据工程师先跟需求提出者沟通,弄清楚需求是什么;然后再看数据源里面有没有,如果没有,再去升级系统,然后再响应这个需求。这样一来一回,可能需要几天甚至一两周时间,效率是非常低的。
第二、只有仪表盘可以看。
通过仪表盘可以看到整体的宏观数据,比如销售额、用户数等,这些数据对于老板做商业决策还是非常有用的。但是,对于具体干活的人来说,
只有宏观的数据是不够的。
比如我们发现昨天的用户量或者活跃用户数跌了20%,这种情况下,你肯定是要去做数据分析的,只有宏观的数据是远远不够的。我们一般可以按照渠道、地域等维度对数据进行分解,然后再去看是不是有某个渠道或者某个地域有大的波动,这时我们就能更快地去解决问题。
第三、存在多个数据孤岛。
对于相对比较大的公司,特别是偏传统一点的公司来说,会有很多部门,每个部门都会有一部分数据。如果你去做数据分析,就要跟不同的部门去打交道,获得审批权限。等审批下来,可能都需要花一段时间。到最后真正审批下来,把这些数据统计到一起去,又是很难搞定的事。
那么,理想状态应该是什么样?我认为应该是
实现自助式的数据分析,让业务人员真正掌握数据。
就像下图中,我们前面讲的问题就是左边这张图,我把它归结为需求驱动。每次来一个需求,数据工程师从杂乱的数据里面去满足这个需求,整体效率是比较低的,这是一个串行的事情,每一个需求可能需要几天甚至一两周时间。理想状态是右侧这张图,就是反着来。首先把数据源建好,然后提供更强大的数据分析工具,让业务需求者自助式的去满足自己的需求。从一件串行的事情变成一件并行的事情,从一件几天或者几周时间的事情变成一件几分钟甚至几秒钟的事情。那么,我们如何去达到这一点呢?其实这里的挑战还是非常大的。
/ 数据金字塔的三层:采集、建模、分析 /
我们把数据分析平台的建设简化一下,可以分为三层:
-
第一层:数据采集。
-
第二层:数据建模,就是把数据进行再组织。
-
第三层:数据分析,也就是真正去使用数据。
对于非技术人员来说,往往只会关注到第三层。我们去做数据分析,并不清楚数据是怎么来的,数据本身是不是有什么问题,这些都关注不到,甚至一些非技术出身的老板也是这样,只知道要一些数据,但是发现这些数据拿过来以后,自己会很痛苦。其实,归根结底还是底子没打好。我们一定要把数据采集跟数据建模做好,然后数据分析这件事情就顺理成章了。
▎数据采集
数据采集的两个原则:
数据这件事情要做好,最重要的就是数据源。
什么叫做好的数据源呢?
数据采集的三种方法:
就是在一些客户端,不管是APP还是网页,在里面嵌入SDK,然后通过后台界面配置点选这种操作,去选择我们要采集的按钮点击情况。这种方式比较轻便,不需要工程师帮助去做埋点操作,就可以拿到PV、UV、点击量这些数据。不足的地方在于:第一、只能用于前端数据的采集,后端服务器数据的采集是做不了的;第二、前端数据的采集只能采集到宏观行为本身,比如对于提交订单的行为,我只知道提交的行为,但是一些属性信息,比如订单的运费、折扣价格、订单价格等信息可能都采集不到,后面就无法去做灵活的多维度分析。