神策数据桑文锋：数据驱动与指标体系的构建

IT桔子 · 公众号 · 科技投资 · 2016-08-14 12:08

正文

请到「今天看啥」查看全文

第一、排队等待某个工程师跑数据。 不管是产品、市场、运营等等，大家会有各种各样的数据需求。对于公司来说，不可能安排很多工程师去满足数据需求，那怎么办？一般就是排队，一个一个需求去响应。一般这个流程是：数据工程师先跟需求提出者沟通，弄清楚需求是什么；然后再看数据源里面有没有，如果没有，再去升级系统，然后再响应这个需求。这样一来一回，可能需要几天甚至一两周时间，效率是非常低的。

第二、只有仪表盘可以看。 通过仪表盘可以看到整体的宏观数据，比如销售额、用户数等，这些数据对于老板做商业决策还是非常有用的。但是，对于具体干活的人来说，只有宏观的数据是不够的。比如我们发现昨天的用户量或者活跃用户数跌了20%，这种情况下，你肯定是要去做数据分析的，只有宏观的数据是远远不够的。我们一般可以按照渠道、地域等维度对数据进行分解，然后再去看是不是有某个渠道或者某个地域有大的波动，这时我们就能更快地去解决问题。

第三、存在多个数据孤岛。 对于相对比较大的公司，特别是偏传统一点的公司来说，会有很多部门，每个部门都会有一部分数据。如果你去做数据分析，就要跟不同的部门去打交道，获得审批权限。等审批下来，可能都需要花一段时间。到最后真正审批下来，把这些数据统计到一起去，又是很难搞定的事。

那么，理想状态应该是什么样？我认为应该是实现自助式的数据分析，让业务人员真正掌握数据。就像下图中，我们前面讲的问题就是左边这张图，我把它归结为需求驱动。每次来一个需求，数据工程师从杂乱的数据里面去满足这个需求，整体效率是比较低的，这是一个串行的事情，每一个需求可能需要几天甚至一两周时间。理想状态是右侧这张图，就是反着来。首先把数据源建好，然后提供更强大的数据分析工具，让业务需求者自助式的去满足自己的需求。从一件串行的事情变成一件并行的事情，从一件几天或者几周时间的事情变成一件几分钟甚至几秒钟的事情。那么，我们如何去达到这一点呢？其实这里的挑战还是非常大的。

/ 数据金字塔的三层：采集、建模、分析 /

我们把数据分析平台的建设简化一下，可以分为三层：

第一层：数据采集。
第二层：数据建模，就是把数据进行再组织。
第三层：数据分析，也就是真正去使用数据。

对于非技术人员来说，往往只会关注到第三层。我们去做数据分析，并不清楚数据是怎么来的，数据本身是不是有什么问题，这些都关注不到，甚至一些非技术出身的老板也是这样，只知道要一些数据，但是发现这些数据拿过来以后，自己会很痛苦。其实，归根结底还是底子没打好。我们一定要把数据采集跟数据建模做好，然后数据分析这件事情就顺理成章了。

▎数据采集

数据采集的两个原则：

数据这件事情要做好，最重要的就是数据源。什么叫做好的数据源呢？

第一点是全，我们要把客户端、服务端、数据库等等各种各样的数据都采集下来；
第二点是细，细就是强调多维度，比如用户行为发生的时候，Who？When？Where？How？What？这些维度信息都给它记录下来，以后就可以根据这些维度进行灵活的组合分析。如果数据采集本身没有做好，那就是“巧妇难为无米之炊”，后面你用再复杂的算法也解决不好。

数据采集的三种方法：

第一种是可视化埋点

就是在一些客户端，不管是APP还是网页，在里面嵌入SDK，然后通过后台界面配置点选这种操作，去选择我们要采集的按钮点击情况。这种方式比较轻便，不需要工程师帮助去做埋点操作，就可以拿到PV、UV、点击量这些数据。不足的地方在于：第一、只能用于前端数据的采集，后端服务器数据的采集是做不了的；第二、前端数据的采集只能采集到宏观行为本身，比如对于提交订单的行为，我只知道提交的行为，但是一些属性信息，比如订单的运费、折扣价格、订单价格等信息可能都采集不到，后面就无法去做灵活的多维度分析。