正文
流量数据是行为数据的前辈,是Web1.0就兴起的概念。它一般用于网页端的记录,行为数据在产品端。
流量数据和行为数据最大的差异在于,流量数据能够知道用户从哪里来,是通过搜索引擎、外链还是直接访问。这也是SEO、SEM以及各渠道营销的基础。
虽然现在是移动时代,Web时代的流量数据并不过时。比如微信朋友圈的内容都是HTML页面,活动运营需要基于此统计效果,我们可以把它看作一类流量数据。另外,不少产品是原生+Web的复合框架,内置的活动页大多通过前端实现,此时即算行为,也算流量数据,当我们将活动页发送到朋友圈时,相应的统计只能依赖基于前端的流量数据来采集了。
流量数据是基于用户访问的网页端产生。主要字段为用户ID、用户浏览页面、页面参数、时间戳四类,简化模型如下。
url是我们访问的页面,以 ***.com/*** 形式记录,param是描述这个页面的参数,我们在页面上的搜索、属性信息会以参数的形式记录。和行为数据一样,如果流量数据需要更详细的统计,也是以半结构化为佳,囊括操作记录。
它是活动及内容运营的好基友,活动的转化率,文章被发到朋友圈的阅读量等,都是作为流量数据被记录。主要通过JS采集。
流量数据的统计已经比较成熟,Google Analytics和百度统计都是知名的第三方工具,最为常用。不过它们不支持私有化的部署,只能提供统计,我知道这个页面有100人访问,但这一百人是谁不能定位,数据也无法记录在数据库中,这对数据化运营是一种麻烦。一些新式的工具则能支持这种更精细的需求,不过要收费。
如果有可靠和先进的技术手段,我们是能做到将行为数据和流量数据统一到一起,这是未来的趋势。
业务数据在产品运营过程中伴随业务产生。比如电商产品,我进行了促销,多少用户领取了优惠券,多少优惠券被使用,优惠券用在哪个商品上,这些数据和运营息息相关又无法通过行为和流量解释,那么就归类到业务数据的范畴。
库存、用户快递地址、商品信息、商品评价、促销、好友关系链、运营活动、产品功能等都是业务数据,不同行业的业务数据是不一样的,业务数据没有固定结构。
业务数据需要后端研发进行配置,因为结构不能通用化,最好提前和研发们打声招呼提下需求。
行为数据、流量数据、业务数据构成了数据来源的三驾马车。统称为原始数据,指没有经过任何加工。
外部数据是一类特殊的数据,不在内部产生,而是通过第三方来源获取。比如微信公众号,用户关注后我们就能获取他们的地区、性别等数据。比如支付宝的芝麻信用,很多金融产品会调用。还有公开数据,像天气、人口、国民经济的相关指标。
另外一种外部数据的获取方式是爬虫,我们可以爬取豆瓣电影评分、微博内容、知乎回答、房地产信息为我们所用。第三方不可能支持你获取,很多时候会有防爬虫机制。它需要一定的技术支持,不属于稳定轻松的来源。
外部数据因为质量难以保证,更多是一种参考的作用,不像内部数据能产生巨大的作用。
这四类数据构成了数据化运营的基石。随着互联网公司数据化水平的提高,能够利用的数据越来越多。数据结构逐步从SQL到NoSQL;信息源更加丰富,图形和声音数据越来越多;技术由单服务器演变成分布式;响应从离线批处理到实时流式,都是数据收集的挑战。
当我们有了数据以后,进入下面一层,数据产品层。
02
数据产品层
数据产品是对数据的加工和利用,它属于技术和自动化的范畴,由计算机对原始数据进行处理。它不是传统意义上的数据产品(如广告系统),而是以发挥数据价值和生产力为目的,理解成进行数据加工的产品也可。
原始数据并不能直接为运营所用,通常脏乱差,我们需要按照一定的标准整合、加工。
比如行为数据和流量数据,用户在微信朋友圈看到一则活动觉得不错,于是下载APP,注册后参与了活动。这里的行为数据和流量数据是完全独立的。微信朋友圈的浏览,记录的是用户weixinOpenId和cookie,下载后则是产品内部使用的的userId,两者无法对应,这就需要数据整合,将cookie、手机号、userId等信息映射(mapping)到同一个人。
这是技术层面的数据清洗。整个过程叫做ETL。
数据发挥价值的方式有很多种。即能通过BI,将原始数据以维度和度量的方式聚合,进行各类可视化的决策分析,也能数据挖掘。根据业务和场景决定数据的不同使用。这里最重要的是先有指标。