专栏名称: 爱数据LoveData
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据LoveData

数据人之苦

爱数据LoveData  · 公众号  · BI  · 2017-04-20 17:01

正文

请到「今天看啥」查看全文


根据数据应用的不同阶段,我的划分方法如下,从数据底层到最后应用:


01
大数据平台


目前很火,数据源头,各种炫酷的新技术,搭建hadoop,hive,spark,kylin,sparkstreaming,druid~,目前很多企业都把数据采集下来了,还有很多企业都不知道怎么进行存储数据。


这里面要解决的是实时、近实时和离线的大数据框架如何搭建,各数据流之间如何耦合和解耦并且如何进行灾难备份都是需要重点考虑的。


所以我的感觉是:未来的三四年中,这块人才还是很稀缺的,因为大数据概念炒作的这么厉害,很多企业都被忽悠的说,我们也来开始挑战大数据行业吧。所以挑战的前提之一就是需要把数据存储下来,现阶段,很多公司都要做第一步:存储数据。传统的SQL,针对大数据量的非结构式数据,我们所想的就是:用最廉价的成本存储数据,所以分布式是很有前途的。另外,云端会是个很好的方向,不是每个公司都是养得起这么多这么贵的的大数据平台开发人员和运维人员OPS,DBA的,所以我们要有很好的危机意识,及时贡献出自己的价值。所以花点钱让云服务提供商是个很好的思路。说了以上这些看法,主要是想对未来会从事这块的人一点方向,追上潮流是很重要的,选择某些未来潮流和这块工作最被吐槽的一点就是:Hive速度好慢,SQL查询好慢,你的集群怎么老是挂掉,hadoop版本升级后,怎么数据跑出来不对了;


在这个领域内工作,需要有强大的攻坚的能力,并且还需要有快速定位和解决bug的能力,因为有很多工具都是开源的。因为是开源的,所以你们懂得,各种坑爹,甚至出现无法向下兼容的能力,所以你需要的是强大的加班能力和Java开发的能力。这块机能就看你们自己对号入座了。


如果想在这块做的很好,就需要有整个系统架构的设计能力并且比较的强的抗压能力和解决问题的能力,以及资源收集的能力,可以打入开源社区,这样就可以随时follow最新的潮流和技术。


02
数据仓库-ETL


常见被吐槽的就是:


a、数据字典呢?这个字段是什么意思?我们用数据的人最痛苦的莫过于此,看到了表名和字段,可是你也只能脑补说这个字段的业务含义是什么?


b、DW设计和维表设计的不合理,怎么找个数据这么难的?为什么生产上的表在仓库里面没有呢?


c、我明明只要取一个集团的订单统计数据,还要我去join 3张表?这个仓库做的是什么东西啊。我的报表要新增一个维度,怎么排期要半个月?


d、我要取个数据,怎么要排队半个月?


这个是我有时候吐槽的点,确实仓库的人做的很辛苦的,单单Oncall就会让人望而却步,有很多数据库工程师晚上睡觉的时候经常被Oncall电话吵醒,因为数据流程出问题了,所以需要第一时间去排查,哪个数据源出问题了并且要立即解决问题,否则整个数据流程都会受到影响。如果数据流程受到了影响,你就可能会被大领导一言不合叫到办公室说:我要的数据怎么还没有准备好,我的业务报表今天怎么没有发出来。


所以通过这个对话,我们可以知道:这个职业是个很重要的职业,因为数据流程很重要,决定了数据从源头杂乱无章的情况,通过ETL之外变成了整齐的数据,这些整齐一致性的数据可以让你很方便的把各业务的统计结果计算出出来,并且能够统一口径,要不然就变成了有几个部门就有几种统计结果,到时候A部门说业务增长了,B部门说业务下降了。








请到「今天看啥」查看全文