专栏名称: 爱数据LoveData
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据LoveData

如何理解《2020年大数据白皮书》的大数据技术最新发展趋势?

爱数据LoveData  · 公众号  · BI  · 2021-03-08 16:30

正文

请到「今天看啥」查看全文


分离,方便快捷搭建大数据计算环境,实现 大数据 分析需求。

02

基础技术:数据分析能力服务化

在存算分离理念的基础上,Serverless、云原生等概念的提出进一步助力处理分析等各项能力的服务化。通过存算分离的深入以及容器化等技术的应用,Serverless概念的落实从简单的计算函数向着更丰富的处理分析能力发展,通过预选实现的形式将特定的数据处理、通用计算、复杂分析能力形成服务、以供按需调用。

注: Serverless = FaaS(函数即服务) + BaaS(后端即服务) ,并不能按字面上理解为无服务器,而是说对应用开发者而言,不再需要 操心 大部分跟服务器相关的事务,比如服务器选购、应用运行环境配置、负载均衡、日志搜集、系统监控等,这些事情统统交给Serverless平台即可,应用开发者唯一需要做的就是编写应用代码,实现业务逻辑

由此,数据的分析处理等能力摆脱了对于完整平台和工具的需求、大大降低开发周期,节省开发成本,同时服务应用由提供方运维,实现按需付费,消除了复杂的运维过程和相应的成本。

国外最出名的是Snowflake公司,其提出了数据仓库服务化,将分析能力以云服务的形式在AWS、Azure等云平台上提供按次计费的服务,成为云原生数据仓库的代表。

以下关于 Snowflake 的介绍引自知乎《如何评价snowflake这家公司,发展前景如何?》波太金的文章(网址:https://www.zhihu.com/question/421570074)

Snowflake从2016年的那篇划时代的论文《The Snowflake Elastic Data Warehouse》开始,让云OLAP进入了一个新的时代:

1、AWS的EC2和S3已经很好了,要做一个完全云原生的系统。

2、现在主流的是Share Nothing的数据仓库架构(MPP、Hadoop等),这个架构主要的问题就是计算和存储没有分离,导致集群扩容要重新分配数据,不易Shut off不用的计算资源。

3、Snowflake要在Share Disk的基础上做一个计算和存储完全分离的架构,称作Multi Cluster,Share Data Architecture,这个新架构有不少好处。

(1)Share Disk是个老概念,原来的瓶颈是计算资源加多了后,会争抢Disk资源,Snowflake根据调用频次给数据做了多备份和缓存,减少了摩擦成本

(2)在这个体系里,计算和存储是双弹性的,大的查询可以从计算层调用非常大的资源

(3)Snowflake将计算层划分除了不同的Virtual Warehouse,而且分成不同的级别,就像“S/M/L/XL不同的T-shirt,客户公司里不同高矮胖瘦的人都可以选到合身的”

4、相比Teradata等On-Premise的数据仓库,Snowflake比其他的云OLAP更好。

(1)性能快,十倍级别的快,这是部署方式的问题,是云调度能力和弹性带来的高利用率

(2)好拓展,所有的ON-Premise数据仓库用到后面都越用越慢,供需错配在任何行业都是个难题,更何况交给企业数据部门这样一个成本中心来做,发起预算配置新的机器都是漫长的过程

(3)可以让大数据量用128 Server跑,让小数据量需求用2 Server跑,然后再按计算量*时长计费,这不是定价模式的改变,而是技术架构决定了这样的定价模式是合理的

(4)数据仓库通常是PaaS产品,但标准化的Snowflake做成了SaaS产品

当前大多数数据仓库引擎,都没法满足“让一张急用给老板汇报的超大数据Dashboard”比它普通需求”能够效率快得多的完成。做过BI的人应该都有这种感觉,看着进度干着急的痛苦,这个给老板的需求很急,但来不及了......,大数据平台的弹性伸缩其实是有条件的

假如 数据仓库服务化 真的可行,那就意味着我未来自己不需要采购任何云端服务器,只要递交函数count(X)到云端计算就可以了,而这个函数能运行的多快取决于我能付支付多少CPU的钱,一旦计算完毕CPU也就被回收了,真正的微粒度的弹性扩缩容,当然挑战也是巨大的。

03







请到「今天看啥」查看全文