正文
第二次革命正在发生,因为近年来出现了无数的开源和专有技术。大量的开发人员的创造性能想法已经转化为大胆而杰出的解决方案,并围绕它们产生了巨大的激励协同作用。
以下了解一个典型的分析数据平台(ADP)。它由四个主要层组成:
-
仪表板和可视化——分析数据平台的外观,向终端用户公开分析摘要。
-
数据处理——数据管道用于验证、丰富和将数据从一种形式转换为另一种形式。
-
数据仓库——保存企业良好的数据的地方,进行汇总,并成为数据集市。
-
数据湖,纯粹的原始数据定居的地方,数据仓库的基地。
每一层都有足够的选择,以满足任何口味和要求。这些技术中有一半是在过去五年内出现的。
它们的重要之处在于,技术的发展是为了相互兼容。例如,典型的低成本小型分析数据平台(ADP)可能包括ApacheSpark作为处理AWSS3组件或数据湖等类似项目的基础,Clickhouse作为仓库和用于低延迟查询的OLAP,以及用于漂亮仪表盘的Grafana。
更复杂、担保更强的分析数据平台(ADP)可以用不同的方式组合。例如,引入ApacheHudi和S3作为数据仓库可以提供更大的规模,而Clickhouse可以保留对聚合数据的低延迟访问。
第三次革命由云计算服务发起。云计算服务已经成为真正的游戏规则改变者。他们将大数据视为一个即用的平台(大数据即服务),允许开发人员专注于功能开发,而将云计算服务留给基础设施。
还有一个分析数据平台(ADP)的例子,它利用了从存储和处理到表示层的无服务器技术的力量。它具有相同的设计思想,但技术被AWS管理的服务所取代。
值得一提的是,这里的AWS只是一个例子。同样的分析数据平台(ADP)可以构建在任何其他云计算平台之上。
开发人员可以选择特定的技术,并达到无服务器的程度。服务器越少,它就越可组合;然而,其缺点是它将更多地被供应商锁定。锁定在特定云计算提供商和无服务器堆栈中的解决方案可以快速进入市场。在无服务器技术之间的明智选择可以使解决方案更具成本效益。
不过,这个选项对初创公司来说并不是很有用,因为他们倾向于利用典型的云计算服务,在AWS、GCP和Azure之间切换是相当普遍的情况。这个事实必须提前澄清,必须提出更多与云计算无关的技术。
在通常情况下,开发工程师区分以下成本: