三家 Hadoop 厂商衰落启示：云大数据是颠覆者吗？（微信文章未删减版）

▲

更多精彩推荐，请关注我们

▲

今年 5 月底，MapR被曝融资困难，可能在不久之后关闭，这个曾经估值高达 10 亿美元的 Hadoop 赛道的有力挑战者或将就此衰落。随后，同样围绕 Hadoop 进行商业化落地的Cloudera股价在 6 月 6 日(美东时间)开盘后暴跌 43%，这些老牌 Hadoop 供应商的落败一定程度上被认为与云厂商的崛起有关。然而，Hadoop 生态厂商发展到这一步到底与哪些因素有关?这是否意味着整体生态开始走下坡路?

三大 Hadoop 厂商衰落

在围绕Hadoop进行商业化的厂商中，Cloudera、Hortonworks 和 MapR 曾是最为外界所关注的对象，直到 Cloudera 和 Hortonworks宣布进行全股合并时，业界大部分声音是看好的。Syncsort首席技术官指出，虽然 Hortonworks 的产品专注于物联网和流数据场景，Cloudera 专注于数据科学、机器学习和人工智能。但在她看来，这可以使合并取得成功，因为合并后的公司将比二者中的任何一个都发展得更快，走得更远。

合并后不久，Cloudera 宣布的收入比分析师预测少了 6900 万到 8900 万美元。与此同时，公司首席执行官 Tom Reilly、联合创始人兼 CSO Mike Olson 双双宣布辞职。该公司股价随即暴跌 40%。

至于 MapR，其商业化的主要途径是提供优于开源 Hadoop 的特性，比如其创始人 M.C.Srivas 在公司创建伊始就将 Hadoop 文件系统 HDFS 进行了重构，兼容 Hadoop 协议的同时保持闭源，一度给外界造成技术实力优于整个 Hadoop 社区的感觉，可惜的是用户对此并不买账，导致其融资困难，甚至开始裁员并计划关闭硅谷总部。

对此，业内专家在接受 InfoQ 采访时表示，开源颠覆了传统软件，云计算又颠覆了开源厂商。大数据的市场空间本身存在，但是随着云计算厂商的接入，确实削弱了传统大数据厂商的盈利能力。云厂商对传统大数据厂商冲击太大，因为总体成本更低，可获得性更容易，而这三家大数据厂商并没有提供相比云计算厂商大数据能力的差异化点。

当然，这三家围绕 Hadoop 进行商业化的厂商的衰落并不代表整个 Hadoop 生态的陨落，只能说明这样的商业化路径存在问题(不要将厂商和生态混为一谈)。专家指出，过去，开源对传统软件是一种颠覆式的影响，在开源尤为活跃的大数据技术领域采用传统软件的商业化模式是一种逆势而为，云计算的兴起正在对开源产生巨大影响，正如Clint Sharp 所指出的，“Hadoop 的主要应用场景一直是廉价的存储。然而，有了云之后，存储变得更廉价，更何况 S3+EMR 和其他服务的用户体验还提高了千倍不止。”

云厂商的颠覆姿态

在企业逐步云化的过程中，云厂商的颠覆者姿态让其受到了诸多指责，比如开源杀手等，但这并没有阻碍企业云化的进程，大数据服务公司也在往云平台的方向演进，比如 Cloudera 与 Hortonworks 合并被认为是在一定程度上提升云服务的竞争力。但是，本地大数据厂商难以独立提供云大数据服务所依赖的全部基础设施资源，一般会集成到各大公有云平台，比如 MongoDB 提供的 Atlas 就与众多公有云厂商合作。因此，在各大公有云平台上，可以看到越来越多本地大数据服务商提供的服务。

那么，云厂商的出现为什么会对这一领域造成如此影响呢?业内专家认为，首先要从大数据的本源谈起，大数据的本源是需要处理的数据集远远大于单台物理机能够存储和处理的数据量。在这种情况下，出现了两个技术：一是跨服务器存储的分布式文件系统HDFS(当然，最早来自于谷歌论文);二是多机器处理的计算框架。这种体系在大数据发展的早、中期起到了非常大的作用，就是把大批量中低等级的硬件系统集成起来以处理海量数据。

在实践过程中，这种架构逐渐出现内在的不均衡。简单来说，物理机的计算和存储比例是固定的，但是从应用视角来看，计算和存储的比例关系往往是动态的，有些公司计算过剩，有些公司存储过剩，这导致硬件选型成为一个很大的挑战。同时，对于长久存在的大数据系统来说，新老硬件组成的非均质系统也存在负载均衡等管理上的挑战。

随着云架构的发展，无论是公有云，还是私有云，特别是公有云，可以实现存储与计算分离。IaaS 层将计算、存储、网络作为资源动态提供给用户消费，这成为一个最佳实践，完美消除了计算和存储的动态均衡问题。从最优化的角度来看，相对于传统的计算、存储一体化的大数据系统，云平台大数据服务无疑存在一些开销，但是这种形态让大数据集群建设初期要考虑的计算和存储匹配，网络设计等问题都“推迟决策”了，换言之就是不用那么早考虑，在具体业务使用时随用随取，这为业务带来了极大的灵活性。

从这个角度看，基于云架构的大数据系统，本质上提供了灵活性，而对数据业务本身而言，灵活性、动态性恰好是根本，那么基于云架构的大数据服务刚好契合了这些特征。大数据云服务的本质优势是享受更低成本、更快的技术更新。在过往与企业大数据团队打交道的过程中，专家发现其自建的大数据平台还在使用两年以前的开源大数据组件，因为人员的不稳定造成其不敢轻易进行技术升级，或者说没有能力升级，维护的包袱就会越来越重。

综上，业内专家表示，相比于本地大数据服务，云大数据服务灵活的本质是计算和存储分离，本质优势是极大得降低了成本，包括环境成本，节省搭建机房，风火水电，网络，操作系统等的时间;研发成本，节省服务搭建，研究周边依赖，可靠性部署，安全对接等的时间;人力成本，大数据运维需要非常专业的人才能胜任，企业应该聚焦在业务上而不是大数据平台的运维上;运行成本，大数据云服务厂家和基础设施的配合可以做到最优，尽可能减少资源消耗。

选用原则

在过往与企业用户打交道的过程中，完全依靠本地大数据服务，选择部分云供应商的大数据服务，在公有云的基础设施之上自建大数据服务的用户皆而有之。

就此现状，我们采访了华为云布道师赵军。他表示，大数据框架中的服务本身对基础设施并没有强绑定要求，而当前云端的性能、可靠性、可运维性已经足够高。就服务本身而言，所有大数据服务都适合在云端运行，企业应该根据业务类型进行区分。如果业务可以上云，则所有都可使用云端大数据服务。

在具体选用上，可以结合成本构成分析大数据平台的使用，包括如下几方面：

风、火、水、电数据中心的成本
IaaS 成本
大数据软件栈的成本
运维大数据软件栈的成本
使用大数据软件栈的团队的成本

其中，大数据软件栈和运维其的成本有些关系，有些用户完全通过开源软件实现，但是实际上付出了极大的人力成本。无论如何，不管是自建还是基于公有云，以上成本都是显性存在的，公有云可以省去一些大数据软件栈搭建及运维的成本，前两项成本则是购买公有云服务和自建的区别。此外，自建服务的弹性较小，云平台可以随时提供弹性能力。

至于云平台大数据服务的价格高昂与否，其实完全取决于公有云服务的定价。对于那些在 IaaS 层面采用自己设计、生产的 CPU、网络、存储等基础设施的公有云厂商来说，往往对于超大客户有比较大的让利能力。

对于不同类型的企业，选择大数据平台服务时关注的点会差异很大。举例来说，更关注成本且需要削峰的，建议优先选择 Serverless 服务;更关注资源隔离和独享的，建议选择包周期的资源类型服务;对于已有大数据平台经验的企业，则优选通用开源大数据开发平台类服务;对接口要求简单通用的，则优选 Serverless 服务。

大数据社区的多样性，导致了选择的多样性。具体原因可能很难一概而论，有的公司想总有一天要建立自己的私有云设施，所以仅希望公有云提供 IaaS;有的公司是因为已经在私有云方面具备很长的历史，团队、经验等都是现成的，因此在公有云的 IaaS 上自行搭建大数据服务。但是，对于绝大部分企业来讲，使用公有云的大数据服务会更省心，成本更低。

总体来看，企业如何选择取决于公有云运营者能否提供充分的迁移支持，让大数据服务的消费者省心、放心。省心指的是大数据服务与 Hadoop 社区的兼容性，这个兼容性能够让迁移的成本最小甚至无感知。放心指的是大数据服务有强大的团队支持，而不是简单的把 Hadoop 社区的东西拖来安装一下售卖。国内的公有云厂商在这方面的差别还是比较大的，有的走自研道路，可能存在社区兼容性跟进慢等情况;有的基本没有私有云大数据服务，导致自己的大数据服务没有充分锤炼。

短期来看，赵军表示，企业大数据服务的公有云、混合云和多云模式将共同存在。长期来看，公有云和私有云架构将逐渐趋同，甚至提供一致的体验，随着可信规则的建立，公有云可能会慢慢取代私有云，并且是多公有云模式，避免单一厂商锁定。

往期精彩回顾

▼

全球视角下：中美科技实力对比

2019年中国智慧城市发展报告

《2018全球人工智能发展报告》：一览全球AI领域竞争态势

强推！十大顶级大数据可视化工具

埃森哲是如何系统化做好数据分析？

网络大数据

（ID:raincent_com）

网络大数据 www.raincent.com

致力于打造中国最专业的网络大数据科学门户网站。

识别二维码，关注网络大数据