专栏名称: 大数据应用
数据应用学院被评为2016北美Top Data Camp, 是最专业一站式数据科学咨询服务机构,你的数据科学求职咨询专家!
目录
相关文章推荐
CDA数据分析师  ·  【干货】如何用 AI 从0到1 ... ·  2 天前  
软件定义世界(SDX)  ·  Gartner:数据中台“不再香”? ·  昨天  
数局  ·  后浪研究所:2025年轻人毛绒玩具报告 ·  4 天前  
51好读  ›  专栏  ›  大数据应用

科普 | HDFS和HBase: 所有你需要知道的都在这里

大数据应用  · 公众号  · 大数据  · 2017-07-30 09:06

正文

请到「今天看啥」查看全文


HDFS最适于执行批次分析。然而,它最大的缺点是无法执行实时分析,而实时分析是信息科技行业的标配。HBase能够处理大规模数据,它不适于批次分析,但它可以向Hadoop实时地调用数据。

HDFS和HBase都可以处理结构、半结构和非结构数据。因为HDFS建立在旧的MapReduce框架上,所以它缺乏内存引擎,数据分析速度较慢。相反,HBase使用了内存引擎,大大提高了数据的读写速度。


HDFS执行的数据分析过程是透明的。HBase与之相反,因为其结构基于NoSQL,它通过在不同的关键字下进行排序而获取数据。

通过实例来加强对HDFS和HBase的理解

实例1

Cloudera对欧洲银行使用HBase的过程进行优化

HBase是实时数据处理环境的最佳典范。我们的一个客户是某欧洲著名银行,下面要举的就是这个客户的例子,恰到好处的说明了问题。我们同时使用了Apache Storm和Apache Hbase,来分析应用服务器和网页服务器上的日志数据,想以此得到一些新发现。因为单位时间内我们需要处理大量的数据,所以我们最终决定使用HBase而不是HDFS。HDFS不能处理高速流动的数据。结果令人震惊,搜索时间从3天变成了3分钟。


实例2

使用HDFS和MapReduce作为全球快速消费品巨头的分析方案

我们的一位客户是全球饮料业巨头,它要求我们做一些批次分析,这些分析必须精确到某一特定仓库的进出量。分析中需要使用一些迭代分析和序列分析。HDFS和MapReduce就很适应这种工作需求,表现要比建立在HBase上的Hive要好。MapReduce解决数据预处理,将数据准备好作下一步的分析。之后Hive接管任务,去做顾客分析。结果非常好,出顾客分析报告的时间由3天缩短为3小时。

HDFS 和 HBase 比较表格







请到「今天看啥」查看全文