专栏名称: IT大咖说
大咖干货,不再错过。 让不在大会现场的程序猿、攻城狮也能体验现场的精彩瞬间。
目录
相关文章推荐
材料科学与工程  ·  重大突破!华南理工成果首次被世界四大顶级数学 ... ·  13 小时前  
材料科学与工程  ·  重大突破!华南理工成果首次被世界四大顶级数学 ... ·  13 小时前  
福建发布  ·  四海传福丨“福建智慧”守护双世遗“明珠” ·  22 小时前  
福建发布  ·  四海传福丨“福建智慧”守护双世遗“明珠” ·  22 小时前  
电动车公社  ·  全固态电池上车,就差临门一脚了? ·  昨天  
电动车公社  ·  全固态电池上车,就差临门一脚了? ·  昨天  
终码一生  ·  面试官问:你写代码会复用公共 SQL 么? ·  2 天前  
51好读  ›  专栏  ›  IT大咖说

大数据平台快速解决方案

IT大咖说  · 公众号  · 科技自媒体  · 2017-08-03 20:23

正文

请到「今天看啥」查看全文



所以我们用传统的Java纯程序+关系型数据库去处理报表的时候,在存储和计算的性能上会出现问题,以至于报表需求越来越慢。


在这样的大背景下,我们改成了使用大数据去处理这种场景。


技术概览


Hadoop是现在所有大数据计算存储的一个底层概念,后面所有衍生的大数据产品都是在Hadoop的基础上进行衍生的。



这张图是目前大数据平台的架构。


原生的Hadoop应该包含了Hdfs(文件存储)、Yarn(资源调度)和Mapreduce(算法)。


Spark是类似于Mapreduce的一个计算框架,它在很多场景中的性能会比原生的Mapreduce好很多,尤其是迭代计算的时候,会有好几个数量级的提升。


Sqoop是一个数据的迁移工具。


Hive是对底层Hdfs系统的文件抽象出一个类似Mysql的关系型数据库,但大前提是它是在Hadoop这个大的语义下的关系型数据库。


Oozie是一个任务编排和调度的框架。


Hue是大数据的管理后台。


Zookeeper是分布式协调工具。


1

组件分类


基础数据:Mysql,File。基础数据层是游离于大数据之外的概念,它是传统的数据来源。


大数据存储:Hdfs、Hive。大数据存储是最基础的文件存储,在这基础上抽象出一个大数据的关系型数据库。


大数据计算:Mapreduce、Spark、Sqoop。Mapreduce是原生的,Spark是新生的,Sqoop是数据转移的工具。


大数据协调与调度:Yarn、Zookeeper、Oozie。Yarn是原生的,Zookeeper是一个分布式保证文件原子性的工具,Oozie是调度工具。


大数据展现:Hue。Curd的展现层。


2







请到「今天看啥」查看全文