专栏名称: 数据猿
关注大数据行业的最前沿资讯,分享最有价值的大数据深度文章,关注“数据猿”就是关注大数据!
目录
相关文章推荐
数局  ·  听说他在中央混得不咋地 ·  昨天  
数据派THU  ·  Python实现时间序列动量策略:波动率标准 ... ·  3 天前  
人工智能与大数据技术  ·  天塌了,Claude全面断供Windsurf ... ·  3 天前  
51好读  ›  专栏  ›  数据猿

【案例】农业银行大数据平台项目——海量数据复杂运算处理

数据猿  · 公众号  · 大数据  · 2017-06-05 08:00

正文

请到「今天看啥」查看全文


2014年11月,数据仓库原型环境向生产环境(56节点MPP集群)的迁移与切换工作完成,迁移有效数据103T。


2014年12月,完成财会集市(16节点MPP集群)搭建。


2015年4月5日,数据仓库及资负、零售数据集市投产上线。


2015年底至2016年3月,完成ODS迁移至Hadoop、集市外迁及双活环境搭建等一系列架构优化升级,升级后GBase MPP数据库集群共计250个节点,容量5.2PB;Hadoop集群共计150个节点,容量4.3PB。


2016年11月至今,完成五大集市即对公客户、个人客户、风险、运营风控等数据集市的投产上线,同时建设集数据处理、模型算法、结果展示于一体的数据挖掘平台。


目前平台规模为:GBase MPP数据库集群共计622个节点,容量约15PB,Hadoop集群共计263个节点,容量5.6PB;其他数据加载服务器、调度服务器等合计37节点。


客户名称/所属分类


中国农业银行/大数据技术服务


任务/目标


围绕农行发展战略,围绕数据管理和数据服务两个基点,按照全行大数据平台统一框架,遵循“统筹规划、顶层设计、共享复用、分步实施”的设计思路,构建全行企业级大数据平台,实现数据资源统一管理。


同时,全面提升数据服务能力,充分挖掘数据价值,满足全行客户营销、风险管控、经营管理及外部监管需要,推动数据治理,全面提升全行数据资源管理水平和数据资产综合应用能力,促进业务“用数据说话”,为业务发展提供不竭的内生动力,持续推动全行业务创新、营销创新、服务创新、管理创新。


实现行内业务数据统一管理,可以采用与第三方合作等方式获取行外数据,实现数据资源的全生命周期管理;向行内各层级各业务条线,提供全方位的数据产品。


建立健全数据服务管理体系;统筹规划,建设个人客户、对公客户、运营风控、风险管理、绩效管理、审计内控、监管统计、分行集市等八大领域数据集市;业务支撑涵盖客户营销、风险管控、运营分析、外部监管、资产负债、绩效管理等各个领域;基于行内外数据开展各领域和热点业务分析,深度挖掘数据价值。


挑战


农行大数据平台建设中面临以下难点:


1、如何实现MPP数据库与Hadoop平台完美混搭


MPP数据库适合高密度结构化运算,而Hadoop平台的优势在于非结构化数据处理及其扩展能力。因此要评估哪些场景适用MPP数据库,哪些场景适用Hadoop平台,如何实现MPP与Hadoop的数据交互,同时能够做到2种架构功能互补。


2、系统开发从传统数据库转至MPP及Hadoop平台,如何能够运用新的基础架构特性,并快速完成已有数据模型迁移,新数据模型开发。


3、大规模的集群环境,如何统一规划、部署、管理、监控。


大数据平台涉及数十套集群、近千台服务器,对机房环境、网络环境高,需要提前做好规划设计;同时如此量级的服务器,操作系统、数据库等安装部署、升级、管理需要有统一的管理流程及操作方式;对于多集群的监控、预警、健康检查也需要有有效的流程与系统支撑。


4、如何满足上层应用、联机服务的多样性的数据需求及响应时间


大数据平台上层支撑监管、审计、零售等不同业务领域的应用,各应用的数据交互方式差异化明显,对时效性的要求也各不相同,需要设计统一的接口方式并支持配置化管理。


5、如何保证平台高可靠性,高可用性,容灾机制


大数据平台支撑上层多个领域业务,在整个IT系统中地位非常重要,平台发生故障会对业务产生不可估量的影响,因此要从数据库、应用等多个层面保障平台的稳定性及高可用性;同时要对PB级数据备份这一难题深入研究,通过搭建双活集群、数据备份至Hadoop集群等多重灾备机制保障数据安全。


解决方案


平台采用南大通用GBase 8a MPP Cluster+Hadoop混搭架构建设,其中GBase集群总计622个数据节点,其中主仓共112个节点,采取双集群组成双活主库,其余为8套集市环境及5套外围应用;Hadoop集群总计263节点,其中ODS Hadoop集群172节点,其余为流计算平台Spark数据分析挖掘平台。







请到「今天看啥」查看全文