专栏名称: DBAplus社群
围绕数据库、大数据、PaaS云,顶级大咖、技术干货,运营几个月受众过十万!成为运维圈最专注围绕“数据”的学习交流和专业社群!欢迎投稿,加入探讨。
目录
相关文章推荐
数据中心运维管理  ·  施耐德电气PowerLogic™ ... ·  15 小时前  
数据中心运维管理  ·  6月1日起实施!我国首部绿色数据中心评价国标 ... ·  昨天  
数据中心运维管理  ·  应急预案和应急演练到底怎么做? ·  15 小时前  
51好读  ›  专栏  ›  DBAplus社群

高容错!银行如何搞定PB级非结构化数据的存储与快速搜索

DBAplus社群  · 公众号  · 数据库  · 2020-11-20 07:15

正文

请到「今天看啥」查看全文



业务逻辑层由非结构化数据集中处理平台(UCP)服务及三方数据上传平台应用服务组成,三方数据上传平台主要负责处理非结构化数据业务逻辑,UCP主要实现非结构化数据的存储,该平台支持大部分行内业务系统的非结构化数据处理服务,少量有高定制化需求的业务,UCP提供非标准接口,有针对性的为信贷类业务系统定制化开发,实现其全流程信贷系统非结构化数据的存储以及下载,而针对无定制化其他渠道,均通过标准接口进行满足。三方数据上传平台APP主要实现互联网系统非结构化数据的校验、控制、缓存以及压力均衡。


数据层主要由非结构化存储ElasticSearch(ES)分布式搜索服务,配合轻量级的传统DB与后端高、中、低性能网络存储共同构成。ES主要负责保存UCP写入的元数据,并可高效完成大量非结构化数据的搜索和分析;传统DB主要负责配置信息以及部分日志信息的存储;采用开源软件定义存储,主要负责非结构化数据的归档,高速网络存储部分可作为上传平台影像文件缓存,提高ES索引存调速度,最后通过归档流转规则进行非结构化数据的动态迁移与归档保存。


三、基本组成



1、接口服务


准接口基于REST方式实现,调用方以REST API调用方式调用即可; 调用方根据Content-Type字段的值完成单张或批量打包的操作,配合数据的字段标签,上送不同的文件类型,如图片格式(jpg、jpeg、tif、tiff、png、bmp)、word、pdf、excel等常见格式; 另外配合接口中请求类型的不同,可实现上传、下载、替换和删除等操作请求; 标准控件调用时,接口字段除接口参数以外,会增加控件类型ID,接口名和返回值,非标准接口会在标准接口基础之上,为信贷类业务流程单独定制接口类型,结合业务具体需求,增加查看控件调用方式,动作类型以及对客对司的功能编号等字段。


物理结构上由2台非标准影像应用服务器通过应用负载对接信贷系统渠道,3台标准影像应用服务器通过负载均衡对接行内其他业务系统渠道;互联网业务数据通过三方上传平台处理之后,会对接影像应用服务器。


2、索引服务


ES 索引服务主要负责索引(存入)与检索(调阅)两部分,其中索引部分包含分词器、过滤器、字符映射器等,检索部分包含查询解析器等。 其索引是先在内存里生成,然后定期以段文件的形式将元数据刷到磁盘的。 每段写到磁盘上之后是不能被修改的,一个段文件就作为了一个实际上的索引,字段就是最小的检索域。


物理结构上由5台索引数据库组成高扩展性的分布式ES索引集群,在任意一个节点宕机时,整个集群的服务依然可用,且由于具有副本设置,保证数据完整性。


3、存储服务


存储 服务作为非结构化数据文件的载体,需要充分利用存储,降低存储成本,保证数据安全和服务质量。 作为基础服务平台,为高效率利用存储,将其分为在线、近线(GFS分布式存储管理)、离线存储配合影像数据文件的归档控制。


本平台存储服务在线区域存储指存储设备的响应速度和所存储的数据时刻保持“在线”状态,可供行内用户随存取与调阅,满足对数据访问速度的要求。这部分目前采用带有去重压缩功能的SSD NAS实现,可用容量在10TB,价格相对昂贵,但性能较好。


近线存储选择相对较广泛,主要定位于在线存储和离线存储之间,将那些存调频率相对较低,或者说数据的访问量相对较小的数据存放在性能稍低的存储设备上。近线存储对性能要求相对来说并不高,但要求相对较好的访问性能,各业务系统不常用的数据要占总数据量较大比重,这要求近线存储设备容量相对较大,因此近线部分采用基于PC服务器实现横向扩展的三副本GlusterFileSystem ,可用容量超100TB,虽然维护成本上升,但性能和安全性都比较高,价格也得到有效控制。







请到「今天看啥」查看全文