正文
陆军军医大学第一附属医院
作为全国知名的现代化综合性三级甲等医院,经过20多年的信息化医院建设,各类信息系统已积累了TB级的医疗数据。井喷式增长的医疗数据量,迫切需要深入开展数据治理和数据应用工作。
为满足数据质量的关联性、一致性、完整性、及时性的要求,
本研究提出一种数据湖的建设,即基于医疗大数据平台的集中式数据存储库与计算引擎,允许对任意来源、任意规模、任意结构、任意传输速度的数据进行全量存储并可跨平台、跨语言进行分析和处理
,提供数据的获取、存储、管理、分析、发布全周期全过程管理能力,以期解决数据治理和数据应用过程中的问题,通过引入数据湖来更好地梳理数据、治理数据、利用数据,提炼医疗价值。
基于我院信息化建设的实际情况,结合数据计算引擎与存储系统的低耦合性、系统的弹性和健壮性、组件的独立性、系统的易扩展性、数据的安全性、系统的可维护性等因素,综合对比了市面上的3大开源数据湖解决方案ApacheHudi、ApacheCarbonData、DeltaLake,
最终选择了使用DeltaLake来作为数据湖底座
。数据湖建设的技术架构见图1。
图1 数据湖建设的技术架构
由于我院的数据系统繁多,包括HIS、LIS、PACS、EMRS、RIS、ICU、体检、手麻、护理等业务系统,
首要工作是对各业务系统产生的数据进行全面的数据资产盘点摸底和分析调研。全方位了解数据内容和数据质量概况,用开源的图形化工具Kettle抽取全量历史数据,用OGG(OracleGoldenGate)、CDC(changedatacapture)增量抽取实时数据接入数据湖。
对各业务系统原始数据的来源进行了梳理和分类,然后根据数据本身的结构,按数据字典规范进行编写和汇总,再对数据的内容和体量进行了详尽描述。对于一些敏感和需保密的数据,根据医院相关要求制定了数据的密级方案,对数据按保密性进行了权限上锁和保密存储,设定了应用分级、访问控制、身份验证等策略。
为延长数据保真时间和避免数据丢失,建立了数据存储的副本机制和服务器节点的双活机制。在数据接入过程中,订立和发布数据标准,开展一系列的数据质量评估,制定数据资产运营能力成熟度的标准,以期形成数据的资产化。