专栏名称: DBAplus社群
围绕数据库、大数据、PaaS云,顶级大咖、技术干货,运营几个月受众过十万!成为运维圈最专注围绕“数据”的学习交流和专业社群!欢迎投稿,加入探讨。
目录
相关文章推荐
51好读  ›  专栏  ›  DBAplus社群

数仓模式拖后腿,我们设计了可借鉴的数据治理模型

DBAplus社群  · 公众号  · 数据库  · 2020-11-18 07:15

正文

请到「今天看啥」查看全文



俗话说上线容易下线难,过去我们一直在做加法,并没有一套清晰标准的下线流程,或许从潜意识中对下线这个词就根本不太关注,也导致了数据运维的成本极高,资源浪费的情况严重。


为了能明确数据治理的准确范围,我们需要对已盘点的现状做收敛,明确哪些可下线,哪些可合并。通过现状收敛的梳理,对模型、报表及应用都标注了收敛的类型,分为:可使用、可下线、可合并。


在度假的数据治理开展中,大部分数据域收敛比例为20%-30%,某些数据域可以达到50%以上,当然这也和一些业务线的历史包袱有关。


报表
路径
是否下线
维度
指标
商品报表
/报表路径C
日期
商品
指标1
指标2

① 可下线


可下线的标准原则有以下三点:


  • 低访问频率:报表及应用近三个月被业务方访问的总频次小于3次;

  • 无维护责任人:责任人缺失、离职,并且没有业务方能够描述清楚其背景和口径;

  • 报错无下游:长期报错的模型且无人报修,或者已无下游使用,这里说的下游使用包含了依赖关系和即席查询。


②可合并


可合并的标准原则有以下两点:


  • 重复建设:维度和指标相同或者有包含的关系,可以直接合并;

  • 口径统一:原先的指标口径不一致,通过梳理进行了统一后可合并。


③ 明确场景


对于很多数仓的同学来说,他们对于业务的理解是存在很大的局限性的,往往习惯于接需求与解决需求,但并没有询问需求背后到底要解决什么,更做不到举一反三。另一方面,我们的归纳也只是一种猜测,是否是真实的需求场景?没有偏差或错误?


此处就是一个大大的问号,明确场景就是要走近业务,探求数据背后的真相与本质。让数据的同学能够更多的了解业务,至少能完整的知道业务使用数据在做些什么,怎么做的,同时让更多的业务场景能够沉淀下来,也是一种对于知识体系的传承。明确场景需要清晰描述以下几点:


  • 第一,需求场景的背景是什么,能够解决什么样的问题;

  • 第二,需要看什么样的数据,从哪些维度,哪些指标来看;

  • 第三,业务是如何利用需求的数据来进行分析和运营的;

  • 第四,最终如何落地待解决问题,如何通过数据可衡量。


需求场景
维度
指标
场景:背景是什么,能够解决什么样的问题
分析:如何利用数据来进行分析和运营
落地:如何落地待解决问题,如何通过数据可衡量
日期
商品
用户
指标1
指标2
指标3
3、如何通过模型设计来规范治理数据?


1) 数仓分层


数据仓库的分层主要解决的是数据的存储与管理,是对数据的横向管理,对于数据权限的控制以及边界的清晰定义也都有着重要的作用。其优势主要体现在以下三点:


  • 清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解数据;

  • 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够极大降低重复计算,减少烟囱式开发;

  • 统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径,避免同一指标不同口径的情况发生。







请到「今天看啥」查看全文


推荐文章
书法在线  ·  你整天挂嘴边,却不会写的15个字
8 年前
爱丽丝手札  ·  许小年:深圳房价还会涨,咬牙赶紧买
8 年前
科学家庭育儿  ·  远嫁的姑娘不容易
7 年前