数仓模式拖后腿，我们设计了可借鉴的数据治理模型

DBAplus社群 · 公众号 · 数据库 · 2020-11-18 07:15

正文

俗话说上线容易下线难，过去我们一直在做加法，并没有一套清晰标准的下线流程，或许从潜意识中对下线这个词就根本不太关注，也导致了数据运维的成本极高，资源浪费的情况严重。

为了能明确数据治理的准确范围，我们需要对已盘点的现状做收敛，明确哪些可下线，哪些可合并。通过现状收敛的梳理，对模型、报表及应用都标注了收敛的类型，分为：可使用、可下线、可合并。

在度假的数据治理开展中，大部分数据域收敛比例为20%-30%，某些数据域可以达到50%以上，当然这也和一些业务线的历史包袱有关。

报表

路径

是否下线

维度

指标

商品报表

/报表路径C

是

日期

商品

…

指标1

指标2

…

① 可下线

可下线的标准原则有以下三点：

②可合并

可合并的标准原则有以下两点：

③ 明确场景

对于很多数仓的同学来说，他们对于业务的理解是存在很大的局限性的，往往习惯于接需求与解决需求，但并没有询问需求背后到底要解决什么，更做不到举一反三。另一方面，我们的归纳也只是一种猜测，是否是真实的需求场景？没有偏差或错误？

此处就是一个大大的问号，明确场景就是要走近业务，探求数据背后的真相与本质。让数据的同学能够更多的了解业务，至少能完整的知道业务使用数据在做些什么，怎么做的，同时让更多的业务场景能够沉淀下来，也是一种对于知识体系的传承。明确场景需要清晰描述以下几点：

需求场景

维度

指标

场景：背景是什么，能够解决什么样的问题

分析：如何利用数据来进行分析和运营

落地：如何落地待解决问题，如何通过数据可衡量

日期

商品

用户

…

指标1

指标2

指标3

…

3、如何通过模型设计来规范治理数据？

1）数仓分层

数据仓库的分层主要解决的是数据的存储与管理，是对数据的横向管理，对于数据权限的控制以及边界的清晰定义也都有着重要的作用。其优势主要体现在以下三点：