数仓主题域划分
数仓主题域划分
一、导读:
在数据仓库建设中,对数据的使用,业务与数据团队存在着不同的痛点:
业务团队:关注如何更快速,更准确,更便捷地获取想要的数据用来做各种决策和分析(例如:分析各机构的操作行为,用来标准化操作)
数据团队:关注如何更标准、更安全、更高效的管理数据(例如:数据的权限隔离等)
所以在数仓建设中,为了解决这一痛点,就有了主题域与数据域的划分,并且这两点并不冲突:
数据域:是在业务系统调研完毕,从业务视角就可以划分。
****主题域:是从不同业务系统出发把数据域重新划分为不同的主题域,保证数据易理解,指标口径统一。
二、主题域与****主题划分
2.1 主题域的划分
1.定义: 主题域是紧密相关的数据主题的集合,根据业务分析需求进行抽象和归类。
2.划分方法:
按业务过程划分: 一个核心业务过程对应一个主题域(例如:操作、交易、物流轨迹…)。
按业务部门划分: 一个主要业务部门对应一个主题域(例如:运输、业务运营、品控…)。
按业务系统划分: 一个核心业务系统对应一个主题域(例如:温控系统、ERP系统…)。
2.2 主题的划分
“主题”在数据仓库中是一个核心的、基础性的设计概念,它直接决定了数据仓库的结构、数据的组织方式以及最终用户理解和访问数据的效率。理解“主题”是理解整个数据仓库架构的关键。
1. 核心定义:
从业务分析角度出发,划分出的核心业务领域或关注焦点。(例如:时效、运单、订单、库存)
2. 设计根基:
业务导向:按业务需求划分,不是按技术或源系统结构划分。
集成核心:一个主题会整合所有与该业务领域相关的、来自不同源系统的数据。
分析导向:目的就是让用户能在一个地方找到分析某个业务问题所需的所有数据。
****3. 关键作用:
指导建模: 是设计星型/雪花模型(事实表+维度表)的顶层框架。
组织数据: 通常对应物理存储结构(如Schema/数据库)。
提升效率: 让业务用户能快速定位和理解数据,支持分析。
一句话总结:
主题 = 业务领域视角 + 数据集成单元 + 分析效率核心 ((例如:时效、运单、订单、库存)
三、主题域数据域建设
任何技术方案的最终目的是服务业务,通过数据推动业务发展,也就是数据驱动。所以主题域和数据域的建设也必然是建立在这个基础之上的。
一句话总结就是:用业务语言建模型,用模型结果反哺业务决策
3.1 主题域建设
主题域:从业务视角出发对数据进行分类,汇总企业的核心业务(如运输、操作、仓储,温控等)
3.1.1 业务开始-从业务中来
1、业务大图 =“货”的端到端旅程
2、主题域=旅程里“高频 KPI、高价值、高复用”的 6 个节点
用业务常用语验证:
• 订单域(下单、改单…)
• 运单域(揽收到签收全过程)
• 运输域(车辆、班线、车辆、在途温度…)
…
3、业务项负责人
运单域:技术支持A(负责全国运单相关事项)
运输域:技术支持B(负责全国运输相关事项)
3.1.2 结合业务划分主题域
这样划分主题域与数据域与层级有以下几点好处:
****1. 架构清晰,来源明确:
表头体现层级与主题: 使用 dwd_waybill, dws_order, ads_waybill_dim 等命名清晰区分数据层级(DWD/DWS/ADS)和所属业务主题域。
血缘清晰: 数据来源直接对应具体业务系统,血缘关系一目了然。
2. 保障业务域内数据统一性:
源头一致: 同一主题域数据源于单一业务系统,天然继承其核心业务规则、主数据定义和逻辑。
消除冲突: 确保主题域内部(如所有运单相关表)数据口径、维度定义高度一致。
3. 奠定指标体系基础 & 模型高效复用:
统一口径: 主题域内统一的数据为构建跨层级的、一致的指标体系(如订单转化率、运单时效)提供可靠基石。
一次开发,多次复用: 设计良好的主题域模型(尤其是DWD宽表明细层)可被不同汇总层(DWS)、应用层(ADS)及报表多次引用,大幅提升开发效率。
4. 分层权责明确,管理高效:
层级功能清晰: DWD(宽表明细)、DWS(汇总)、ADS(应用/服务)各层功能定位明确,逻辑划分统一。
治理责任绑定: 主题域的数据治理责任(质量、安全、元数据)自然归属对应的源头业务系统负责人,权责清晰,便于管理落地。
5. 聚焦实施,敏捷交付:
系统级聚焦: 模型设计与开发只需深入理解单一业务系统,复杂度低。
分步建设: 可按业务系统优先级独立规划、建设和交付各个主题域,降低风险,快速见效。
3.1.3 业务闭环-到业务中去
1、选 1 个业务痛点做 POC
痛点:上海区域签收及时率环比下降30%
2、用“主题域-指标-行动”分析
• 主题域:时效+运输+操作
时效:时效承诺达成率
运输域:干线到发车准时率
操作域:中转经停时长、错发率
反查明细:
南京中转班车平均经停留时长>2h 的运单占比 18%(历史 8.5%)
班线运输显示,集中这个时段的干线发车率降低13%
• 行动:
优化操作环节,并增加凌晨12–5点的操作人员由3组提至5组
•验证数仓价值
如果以上闭环跑通,证明主题域/数据域切得准;
跑不通就回到主题域、数据域补全业务过程继续迭代。
一张图总结下
“揽-干-派” 任一环节出问题 → 通过主题域快速定位 → 数据域提供原子事件 → 业务动作 24h 内闭环。
真正做到:从物流业务现场来,到物流运营优化去。