当前位置: 首页 > news >正文

数仓主题域划分

数仓主题域划分

一、导读:

在数据仓库建设中,对数据的使用,业务与数据团队存在着不同的痛点:

业务团队:关注如何更快速,更准确,更便捷地获取想要的数据用来做各种决策和分析(例如:分析各机构的操作行为,用来标准化操作)

数据团队:关注如何更标准、更安全、更高效的管理数据(例如:数据的权限隔离等)

所以在数仓建设中,为了解决这一痛点,就有了主题域与数据域的划分,并且这两点并不冲突:

数据域是在业务系统调研完毕,从业务视角就可以划分。

****主题域:是从不同业务系统出发把数据域重新划分为不同的主题域,保证数据易理解,指标口径统一。

二、主题与****主题划分

2.1 主题域的划分

1.定义: 主题域是紧密相关的数据主题的集合,根据业务分析需求进行抽象和归类。

2.划分方法:

按业务过程划分: 一个核心业务过程对应一个主题域(例如:操作、交易、物流轨迹…)。

按业务部门划分: 一个主要业务部门对应一个主题域(例如:运输、业务运营、品控…)。

按业务系统划分: 一个核心业务系统对应一个主题域(例如:温控系统、ERP系统…)。

2.2 主题的划分

“主题”在数据仓库中是一个核心的、基础性的设计概念,它直接决定了数据仓库的结构、数据的组织方式以及最终用户理解和访问数据的效率。理解“主题”是理解整个数据仓库架构的关键。

1. 核心定义:

从业务分析角度出发,划分出的核心业务领域或关注焦点。(例如:时效、运单、订单、库存)

2. 设计根基:

业务导向:按业务需求划分,不是按技术或源系统结构划分。

集成核心:一个主题会整合所有与该业务领域相关的、来自不同源系统的数据。

分析导向:目的就是让用户能在一个地方找到分析某个业务问题所需的所有数据。

****3. 关键作用:

指导建模: 是设计星型/雪花模型(事实表+维度表)的顶层框架。

组织数据: 通常对应物理存储结构(如Schema/数据库)。

提升效率: 让业务用户能快速定位和理解数据,支持分析。

一句话总结:

主题 = 业务领域视角 + 数据集成单元 + 分析效率核心 ((例如:时效、运单、订单、库存)

三、主题域数据域建设

任何技术方案的最终目的是服务业务,通过数据推动业务发展,也就是数据驱动。所以主题域和数据域的建设也必然是建立在这个基础之上的。

一句话总结就是:用业务语言建模型,用模型结果反哺业务决策

3.1 主题域建设

主题域:从业务视角出发对数据进行分类,汇总企业的核心业务(如运输、操作、仓储,温控等)

3.1.1 业务开始-从业务中来

1、业务大图 =“货”的端到端旅程

2、主题域=旅程里“高频 KPI、高价值、高复用”的 6 个节点

用业务常用语验证:

• 订单域(下单、改单…)

• 运单域(揽收到签收全过程)

• 运输域(车辆、班线、车辆、在途温度…)

3、业务项负责人

运单域:技术支持A(负责全国运单相关事项)

运输域:技术支持B(负责全国运输相关事项)

3.1.2 结合业务划分主题域

这样划分主题域与数据域与层级有以下几点好处:

****1. 架构清晰,来源明确:

表头体现层级与主题: 使用 dwd_waybill, dws_order, ads_waybill_dim 等命名清晰区分数据层级(DWD/DWS/ADS)和所属业务主题域。

血缘清晰: 数据来源直接对应具体业务系统,血缘关系一目了然。

2. 保障业务域内数据统一性:

源头一致: 同一主题域数据源于单一业务系统,天然继承其核心业务规则、主数据定义和逻辑。

消除冲突: 确保主题域内部(如所有运单相关表)数据口径、维度定义高度一致。

3. 奠定指标体系基础 & 模型高效复用:

统一口径: 主题域内统一的数据为构建跨层级的、一致的指标体系(如订单转化率、运单时效)提供可靠基石。

一次开发,多次复用: 设计良好的主题域模型(尤其是DWD宽表明细层)可被不同汇总层(DWS)、应用层(ADS)及报表多次引用,大幅提升开发效率。

4. 分层权责明确,管理高效:

层级功能清晰: DWD(宽表明细)、DWS(汇总)、ADS(应用/服务)各层功能定位明确,逻辑划分统一。

治理责任绑定: 主题域的数据治理责任(质量、安全、元数据)自然归属对应的源头业务系统负责人,权责清晰,便于管理落地。

5. 聚焦实施,敏捷交付:

系统级聚焦: 模型设计与开发只需深入理解单一业务系统,复杂度低。

分步建设: 可按业务系统优先级独立规划、建设和交付各个主题域,降低风险,快速见效。

3.1.3 业务闭环-到业务中去

1、选 1 个业务痛点做 POC

痛点:上海区域签收及时率环比下降30%

2、用“主题域-指标-行动”分析

• 主题域:时效+运输+操作

时效:时效承诺达成率

运输域:干线到发车准时率

操作域:中转经停时长、错发率

反查明细:

南京中转班车平均经停留时长>2h 的运单占比 18%(历史 8.5%)

班线运输显示,集中这个时段的干线发车率降低13%

• 行动:

优化操作环节,并增加凌晨12–5点的操作人员由3组提至5组

•验证数仓价值

如果以上闭环跑通,证明主题域/数据域切得准;

跑不通就回到主题域、数据域补全业务过程继续迭代。

一张图总结下

“揽-干-派” 任一环节出问题 → 通过主题域快速定位 → 数据域提供原子事件 → 业务动作 24h 内闭环。

真正做到:从物流业务现场来,到物流运营优化去。

http://www.lryc.cn/news/599353.html

相关文章:

  • [linux]Haproxy七层代理
  • Agent领域,近年来的前沿研究方向:多智能体协作、认知启发架构、伦理安全、边缘计算集成
  • 多租户系统中的安全隔离机制设计
  • 【数学建模|Matlab】数学建模「常用作图」示例
  • classgraph:Java轻量级类和包扫描器
  • 【深基12.例1】部分背包问题 Java
  • 深入解析 ArkUI 触摸事件机制:从点击到滑动的开发全流程
  • 本地部署Dify教程
  • 每天算法刷题Day53:7.25:leetcode 栈5道题,用时1h35min
  • [C#] Winform - 加载动画效果
  • 【blender小技巧】使用blender实现图转换为3D模型,并进行模型网格优化减面操作
  • 【C#学习Day12笔记】抽象类、密封类与子类构造(继承)
  • Welcome to the world of Go language
  • blender基本操作
  • gem5和Spike区别
  • 设计模式在Java中的实际应用:单例、工厂与观察者模式详解
  • AVL树和红黑树的特性以及模拟实现
  • 【开发杂谈】用AI玩AI聊天游戏:使用 Electron 和 Python 开发大模型语音聊天软件
  • golang怎么实现每秒100万个请求(QPS),相关系统架构设计详解
  • MyBatis 之缓存机制核心解析
  • “磁”力全开:钕铁硼重塑现代科技生活
  • 求职招聘小程序源码招聘小程序开发定制
  • 解密国密 SSL 证书:SM2、SM3、SM4 算法的协同安全效应
  • Spring Boot 接口安全设计:接口限流、防重放攻击、签名验证
  • SEC_FirePower 第二天作业
  • 软件异常读写威胁硬盘安全:从过往案例到防护之道
  • Linux运维新人自用笔记(Rsync远程传输备份,服务端、邮箱和客户端配置、脚本)
  • 网络资源模板--基于Android Studio 实现的天气预报App
  • Inception网络架构:深度学习视觉模型的里程碑
  • Java-Properties类和properties文件详解