当前位置: 首页 > news >正文

浅谈数据仓库运营

一、背景

        企业每天都会产生大量的数据,随着时间增长,数据会呈现几何增长,尤其在系统基建基础好的公司。好的数据仓库需要提前规划和好的运营,才能支持企业的发展,为企业提供数据分析基础。

二、目标

        提高数据仓库存储性能和开发质量以及数据质量

三、数据运营指标

3.1 开发质量

表名规范性:检验数据库表名是否按照数仓表名规范,表名是否按照词根翻译

字段名规范性:检验表字段名是否按照词根中文进行翻译

字段类型规范性:检验表字段类型是否按照数据标准设立

表引用次数:根据表引用次数进行排名,重点关注引用次数高的和次数低的,次数高的定期优化,确保任务执行失败,次数低的考虑数据架构是否合理,如果存在次数为0的说明未使用(很多业务调整但是表还没有拿掉,会存在很多僵尸表)。

表循环依赖:检查数据库表是否存在循环写入(A->B,B->C,C->A),很多公司不存在数据架构师,往往为了实现报表需求,直接拿已经做好的指标,可能会存在循环写入的情况(A表用B表指标1,B表用A表指标2)

表层级依赖:数仓规范会要求ODS只能写入DWD层,DWD层只能写入DWS层。

SQL编写规范性:在sql中我们会要求sql编写规范,不写 select *, 字段后带有注释,字段前有表别名,每个表必须重命名,字段换行等等

3.2 ETL任务

任务失败次数:查看任务失败次数排名,重点关注容易出错的任务

任务执行时长:优化长时间执行任务,降低资源使用

任务读取数据量:查看任务读取数据量大小,大数据量访问的数据库做好性能支撑

任务执行时间点分布:查看任务集中时间点,将任务均匀分布,避免任务集中执行

任务类型分布:查看执行任务类型分布,针对不同类型任务分配资源

3.3 数据质量

一致性:数据值在数据集之间和数据集内之间表达的相符程度

完整性:引用完整性或数据集内部的一致性

准确性:数据模式符合预期程度

及时性:数据更新是否及时

唯一性:数据集的任何实体不会重复出现

有效性:数据值与定义的域值一致

四、实施步骤

定规范:制定数据仓库开发规范,建立词根库,制定数据标准。

定流程:将开发最佳实践落地成流程,做好人岗匹配。

规范落地监控:根据规范开发规范规则监控,识别违法规范行为。

奖罚措施:奖励优秀的开发,惩罚违法开发规范的行为。

http://www.lryc.cn/news/269938.html

相关文章:

  • 系列六、Consul
  • Java集合/泛型篇----第一篇
  • 集合使用注意事项
  • 什么是 JavaScript 中的 WeakMap
  • nodejs+vue+ElementUi农产品团购销售系统zto2c
  • nacos入门篇001-安装与启动
  • WordPress主题大前端DUX v8.3源码下载
  • RabbitMQ之快速入门、上手
  • GBASE南大通用-GBase 8s数据库日志模式及切换
  • 侵入式和非侵入式微服务框架的比较
  • Go语言程序设计-第5章--函数
  • 数据被锁?被.mkp 勒索病毒攻击后的拯救行动
  • Fine-Tuning Language Models from Human Preferences
  • 提升数据库性能的关键指南-Oracle AWR报告
  • 云计算IaaS、PaaS和SaaS之
  • 解锁大数据世界的钥匙——Hadoop HDFS安装与使用指南
  • 写在2023岁末:敏锐地审视量子计算的当下
  • C/C++学习笔记十三 C++中的重载运算符
  • Java 实现自动获取法定节假日
  • 湘潭大学-2023年下学期-c语言-作业0x0a-综合1
  • 网络协议-BIO实战和NIO编程
  • Word 将页面方向更改为横向或纵向
  • 关键字:abstract关键字
  • 从PDF中提取图片
  • 推荐:一个不错的介绍Apache Doris的PPT
  • 【Python_PySide2学习笔记(二十二)】进度对话框QProgressDialog类的基本用法
  • 使用rust读取usb设备ACR122U的nfc卡片id
  • servlet总结
  • Nacos2.1.2改造适配达梦数据库7.0
  • TPRI-DMP平台介绍