当前位置: 首页 > news >正文

数据的质量管控工作

数据的质量管控工作,整个工作应该围绕启动阶段制定的目标进行。适当引入一些质量管控工具可帮助我们更高效的完成工作。

第一步、数据剖析

首先应该进行已知数据问题的评估,这里评估的范围也应控制本轮管控的目标范围内。其次,通过对数据进行剖析,发现数据问题,具体规则又可通过标准或业务调研进行提取。
1)根据标准,提出标准规则比如,我们可以根据标准,提炼出如下图所示的编码规则,并进行检验。
      
2)调研业务,提取业务规则接着,我们可以从业务调研中提取规则,如金融业的大中小微企业贷款当年累放额计算口径:大中小微企业贷款当年累计发放额=大型企业贷款当年累计发放额+中型企业贷款当年累计发放额+小型企业贷款当年累计发放额+微型企业贷款当年累计发放额+个人经营性贷款当年累计发放额,这样的指标计算规则,并进行检查管控。
当然业务规则也可以是围绕我们既定的业务预期展开。目标不同,业务剖析的方向也应随之调整。

第二步、设计数据质量控制操作程序

获得已知数据问题后,就应设计数据质量控制操作程序。主要包括以下3个方面:
1)制定检查和监控的频率及方式2)制定质量问题评估方式和整改方式3)制定质量报告内容及对象

第三步、定义数据质量需求


根据剖析的质检规则和控制操作程序,对数据质量需求进行定义,这里又可拆分成以下三步。
1)梳理数据模型梳理数据模型的主要工作是确定检查对象实体之间的关系,如关键字、主外键关系梳理、字段类型、长度等。
   2)建立质量规则这一步是将我们剖析的数据检验业务规则,转化成可执行、有结果的技术规则。
 
    
3)建立质检方案将可以同时评价且主责部门划分一致的规则集合起来,建立质检方案。也可根据业务或者评价规范再对规则进行细分并建立方案。
    

第四步、确定数据质量水平

数据质量需求定义完毕之后,我们就需要确定在此需求下,目前数据质量的水平处于什么位置。明确反应质量水平的并最直观的就是错误数据的详情情况,如下图所示。           
根据汇报的对象不同,一般也需要出具质检情况的统计报告。
 

第五步、管理数据质量问题

问题找到,下一步我们就应该进行问题的管理了。根据不同的质量问题,进行不同的质量整改方案。一般方式有以下4种:
1)源头修改,即问题数据生产系统中进行修改。2)补录,即在数据中心,建立一个新的仓库,针对数据问题进行补充录入,一般情况为源系统升级或其他原因导致无法从源系统进行修改,而采取的变通方案。3)技术修复,即通过如ETL工具等技术手段,对问题数据进行清洗、转换。
    4)遗留问题管控,即对一些无法修复处理的数据进行特殊处理,一般情况下进行标记或者例外处理。            

http://www.lryc.cn/news/44659.html

相关文章:

  • 【SpringBoot笔记29】SpringBoot集成RabbitMQ消息队列
  • 前端架构师-week2-脚手架架构设计和框架搭建
  • CMake项目实战指令详细分析
  • 【深度学习】——LSTM参数设置
  • 计算机网络高频60问 背完差不多了!!
  • 路由策略小实验
  • C语言realloc背后的内存管理
  • GPT可以被放任的在问答区应用吗?
  • 限制网络接口的一些简介(一)
  • ChatGPT如何批量撰写最新的热点自媒体文章
  • GPT4和ChatGPT的区别,太让人震撼
  • redis实战---分布式锁--单机篇
  • Java正则表达式
  • MySQL数据库之——高级[进阶]SQL语句(二)正则表达式和存储过程
  • Python基于周立功盒子的二次开发的准备工作
  • 2023年PMP考生|考前必练全真模拟题分享,附答案解析
  • Python入门教程+项目实战-7.1节: 条件控制结构
  • 【机器学习】P4 特征缩放与学习率
  • 《Python编程:从入门到实战》(第2版)学习笔记 第11章 测试代码
  • SpringBoot(1)基础入门
  • 利用Flow Simulation快速经济高效地解决传热难题
  • 揭开二维码背后的神秘面纱用二维码识别 API 就够了
  • 系统分析——系统构建最重要的一环
  • 第1-第20个高级shell程序
  • 【致敬嵌入式攻城狮第2期活动预热征文】学习安排
  • 035:cesium加载KML文件,显示图形
  • 随想录Day42--动态规划: 416. 分割等和子集(终于吃下01背包了)
  • 字节跳动软件测试岗,前两面过了,第三面被面试官吊打,结局我哭了
  • bitlocker 笔记
  • Linux 压缩与解压命令