当前位置: 首页 > news >正文

Spark流水线数据探查组件

1.Deequ简介

Deequ是AWS实验室开发的一款开源数据质量监控工具,它构建在Apache Spark之上,主要用于大规模数据集的质量验证。Deequ允许用户定义"数据质量约束",并自动计算指标来验证这些约束是否得到满足,从而帮助数据工程师和分析师确保其数据的正确性和完整性。

在数据从数据源抽取、转换并加载到数据仓库的ETL过程中,Deequ可以嵌入其中,对每一步的数据进行质量检查。例如,在数据抽取后检查数据的完整性,在转换过程中检查数据的一致性和准确性,确保只有符合质量要求的数据才能进入数据仓库,避免错误数据对后续数据分析和决策的影响。

2.探查字段

Spark流水线数据探查组件采用Deequ实现,可将任意节点输出的DataFrame数据集进行数据探查,字段如下:

字段名含义类型备注
columnName分析的列名StringType所有类型字段
completeness该列的完整性,取值范围在 0 到 1 之间,1 代表无缺失值。DoubleType所有类型字段
approximateNumDistinctValues该列不同值的近似数量LongType所有类型字段
dataType该列的数据类型StringType所有类型字段
typeCounts键为数据类型名称,值为该类型在列中出现的次数。MapType(StringType, LongType)所有类型字段
minimum该列的最大值DoubleType整形类型字段
maximum该列的最小值DoubleType整形类型字段
mean该列的平均值DoubleType整形类型字段
sum该列所有值的总和DoubleType整形类型字段
stdDev该列的标准差DoubleType整形类型字段
approxPercentiles该列的近似分位数StringType整形类型字段
minLength字符串列中最短字符串的长度IntegerType字符类型字段
maxLength字符串列中最长字符串的长度IntegerType字符类型字段

3. 集成演示

3.1 创建任务

  • 入口:通过顶部菜单栏选择 任务开发,或通过快捷入口 快速创建任务

  • 任务类型:选择 SparkPipeline

3.2 配置任务

点击任务名称,进入任务详情页。任务节点如下

使用MockData节点生成100条测试数据

使用DataProfiling探索数据

最后通过TableShow对探索结果可视化展示

3.3 运行任务

  • 点击 运行 按钮启动任务

    在这里插入图片描述

🔗 平台体验地址:DataStudio (http://1.94.182.15:8090)

http://www.lryc.cn/news/578900.html

相关文章:

  • 跨平台开发的抉择:Flutter vs 原生安卓(Kotlin)的优劣对比与选型建议​​
  • vscode vim插件示例json意义
  • STM32模拟I2C获取AP3216C光学接近传感器数据
  • Linux-修改线上MariaDB服务端口号
  • 【网工|知识升华版|实验】1 登录华为设备并配置
  • IDEA2025 Version Control 窗口 local changes显示
  • Adobe高阶技巧与设计师创意思维的进阶指南
  • 免Mac上架实战:全平台iOS App上架流程的工具协作经验
  • 开源计算机视觉的基石:OpenCV 全方位解析
  • 同一水平的 RISC-V 架构的 MCU,和 ARM 架构的 MCU 相比,运行速度如何?
  • containerd 项目主要目录简要说明
  • 多模态进化论:GPT-5V图文推理能力在工业质检中的颠覆性应用
  • AI智能体时代来临:数据分析的变革与自动化之路
  • Linux缓存调优指南:提升服务器性能的关键策略
  • Android Native 之 init初始化selinux机制
  • 【.NET Framework 窗体应用程序项目结构介绍】
  • day046-tomcat与部署war包、jar包
  • java实现日志记录-注解方式
  • 使用哪种语言的人更容易通过面试?
  • 【Web前端】优化轮播图展示(源代码)
  • (一)大语言模型的关键技术<-AI大模型构建
  • 360安全卫士占用5037端口(ADB端口)解决方案
  • Wps开放平台v5升级v7上传实体文件踩坑(Java使用restTemplate)
  • 基于开源链动2+1模式AI智能名片S2B2C商城小程序的场景零售创新研究
  • Mac电脑 卸载工具 App Cleaner
  • Java 大视界 -- Java 大数据在智能医疗健康管理中的慢性病风险预测与个性化干预(330)
  • 带GPU启动 Docker 容器
  • FAISS 简介及其与 GPT 的对接(RAG)
  • [CS创世SD NAND征文] 精准控制的坚固基石:CS创世SD NAND在华大HC32F4A0运动控制卡中的高可靠应用
  • 7月2日星期三今日早报简报微语报早读