当前位置: 首页 > news >正文

去重复记录和排序——kettle开发09

一、去除重复记录

去除重复记录,就是将数据流中的数据进行字段比较,从而去掉重复值的过程。去除重复记录的前提是需要将数据流中的数据进行排序,然后再进行去重操作。

去除重复记录的逻辑是,如下图,我们将需要比较的字段作为比较值来比较是否重复。如果我们按数据库的角度去理解的话,其实就是联合主键,需保证联合主键的唯一性

排序是我们将指定的字段进行升序或者降序操作。

二、实例

任务:我们将EXCEL表的数据去掉重复记录并输出。根据上面我们学到的知识,最后的作业由EXCEL输入-排序记录-去除重复记录-EXCEL输出组成。

EXCEL输入:如图所示我们EXCEL表里面一共有7条记录,这里面需要注意的是,我们在去除重复记录的时候,是不是大小写敏感,如果我们大小写敏感的话,那我们如图所示,我们是没有重复记录的,因此我们在去除重复记录的时候要根据需求来选择是否大小写敏感来过滤我们的数据,从而达到我们去除重复的目的。

最终运行效果,最终我们可以看到,因为我们选择了大小写不敏感,最后输出至EXCEL表中只有了6条记录,这就是今天所学的知识,虽然简单,但是要完全弄清楚还得用点心哦,去除重复记录还有个操作叫哈希值,明天我们来介绍哈希值的操作,来看看他们两个有什么原理上的不同。

http://www.lryc.cn/news/355570.html

相关文章:

  • 中创算力与中国移动初步达成战略合作意向,共同构建智能生态圈!
  • 基础—SQL—DML(数据操作语言)插入数据
  • 【改變,是面對的開始】
  • AI大模型实现德语口语练习
  • 一文读懂npm i的命令以及作用
  • You don‘t have enough free space或者no space left on device异常
  • 饮料添加剂新型褪色光照试验仪器太阳光模拟器
  • ElasticSearch - 删除已经设置的认证密码(7.x)
  • 9.4 Go语言入门(运算符)
  • CLIP 源码分析:simple_tokenizer.py
  • AWS安全性身份和合规性之Shield
  • Midjourney入门篇 | 打造最逼真的照片(强烈推荐)
  • 【运维自动化-配置平台】如何跨业务转移主机
  • connection problem,giving up
  • Linux-----sed案例练习
  • 【华为OD机试-C卷D卷-200分】运输时间(C++/Java/Python)
  • flink程序本地运行报: A JNI error has occurred和java.lang.NoClassDefFoundError
  • yolox-何为EMA?
  • Java:String、StringBuffer和StringBuilder的区别
  • 虚拟化技术 分布式资源调度
  • 【Element-plus】vue组合式中使用el-upload通过oss接口上传图片流程(可直接复制使用)
  • C++ 数据结构算法 学习笔记(33) -查找算法及企业级应用
  • 【Linux】在Ubuntu 16.04上安装Gerrit + PostgreSQL + Apache服务
  • 数据倾斜那些事儿
  • python考试成绩管理与分析:从列表到方差
  • Excel某列中有不连续的数据,怎么提取数据到新的列?
  • 翻译《The Old New Thing》- What does it mean when a display change is temporary?
  • 【C语言】char,short char,long char分别是多少字节,多少位,多少bit
  • 新V 系首批订单交付!苏州金龙助新疆游骏文旅集团打造旅运新标杆
  • 【Django】从零开始学Django【2】