当前位置: 首页 > news >正文

clickhouse中replacingMergeTree

ReplacingMergeTree是在MergeTree上添加了去重的功能,但是这个功能不可控,合并是一个后台的操作,除非手动触发,不然无法控制,并且它会删除具有相同(区内)主键的重复项。
特点:
1,去重时机不定, 数据的去重只会在合并的过程中出现, 合并会在未知的时间在后台进行,所以你无法预先作出计划。有一些数据可能仍未被处理
2,去重范围有限,有分区的情况下,去重只在分区内去重,没有分区,按照order by 字段去重(order by是必填字段,主键可以不填,主键是用于创建一级索引,也就是用于where查询的条件,用于二分查找到对应的index granularity而index granularity 是作用于order by的系数索引,默认值是8192,非特殊情况不更改,意思是间隔8192创建一个索引)
版本和飞版本
不带版本的,ENGINE = ReplacingMergeTree()
缺点:去重根据排序建去重,但是去重没有顺序,因为是多线程执行,所以数据是删除随机的,可能是删除了最新的数据
带版本的ENGINE = ReplacingMergeTree(字段名)
能解决不带版本的,其实带版本可理解为指明了按照哪个字段值的先后进行区去重,保留最新的数据,版本字段可以是数值版本字段可以是时间
小姐一下:
使用ORDER BY排序键作为判断重复数据的唯一依据。
只有在合并分区的时候才会触发删除重复数据的逻辑。
以数据分区为单位删除重复数据。当分区合并时,同一分区内的重复数据会被删除;不同分区之间的重复数据不会被删除。
在进行数据去重时,因为分区内的数据已经基于ORBER BY进行了排序,所以能够找到那些相邻的重复数据。
数据去重策略有两种:
如果没有设置ver版本号,则保留同一组(同一分区)重复数据中的最后一行。
如果设置了ver版本号,则保留同一组(同一分区)重复数据中ver字段取值最大的那一行。

http://www.lryc.cn/news/149149.html

相关文章:

  • pdf怎么转换成word?
  • 汇编攻城记-Cortex-M3指令集
  • 大语言模型之五 谷歌Gemini
  • 使用selenium实现对页面元素的抓取
  • 大数据课程K12——Spark的MLlib概述
  • 流程制造智能工厂总体架构及建设路线规划方案PPT
  • 网络有源号角(50W-100W)社区小区广播 工地语音播报,隧道广播,钢铁广播广播系统
  • 【Kali Linux高级渗透测试】深入剖析Kali Linux:高级渗透测试技术与实践
  • DHCP中继实验
  • C++进阶之多态
  • QtCreator中三种不同编译版本 debug、release、profile 的区别
  • golang中map赋值
  • myspl使用指南
  • 【深度学习_TensorFlow】过拟合
  • uniapp授权小程序隐私弹窗效果demo(整理)
  • c++学习之string实现
  • kubevirt虚机创建svc通过NodePort的方式暴露端口
  • Elasticsearch终端命令行用法大全
  • nacos版本升级注意事项
  • JavaScript作用域与作用域链
  • MQTT异常掉线原因
  • 重新理解百度智能云:写在大模型开放后的24小时
  • Stable Diffusion 提示词技巧
  • VS2019编译curl库
  • yolov5自定义模型训练三
  • 服务器中了mkp勒索病毒该怎么办?勒索病毒解密,数据恢复
  • Docker环境搭建Prometheus实验环境
  • Python Qt学习(七)Listview
  • 哈希表HashMap(基于vector和list)
  • go中的函数