当前位置：首页 > news >正文

clickhouse中replacingMergeTree

news 2025/7/6 23:51:02

ReplacingMergeTree是在MergeTree上添加了去重的功能，但是这个功能不可控，合并是一个后台的操作，除非手动触发，不然无法控制，并且它会删除具有相同(区内)主键的重复项。
特点：
1，去重时机不定，数据的去重只会在合并的过程中出现，合并会在未知的时间在后台进行，所以你无法预先作出计划。有一些数据可能仍未被处理
2，去重范围有限，有分区的情况下，去重只在分区内去重，没有分区，按照order by 字段去重（order by是必填字段，主键可以不填，主键是用于创建一级索引，也就是用于where查询的条件，用于二分查找到对应的index granularity而index granularity 是作用于order by的系数索引，默认值是8192，非特殊情况不更改，意思是间隔8192创建一个索引）
版本和飞版本
不带版本的，ENGINE = ReplacingMergeTree()
缺点：去重根据排序建去重，但是去重没有顺序，因为是多线程执行，所以数据是删除随机的，可能是删除了最新的数据
带版本的ENGINE = ReplacingMergeTree(字段名)
能解决不带版本的，其实带版本可理解为指明了按照哪个字段值的先后进行区去重，保留最新的数据，版本字段可以是数值版本字段可以是时间
小姐一下：
使用ORDER BY排序键作为判断重复数据的唯一依据。
只有在合并分区的时候才会触发删除重复数据的逻辑。
以数据分区为单位删除重复数据。当分区合并时，同一分区内的重复数据会被删除；不同分区之间的重复数据不会被删除。
在进行数据去重时，因为分区内的数据已经基于ORBER BY进行了排序，所以能够找到那些相邻的重复数据。
数据去重策略有两种：
如果没有设置ver版本号，则保留同一组（同一分区）重复数据中的最后一行。
如果设置了ver版本号，则保留同一组（同一分区）重复数据中ver字段取值最大的那一行。