当前位置: 首页 > news >正文

Clickhouse 数据存储

一、数据分区

        数据是以分区目录的形式组织的,每个分区独立分开存储.这种形式,查询数据时,可以有效的跳过无用的数据文件。

1.1 数据分区的规则

        分区键的取值,生成分区ID,分区根据ID决定。根据分区键的数据类型不同,分区ID的生成目前有四种规则:
(1)不指定分区键
(2)整形
(3)日期类型(主要根据日期进行分区)
(4)其他类型
数据在写入时,会对照分区ID落入对应的分区

1.2分区目录的生成规则

        partitionID_MinBlockNum_MaxBlockNum_Level
BlockNum是一个全局整型,从1开始,每当新创建一个分区目录,此数字就累加1。

MinBlockNum:最小数据块编号。
MaxBlockNum:最大数据块编号。

对于一个新的分区,MinBlockNum和MaxBlockNum的值相同: 2020_03_1_1_0,2020_03_2_2_0
*Level:合并的层级,即某个分区被合并过得次数。不是全局的,而是针对某一个分区。

1.3分区目录的合并过程

MergeTree的分区目录在数据写入过程中被创建。
不同的批次写入数据属于同一分区,也会生成不同的目录,在之后的某个时刻再合并(写入后的10-15分钟),合并后的旧分区目录默认8分钟后删除。
同一个分区的多个目录合并以后的命名规则:
。MinBlockNum:取同一分区中MinBlockNum值最小的
。MaxBlockNum:取同一分区中MaxBlockNum值最大的
·Level:取同一分区最大的Level值加1

二、索引文件

2.1 稀疏索引

        primary.idx文件的一级索引采用稀疏索引。
        稠密索引: 每一行索引标记对应一行具体的数据记录。

        稀疏索引:每一行索引标记对应一段数据记录(默认索引粒度为8192)。

 稀疏索引占用空间小,所以primary.idx内的索引数据常驻内存,取用速度快!

2.2 一级索引

文件:primary.idx
MergeTree的主键使用Primary Key定义,主键定义之后,MergeTree会根据index granularity间隔(默认8192)为数据生成一级索引并保存至primaryidx文件中。这种方式是稀疏索引

        **简化形式:通过order by指代主键**

2.3索引生成规则

三、 索引如何执行查询操作

索引的查询过程
索引是如何工作的?对primaryidx文件的查询过程**MarkRange:一小段数据区间**按照index granularity的间隔粒度,将一段完整的数据划分成多个小的数据段,小的数据段就是MarkRangeMarkRange与索引编号对应
案例
共200行数据
indexgranularity大小为5
主键ID为Int,取值从0开始
根据索引生成规则,primary.idx文件内容为:

 执行过程

 

        

.bin 原始数据 .mark 索引映射 

 

 形成一个压缩块

 整体数据查询过程

 

 

.bin文件形成多个压缩块->.mark文件找到压缩块 ->索引块->解压->再找数据

 

数据写入过程

 

 

 查询过程

 

http://www.lryc.cn/news/115884.html

相关文章:

  • c语言每日一练(3)
  • java基础-Stream(流)、File(文件)和IO
  • el-table实现指定列合并
  • 38.利用matlab解 有约束无约束的参数估计对比(matlab程序)
  • 什么是React?React与VU的优缺点有哪些?
  • 区块链技术助力慈善,为您的善举赋予全新力量!
  • 模拟实现消息队列项目(系列4) -- 服务器模块(内存管理)
  • STM32 LoRa源码解读
  • 【BASH】回顾与知识点梳理(十)
  • 【网络】应用层——HTTPS协议
  • Windows新版文件资源管理器经常在后台弹出的临时解决方案
  • 软考高项(八)项目整合管理 ★重点集萃★
  • 基于python+django开发的学生信息管理系统
  • mysql的高级查询语句
  • 04-8_Qt 5.9 C++开发指南_QTableWidget的使用
  • 《golang设计模式》第二部分·结构型模式-01-适配器模式(Adapter)
  • 机器学习概述及其主要算法
  • 识jvm堆栈中一个数据类型是否为为引用类型,目前虚拟机实现中是如何做的?
  • Bug合集
  • linux下.run安装脚本制作
  • 面试热题(翻转k个链表)
  • 前端面试的性能优化部分(4)每天10个小知识点
  • el-checkbox修改选中和未选中的值
  • 完整版:TCP、UDP报文格式
  • 如何远程连接云服务器oracle数据库
  • “深入剖析JVM内部机制:探秘Java虚拟机的运行原理“
  • 尚品汇总结十:秒杀模块(面试专用)
  • 什么是设计模式?
  • Node.js |(三)Node.js API:path模块及Node.js 模块化 | 尚硅谷2023版Node.js零基础视频教程
  • Netty自定义编码解码器