开源列式分布式数据库clickhouse
这里写自定义目录标题
- 开源列式OLAP数据库clickhouse
- clickhouse
- 使用 ClickHouse 的场景
- 如何理解行式存储和列式存储
- clickhouse-go
开源列式OLAP数据库clickhouse
- OLAP (分析型):专为快速扫描、聚合、分析海量数据设计。
- OLTP (事务型):专为处理大量短事务(插入、更新、删除、点查)设计。
clickhouse
官网:https://clickhouse.com/
ClickHouse 是一个开源列式数据库管理系统,专为在线分析处理(OLAP)而设计。它能够快速执行高并发、高效的数据查询,适合用于处理大量数据。
ClickHouse 是由俄罗斯Yandex公司开源的,他是俄罗斯的一家互联网巨头公司,虽然在国际上没什么名气,但在俄罗斯,他就是老大,是俄罗斯排名第一的搜索引擎公司。是和谷歌、百度一样的存在。ClickHouse 诞生于 2016 年,就是来自于 Yandex 公司。
主要用于在线分析处理 (OLAP) 业务。它采用列式存储结构,可使用 SQL 语句实时生成数据分析报告,另外它还支持索引,分布式查询以及近似计算等特性,凭借其优异的表现,ClickHouse 在各大互联网公司均有广泛地应用。
它专为需要超快查询速度和海量数据(PB级)扫描的实时分析场景而设计,尤其擅长大规模数据集的聚合查询。
ClickHouse 的主要特性包括:
- 高性能:支持实时数据查询和分析,通过列式存储结构优化查询速度。查询速度快,支持并发分析场景。插入写入高吞吐,但更新和删除操作代价高
ClickHouse 写入吞吐量大
单服务器日志写入量在 50MB 到 200MB/s,每秒写入超过 60w 记录数,是 Elasticsearch 的 5 倍以上。 - 高度可扩展:能处理 PB 级的数据,适合大规模应用。
- SQL 支持:兼容 SQL 查询语言,方便以 SQL 为基础的数据操作。
- 容错性:内置的数据冗余和快照支持,可保证数据的安全性。
不适合的场景包括:
- 核心业务系统主库
- 高频 update/delete 的场景
- 强一致性需求业务
使用 ClickHouse 的场景
- 实时数据分析:可以用于流量分析、用户行为跟踪等需要实时响应的场景。
- 大数据仓库:处理海量数据,比如日志数据、传感器数据等,进行长期存储和分析。
- 业务智能:通过 OLAP 查询,为企业提供决策支持的数据分析和报表。
- 数据集成:与 ETL(抽取、转换、加载)流程结合,作为分析的数据存储后端。
如何理解行式存储和列式存储
数据库存储方式主要分为两种:行式存储(Row-based Storage)和列式存储(Column-based Storage)。
行式存储 (Row-based Storage)
存储方式:
数据按行存储,一行的所有字段连续存放在一起
例如:
[ID1, Name1, Age1, City1]
[ID2, Name2, Age2, City2]
[ID3, Name3, Age3, City3]
传统的 MySQL 数据库的每一行数据都是物理的存储在一起的。如果我要取 id 等于 10000 这一条数据的 name 列,那我就必须要把这一行数据读取出来,然后取 name 列。
在众多的数据中,我只取一列,但我需要把每条数据都读取出来。
列式存储 (Column-based Storage)
存储方式:
数据按列存储,同一列的所有值连续存放
例如:
[ID1, ID2, ID3]
[Name1, Name2, Name3]
[Age1, Age2, Age3]
[City1, City2, City3]
由于 name 列的数据都存储在一起,因此效率大大的超过了传统的数据库。
clickhouse-go
github:https://github.com/ClickHouse/clickhouse-go
clickhouse-go
是 Go 语言的 ClickHouse 驱动程序,允许开发者使用 Go 进行数据操作。
clickhouse-go
为 Go 开发者提供了便捷的方式来与 ClickHouse 进行交互。