当前位置: 首页 > news >正文

开源列式分布式数据库clickhouse

这里写自定义目录标题

  • 开源列式OLAP数据库clickhouse
    • clickhouse
      • 使用 ClickHouse 的场景
    • 如何理解行式存储和列式存储
    • clickhouse-go

开源列式OLAP数据库clickhouse

  • OLAP (分析型):专为快速扫描、聚合、分析海量数据设计。
  • OLTP (事务型):专为处理大量短事务(插入、更新、删除、点查)设计。

clickhouse

官网:https://clickhouse.com/
ClickHouse 是一个开源列式数据库管理系统,专为在线分析处理(OLAP)而设计。它能够快速执行高并发、高效的数据查询,适合用于处理大量数据。

ClickHouse 是由俄罗斯Yandex公司开源的,他是俄罗斯的一家互联网巨头公司,虽然在国际上没什么名气,但在俄罗斯,他就是老大,是俄罗斯排名第一的搜索引擎公司。是和谷歌、百度一样的存在。ClickHouse 诞生于 2016 年,就是来自于 Yandex 公司。

主要用于在线分析处理 (OLAP) 业务。它采用列式存储结构,可使用 SQL 语句实时生成数据分析报告,另外它还支持索引,分布式查询以及近似计算等特性,凭借其优异的表现,ClickHouse 在各大互联网公司均有广泛地应用。

它专为需要超快查询速度和海量数据(PB级)扫描的实时分析场景而设计,尤其擅长大规模数据集的聚合查询。

ClickHouse 的主要特性包括:

  • 高性能:支持实时数据查询和分析,通过列式存储结构优化查询速度。查询速度快,支持并发分析场景。插入写入高吞吐,但更新和删除操作代价高
    ClickHouse 写入吞吐量大
    单服务器日志写入量在 50MB 到 200MB/s,每秒写入超过 60w 记录数,是 Elasticsearch 的 5 倍以上。
  • 高度可扩展:能处理 PB 级的数据,适合大规模应用。
  • SQL 支持:兼容 SQL 查询语言,方便以 SQL 为基础的数据操作。
  • 容错性:内置的数据冗余和快照支持,可保证数据的安全性。

不适合的场景包括:

  • 核心业务系统主库
  • 高频 update/delete 的场景
  • 强一致性需求业务

使用 ClickHouse 的场景

  1. 实时数据分析:可以用于流量分析、用户行为跟踪等需要实时响应的场景。
  2. 大数据仓库:处理海量数据,比如日志数据、传感器数据等,进行长期存储和分析。
  3. 业务智能:通过 OLAP 查询,为企业提供决策支持的数据分析和报表。
  4. 数据集成:与 ETL(抽取、转换、加载)流程结合,作为分析的数据存储后端。

如何理解行式存储和列式存储

数据库存储方式主要分为两种:行式存储(Row-based Storage)和列式存储(Column-based Storage)。
行式存储 (Row-based Storage)
存储方式:
数据按行存储,一行的所有字段连续存放在一起
例如:
[ID1, Name1, Age1, City1]
[ID2, Name2, Age2, City2]
[ID3, Name3, Age3, City3]

传统的 MySQL 数据库的每一行数据都是物理的存储在一起的。如果我要取 id 等于 10000 这一条数据的 name 列,那我就必须要把这一行数据读取出来,然后取 name 列。
在众多的数据中,我只取一列,但我需要把每条数据都读取出来。

列式存储 (Column-based Storage)
存储方式:
数据按列存储,同一列的所有值连续存放
例如:
[ID1, ID2, ID3]
[Name1, Name2, Name3]
[Age1, Age2, Age3]
[City1, City2, City3]

由于 name 列的数据都存储在一起,因此效率大大的超过了传统的数据库。

clickhouse-go

github:https://github.com/ClickHouse/clickhouse-go

clickhouse-go 是 Go 语言的 ClickHouse 驱动程序,允许开发者使用 Go 进行数据操作。
clickhouse-go 为 Go 开发者提供了便捷的方式来与 ClickHouse 进行交互。

http://www.lryc.cn/news/608054.html

相关文章:

  • pyqt5显示任务栏菜单并隐藏主窗口,环境pyqt5+vscode
  • CS课程项目设计7:基于Canvas交互友好的五子棋游戏
  • 从AI智能体出发,重构数据中台:迈向Agentic时代的数据能力体系
  • Docker容器中文PDF生成解决方案
  • Oracle 11gR2 Clusterware应知应会
  • 分布式事务----spring操作多个数据库,事务以及事务回滚还有用吗
  • Oracle 11g RAC集群部署手册(二)
  • Token系列 - 再谈稳定币
  • mac 安装pytho3 和pipx
  • 讲一讲Spring核心三大组件IOC、Bean、AOP
  • 我的世界模组开发教程——物品item(1)
  • Vuex 4.0:Vue.js 应用的状态管理新篇章
  • 深度学习核心:神经网络-激活函数 - 原理、实现及在医学影像领域的应用
  • K8S部署ELK(一):部署Filebeat日志收集器
  • SCI 绘图实用 RGB 配色方案:多组比较
  • [Windows] 微软.Net运行库离线合集包 Microsoft .Net Packages AIO v13.05.25
  • Vue3+ts自定义指令
  • 从毫秒到真义:构建工业级RAG系统的向量检索优化指南
  • 入门MicroPython+ESP32:ESP32烧录MicroPython固件
  • Python进阶(5):类与继承
  • Unity_数据持久化_XML存储相关
  • 探索:Uniapp 安卓热更新
  • 智能合约漏洞导致的损失,法律责任应如何分配
  • 医疗后台管理系统开发实践
  • 分类任务当中常见指标 F1分数、recall、准确率分别是什么含义
  • 通过解决docker network connect实现同一个宿主机不同网络的容器间通信
  • 【stm32】点灯及蜂鸣器
  • 深度学习·mmsegmentation基础教程
  • 前端开发(HTML,CSS,VUE,JS)从入门到精通!第三天(JavaScript)
  • ospf作业