当前位置: 首页 > news >正文

详解 ClickHouse 的副本机制

一、简介

副本功能只支持 MergeTree Family 的表引擎,参考文档:https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/replication/

ClickHouse 副本的目的主要是保障数据的高可用性,即使一台 ClickHouse 节点宕机,那么也可以从其他服务器获得相同的数据。

二、原理

主要依赖 Zookeeper 来进行多个 ClickHouse 节点间数据的同步,各节点间没有主从关系

在这里插入图片描述

三、配置

以 3 台虚拟机节点集群为例

  • 在集群的一台节点 hadoop102 上修改配置文件

    #1. 使用外部文件进行配置
    su root
    cd /etc/clickhouse-server/config.d
    vim metrika.xml#添加zookeeper信息
    <?xml version="1.0"?>
    <yandex><zookeeper-servers><node index="1"><host>hadoop102</host><port>2181</port></node><node index="2"><host>hadoop103</host><port>2181</port></node><node index="3"><host>hadoop104</host><port>2181</port></node></zookeeper-servers>
    </yandex>#修改metrika.xml文件的所属用户及组
    chown clickhouse:clickhouse metrika.xmlcd /etc/clickhouse-server
    vim config.xml#查找zookeeper位置,添加配置
    <zookeeper incl="zookeeper-servers" optional="true" />
    <include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>#2. 直接在 config.xml 中进行配置
    su root
    cd /etc/clickhouse-server
    vim config.xml#查找zookeeper位置,去掉<zookeeper></zookeeper>的注释并修改
    <zookeeper><node><host>hadoop102</host><port>2181</port></node><node><host>hadoop103</host><port>2181</port></node><node><host>hadoop104</host><port>2181</port></node>
    </zookeeper>
    
  • 同步配置文件到其他节点

    /etc/clickhouse-server/config.d/metrika.xml
    /etc/clickhouse-server/config.xml
    
  • 启动 zookeeper 集群服务

  • 分别在 clickhouse 对应的节点启动服务

    sudo clickhouse start
    

四、使用

  • 在集群一台节点 hadoop102 上进入 clickhouse 客户端并创建表

    create table t_order_rep2 
    (id UInt32,sku_id String,total_amount Decimal(16,2),create_time Datetime
    ) 
    engine=ReplicatedMergeTree('/clickhouse/table/01/t_order_rep','rep_102')
    partition by toYYYYMMDD(create_time)
    primary key (id)
    order by (id,sku_id);--ReplicatedMergeTree中的参数说明:
    --1. '/clickhouse/table/01/t_order_rep':指定表的分片在 zookeeper 中的地址,一般按照 /clickhouse/table/{shard}/{table_name} 的格式,只有一个分片就写 01--2. 'rep_102':指定副本名称,相同的分片副本名称不能相同
    
  • 在集群另一台节点 hadoop103 上进入 clickhouse 客户端并创建表

    create table t_order_rep2 
    (id UInt32,sku_id String,total_amount Decimal(16,2),create_time Datetime
    ) 
    engine=ReplicatedMergeTree('/clickhouse/table/01/t_order_rep','rep_103')
    partition by toYYYYMMDD(create_time)
    primary key (id)
    order by (id,sku_id);
    
  • 在 hadoop102 上向表中插入数据

    insert into t_order_rep2 values
    (101,'sku_001',1000.00,'2020-06-01 12:00:00'),
    (102,'sku_002',2000.00,'2020-06-01 12:00:00'),
    (103,'sku_004',2500.00,'2020-06-01 12:00:00'),
    (104,'sku_002',2000.00,'2020-06-01 12:00:00'),
    (105,'sku_003',600.00,'2020-06-02 12:00:00');
    
  • 在 hadoop103 上查询表中数据,能正确返回则表示副本配置成功

    select * from t_order_rep2;
    
http://www.lryc.cn/news/379291.html

相关文章:

  • 速卖通测评成本低见效快,自养号测评的实操指南,快速积累销量和好评
  • php反序列化漏洞简介
  • 力扣随机一题 模拟+字符串
  • java-正则表达式 1
  • Python xlrd库:读excel表格
  • 开发中遇到的一个bug
  • Java面试题:对比不同的垃圾收集器(如Serial、Parallel、CMS、G1)及其适用场景
  • 每日一题——冒泡排序
  • javascript浏览器对象模型
  • C语言之链表以及单链表的实现
  • AI在线免费视频工具2:视频配声音;图片说话hedra
  • Elastic字段映射(_source,doc_value,fileddata,index,store)
  • kotlin空类型安全 !! ?. ?:
  • 通过 WireGuard 组建虚拟局域网 实现多个局域网全互联
  • qmt量化交易策略小白学习笔记第47期【qmt编程之期货仓单】
  • 点云处理中阶 Sampling
  • 为什么print语句被Python3遗弃?
  • 067、Python 高阶函数的编写:优质冒泡排序
  • 【Python】从基础到进阶(一):了解Python语言基础以及变量的相关知识
  • AI学习指南机器学习篇-KNN的优缺点
  • 全网最全!25届最近5年上海理工大学自动化考研院校分析
  • LANG、LC_MESSAGES和LC_ALL
  • 生成式AI和LLM的一些基本概念和名词解释
  • python项目(课设)——飞机大战小游戏项目源码(pygame)
  • Chatgpt教我打游戏攻略
  • 最全信息收集工具集
  • redis类型解析汇总
  • Unity3d自定义TCP消息替代UNet实现网络连接
  • git fetch 和 git pull区别
  • 冲击2024年CSDN博客之星TOP1:CSDN文章质量分查询在哪里?