当前位置: 首页 > news >正文

GaussDB运维管理工具(二)

GaussDB运维管理工具(二)

  • 集群管理组件
  • cm_ctl工具介绍
  • cm_ctl工具使用
    • 查询集群状态
    • 启停集群
    • 主备切换
    • 重建备DN
    • 检测进程运行
    • 查看实例配置文件
    • 手动剔除故障CN
    • CM参数获取和配置
    • 停止仲裁

Cluster Manager(缩写为CM)是GaussDB的集群管理工具,支持自定义资源监控、节点和实例的启停、实例状态查询、主备切换、日志管理等丰富的数据库管理能力。

集群管理组件

CM包含以下组件:

  • OMM:对应的二进制文件为om_monitor。管理服务组件,由crontab定时任务控制拉起(周期为1min)。OMM组件主要负责OMM、etcd、cm_agent进程的保活和启停。
  • etcd:对应的二进制文件为etcd。管理服务组件,由OMM组件拉起(周期为1s)。etcd是集群高可用的顶层组件,负责协助CMS选主、持久化集群仲裁信息。etcd组件故障会导致CMS无主,进而导致无法查看集群状态、无法进行高可用切换。
  • CM Agent:对应的二进制文件为cm_agent。管理服务组件,由OMM组件拉起(周期为1s)。CMA主要负责CMS、DN进程的保活和启停,仲裁指标采集、仲裁命令执行等。CMS组件故障会导致以下影响:
    • CMS、DN进程和保活能力丢失;
    • 节点脱管,实例级故障检测能力丢失,被管理实例状态未知。
  • CM Server:对应的二进制文件为cm_server。管理服务组件,由CMA组件拉起(周期为1s)。CMS是集群的仲裁中心,依赖etcd(或启用DCC)实现自助选主。CMS组件故障会导致以下影响:
    • 集群状态无法查看;
    • 整个集群的高可用切换能力丢失(DCF自仲裁模式除外);
    • 容灾barrier无法推进;
    • DCC模式下,无法持久化集群信息。
  • DN:对应的二进制文件为gaussdb。数据服务组件,由CMA组件拉起(周期为1s)。DN组件故障会产生以下影响:
    • 单异步备故障:集群无影响;
    • 单同步备故障:数据服务卡顿,卡顿时间取决于异步备到同步的日志量;
    • 主故障:数据服务不可用;
    • 多数派故障:数据服务卡顿直至恢复多数派或者降副本。

组件相关的日志路径如下:

$GAUSSLOG/cm/cm_ctl/cm_ctl*.log
$GAUSSLOG/cm/cm_agent/*.log
$GAUSSLOG/cm/cm_server/*.log
$GAUSSLOG/cm/om_monitor/*.log

cm_ctl工具介绍

cm_ctl是GaussDB提供的数据库实例管理工具,主要供OM调用,以及数据库实例自恢复时使用。cm_ctl支持以下功能:

  • 启动数据库实例、AZ所有实例、单个主机上的所有实例,或者单独启动某个实例进程。
  • 停止数据库实例、AZ所有实例、单个主机上的所有实例,或者单独停止某个实例进程。
  • 重启逻辑数据库实例服务。
  • 查询数据库实例状态、或者整个主机状态。
  • 切换主备实例、或重置实例状态。
  • 重建备机。
  • 查看数据库实例配置文件。
  • 查看日志级别、一主多备实例部署下cm_server的仲裁模式、AZ之间的切换模式。
  • 设置日志级别、一主多备实例部署下cm_server的仲裁模式、AZ之间的切换模式。
  • 检测实例的进程状态。

cm_ctl工具使用

查询集群状态

查询集群状态:

[omm@gaussdb001 ~]$ cm_ctl query -Cvipd -z ALL[  CMServer State   ]node                node_ip         instance                                  state
-------------------------------------------------------------------------------------
AZ1 1  22.68.73.130 22.68.73.130    1    /gauss/app/cluster/data/cm/cm_server Primary
AZ2 2  22.68.73.132 22.68.73.132    2    /gauss/app/cluster/data/cm/cm_server Standby
AZ3 3  22.68.73.128 22.68.73.128    3    /gauss/app/cluster/data/cm/cm_server Standby[    ETCD State     ]node                node_ip         instance                          state
-----------------------------------------------------------------------------------
AZ1 1  22.68.73.130 22.68.73.130    7001 /gauss/app/cluster/data/etcd StateFollower
AZ2 2  22.68.73.132 22.68.73.132    7002 /gauss/app/cluster/data/etcd StateFollower
AZ3 3  22.68.73.128 22.68.73.128    7003 /gauss/app/cluster/data/etcd StateLeader[   Cluster State   ]cluster_state   : Normal
redistributing  : No
balanced        : Yes
current_az      : AZ_ALL[  Datanode State   ]node                node_ip         instance                       state            | node                node_ip         instance                       state            | node                node_ip         instance                       state
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
AZ1 1  22.68.73.130 22.68.73.130    6001 5432   /gsdata/dn/dn_6001 P Primary Normal | AZ2 2  22.68.73.132 22.68.73.132    6002 5432   /gsdata/dn/dn_6002 S Standby Normal | AZ3 3  22.68.73.128 22.68.73.128    6003 5432   /gsdata/dn/dn_6003 S Standby Normal

数据库实例状态有以下三种状态:

  • Noraml:实例可用,且数据有冗余备份,所有进程都在运行,主备关系正常。
  • Degraded:数据库实例可用,但是数据没有冗余备份。
  • Unavailable:数据库实例不可用。

查询备机REDO状态:

[omm@gaussdb001 ~]$ cm_ctl query -rv
-----------------------------------------------------------------------cluster_state             : Normal
redistributing            : No
balanced                  : Yes-----------------------------------------------------------------------node                           : 2
instance_id                    : 6002
node_ip                        : 22.68.73.132
data_path                      : /gsdata/dn/dn_6002
type                           : Datanode
instance_state                 : Standby
is_by_query                    : 1
primary_flush_location         : 00000000/0FC2D8C0
standby_received_location      : 00000000/0FC2D8C0
standby_replay_location        : 00000000/0FC2D8C0
static_connections             : 2
HA_state                       : Normal
reason                         : Normal
redo_start_location            : 00000000/070000C8
min_recovery_location          : 00000000/0FC2CEA0
read_location                  : 00000000/0FC2D820
last_replayed_end_location     : 00000000/0FC2D8C0
recovery_done_location         : 00000000/07000028
local_max_lsn                  : 00000000/0FC2D8C0
read_xlog_io_counter           : 37255
read_xlog_io_total_dur         : 493503
read_data_io_counter           : 180
read_data_io_total_dur         : 6548
write_data_io_counter          : 0
write_data_io_total_dur        : 0
process_pending_counter        : 973393
process_pending_total_dur      : 1318236
apply_counter                  : 728094
apply_total_dur                : 1803547
speed(est.)                    : 0 KB/s
delay(est.)                    : 0 s
senderPercent                  : 0%
receiverPercent                : 100%
worker_info                    : 
id  q_use   q_max_use  rec_cnt              
0   0       926        155459               
1   0       644        166582               
2   0       1174       392423               
3   0       201        258929               ...

其中各参数的含义如下:

参数名参数说明
is_by_query是否通过SQL查询
primary_flush_location主机下刷日志的位置
standby_received_location备机收到日志的位置
standby_replay_location备机回放日志的位置
static_connections连接统计
redo_start_location回放开始的位置
min_recovery_location最小恢复点位置
read_location当前回放读取日志的位置
last_replayed_end_location上一次回放到的位置
recovery_done_location回放结束的位置
local_max_lsn本地最大日志位置
read_xlog_io_counter读日志的次数
read_xlog_io_total_dur读日志的总耗时
read_data_io_counter读数据的次数
read_data_io_total_dur读数据的总耗时
write_data_io_counter写数据的次数
write_data_io_total_dur写数据的总耗时
process_pending_counter回放主线程日志分发的次数
process_pending_total_dur回放主线程日志分发的总耗时
apply_counter日志回放同步的次数
apply_total_dur日志回放同步的总耗时
worker_info回放线程的信息
id回放线程序号
q_use回放线程队列的使用量
q_max_use回放线程队列的最大容量
rec_cnt回放线程处理日志的总个数

启停集群

启动集群:

cm_ctl start               # 启动整个集群
cm_ctl start -z AZ1        # 启动指定的AZ(查询AZ名: cm_ctl query -Cvz ALL)
cm_ctl start -n 1          # 启动指定的节点(查询节点编号: cm_ctl query -Cv)
cm_ctl start -n 1 -D /gsdata/dn/dn_6002    # 启动指定实例(查询实例数据目录: cm_ctl query -Cvd)
cm_ctl start --server      # 以DCC模式单独启动CM Server

停止集群:

cm_ctl stop               # 停止整个集群
cm_ctl stop -z AZ1        # 停止指定的AZ(查询AZ名: cm_ctl query -Cvz ALL)
cm_ctl stop -n 1          # 停止指定的节点(查询节点编号: cm_ctl query -Cv)
cm_ctl stop -n 1 -D /gsdata/dn/dn_6002    # 停止指定实例(查询实例数据目录: cm_ctl query -Cvd)
cm_ctl stop -m i          # 强制停止集群
cm_ctl stop --server      # 停止独立启动的CM Server

重启集群流程示例:

[omm@gaussdb001 ~]$ cm_ctl stop
cm_ctl: stop cluster. 
cm_ctl: stop nodeid: 1
cm_ctl: stop nodeid: 2
cm_ctl: stop nodeid: 3
.............
cm_ctl: stop cluster successfully.
cm_ctl: stopping the ETCD cluster.
.
cm_ctl: The ETCD cluster stops successfully.[omm@gaussdb001 ~]$ cm_ctl query -Cv
[  CMServer State   ]node            instance state
--------------------------------
1  22.68.73.130 1        Down
2  22.68.73.132 2        Down
3  22.68.73.128 3        Down[    ETCD State     ]node            instance state
--------------------------------------
1  22.68.73.130 7001     Down
2  22.68.73.132 7002     Down
3  22.68.73.128 7003     Downcm_ctl: can't connect to cm_server.
Maybe cm_server is not running, or timeout expired. Please try again.[omm@gaussdb001 ~]$ cm_ctl start
cm_ctl: starting the ETCD cluster.
.
cm_ctl: the ETCD cluster starts successfully.
cm_ctl: checking cluster status.
cm_ctl: checking cluster status.
cm_ctl: checking finished in 1437 ms.
cm_ctl: start cluster. 
cm_ctl: start nodeid: 1
cm_ctl: start nodeid: 2
cm_ctl: start nodeid: 3
.............
cm_ctl: start cluster successfully.

主备切换

主备switchover为数据库维护操作,请在集群状态正常、所有业务结束、且主备没有日志延迟时才能进行。

⭐️ 通过 pgxc_get_senders_catchup_time()视图可查询主备有无日志追赶。

-- 经测试在某些版本中这个视图/函数已经不存在了gaussdb=# select pgxc_get_senders_catchup_time();
ERROR:  function pgxc_get_senders_catchup_time() does not exist
LINE 1: select pgxc_get_senders_catchup_time();^
HINT:  No function matches the given name and argument types. You might need to add explicit type casts.
CONTEXT:  referenced column: pgxc_get_senders_catchup_timegaussdb=# \d pgxc_get_senders_catchup_time
Did not find any relation named "pgxc_get_senders_catchup_time".gaussdb=# \sf pgxc_get_senders_catchup_time
ERROR:  function "pgxc_get_senders_catchup_time" does not exist

主备切换命令:

cm_ctl switchover -z AZ1     # 将所有的GTM和DN主实例切换到指定的AZ
cm_ctl switchover -n 1 -D /gsdata/dn/dn_6001      # 将指定节点的实例切换为主实例cm_ctl switchover -A         # 将所有DN实例统一从主切换到备,并选择相应分片的其他实例升主
cm_ctl switchover -a         # 重置集群主备关系为初始配置状态cm_ctl switchover -n 1 -D /gauss/app/cluster/data/cm/cm_server   # DCC模式下指定CM Server主备切换

重建备DN

非强制build目标需要处于Down状态,或是处于NeedRepair状态的备机、级联备机,且reason不为Disconnected或者Connecting。

重建命令:

cm_ctl build -n 2 -D /gsdata/dn/dn_6002  # 重建指定节点的备DN
cm_ctl build -c                          #  重建CM Server

检测进程运行

检测命令:

cm_ctl check -B gaussdb -T /gsdata/dn/dn_6001                      # 检测gaussdb进程运行状态
cm_ctl check -B cm_agent -T /gauss/app/cluster/data/cm/cm_agent    # 检测cm_agent进程运行状态
cm_ctl check -B cm_server -T /gauss/app/cluster/data/cm/cm_server  # 检测cm_server进程运行状态

查看实例配置文件

查看配置文件信息:

cm_ctl view       # 查看集群配置文件
cm_ctl view -n 1  # 查看指定节点的配置文件

手动剔除故障CN

手动剔出指定CN节点:

cm_ctl disable -n 1 -D /gsdata/dn/dn_6001

CM参数获取和配置

⭐️ CMS和CMA的参数可通过以下文件查看:

  • /gauss/app/cluster/data/cm/cm_server/cm_server.conf
  • /gauss/app/cluster/data/cm/cm_agent/cm_agent.conf

设置CM Server参数:

cm_ctl set --log_level=DEBUG5              # 设置主CM Server日志级别为DEBUG5
cm_ctl set --cm_arbitration_mode=MAJORITY  # 设置CM Server仲裁模式为多数派模式
cm_ctl set --cm_switchover_az_mode=AUTO    # 设置AZ之间的自动切换开关为自动切换模式
cm_ctl set --cmsPromoteMode=AUTO -I 1      # 设置CMS升主方式为自选主方式

获取CM Server参数:

cm_ctl get --log_level                     # 获取主CM Server日志级别
cm_ctl get --cm_arbitration_mode           # 获取CM Server仲裁模式
cm_ctl get --cm_switchover_az_mode         # 获取AZ之间的自动切换开关

设置CM参数:

# 格式
cm_ctl set --param --agent -k "parameter=value"    # 设置CMA参数
cm_ctl set --param --server -k "parameter=value"   # 设置CMS参数# 示例
cm_ctl set --param --agent -k "incremental_build=on"
cm_ctl set --param --server -k "switch_rto=600"

动态加载CM参数:

cm_ctl reload --param --agent   # 动态加载CMA参数
cm_ctl reload --param --server  # 动态加载CMS参数

列出所有CM参数:

cm_ctl list --param --agent   # 列出所有CMA参数
cm_ctl list --param --server  # 列出所有CMS参数

停止仲裁

管理仲裁命令:

cm_ctl disablecm --all                              # 一键禁用所有启停仲裁
cm_ctl disablecm --start                            # 禁用全部实例启动
cm_ctl disablecm --arbitrate="DN_ARBITRATE"         # 禁用DN仲裁cm_ctl enablecm --all                               # 一键启用所有启停仲裁
cm_ctl enablecm --start -n 1 -D /gsdata/dn/dn_6001  # 启用单个实例启动
cm_ctl enablecm --arbitrate                         # 启用全部仲裁
http://www.lryc.cn/news/507890.html

相关文章:

  • 【HarmonyOS之旅】HarmonyOS开发基础知识(一)
  • Mysql数据究竟是如何存储的
  • STM32单片机使用CAN协议进行通信
  • Docker 入门:如何使用 Docker 容器化 AI 项目(二)
  • MVVM、MVC、MVP 的区别
  • 【Verilog】期末复习
  • C#都可以找哪些工作?
  • 机器学习Python使用scikit-learn工具包详细介绍
  • 蓝桥杯真题 - 扫雷 - 题解
  • vue3项目结合Echarts实现甘特图(可拖拽、选中等操作)
  • Log4j2 插件的简单使用
  • Linux之RPM和YUM命令
  • 读取硬件板子上的数据
  • Cesium 实例化潜入潜出
  • java引入jedis并且关于开放redis端口问题
  • 【人工智能】用Python实现情感分析:从简单词典到深度学习方法的演进
  • 关系型数据库的完整性和一致性
  • 设计模式の命令访问者迭代器模式
  • 信息系统项目管理 -冲突管理
  • Gmsh有限元网格剖分(Python)---点、直线、平面的移动
  • 山景BP1048增加AT指令,实现单片机串口控制播放音乐(一)
  • SMMU软件指南SMMU编程之全局错误和最小配置
  • CPU条件下Pytorch、jupyter环境配置
  • 【自用】通信内网部署rzgxxt项目_01,后端pipeDemo部署(使用nssm.exe仿照nohup)
  • Ubuntu 安装实时内核指南
  • MySQL 主从复制与高可用
  • RCE总结
  • 基于UNITY3D的照片墙演示项目技术分享
  • 随手记:小程序兼容后台的wangEditor富文本配置链接
  • maven项目运行时NoSuchMethodError问题排查记录(依赖冲突解决)