当前位置: 首页 > news >正文

大数据之LibrA数据库系统告警处理(ALM-12006 节点故障)

告警解释

Controller按30秒周期检测NodeAgent状态。当Controller连续三次未接收到某个NodeAgent的状态报告时,产生该告警。

当Controller可以正常接收时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

12006

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

节点业务无法提供。

可能原因

网络断连、硬件故障或操作系统执行命令缓慢。

处理步骤

检查网络是否断连、硬件是否故障或者操作系统执行名称缓慢。

  1. 打开FusionInsight Manager页面,在告警列表中,优先处理在主机管理界面,健康状态为故障的节点故障告警。
  2. 在告警详情中,查看该告警的主机地址。
  3. 使用PuTTY工具,以root用户登录主管理节点。
  4. 执行ping 故障主机IP地址命令检查故障节点是否可达。

    • 是,执行步骤 13。
    • 否,执行步骤 5。

  5. 联系网络管理员查看是否为网络故障。

    • 是,执行步骤 6。
    • 否,执行步骤 7。

  6. 修复网络故障,查看告警列表中,该告警是否已清除。

    • 是,处理完毕。
    • 否,执行步骤 7。

  7. 联系系统管理员查看是否节点硬件故障(CPU或者内存等)。

    • 是,执行步骤 8。
    • 否,执行步骤 13。

  8. 维修或者更换故障部件,并重启节点。查看告警列表中,该告警是否已清除。

    说明:如果节点硬件故障,请参考产品文档中《故障管理》的“应急处理 > 常见紧急故障修复 > 更换故障节点”章节进行处理。

    • 是,处理完毕。
    • 否,执行步骤 9。

  9. 当集群中上报大量的节点故障时,可能是浮动ip资源异常导致controller无法检测agent心跳。

    登录任意故障节点,查看“/var/log/Bigdata/omm/oms/ha/scriptlog/floatip.log”,查看故障出现前后1-2分钟的日志是否完整。

    完整日志为如下格式:

     

    是,执行步骤 13。

    否,执行步骤 10。

  10. 查看检测完wsNetExport后是否打印omNetExport 的检测日志或两条日志打印间隔时间超过10s或更长。

    是,执行步骤 11。

    否,执行步骤 13。

  11. 查看操作系统的“/var/log/message”,查看故障出现时间段是否有sssd频繁重启或者nscd异常信息(Redhat操作系统确认sssd信息,SUSE操作系统确认nscd信息)。

    sssd重启样例

    Feb  7 11:38:16 10-132-190-105 sssd[pam]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[be[default]]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[be[default]]: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[pam]: Starting up

    nscd异常信息样例

    Feb 11 11:44:42 10-120-205-33 nscd: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
    Feb 11 11:44:43 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
    Feb 11 11:44:44 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.92:21780: Can't contact LDAP server

    是,执行步骤 12。

    否,执行步骤 13。

  12. 排查ldapserver节点是否故障,例如业务IP不可达、网络延时过长等;若故障为阶段性,则需在故障时排查,并尝试执行top命令查看是否存在异常软件。

收集故障信息。

  1. 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选如下节点信息,单击“确定”。

    • NodeAgent
    • Controller
    • OS

  3. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
http://www.lryc.cn/news/214607.html

相关文章:

  • poi兴趣点推荐数据集介绍
  • 把两个4点的结构相加
  • windows内存取证-中等难度-下篇
  • 代码随想录算法训练营第7天|454 四数相加II 383. 赎金信 15.三数之和 18 四数之和
  • 负载均衡深度解析:算法、策略与Nginx实践
  • 7. 一文快速学懂常用工具——Makefile
  • [ACTF2023]复现
  • HNU-编译原理-讨论课1
  • 【Linux】关于Nginx的详细使用,部署项目
  • 编写 navigation2 控制器插件
  • 计算机网络 第六章应用层
  • 人工智能领域CCF推荐国际学术刊物最新目录(全)
  • 实现基于 Azure DevOps 的数据库 CI/CD 最佳实践
  • 上海实习小记
  • uniapp实现路线规划
  • 飞利浦双串口51单片机485网关
  • 生态扩展:Flink Doris Connector
  • HarmonyOS(二)—— 初识ArkTS开发语言(上)之TypeScript入门
  • 从零开始实现神经网络(一)_NN神经网络
  • C语言 每日一题 Day10
  • C++继承——矩形和长方体
  • 代码随想录打卡第五十八天|● 583. 两个字符串的删除操作 ● 72. 编辑距离
  • 面试流程之——程序员如何写项目经验
  • 框架安全-CVE 漏洞复现DjangoFlaskNode.jsJQuery框架漏洞复现
  • 基于SSM的理发店管理系统
  • 2.Spark的工作与架构原理
  • qt-C++笔记之带有倒计数显示的按钮,计时期间按钮锁定
  • HTML全局属性(global attribute)有哪些?
  • MyBatis-Plus返回getOne返回null疑惑
  • Physics2DPlugin3加载后会跳转gsap官网解决