当前位置: 首页 > article >正文

Linux操作系统故障应急场景及对应排查方法

001:系统CPU负载高并触发监控报警

005

查看系统CPU使用情况,,确认CPU数量,确认系统负载,确认CPU高对系统的影响

006

定位占用CPU资源最多的进程,根据进程判断是应用进程还是系统进程还是第三方工具进程。

014

查看系统主要日志:在messages日志中是否有关于软、硬件的报错信息。

005

通过监控或者系统查看CPU使用高的时间

011

确认其他资源信息情况,IO/内存/内核

002:系统内存使用率高并触发监控报警

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

查看系统内存使用情况

定位占用内存资源较多的进程

判断是否有僵尸进程

查看系统主要日志

003:使用率高并长时间持续

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

查看系统I/O使用情况

定位占用I/O资源较多的进程

查看系统主要日志

应急处置结束。

004:Agent心跳超时

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

判断主机通讯状况

主机网卡是否存在丢包现象

主机路由设置是否正确

网卡配置参数是否正确

系统日志是否有明显报错

005:主机路由表丢失

判断主机通讯状况

主机网卡是否存在丢包现象

主机路由设置是否正确

系统日志是否有明显报错

​​​​​​​006:通讯异常并报网卡故障

场景描述:主机通讯中断或有延迟、丢包现象,系统日志中有关于网卡的报错信息。

启动条件:系统日志中有网卡报错信息

现场保护:ifconfig、messages、dmesg日志

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

判断主机通讯状况

主机网卡是否存在丢包现象

系统日志是否有明显报错

网卡驱动是否正常加载

网卡配置信息是否正确

bond主备网卡切换

搜集系统信息

​​​​​​​007:与相关连业务系统通讯异常

现场保护:ifconfig、route、messages、dmesg

015

判断主机通讯状况

016

主机网卡是否存在丢包现象

014

系统日志是否有明显报错

019

网卡驱动是否正常加载

020

网卡配置信息是否正确

​​​​​​​008:群集系统服务异常

现场保护:使用sosreport命令收集系统信息。

022

查看双机状态及共享资源

014

系统日志是否有明显报错

result of stop operation for VIP on

024

尝试将集群服务切换到备机

025

如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。

026

如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务

027

收集系统信息

​​​​​​​009:群集双机发生切换

启动条件: 当群集双机发生切换期间,会造成服务中断,以及Server IP无响应,通常会触发集中监控报警。

现场保护:执行sosreport命令收集系统信息。

022

查看双机状态及共享资源

014

查看系统日志信息

024

如果群集切换后系统服务异常,则尝试将集群服务切换到指定节点

​​​​​​​009:群集双机切换失败

022

查看双机状态及共享资源

014

系统日志是否有明显报错

024

尝试将集群服务切换到指定节点

025

如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。

026

如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务

​​​​​​​010:主机挂起

现场保护:这种情况下,通常日志系统(syslog)已经不再记录信息,只能对主机执行重启操作;对于配置了kdump的主机,可以手工触发vmcore(echo c > /proc/sysrq-trigger)。

grep crashkernel /proc/cmdline

systemctl status kdump

/var/crash/127.0.0.1-yyyy-mm-dd-hh:mm:ss/vmcore

014

查看系统日志信息

002

手工重启主机

004

若手工重启主机失败,可强制重启主机。

014

主机启动后,检查系统日志是否有报错信息。

027

搜集系统信息

​​​​​​​011:主机自动重启

现场保护:收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。

使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

检查应用系统是否恢复

​​​​​​​012:主机宕机

使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

检查应用系统是否恢复

​​​​​​​013:主机宕机并自动重启失败

现场保护:查看主机硬件是否有报错信息;得到授权后之后启动主机,并在控制台观察启动过程中是否有报错信息;如果主机无法正常启动,则根据主机启动报错信息进行修复。待主机启动完毕后,使用root用户收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。

028

根据主机控制台信息,得到行员授权后尝试进入单用户模式进行修复

029

如果系统在单用户模式下无法修复,则需使用操作系统安装光盘引导进入救援模式进行修复。完成后重启主机

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

​​​​​​​014: swap交换分区使用率

现场保护:使用sosreport命令收集系统信息

使用top命令调整查看(使用热键f,根据方向键移动到SWAP行,选中按d, ESC退出编辑,即可查看)

定位占用swap资源较多的进程

判断是否有僵尸进程

查看系统主要日志

​​​​​​​015:NTP服务状态异常

检查NTP同步状态:ntpq -p 或者 chronyc sources -v

检查NTP服务状态:service ntpd status 或者systemctl status chronyd 检查是否设置开机自启动systemctl list-unit-files

检查NTP配置文件:cat /etc/ntp.conf 或者 cat /etc/chrony.conf

查看NTP的offset详细信息:ntptime或者chronyc tracking -v

查看系统主要日志

重启NTP服务:service ntpd restart 或者 systemctl restart chronyd

016:文件系统监控告警

现场保护:使用sosreport命令收集系统信息

012

检查文件系统状态:

#df -h

#df -ih

#mount

#cat /etc/fstab

014

查看系统主要日志

http://www.lryc.cn/news/2404622.html

相关文章:

  • 电镀机的阳极是什么材质?
  • vscode调试deepspeed的方法之一(无需调整脚本)
  • 神经网络-Day44
  • 创客匠人:如何通过精准定位实现创始人IP打造与知识变现
  • Codeforces Round 509 (Div. 2) C. Coffee Break
  • 榕壹云健身预约系统:多门店管理的数字化解决方案(ThinkPHP+MySQL+UniApp实现)
  • QUIC——UDP实现可靠性传输
  • 提高Python编程效率的工具推荐
  • React Native图片预加载:让你的应用图片预览像德芙一样丝滑
  • 快速上手shell脚本运行流程控制
  • 10.Linux进程信号
  • Python 函数全攻略:函数基础
  • 机器学习基础(四) 决策树
  • DDPM优化目标公式推导
  • CentOS 7如何编译安装升级gcc至7.5版本?
  • 为什么React列表项需要key?(React key)(稳定的唯一标识key有助于React虚拟DOM优化重绘大型列表)
  • Playwright自动化测试全栈指南:从基础到企业级实践(2025终极版)
  • 飞牛云一键设置动态域名+ipv6内网直通访问内网的ssh服务-家庭云计算专家
  • 虚实共生时代的情感重构:AI 恋爱陪伴的崛起、困局与明日图景
  • 嵌入式面试高频(5)!!!C++语言(嵌入式八股文,嵌入式面经)
  • C++动态规划-线性DP
  • Java高级 | 【实验七】Springboot 过滤器和拦截器
  • es地理信息索引的类型以及geo_point‌和geo_hash的关系
  • 深入理解 Spring IOC:从概念到实践
  • Vue解决开发环境 Ajax 跨域问题
  • 行为设计模式之Command (命令)
  • 若依添加添加监听容器配置(删除键,键过期)
  • NeRF 技术深度解析:原理、局限与前沿应用探索(AI+3D 产品经理笔记 S2E04)
  • ROS2,工作空间中新建了一个python脚本,需要之后作为节点运行。告诉我步骤?
  • 【AI智能体】Spring AI MCP 从使用到操作实战详解