当前位置: 首页 > article >正文

Linux 系统异常触发后自动重启配置指南

Linux 系统异常触发后自动重启配置指南


一、内核级自动重启配置

适用于内核崩溃(Kernel Panic)、硬件驱动故障等场景,通过 SysRq 和 Watchdog 实现快速恢复。

1. SysRq 强制重启
  • 功能:通过触发内核崩溃或强制重启,绕过正常关机流程。
  • 配置步骤
    # 启用 SysRq 功能(临时)
    echo 1 > /proc/sys/kernel/sysrq# 永久生效(编辑 sysctl.conf)
    sudo vi /etc/sysctl.conf
    # 添加以下行
    kernel.sysrq = 1
    sudo sysctl -p# 设置内核崩溃后自动重启时间(示例:10秒)
    echo 10 > /proc/sys/kernel/panic
    # 永久配置
    echo "kernel.panic = 10" | sudo tee -a /etc/sysctl.conf
    
  • 触发命令
    echo c > /proc/sysrq-trigger   # 触发内核崩溃并生成转储(需 kdump)
    echo b > /proc/sysrq-trigger   # 强制重启(跳过数据同步)
    
2. Watchdog 硬件/软件监控
  • 功能:通过定期心跳检测,超时无响应则自动重启。
  • 软件 Watchdog 配置
    # 加载模块
    sudo modprobe softdog# 设置超时时间(示例:30秒)
    echo 30 > /proc/sys/kernel/watchdog_thresh# 启动服务
    sudo systemctl start watchdog
    
  • 硬件 Watchdog:需主板支持,通过 ipmitool 控制:
    ipmitool chassis power reset  # 硬件级强制重启
    

二、服务/进程级自动重启

适用于用户态服务崩溃、进程挂起等场景。

1. systemd 服务管理
  • 配置示例/etc/systemd/service/myapp.service):
    [Service]
    ExecStart=/usr/bin/myapp
    Restart=always     # 任何退出都重启
    RestartSec=5s      # 间隔 5 秒重启
    [Install]
    WantedBy=multi-user.target
    
  • 生效命令
    sudo systemctl daemon-reload
    sudo systemctl enable myapp --now
    
2. Supervisor 进程监控
  • 配置示例/etc/supervisor/conf.d/myapp.conf):
    [program:myapp]
    command=/usr/bin/myapp
    autostart=true
    autorestart=true
    startretries=3
    
  • 生效命令
    sudo supervisorctl update && sudo supervisorctl start myapp
    

三、内核崩溃转储与自动重启(kdump)

用于生成崩溃转储文件(vmcore)后自动重启,便于后续调试。

1. 安装与配置 kdump
  • 安装工具
    # Debian/Ubuntu
    sudo apt install linux-crashdump kexec-tools
    # CentOS/RHEL
    sudo yum install kexec-tools
    
  • 预留内存
    编辑 /etc/default/grub,添加 crashkernel=512M
    GRUB_CMDLINE_LINUX="... crashkernel=512M"
    sudo update-grub && sudo reboot
    
  • 配置 kdump/etc/kdump.conf):
    path /var/crash
    core_collector makedumpfile -l --message-level 1 -d 31
    
2. 验证与触发
  • 检查服务状态
    sudo systemctl status kdump
    
  • 手动触发转储并重启
    echo c > /proc/sysrq-trigger  # 生成 vmcore 后自动重启
    

四、网络异常自动重启

适用于网络链路中断导致服务不可用。

1. 网络检测脚本
  • 脚本示例/usr/local/bin/network_check.sh):
    #!/bin/bash
    if ! ping -c 3 8.8.8.8 &> /dev/null; thensudo systemctl reboot
    fi
    
  • 定时任务crontab -e):
    */5 * * * * /usr/local/bin/network_check.sh
    

五、验证与调试

1. 配置验证
  • 检查内核参数
    cat /proc/sys/kernel/sysrq      # 应为 1
    cat /proc/sys/kernel/panic      # 应为设定的重启时间(如 10)
    
  • 查看 kdump 状态
    sudo kdump-config status
    
2. 日志分析
  • 内核日志
    dmesg | grep "Kernel panic"
    journalctl -k --since "1 hour ago"
    
  • 转储文件分析
    crash /usr/lib/debug/boot/vmlinux-$(uname -r) /var/crash/xxx/vmcore
    

六、注意事项

  1. 数据安全

    • 强制重启可能导致数据丢失,优先使用 sync 同步数据。
    • 生产环境建议结合监控系统(如 Zabbix)告警后再操作。
  2. 硬件兼容性

    • 确保硬件支持 Watchdog 或 IPMI。
  3. 测试环境验证

    • 在非生产环境中模拟崩溃(如 kill -9echo c)验证流程。

附录:命令速查表

场景命令/配置
强制重启echo b > /proc/sysrq-trigger
生成崩溃转储echo c > /proc/sysrq-trigger(需配置 kdump)
服务自动重启systemctl edit myapp → 添加 Restart=always
网络检测重启crontab -e → 添加 */5 * * * * /path/to/network_check.sh

通过上述配置,可覆盖内核崩溃、服务异常、网络中断等多种场景下的自动重启需求,平衡系统稳定性与恢复效率。

http://www.lryc.cn/news/2380431.html

相关文章:

  • apisix透传客户端真实IP(real-ip插件)
  • Oracle 数据库的默认隔离级别
  • 统计客户端使用情况,使用es存储数据,实现去重以及计数
  • 代码随想录算法训练营第六十四天| 图论9—卡码网47. 参加科学大会,94. 城市间货物运输 I
  • oracle序列自增问题
  • 开启健康生活的多元养生之道
  • 【Vite】前端开发服务器的配置
  • 鸿蒙OSUniApp 制作自定义弹窗与模态框组件#三方框架 #Uniapp
  • Spring Security与Spring Boot集成原理
  • VScode各文件转化为PDF的方法
  • 精益数据分析(58/126):移情阶段的深度实践与客户访谈方法论
  • Vue3学习(组合式API——Watch侦听器、watchEffect()详解)
  • 【node.js】安装与配置
  • 《AI大模型应知应会100篇》第62篇:TypeChat——类型安全的大模型编程框架
  • HttpMessageConverter 的作用是什么? 它是如何实现请求体到对象、对象到响应体的自动转换的(特别是 JSON/XML)?
  • EdgeShard:通过协作边缘计算实现高效的 LLM 推理
  • 火山 RTC 引擎9 ----集成 appkey
  • ArcGIS Pro 3.4 二次开发 - 框架
  • Adminer:一个基于Web的轻量级数据库管理工具
  • RK3568下QT实现按钮切换tabWidget
  • 2025 OceanBase 开发者大会全议程指南
  • GitHub 趋势日报 (2025年05月15日)
  • day017-磁盘管理-实战
  • 【成品设计】STM32和UCOS-II的项目
  • 当通过PHP在线修改文件数组遇到不能及时生效问题
  • Ngrok 配置:实现 Uniapp 前后端项目内网穿透
  • 鸿蒙ArkUI体验:Hexo博客客户端开发心得
  • 鸿蒙NEXT开发动画案例10
  • Python 的 os 库常见使用方法(操作目录及文件)
  • 【Linux】Linux安装并配置Redis