当前位置: 首页 > news >正文

浅谈Linux中的软锁定(soft lockup)和硬件监视器(watchdog)

目录

  • 1. 问题所示
  • 2. 基本知识
  • 3. 进阶知识

1. 问题所示

跑深度学习的时候遇到卡顿卡机

hostname kernel:watchdog BUG:soft lockup - CPU#16 stuck for 130s![P2PMain-72:4030570]

界面如下所示:

在这里插入图片描述

大概意思是:

watchdog_thresh参数是硬件监视器的超时阈值,即硬件监视器在未接收到系统响应的时间后会触发软锁定检测

2. 基本知识

软锁定(soft lockup)和硬件监视器(watchdog)是两个与Linux系统稳定性和可靠性密切相关的概念

一、 软锁定(Soft Lockup):
软锁定是指CPU长时间运行在内核模式下执行一个任务,而没有释放控制权给其他任务,导致系统无法响应用户输入或其他请求

软锁定通常是由于以下原因之一引起的:

  • 内核空间代码执行时间过长:某个内核线程或驱动程序执行时间过长,导致其他任务无法获得CPU时间片

  • 内核死循环(Kernel Spinlock):在多线程环境中,如果一个线程持有锁而没有释放,其他线程就无法获得该锁,导致系统停滞

软锁定的检测通常由硬件监视器(watchdog)负责,一旦检测到软锁定,就会发出警告信息并尝试恢复系统

软锁定问题的解决方法通常包括优化内核代码、修复驱动程序漏洞以及调整系统配置

二、硬件监视器(Watchdog)
硬件监视器是一种系统机制,用于监视系统的状态,并在检测到故障或异常情况时采取措施以确保系统的稳定性和可靠性。硬件监视器通常包括一个计时器和一个独立的处理器或电路,它可以监视系统的活动并在预定的时间间隔内接收或产生定时器中断。

在Linux系统中,硬件监视器通常用于监视系统的软锁定情况。当硬件监视器检测到系统停滞或软锁定时,它会向系统发送中断信号,引发相应的处理机制来识别和解决软锁定问题。这通常涉及记录相关信息、尝试恢复系统状态,并在必要时重新启动系统

三、在Linux中的应用
在Linux中,软锁定和硬件监视器功能通常通过内核模块实现,例如softlockup和watchdog模块,这些模块负责监视系统的活动并在必要时采取措施以确保系统的稳定性和可靠性

可以通过配置内核参数或加载相应的内核模块来调整软锁定和硬件监视器的行为,包括设置监视器的超时时间、启用或禁用监视器功能、以及配置系统对软锁定的响应策略等

3. 进阶知识

调整硬件监视器的超时阈值,以便增加硬件监视器对软锁定的检测时间

一、临时生效的方式

临时将硬件监视器的超时阈值设置为30秒:echo 30 > /proc/sys/kernel/watchdog_thresh,(系统重新启动后会失效)

二、永久生效的方式

通过编辑配置文件/etc/sysctl.conf或/etc/sysctl.d/*.conf,并添加以下行:

kernel.watchdog_thresh = 30

使其生效:sysctl -p

sysctl是一个用于查看、设置和管理内核参数的工具,通过使用sysctl命令,可以方便地修改内核参数,例如在运行时临时生效或永久生效
常见的用法包括sysctl -w用于临时修改参数,以及sysctl -p用于重新加载配置文件中的参数

http://www.lryc.cn/news/325475.html

相关文章:

  • 数据库的四个特性?MySQL是如何实现的?
  • Jupyter R绘图 汉字显示乱码的解决办法
  • 推荐几个值得一读的Qt开源项目
  • 【XR806开发板试用】使用PWM模块模拟手机呼吸灯提示功能
  • Mysql——索引下推
  • Springboot项目之mybatis-plus多容器分布式部署id重复问题之源码解析
  • 微信答题小程序云开发--实现云函数上传题目图片 base64功能
  • 学会Sass的高级用法,减少样式冗余
  • 【Java初阶(五)】类和对象
  • AWTK-MODBUS 服务器
  • JavaScript快速入门笔记之一(基本概念)
  • 前端学习之css基本网格布局
  • [网鼎杯2018]Unfinish 两种方法 -----不会编程的崽
  • 安防监控视频汇聚平台EasyCVR在银河麒麟V10系统中的启动异常及解决方法
  • 了解云原生
  • 【go从入门到精通】for和for range的区别
  • 【C语言】【Leetcode】88. 合并两个有序数组
  • DMA控制器
  • SQLiteC/C++接口详细介绍sqlite3_stmt类(十)
  • Android 生成Excel文件保存到本地
  • Hive-技术补充-ANTLR语法编写
  • 6.使用个人用户登录域控的成员服务器,如何防止个人用户账号的用户策略生效?
  • 模拟算法
  • 【数据结构刷题专题】—— 二叉树
  • 基于AWS云服务构建智能家居系统的最佳实践
  • Java零基础-集合:Set接口
  • 数据结构与算法-排序算法
  • SpringBoot 文件上传(三)
  • web渗透测试漏洞流程:红队目标信息收集之资产搜索引擎收集
  • UI自动化_id 元素定位