当前位置: 首页 > news >正文

LSF 主机状态 unreach 分析

在LSF集群运行过程中,有主机状态变为 unreach。熟悉LSF的朋友都知道主机状态为 unreach 表示主机上的 SBD 服务中断服务了,但其它服务 LIM 和 RES 还在正常运行。

影响分析

那么主机上的 SBD 服务中断的影响是什么呢?

我们需要先明白 SBD 服务的功能是什么。主机上 SBD 服务的功能主要是从MBD接收派发到主机上的任务并运行任务、向MBD报告任务的资源使用情况、监控任务运行状态。

因此,如果 SBD 服务中断的影响有如下几项:

1. 主机不再接收新的任务,调度器发现主机状态异常后不会再向主机派发任务,从而造成计算资源浪费;

2. 任务的资源使用情况不能及时收集到,会影响到资源使用的统计分析功能,从而影响资源使用计费等;

3. 任务的状态不能及时收集;

4. 不能控制任务,比如挂起任务、恢复任务、终止任务等;

原因分析

主机状态成为 unreach 的原因有以下几项:

1. 误操作终止了 SBD 服务;

2. /tmp 空间满了;SBD 运行过程中需要在 /tmp 下创建临时文件,如果 /tmp 没有可用空间则会导致 SBD 服务终止;

解决方法

对于 /tmp 空间不足的问题,需要先清理空间,或增加存储空间,然后再启动 SBD 服务。

如果 /tmp 空间充足,则只需要重启 SBD 服务。

以 root 身份登录主机,并运行以下命令启动 SBD 服务。

# badmin hstartup

或者在管理节点上运行如下命令,记得将 host_name 替换为主机名称。

# badmin hstartup host_name

http://www.lryc.cn/news/297995.html

相关文章:

  • SpringBoot日志
  • 006集——where语句进行属性筛选——arcgis
  • 《动手学深度学习(PyTorch版)》笔记8.3
  • 静态时序分析:建立时间分析
  • 深入探究 HTTP 简化:httplib 库介绍
  • ARP欺骗攻击利用之抓取https协议的用户名与密码
  • <s-table>、<a-table>接收后端数据
  • [数学]高斯消元
  • 【Linux】gdb调试与make/makefile工具
  • 使用Arcgis裁剪
  • sheng的学习笔记-网络爬虫scrapy框架
  • Qt PCL学习(三):点云滤波
  • Ainx-V0.2-简单的连接封装与业务绑定
  • 《杨绛传:生活不易,保持优雅》读书摘录
  • ChatGPT在肾脏病学领域的专业准确性评估
  • Centos7.9安装SQLserver2017数据库
  • spring boot和spring cloud项目中配置文件application和bootstrap中的值与对应的配置类绑定处理
  • 每天一个数据分析题(一百五十四)
  • Django从入门到放弃
  • C++中类的6个默认成员函数【构造函数】 【析构函数】
  • 06-Java适配器模式 ( Adapter Pattern )
  • C# CAD交互界面-自定义面板集-添加快捷命令(五)
  • Spring boot集成各种数据源操作数据库
  • K8s环境下rook-v1.13.3部署Ceph-v18.2.1集群
  • 【JavaEE】传输层网络协议
  • 08-Java过滤器模式 ( Filter Pattern )
  • ChatGPT高效提问—prompt常见用法(续篇八)
  • 微软.NET6开发的C#特性——接口和属性
  • 容器基础知识:容器和虚拟化的区别
  • 【Linux】vim的基本操作与配置(下)