当前位置: 首页 > news >正文

【Ubuntu】Ubuntu server 18.04 搭建Slurm并行计算环境(包含NFS)

Ubuntu server 18.04 搭建Slurm并行计算环境(包含NFS)

一、Munge 认证模块

1.1、安装 munge

主节点和子节点都安装munge

#安装
sudo apt update && sudo apt install munge libmunge-dev#设置开机启动
sudo systemctl enable munge
sudo systemctl start munge#验证安装
munge -V
sudo systemctl status munge

在这里插入图片描述

1.2、配置munge

主节点配置

#生成统一key
sudo create-munge-key
#设置munge.key访问权限
sudo chmod 1777 /etc/munge

子节点配置

#设置munge.key访问权限
sudo chmod 1777 /etc/munge
#删除自动生成的munge.key
rm -rf /etc/munge/munge.key
#从主节点获取/etc/munge/munge.key
sudo scp master@ipaddress:/etc/munge/munge.key /etc/munge
#设置munge.key文件访问权限
sudo chown munge:munge /etc/munge/munge.key
sudo chmod 400 /etc/munge/munge.key
#子节点重启
sudo systemctl restart munge
sudo systemctl status munge
#验证是否和主节点执行结果一致
munge -n

在这里插入图片描述

常见报错:权限问题,sudo chown munge:munge /etc/munge/munge.key && sudo chmod 400 /etc/munge/munge.key

在这里插入图片描述

二、安装NFS文件共享模块

2.1、NFS服务器端配置

# 安装nfs服务端
sudo apt update && sudo apt install nfs-kernel-server# 配置NFS服务端共享目录,并设置公共访问权限
sudo mkdir -p /nfs
sudo chown nobody:nogroup /nfs  # 修改NFS服务端配置文件,并使配置生效
sudo vim /etc/exports
sudo exportfs -a#添加如下内容
/nfs *(rw,sync,no_subtree_check,fsid=0,crossmnt)

在这里插入图片描述

# 启动nfs服务,并设置开机自启
sudo systemctl start nfs-kernel-server
sudo systemctl enable nfs-kernel-server

2.2、NFS客户端配置

# 安装NFS客户端
sudo apt update && sudo apt install nfs-common# 创建与NFS服务端相同的共享目录
sudo mkdir -p /nfs# 挂载共享目录
sudo mount 192.168.1.xxx(NFS服务端ip地址):/nfs /nfs# 修改客户端配置文件
sudo vim /etc/fstab# 添加如下内容
192.168.1.xxx(NFS服务端ip地址):/nfs /nfs nfs defaults 0 0

在这里插入图片描述

验证NFS配置:在NFS服务端的共享目录中创建文件,在NFS客户端的挂载目录查看是否有相同文件

在这里插入图片描述

二、Slurm作业调度模块

2.1、Slurm控制节点配置

 # 安装配置文件sudo apt install slurm-wlm slurm-wlm-doc -y# 准备生成slurm配置文件dpkg -L slurmctld | grep htmlcd /usr/share/doc/slurmctld/

在这里插入图片描述

# 生成server页面,可视化生成配置文件
python3 -m http.server

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

# 启动slurm,并设置开机自启
sudo systemctl start slurmctld
sudo systemctl enable slurmctld# 验证
sinfo
sudo systemctl status slurmctld

在这里插入图片描述

2.2、Slurm计算节点配置

# 安装slurm
sudo apt install slurm-wlm slurm-wlm-doc -y# 复制控制节点的配置文件 /etc/slurm-llnl/slurm.conf 到 计算节点
ll /etc/slurm-llnl# 启动slurm,并设置开机自启
sudo systemctl start slurmd
sudo systemctl enable slurmd# 验证
sudo systemctl status slurmd

在这里插入图片描述

http://www.lryc.cn/news/514558.html

相关文章:

  • 高并发场景下的秒杀系统架构设计与实现
  • 搭建开源版Ceph分布式存储
  • QT----------多媒体
  • 选择器(结构伪类选择器,伪元素选择器),PxCook软件,盒子模型
  • Vue2/Vue3 响应式原理对比指南
  • FastExcel:超越EasyExcel的新一代Excel处理工具
  • 大模型系列17-RAGFlow搭建本地知识库
  • 常用的mac软件下载地址
  • 基于51单片机和16X16LED点阵屏(74HC138和74HC595驱动)的小游戏《贪吃蛇》
  • python中常用的内置函数介绍
  • 【微服务】Spring Cloud Config解决的问题和案例
  • 华为OD机试E卷 --最小的调整次数--24年OD统一考试(Java JS Python C C++)
  • Oracle Dataguard(主库为 Oracle 11g 单节点)配置详解(2):配置主数据库
  • 慧集通iPaaS集成平台低代码训练-实践篇
  • TDengine 如何进行高效数据建模
  • HarmonyOS NEXT应用开发实战:一分钟写一个网络接口,JsonFormat插件推荐
  • 基于动力学的MPC控制器设计盲点解析
  • Java重要面试名词整理(十六):SpringBoot
  • 在K8S中,如何部署kubesphere?
  • 算法-查找缺失的数字
  • antd-vue - - - - - a-date-picker限制选择范围
  • 计算机网络练习题
  • redis的集群模式与ELK基础
  • STM32-笔记18-呼吸灯
  • Vue3 + ElementPlus动态合并数据相同的单元格(超级详细版)
  • 【JavaWeb后端学习笔记】MySQL的数据控制语言(Data Control Language,DCL)
  • libvirt学习
  • STM32-笔记19-串口打印功能
  • 概率论与数理统计
  • 统信系统设置代理的问题