当前位置: 首页 > news >正文

【基于docker的深度学习训练环境】关键步骤记录

最近给公司搭建了一个小型的深度学习环境,实现了多人通过SSH对GPU资源的利用,下面对一些关键架构和易用性部分进行记录。

一、整体软硬件框架
1、硬件配置,采用的双GPU的方案,两块消费级显卡。
整体框架
2、应用层架构
宿主机系统为ubuntu22 采用ssh+docker+路径映射的形式,docker的容器主要提供训练相关环境,实际的代码保存在训练服务器的硬盘上,通过服务器本身的网络与Gitlab同步,数据部分也挂载到训练服务硬盘上。数据和代码路径一同映射到容器中。
数据服务器是只读的,做存档之用,需要copy到训练服务器上,进行处理和训练加载。

二、GPU框架
这里套用Nvidia的图
nvidia图
在宿主机中安装gpu的driver,nvidia-container-toolkit。在容器中安装cuda-toolkit。

三、docker的几个易用性
1、初始环境获取。
我使用的是阿里云提供的初始镜像。https://cr.console.aliyun.com/cn-hangzhou/instances/artifact 按需选择即可,我这里选用了ubuntu22+py310+pytorch23+cu12的镜像
2、镜像的保存与导入。

#1、导出
docker export container_id > /path/to/save/container.tar
#2、导入
docker import - newImage <  /path/to/save/container.tar

3、完成初始环境后有几个易用性可进行配置
1)、ssh开机启动
2)、宿主机与容器之间的路径映射
3)、ssh的端口映射
4)、容器中的时间配置成和宿主机一样(非实时同步)

其中1)需要在容器内配置完再保存成镜像后,重新载入。
2)和3)需要在创建容器时执行。
4)可以在容器运行时执行。
2)3)4)相关指令如下:

docker run -p 2024:22 -it --gpus all -v /home/user/workspace:/home/workspace imageName /bin/bash
# 将ssh的端口映射到2024
# 在该容器中使用全部的gpu资源
# 将宿主机user的workspace映射到容器中的workspace
docker cp /usr/share/zoneinfo/Asia/Shanghai ContainerID:/usr/share/zoneinfo/Asia/Shanghai
docker cp /etc/localtime ContainerID:/etc/localtime
# 将宿主机的时区信息copy到容器中
# 将宿主机的当前时间信息copy到容器中

三、总结
硬件虚拟化的基本步骤是一样的,一层是基本硬件驱动,一层是虚拟化管理。
对于深度学习环境而言,有两大部分需要完成上述管理,简单划分为CPU和GPU,其中CPU又包含了内存和硬盘等。
两者都有其对应的工具,简单画图示意下:
硬件虚拟化

http://www.lryc.cn/news/466042.html

相关文章:

  • 管理、情商、格局-冯唐讲资质通鉴-笔记
  • 摇人摇人, JD内推岗位(社招+校招)
  • 振弦式传感器在高边坡监测中发挥哪些优势?
  • 计算机网络基础进阶
  • 什么是“钻石继承问题”
  • iOS 回到主线程刷新UI
  • Spring Data 技术详解与最佳实践
  • ubuntu下安装图片编辑工具shutter
  • 代码随想录算法训练营Day38 | 62. 不同路径、63. 不同路径 II
  • TrickMo 安卓银行木马新变种利用虚假锁屏窃取密码
  • Java | Leetcode Java题解之第493题翻转对
  • uniapp scroll-view翻转90度后,无法滚动问题,并设置滚动条到最底部(手写横屏样式)
  • 腾讯PAG 动画库Android版本的一个问题与排查记录
  • 计算机的算术运算之浮点数
  • Sqlite3 操作笔记
  • mysqlRouter读写分离
  • 【修订中】ffmpeg 知识点
  • Rust初踩坑
  • element-ui 的el-calendar日历组件样式修改
  • LinuxDebian系统安装nginx
  • Redis 数据类型Streams
  • 基智科技CEO张文战:探索火山引擎数据飞轮模式下的大模型应用新机会
  • 【AUTOSAR标准文档】AotuSar结构横向分层详解(RTE、BSW)
  • 新 Chrome 插件可检测 AI 伪造声音;Canary Speech 推出用于临床对话的语音分析技术丨 RTE 开发者日报
  • 1. 路由定义
  • 我们可以用微服务创建状态机吗?
  • 邦芒贴士:职场新人需远离的7种坏习惯
  • 面向医院的统一支付平台产品经验分享
  • http作业
  • AlDente Pro for Mac电脑 充电限制保护工具 安装教程【简单,轻松上手】