当前位置: 首页 > news >正文

【分布式训练】Accelerate 多卡训练,单卡评测,进程卡住的解决办法

最近想把之前的一个模型的改成多卡训练的。我并不懂DDP,DP。一开始打算使用Transformers的Trainer,但是配置的过程踩了很多坑也没有弄成功。【我是自己写的评测方法,但是我找不到能让触发Trainer去用我的方法评测的路劲】,后来偶然的机会知道了accelerate库,这个库没有Trainer那么高级抽象,正适合我。

按照官方的教程随便更改就可以了。但是因为我这个项目的特殊性,我决定不多卡评测,也没必要,因为之前单卡评测就两分钟就出结果了。于是我决定使用多卡训练+单卡评测。

但是单卡评测的时候又踩坑了,就是评测结束后,就卡住了,卡住了……不往下接着训练了。

于是我开始写print 观察这几个进程在哪里停住了,删掉评测部分看能不能正常运行(结果正常运行了),后来最终定位出了原因:只要在评测部分使用模型,例如 model(**input)就会在评测结束后卡住,评测的过程倒很正常。

网上查找到了解决办法:在评测过程中,一直使用 

model.module(**inputs)

就解决了。

其他的一些注意事项:

因为是单卡评测,所以不用将dev_dataloader交给 accelerate。


 

http://www.lryc.cn/news/105398.html

相关文章:

  • 时间复杂度为O(nlogn)的两种排序算法
  • java调用onnx模型,支持yolov5和yolov7
  • DP-GAN损失
  • 自监督去噪:Noise2Void原理和调用(Tensorflow)
  • Mac 安装配置adb命令环境(详细步骤)
  • GDAL C++ API 学习之路 (2) GDALRasterBand篇 代码示例 翻译 自学
  • springboot对静态资源的支持
  • WPF实战学习笔记27-全局通知
  • openSUSE安装虚拟化 qemu kvm
  • 基于linux下的高并发服务器开发(第四章)- 多进程实现并发服务器(回射服务器)
  • 【程序分析】符号执行
  • 实验笔记之——Windows下的Android环境开发搭建
  • #rust taur运行报错#
  • 学习购药系统源码:从前端到后端的技术探索
  • 第九次CCF计算机软件认证
  • 【计算机网络】传输层协议 -- TCP协议
  • Mac上命令
  • 软件安全测试和渗透测试的区别在哪?安全测试报告有什么作用?
  • Android 从LibVLC-android到自编译ijkplayer播放H265 RTSP
  • 如何提升等保水平,减少数据泄露率
  • 蓝桥云课ROS机器人旧版实验报告-07外设
  • sql入门基础-2
  • uni-app:实现表格多选及数据获取
  • 【图论】树上差分(点差分)
  • 【wrk2】轻量级性能测试工具
  • 华为云低代码平台Astro Canvas 搭建汽车展示大屏——实验指导手册
  • Nodejs 第七章(发布npm包)
  • Spring?Boot项目如何优雅实现Excel导入与导出功能
  • lable 某个名称换行 \n /n /br axisLabel换行 文字换行 echarts
  • 025 - max()函数