当前位置: 首页 > news >正文

【踩坑随笔】Tensorflow-GPU训练踩坑

一个无语的坑,4060单卡训练,8G内存本来就不够,还没开始训练就已经爆内存了,但是居然正常跑完了训练,然后一推理发现结果就是一坨。。。往回翻日志才发现原来中间有异常。

首先解决第一个问题:Could not load dynamic library 'cupti64_112.dll'
在这里插入图片描述
解决方法参考TensorFlow训练中保存tensorboard中cupti丢失问题解决,总结一下就是找到cupti64_2020.2.1.dll复制到cuda安装路径的bin目录下,并重命名为缺的这个cupti64_112.dll

最坑的来了,OOM了但是还是能正常训练完,但是结果保存的权重必然是有问题的

UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor("training/SGD/gradients/gradients/roi_align_classifier/concat_grad/sub:0", shape=(None,), dtype=int32), values=Tensor("training/SGD/gradients/gradients/roi_align_classifier/concat_grad/GatherV2_2:0", shape=(None, 7, 7, 256), dtype=float32), dense_shape=Tensor("training/SGD/gradients/gradients/roi_align_classifier/concat_grad/Shape:0", shape=(4,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.warnings.warn(

在这里插入图片描述
试了改小batch_size并没有用。。。。暂时没找到解决方法,初步断定就是显存不够,但是换了24G显存的卡出了新问题,直接卡在epoch1,不报错也不继续,后台程序挂起,GPU利用率为0,试遍了都没找到解决方案,解决了再来更新。。。。

在这里插入图片描述
在这里插入图片描述
找到了win11下的解决方案
使用GPU训练tensorflow/keras模型,Memory-Usage占用高,GPU-Util利用率低。提升GPU-Util利用率,提升模型训练速度

在这里插入图片描述
利用率终于不是0了!但是好像还是没解决根本问题,运行结果跟之前一模一样。。。。

http://www.lryc.cn/news/462234.html

相关文章:

  • 【云岚到家】-day07-4-实战项目-优惠券活动-项目准备
  • axios的使用
  • Ubuntu 使用命令克隆和恢复SD卡
  • Java 小游戏《超级马里奥》
  • go语言defer详解
  • 【C语言】循环中断break
  • centos ping能通但是wget超时-解决
  • SDIO - DWC MSHC 电压切换和频率切换
  • EI-CLIP 深度理解 PPT
  • leetcode力扣刷题系列——【最小元素和最大元素的最小平均值】
  • 【线性回归分析】:基于实验数据的模型构建与可视化
  • CountUp.js 实现数字增长动画 Vue
  • 设计模式大全
  • redis IO多路复用机制
  • Oracle漏洞修复 19.3 补丁包 升级为19.22
  • Q2=10 and Q2=1--PLB(Fig.4)
  • sd卡挂载返回FR_NOT_READY等错误
  • 推荐一款超级实用的浏览器扩展程序!实时翻译网页,支持多种语言(带私活源码)
  • manjaro kde 24 应该如何设置才能上网(2024-10-13亲测)
  • 2024软件测试面试大全(答案+文档)
  • unity动态批处理
  • faust,一个神奇的 Python 库!
  • electron本地OCR实现
  • RK3588的demo板学习
  • 基于springboot驾校管理系统
  • 关于Vue脚手架
  • MySQL 指定字段排序
  • Mysql—高可用集群MHA
  • MeshGS: Adaptive Mesh-Aligned GaussianSplatting for High-Quality Rendering 论文解读
  • JDK-23与JavaFX的安装