当前位置: 首页 > news >正文

pytorch 多卡并行训练

目录

设置参数:

训练时参数:

调用命令:


设置参数:

    import argparseparser = argparse.ArgumentParser()parser.add_argument('--batch_size', type=int, default=64, help='Batch size for training')parser.add_argument('--local_rank', type=int, default=0, help='Local rank of the process')parser.add_argument('--device', type=str, default='0', help='Local rank of the process')args = parser.parse_args()torch.distributed.init_process_group(backend='nccl', init_method='env://')local_rank = args.local_rankdevice = torch.device('cuda', local_rank)os.environ["CUDA_VISIBLE_DEVICES"] = "0"epoch_num = 500batch_size = args.batch_sizeif torch.cuda.is_available():net.to(device)net = torch.nn.parallel.DistributedDataParallel(net, device_ids= [local_rank],find_unused_parameters=True)

训练时参数:

# 在训练循环中使用本地 GPU 设备
for batch in dataloader:inputs, labels = batchinputs = inputs.to(device)labels = labels.to(device)# 在这里进行训练...

调用命令:

CUDA_VISIBLE_DEVICES=3,4 /data3/lbg/envs//aimet_3.8/bin/python3.8 -m torch.distributed.launch --master_port 49998 --nproc_per_node 2 train.py --device '' --batch_size 256

http://www.lryc.cn/news/251188.html

相关文章:

  • C# Bin、XML、Json的序列化和反序列化
  • mediapipe+opencv实现保存图像中的人脸,抹去其他信息
  • clickhouse的向量化执行
  • R语言实验三
  • springboot-mongodb-连接配置
  • 基于单片机的多功能视力保护器(论文+源码)
  • 如何保护 API 安全
  • 工业机器视觉megauging(向光有光)使用说明书(十五,轻量级的visionpro)
  • Linux e2fsck命令教程:如何检查和修复文件系统(附案例详解和注意事项)
  • TypeScript 的安装与使用
  • Git版本管理配置说明 - Visual Studio
  • Rust语言项目实战(四) - 界面绘制与渲染
  • 动态规划学习——回文串
  • 优化你的计算机性能:如何根据 CPU 占用率决定硬件升级
  • 探索低代码之路——JNPF
  • Day01 嵌入式 -----流水灯
  • Redis集群详解
  • 【随笔】个人面试纪录
  • Vue3的reactive、ref、toRef、toRefs用法以及区别
  • 微信小程序:input双向绑定
  • RT-Thread ADC_DMA
  • 生成带依赖Jar 包的两种常用方式:IDEA打包工具:Artifacts 和 maven-shade-plugin
  • idea 插件开发日志绑定问题
  • Elasticsearch(ES)概述
  • 网络入门---网络编程初步认识和实践
  • Linux系统安装Docker-根据官方教程教程(以Ubuntu为例)
  • 2023-12-03 LeetCode每日一题(可获得的最大点数)
  • 【唐山海德教育】安全员b证的考试科目
  • 吉他初学者学习网站搭建系列(4)——如何查询和弦图
  • 九章量子计算机:探索量子世界的革命性工具