当前位置: 首页 > news >正文

利用deepspeed在Trainer下面微调大模型

当模型参数越来越大的情况下,如果我们的GPU内存比较小,那么就没办法直接进行全参数微调,此时我们可以借助deepspeed来进行微调。

1、deepspeed的配置文件:deepspeed.json

{"train_batch_size": 4,"train_micro_batch_size_per_gpu": 1,"zero_optimization": {"stage":1}
}

这里我们启动的ZeRO-1:优化器状态跨 GPU 分区

2、在TrainingArguments里面增加配置参数,来加载deepspeed的配置文件:

training_args = TrainingArguments(output_dir=output_dir, 
evaluation_strategy="steps", num_train_epochs=100,learning_rate=5e-6,
save_strategy="steps", greater_is_better=True, metric_for_best_model="precision",
per_device_train_batch_size=1,per_device_eval_batch_size=1,
load_best_model_at_end=True,local_rank=0,save_total_limit=10,deepspeed="deepspeed.json"
)

3、利用deepspeed的命令来启动训练:

nohup deepspeed train.py > logd.txt 2>&1 &

当前我们利用44G的GPU全参微调了Qwen2.5-3B的模型

http://www.lryc.cn/news/512437.html

相关文章:

  • 【spring】参数校验Validation
  • 基于PyQt5的UI界面开发——图像与视频的加载与显示
  • [python SQLAlchemy数据库操作入门]-16.CTE:简化你的复杂查询
  • 多分类的损失函数
  • 在WSL的系统中配置免密和GitHub传输数据(SSH)
  • Python中元组(tuple)内置的数据类型
  • chrome缓存机制以及验证缓存机制
  • 医药进出口交易|基于SSM+vue的医药进出口交易系统的设计与实现(源码+数据库+文档)
  • 爱快 IK-Q6000 WiFi6无线路由器 简单开箱评测和拆解
  • 时间敏感网络中全面分析与调度的模型驱动方法
  • 统计颜色Count Color(POJ2777)题解
  • MySQL数据的增删改查(一)
  • 国产文本编辑器EverEdit - 如何给小众语言开发大纲分析脚本
  • 【数据结构】线性数据结构——数组
  • QT---------GUI程序设计基础
  • 2、Bert论文笔记
  • Linux之ARM(MX6U)裸机篇----7.蜂鸣器实验
  • Zabbix 监控平台 添加监控目标主机
  • SpringCloud整合skywalking实现链路追踪和日志采集
  • html文件通过script标签引入外部js文件,但没正确加载的原因
  • OpenHarmony开发板环境搭建
  • 【Rust自学】7.6. 将模块拆分为不同文件
  • Python入门:8.Python中的函数
  • MySQL什么情况下会加间隙锁?
  • 【服务器开发及部署】code-server 显示git graph
  • Linux 终端查看 nvidia 显卡型号
  • 助你通过AI培训师中级考试的目录索引
  • 百度PaddleSpeech识别大音频文件报错
  • Lucene 漏洞历险记:修复损坏的索引异常
  • RabbitMQ基础篇之快速入门