当前位置: 首页 > news >正文

启智平台华为昇腾910B使用MS-Swift微调Janus-Pro-7/1B

最近想要微调一下DeepSeek出品的Janus多模态大模型

利用启智平台的昇腾910B国产计算卡进行大模型的微调

查看了一下MS-Swift支持了Janus模型的微调,LLamafactory好像暂时还不支持该模型的微调

看到了MS-Swift有单独对昇腾的支持,因此首先要安装swift,根据下述指令安装即可

pip install ms-swift -U
# 安装torch-npu
pip install torchvision==0.18.1
pip install torch-npu==2.3.1 decorator
pip install pillow -U

然后需要安装昇腾版本的Janus

git clone https://gitee.com/ascend/ModelZoo-PyTorch.git
cd ModelZoo-PyTorch/MindIE/MultiModal/Janus-Pro
pip install -r requirements.txt 
pip install torch-npu
pip install -e .

然后需要下载一个数据集启动模型的LoRA微调训练,我在这下载了Modelscope的LaTeX_OCR数据集,使用其中的human_handwrite进行模型的训练,训练脚本如下保存在 swift_lora.sh中

ASCEND_RT_VISIBLE_DEVICES=0 \
swift sft \--model /home/ma-user/work/pretrainmodel/Janus-Pro-7B \--train_type lora \--dataset /home/ma-user/work/dataset/human_handwrite#50 \--torch_dtype bfloat16 \--num_train_epochs 1 \--per_device_train_batch_size 1 \--per_device_eval_batch_size 1 \--learning_rate 1e-4 \--lora_rank 8 \--lora_alpha 32 \--target_modules all-linear \--gradient_accumulation_steps 16 \--eval_steps 50 \--save_steps 50 \--save_total_limit 5 \--logging_steps 5 \--max_length 2048 \--output_dir output \--system 'You are a helpful assistant.' \--warmup_ratio 0.05 \--dataloader_num_workers 4 \--model_author swift \--model_name swift-robot

运行该脚本会报错 git clone github/deepseek-ai/Janus-Pro clone失败,好像是启智平台上git clone失败概率非常大,而且我们之前已经完成了Janus的安装,因此需要去把这一个git clone注释掉

vim /home/ma-user/anaconda3/lib/python3.10/site-packages/swift/llm/model/model/deepseek.py

使用下述指令,将第170行和171注释掉,就不会报错了,直接启动脚本即可启动模型的微调。

http://www.lryc.cn/news/547564.html

相关文章:

  • 蓝桥试题:传球游戏(二维dp)
  • 迷你世界脚本小地图接口:Mapmark
  • 从零开始在Windows使用VMware虚拟机安装黑群晖7.2系统并实现远程访问
  • Qt6.8.2创建WebAssmebly项目使用FFmpeg资源
  • Java阻塞队列深度解析:高并发场景下的安全卫士
  • 软件信息安全性测试流程有哪些?专业软件测评服务机构分享
  • Linux - 网络基础(应用层,传输层)
  • C++11新特性:auto遇上const时的推导规则
  • hom_mat2d_to_affine_par 的c#实现
  • 相机几何与标定:从三维世界到二维图像的映射
  • GPTQ - 生成式预训练 Transformer 的精确训练后压缩
  • 【Python项目】基于深度学习的电影评论情感分析系统
  • Redis特性总结
  • 深入理解PHP的内存管理与优化技巧
  • java常见的几种并发安全问题及解决方案
  • 介绍一下安装时情况 kubernetes 集群
  • Dify部署踩坑指南(Windows+Mac)
  • 安科瑞新能源充电桩解决方案:驱动绿色未来,赋能智慧能源
  • 深入剖析Java代理模式:静态代理与动态代理的实战应用
  • JVM与性能调优详解
  • 【嵌入式通信协议】串口的详细介绍
  • 乐鑫打造全球首款 PSA Certified Level 2 RISC-V 芯片
  • Go学习笔记:基础语法3
  • 虚拟卡 WildCard (野卡) 保姆级开卡教程
  • 机试准备第10天
  • Apache ECharts介绍(基于JavaScript开发的开源数据可视化库,用于创建交互式图表)
  • 最新版本TOMCAT+IntelliJ IDEA+MAVEN项目创建(JAVAWEB)
  • Linux - 进程通信
  • 使用 Arduino 的 WiFi 控制机器人
  • 网络安全等级保护2.0 vs GDPR vs NIST 2.0:全方位对比解析