当前位置: 首页 > news >正文

【大模型问题】ms-swift微调时,显存持续增长原因分析与解决方案

问题原因分析

  1. 缺少梯度检查点(Gradient Checkpointing)

    • 未启用梯度检查点会导致完整的前向传播激活值保存在显存中
    • 这是显存增长的主要因素
  2. 未使用混合精度训练

    • 缺少 --dtype 参数,默认使用 FP32 训练
    • FP32 比 FP16/BF16 多占用一倍显存
  3. LoRA 目标模块设置问题

    • --target_modules all-linear 包含过多模块
    • VL 模型的视觉编码器部分有大量线性层
  4. 未限制最大样本长度

    • 缺少 --max_length 参数
    • 长文本样本会导致显存占用不稳定
  5. 缺少梯度累积控制

    • 未设置梯度累积步数
    • 每个 batch 都立即更新,效率低且显存波动大
  6. 未冻结视觉编码器参数

    • 虽然设置了 --freeze_vit true&#x
http://www.lryc.cn/news/574569.html

相关文章:

  • Python Bug 修复案例分析:编码问题导致程序出现bug 两种修复方法
  • FSMC控制LCD(TFTLCD:Z350IT002)显示案例
  • CUDA NCU Occupancy学习笔记
  • 触觉智能RK3506核心板/开发板-开源鸿蒙+星闪分享(上)
  • Web Worker 通信封装与实战应用详解
  • .NET Core充血模型
  • go语言 *和
  • 配置自己的NTP 服务器做时间同步
  • HTML炫酷烟花
  • 知乎-AI大模型全栈工程师课程1~12期(已完结)
  • 通义灵码2.5智能体模式实战———集成高德MCP 10分钟生成周边服务地图应用
  • 同城信息发布 app 交流互动系统框架设计
  • WPF 几种绑定 (笔记)
  • maven:迁移到 Maven Central 后 pom.xml的配置步骤
  • pdf转图片(png,jpg)的python脚本
  • 发布 npm 包完整指南(含账号注册、发布撤销与注意事项)
  • 【云计算】云测试
  • 成交量流动策略
  • Unity3D仿星露谷物语开发70之背景音乐
  • 软件测试报告机构如何保障软件质量与安全性?作用有哪些?
  • 使用 PyFluent 自动化 CFD
  • 用 Python 打造立体数据世界:3D 堆叠条形图绘制全解析
  • 【Pandas】pandas DataFrame update
  • 华为云Flexus+DeepSeek征文 | 华为云MaaS平台上的智能客服Agent开发:多渠道融合应用案例
  • 《C++初阶之类和对象》【初始化列表 + 自定义类型转换 + static成员】
  • 在 centos7部署kubephere
  • TortoiseSVN 安装教程
  • prometheus+grafana+MySQL监控
  • 云原生周刊:Argo CD v3.1 正式发布
  • 工程优化——WebSocket、WSS(WebSocket Secure)和SSE(Server-Sent Events)通信对比