当前位置：首页 > news >正文

【大模型问题】ms-swift微调时，显存持续增长原因分析与解决方案

news 2025/8/30 1:35:37

问题原因分析

缺少梯度检查点（Gradient Checkpointing）
- 未启用梯度检查点会导致完整的前向传播激活值保存在显存中
- 这是显存增长的主要因素
未使用混合精度训练
- 缺少 --dtype 参数，默认使用 FP32 训练
- FP32 比 FP16/BF16 多占用一倍显存
LoRA 目标模块设置问题
- --target_modules all-linear 包含过多模块
- VL 模型的视觉编码器部分有大量线性层
未限制最大样本长度
- 缺少 --max_length 参数
- 长文本样本会导致显存占用不稳定
缺少梯度累积控制
- 未设置梯度累积步数
- 每个 batch 都立即更新，效率低且显存波动大
未冻结视觉编码器参数
- 虽然设置了 --freeze_vit true&#x

http://www.lryc.cn/news/574569.html

相关文章：

Python Bug 修复案例分析：编码问题导致程序出现bug 两种修复方法

FSMC控制LCD(TFTLCD：Z350IT002)显示案例

CUDA NCU Occupancy学习笔记

触觉智能RK3506核心板/开发板-开源鸿蒙+星闪分享（上）

Web Worker 通信封装与实战应用详解

.NET Core充血模型

配置自己的NTP 服务器做时间同步

HTML炫酷烟花

知乎-AI大模型全栈工程师课程1~12期（已完结）

通义灵码2.5智能体模式实战———集成高德MCP 10分钟生成周边服务地图应用

同城信息发布 app 交流互动系统框架设计

WPF 几种绑定 (笔记)

maven:迁移到 Maven Central 后 pom.xml的配置步骤

pdf转图片（png，jpg）的python脚本

发布 npm 包完整指南（含账号注册、发布撤销与注意事项）

【云计算】云测试

成交量流动策略

Unity3D仿星露谷物语开发70之背景音乐

软件测试报告机构如何保障软件质量与安全性？作用有哪些？

使用 PyFluent 自动化 CFD

用 Python 打造立体数据世界：3D 堆叠条形图绘制全解析

【Pandas】pandas DataFrame update

华为云Flexus+DeepSeek征文 | 华为云MaaS平台上的智能客服Agent开发：多渠道融合应用案例

《C++初阶之类和对象》【初始化列表 + 自定义类型转换 + static成员】

在 centos7部署kubephere

TortoiseSVN 安装教程

prometheus+grafana+MySQL监控

云原生周刊：Argo CD v3.1 正式发布

工程优化——WebSocket、WSS（WebSocket Secure）和SSE（Server-Sent Events）通信对比