当前位置: 首页 > news >正文

不同参数规模大语言模型在不同微调方法下所需要的显存总结

原文来自DataLearnerAI官方网站:

不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)icon-default.png?t=N7T8https://www.datalearner.com/blog/1051703254378255

大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务,识别特定的指令等。但是大模型的微调需要的显存较高,而且比较难以估计。与推理不同,微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。

在此前的文章中,我们已经解释了大模型推理和显存之间的估算方法:需要多少GPU显存才能运行预训练大语言模型?大语言模型参数规模与显存大小的关系估算方法~。即大模型推理显存约等于模型参数乘以2,而微调则只给了方法没有具体公式。

不同参数规模的大模型在不同微调方法下所需的显存大小,十分有参考意义:

微调方法模型精度70亿参数模型130亿参数模型300亿参数模型650亿参数模型8x7B(MoE)
Full16160GB320GB600GB1200GB1000GB
Freeze1620GB40GB120GB240GB200GB
LoRA1616GB32GB80GB160GB120GB
QLoRA810GB16GB40GB80GB80GB
QLoRA46GB12GB24GB48GB32GB

这里的微调方法介绍参考和数据来源见原文:不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)

这里比较重要的参考是8×7B的MoE模型。这个显然就是前段时间刚刚发布的Mixtral大模型(即Mistral 8×7B MoE,详情参考:MistralAI的混合专家大模型Mistral-7B×8-MoE详细介绍,效果超过LLaMA2-70B和GPT-3.5,推理速度快6倍)。这个模型实际参数450亿,每次推理只会激活120亿的参数。这个模型在微调的时候需要的显存大小和450亿参数规模的模型相当。也就是说,MoE最大的优点应该是提升推理速度。推理现存与微调显存实际上不会有什么优势(根据实际测试,Mixtral 8×7B MoE推理最少也要90多G的显存)。如果使用QLoRA方法,那么显存大小会显著降低。不过,这也会降低一点精度。

原文来自DataLearnerAI:不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)

http://www.lryc.cn/news/267119.html

相关文章:

  • Crow:Middlewares 庖丁解牛6 middleware_call_helper
  • MyBatis:Generator
  • rabbitmq的事务实现、消费者的事务实现
  • 龙芯杯个人赛串口——做一个 UART串口——RS-232
  • 验证码服务使用指南
  • js中Math.min(...arr)和Math.max(...arr)的注意点
  • 【zookeeper特点和集群架构】
  • MySQL集群架构搭建以及多数据源管理实战
  • C# WPF上位机开发(从demo编写到项目开发)
  • 微信小程序引入 vant组件(详细步骤)
  • Django之按钮(actions)
  • 从YOLOv1到YOLOv8的YOLO系列最新综述【2023年4月】
  • 浙江大唐乌沙山电厂选择ZStack Cloud打造新一代云基础设施
  • 电脑开机快捷启动,启动菜单没有u盘怎么办
  • 线程的同步与互斥
  • 低代码实施复杂应用的实践方法
  • 算法学习系列(十一):KMP算法
  • ****Linux下Mysql的安装和配置
  • 第十六节TypeScript 类
  • RocketMQ的Docker镜像部署(以及Dashboard的部署、ACL配置)
  • 数据仓库【2】:架构
  • JavaScript函数表达式
  • LabVIEW在齿轮箱故障诊断中的应用
  • 图片转excel:“保留数字格式”在什么场景下该勾
  • SpringMVC:整合 SSM 下篇
  • [2023-年度总结]凡是过往,皆为序章
  • OpenCV之像素操作
  • Transfer Learning(迁移学习)
  • NPM 的使用技巧:简化 JavaScript 开发和依赖管理
  • 统计和绘图软件GraphPad Prism mac功能特点