当前位置: 首页 > news >正文

大模型量化原理解析

《大型语言模型微调》回顾

在“长话短说”环节,我们加载了一个4位量化模型。我们简要讨论过,量化会将32位浮点数(FP32)转换为4位浮点数(NF4),从而将模型的内存占用量大致减少到原来的1/8。

听起来很棒,对吧?但这究竟是如何实现的呢?
在这里插入图片描述

简而言之的量化原理

答案用一个词概括就是:分箱(binning)。

别误会,我不是说把它们扔进垃圾桶(trash bin),而是指将每个FP32数字分配到对应的带索引的分箱中。

整体思路其实很简单,和制作直方图的原理大致相同:

  • 确定FP32数字可能涵盖的范围。
  • 将该范围平均划分为指定数量的分箱。
  • 对于每个数字,确定它属于哪个分箱,并为其分配对应的分箱索引。

我们来看一个实际例子。假设你有1000个权重,范围在-0.2到0.2之间:

torch.manual_seed(11)
weights 
http://www.lryc.cn/news/612765.html

相关文章:

  • 支持DeepSeek_Qwen等大模型!字狐Chatbox在线模型+本地部署模型
  • 如何封锁品类?提升垂类竞争力
  • leetcode 674.最长连续递增序列
  • 菜鸟笔记007 [...c(e), ...d(i)]数组的新用法
  • 解决 npm i sharp@0.23.4 安装失败异常 npm install sharp异常解决
  • dmctlcvt工具介绍数据文件路径变化后如何拉起数据库
  • 范数的定义、分类与 MATLAB 应用实践
  • agno fastapi对外接口案例
  • 北京JAVA基础面试30天打卡04
  • Node.js特训专栏-实战进阶:21.Nginx反向代理配置
  • 使用Spring Boot + Angular构建安全的登录注册系统
  • 剧本杀小程序系统开发:推动社交娱乐产业创新发展
  • GitCode 7月:小程序积分商城更名成长中心、「探索智能仓颉!Cangjie Magic 体验有奖征文活动」圆满收官、深度对话栏目持续热播
  • qt系统--事件
  • OpenAI推出开源GPT-oss-120b与GPT-oss-20b突破性大模型,支持商用与灵活部署!
  • Numpy科学计算与数据分析:Numpy数组操作入门:合并、分割与重塑
  • 水库大坝安全监测系统主要概述
  • Python 数据类型及数据类型转换
  • Python Socket 脚本深度解析与开发指南
  • 目标检测数据集 - 自动驾驶场景道路异常检测数据集下载「包含VOC、COCO、YOLO三种格式」
  • Jenkins全链路教程——Jenkins用户权限矩阵配置
  • 东莞立晟精密硅胶科技有限公司将携重磅产品亮相 AUTO TECH China 2025 广州国际汽车技术展
  • oracle 11G安装大概率遇到问题
  • 计算机网络:固定网络位长度子网划分flsm和可变长子网掩码划分vlsm的区别
  • QT项目 -仿QQ音乐的音乐播放器(第五节)
  • 全局异常处理器
  • [特殊字符] 未来图钉式 AI 时代的智能生态布局:副脑矩阵与人机共振的系统构想
  • Linux->信号
  • 如何在 VS Code 中进行 `cherry-pick`
  • 计算机毕业设计java疫情防控形势下的高校食堂订餐管理系统 高校食堂订餐管理系统在疫情防控背景下的设计与实现 疫情防控期间高校食堂线上订餐管理平台