当前位置: 首页 > news >正文

Meta AI 最近推出了一款全新的机器学习框架ParetoQ,专门用于大型语言模型的4-bit 以下量化

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Meta AI 最近推出了一款全新的机器学习框架——ParetoQ,专门用于大型语言模型的4-bit 以下量化。随着深度学习模型的不断膨胀,模型压缩技术的重要性日益凸显,而低比特量化成为一种既能缩小模型体积,又能保持准确度的关键方法。然而,围绕量化比特数的争论一直没有定论,一些研究认为4-bit 量化是最优解,而另一些研究则认为1.58-bit 模型同样能取得类似表现。由于缺乏统一的评估框架,不同研究得出的结论往往矛盾,导致低比特精度量化的规模化规律难以建立。

量化的难点在于如何在计算效率模型准确度之间找到最佳平衡。不同方法各有优缺点,例如后训练量化(PTQ)虽然可以直接在训练好的模型上进行量化,部署方便,但低比特时准确率损失较大;量化感知训练(QAT)则是在训练过程中就引入量化,使模型能够更好地适应低比特表示。此外,还有可学习量化和混合精度策略等方法尝试进一步优化模型压缩效果。但由于评估标准不统一,很难直观比较不同量化方法的优劣。

为了解决这一问题,Meta AI 研究团队推出了ParetoQ,它作为一个标准化框架,支持1-bit、1.58-bit、2-bit、3-bit 和 4-bit 量化的系统性评估。相比以往各自为政的量化研究,ParetoQ 通过优化训练方案和比特特定量化函数,提供了一种更具一致性的比较方式。

ParetoQ 如何优化低比特量化?

该框架采用优化版 QAT 训练策略,在保证模型压缩效果的同时,将准确率损失降到最低。研究发现,当模型精度降至2-bit 以下时,会发生显著的表征偏移,而3-bit 及以上的模型则仍然保持与原始预训练分布的相似性。为此,ParetoQ 针对不同比特宽度优化量化网格、调整训练方式,并提供比特特定的学习策略

实验结果显示,ParetoQ 在性能上远超现有的量化方法。例如,研究团队基于 ParetoQ 训练的600M 参数三进制(ternary)模型,准确率超越了之前最强的 3B 参数三进制模型,但参数量仅为其五分之一。此外,2-bit 量化模型在相同体积下的准确率相比 4-bit 模型提升1.8 个百分点,证明了2-bit 量化是 4-bit 量化的有效替代方案

不仅如此,ParetoQ 还带来了更高效的硬件适配性。优化后的2-bit CPU 内核计算速度和内存效率上都比 4-bit 量化更优,使低比特量化在实际部署中更加可行。实验也表明,相比 1-bit 和 4-bit 量化,2-bit、3-bit 及 ternary 量化模型在准确率和模型大小之间达到了更优平衡,进一步强化了4-bit 以下量化策略的价值

未来展望

这项研究奠定了大型语言模型低比特量化的坚实基础。通过引入结构化框架,ParetoQ 有效解决了准确率权衡与比特宽度优化问题。研究结果表明,虽然极端低比特量化(如 1-bit)可行,但目前来看,2-bit 和 3-bit 量化仍是最佳选择,能够在性能和效率之间达到理想平衡。未来,随着硬件对低比特计算的支持不断增强,这些方法将进一步提升大规模机器学习模型在受限资源环境下的部署可行性。

http://www.lryc.cn/news/534097.html

相关文章:

  • 操作系统—进程与线程
  • 团队:前端开发工期参考 / 防止工期不足、过足、工期打架
  • APL语言的云计算
  • idea启动报错# EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00007ffccf76e433
  • C++拷贝构造函数与运算符重载应该注意的一个问题?
  • [7] 游戏机项目说明
  • “深入浅出”系列之C++:(20)C++17
  • .net一些知识点5
  • (七)QT——消息事件机制&绘图&文件
  • 【虚幻引擎UE】AOI算法介绍与实现案例
  • python学opencv|读取图像(六十)先后使用cv2.erode()函数和cv2.dilate()函数实现图像处理
  • AI能帮谷歌SEO做什么?
  • SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来Matlab实现
  • 【机器学习】数据预处理之数据归一化
  • 【专题】2024-2025人工智能代理深度剖析:GenAI 前沿、LangChain 现状及演进影响与发展趋势报告汇总PDF洞察(附原数据表)
  • 非递减子序列(力扣491)
  • 网站快速收录策略:提升爬虫抓取效率
  • 系统思考—自我超越
  • 苍穹外卖-菜品分页查询
  • 子集II(力扣90)
  • user、assistant、system三大角色在大语言模型中的作用(通俗解释)
  • LeetCode 3444.使数组包含目标值倍数的最小增量
  • 2月9日星期日今日早报简报微语报早读
  • MOSSE目标跟踪算法详解
  • 生成式聊天机器人 -- 基于Pytorch + Global Attention + 双向 GRU 实现的SeqToSeq模型 -- 下
  • 本地部署的DeepSeek-R1-32B与DeepSeek-R1-7B模型效果对比
  • AWS Fargate
  • 表单与交互:HTML表单标签全面解析
  • 【电机控制器】STC8H1K芯片——低功耗
  • win10 llamafactory模型微调相关① || Ollama运行微调模型