当前位置: 首页 > news >正文

Neural Magic 发布 LLM Compressor:提升大模型推理效率的新工具

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

2024年11月24日,Neural Magic 推出了最新工具 LLM Compressor,这是一款专为大型语言模型(LLM)设计的优化工具库。通过先进的模型压缩技术,它能显著提升推理速度,旨在为深度学习社区提供高性能的开源解决方案,尤其适配 vLLM 框架。

LLM Compressor 解决了此前模型压缩工具分散的问题。用户过去需要分别使用 AutoGPTQ、AutoAWQ 或 AutoFP8 等多个独立库来完成不同压缩算法的任务,这让应用过程变得复杂。而 LLM Compressor 将这些分散工具整合为一个库,支持应用最先进的压缩算法,如 GPTQSmoothQuantSparseGPT。这些算法不仅降低了推理延迟,还能在高精度要求的生产环境中维持模型的性能。

这款工具的一大技术突破在于对 激活和权重量化 的全面支持,特别是在 INT8 和 FP8 张量核心上的优化。通过量化权重和激活,LLM Compressor 能有效利用 NVIDIA 新一代 GPU(如 Ada Lovelace 和 Hopper 架构)的高性能计算单元,从而缓解计算瓶颈。在实际测试中,模型 Llama 3.1 70B 使用 LLM Compressor 后,仅用两块 GPU 就达到了未压缩模型在四块 GPU 上的接近性能,大幅提升了推理效率。

除此之外,LLM Compressor 支持 结构化稀疏性,例如通过 SparseGPT 实现的 2:4 权重剪枝技术。该方法通过选择性移除冗余参数,使模型大小减少50%,在加速推理的同时最大限度地保持精度。量化与剪枝的结合不仅降低了内存占用,还为资源受限的硬件部署提供了可能。

值得一提的是,这款工具与 Hugging Face 模型库无缝集成,用户可以轻松加载和运行经过压缩的模型。此外,它支持多种量化策略,包括逐张量(per-tensor)和逐通道(per-channel)的权重量化,以及逐张量和逐标记(per-token)的激活量化。这样的灵活性让 LLM Compressor 能够根据不同部署需求调整性能与精度的平衡。

未来,Neural Magic 计划进一步扩展工具功能,包括支持专家混合模型(MoE)、视觉语言模型和非 NVIDIA 硬件平台。同时,他们还计划开发更先进的量化技术(如 AWQ)和非均匀量化方案,进一步提升模型的效率。

LLM Compressor 的发布,标志着大语言模型优化的一次重要进步。它不仅让模型推理性能大幅提升,还降低了硬件需求,为生成式 AI 在更多领域的应用铺平了道路。这款工具无疑将成为研究者和工程师优化 LLM 部署的重要利器。

http://www.lryc.cn/news/491625.html

相关文章:

  • HttpServletRequest req和前端的关系,req.getParameter详细解释,req.getParameter和前端的关系
  • React-useEffect的使用
  • MySQL数据库与Informix:能否创建同名表?
  • 爬虫实战:采集知乎XXX话题数据
  • 大数据新视界 -- Hive 数据桶原理:均匀分布数据的智慧(上)(9/ 30)
  • 【小白学机器学习33】 大数定律python的 pandas.Dataframe 和 pandas.Series基础内容
  • 【shodan】(五)网段利用
  • LeetCode739. 每日温度(2024冬季每日一题 15)
  • Node.js的http模块:创建HTTP服务器、客户端示例
  • 加菲工具 - 好用免费的在线工具集合
  • .NET9 - 新功能体验(二)
  • map和redis关系
  • 《数据结构》学习系列——图(中)
  • 探索Python的HTTP之旅:揭秘Requests库的神秘面纱
  • Python 爬虫从入门到(不)入狱学习笔记
  • IDEA优雅debug
  • wp the_posts_pagination 与分类页面搭配使用
  • 大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
  • 【Python】分割秘籍!掌握split()方法,让你的字符串处理轻松无敌!
  • 免费实用在线AI工具集合 - 加菲工具
  • 正则表达式灾难:重新认识“KISS原则”的意义
  • eNSP-缺省路由配置
  • solr 远程命令执行 (CVE-2019-17558)
  • STM32端口模拟编码器输入
  • Centos 8, add repo
  • MYSQL- 查看存储过程调式信息语句(二十七)
  • C#基础上机练习题
  • 5.5 W5500 TCP服务端与客户端
  • 一区北方苍鹰算法优化+创新改进Transformer!NGO-Transformer-LSTM多变量回归预测
  • 深入理解 MyBatis 的缓存机制:一级缓存与二级缓存