当前位置: 首页 > news >正文

英伟达推出了全新的小型语言模型家族——Hymba 1.5B

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

本周AI新闻: Nvidia给你AI发展定心剂 群雄逐鹿AI Agent赛道: B站视频链接地址: https://www.bilibili.com/video/BV1PmBWYCEHN/

英伟达推出了全新的小型语言模型家族——Hymba 1.5B,以其混合式架构成功击败Llama 3.2和SmolLM v2。作为一款拥有15亿参数的混合语言模型,Hymba专注于提升效率与性能,同时能够在资源有限的设备上运行。

Hymba采用了全新的混合头并行架构,将Mamba(状态空间模型,SSM)和Transformer的注意力机制并行整合。这一设计结合了两者的优势:注意力头(Attention Head)提供高分辨率记忆能力,SSM头则能有效总结上下文。这种架构不仅平衡了计算效率与记忆性能,还通过引入可学习的元标记(Meta Tokens),优化了输入处理,使注意力机制的压力大大减轻。更重要的是,Hymba创新性地引入了跨层KV缓存共享部分滑动窗口注意力机制,在显著降低内存占用的同时,确保了模型高效运算。

Hymba模型在设计中融入了多项技术突破:

  1. 混合架构:并行运行Mamba和注意力头,提升性能与效率。
  2. 元标记优化:在每个输入前加入元标记,用于存储关键信息,缓解注意力机制的内存负担。
  3. FlexAttention支持:结合PyTorch 2.5中的FlexAttention,增强训练与推理灵活性。
  4. 跨层KV缓存共享:在不同层与头部之间共享缓存,显著降低内存使用。
  5. 滑动窗口注意力:优化注意力计算,进一步提高模型效率。

Hymba还结合了16个SSM状态与3层完整注意力层,其余层采用滑动窗口设计。这种配置既保持了高效计算,又确保了足够的记忆分辨率。

Hymba-1.5B在基准测试中展示了卓越表现,击败了所有参数低于20亿的公共模型。在对比中,其性能甚至超越了Llama 3.2-3B,准确率高出1.32%,缓存需求减少11.67倍,吞吐量提升至3.49倍。此外,Hymba的处理速度达到了每秒664个Token,远超其他小型语言模型如SmolLM2和Llama 3.2-3B,这让其在运行资源受限的硬件上展现了极高的实用性。

Hymba的混合式注意力与SSM设计让其在各种任务中表现优异,包括通用基准测试和对记忆要求较高的任务。其出色的吞吐量与低内存占用,特别适合需要快速响应且资源有限的实际部署场景。

Hymba的推出标志着小型语言模型的新高度。通过其创新的架构设计与高效性能,英伟达为自然语言处理(NLP)技术在资源有限的设备上应用开辟了全新路径。元标记、跨层缓存共享、以及混合架构的结合,不仅降低了对内存的需求,也提高了模型的准确性与灵活性。

Hymba模型家族展示了NLP技术效率与通用性的巨大进步。作为一款高效且准确的小型语言模型,Hymba为未来在低资源环境中的语言模型部署提供了理想选择,或将引领下一波小型模型的技术革新。

http://www.lryc.cn/news/491503.html

相关文章:

  • 云网络基础- TCP/IP 协议
  • android 音效可视化--Visualizer
  • Python人工智能项目报告
  • DockerFile 构建基础镜像
  • 卷积神经网络学习记录
  • 5种常见的k8s云原生数据管理方案详解
  • [C++]了解内置类型升级
  • docker镜像源配置、换源、dockerhub国内镜像最新可用加速源(仓库)
  • 什么是 WPF 中的依赖属性?有什么作用?
  • 241125学习日志——[CSDIY] [ByteDance] 后端训练营 [16]
  • 如何优化 PHP 性能?
  • 【Linux服务器】内存问题排查
  • ModuleNotFoundError: No module named ‘simple_knn‘
  • 【论文分享】采用现场测量、卫星影像和机器学习方法研究空气温度与城市发展强度之间的关系
  • Linux -初识 与基础指令1
  • 页的初步认识
  • [C++]:IO流
  • Excel如何批量导入图片
  • TCP socket api详解
  • 《C++搭建神经网络基石:开启智能编程新征程》
  • if (条件) { return true; } return false; 简写为 return 条件 详解
  • Pytorch使用手册-Datasets DataLoaders(专题三)
  • 【数据结构】双向链表、单向循环链表、双向循环链表、栈、链栈
  • (动画)Qt控件 QProgressBar
  • 【AI】基础原理
  • 多模态大型语言模型(MLLM)综述
  • 计算机的错误计算(一百六十六)
  • typeof 和 as 关键字
  • Python酷库之旅-第三方库Pandas(237)
  • git提交到远程仓库如何撤回?