当前位置: 首页 > news >正文

端侧大模型迎来“轻”革命!移远通信 × RWKV 打造“轻量AI大脑”

7月27日,移远通信宣布与RWKV公司建立全面合作关系,双方将依托移远的算力平台,优化并支持RWKV最新模型架构,共同推动大模型在端侧设备的低资源占用部署。此次合作成果于2025世界人工智能大会(WAIC)首次亮相,标志着端侧大模型解决方案向更高性能、更广场景的应用迈出关键一步。

图片

RWKV(Receptance Weighted Key Value)是全球领先的RNN大模型架构,它成功结合了递归神经网络(RNN)的恒定复杂度和高效串行推理,以及Transformer的并行处理优势,使其在文本生成、时间序列、图像和视频、语音和音乐等领域表现出色,推理成本和训练成本显著低于Transformer。

这项技术的核心突破在于引入RWKV算子替代Transformer的位置编码和多头注意力机制。这一革新有效解决了Transformer在处理长序列时的空间和时间复杂度问题,在确保模型性能不受影响的前提下,实现了内存占用恒定、token计算复杂度恒定,意味着运算过程更高效、更省力。这一特性让 RWKV 在端侧设备部署中展现出显著优势:处理长序列时速度更快、内存占用更低,相当于为终端设备配备了一个 “轻量化的AI大脑”。

在本次世界人工智能大会(WAIC)上,基于高通 QCS8550 平台的两大 RWKV 联合解决方案将重磅登场:

  • RWKV Chat:思考永续

RWKV Chat是一款离线AI聊天应用,无需联网即可实现推理、深度对话与文本续写,支持个性化会话配置,成为用户的“口袋级”生产力伙伴。例如其中的RWKV7-G1 2.9B模型在高通手机平台的速度可达30 token/s,且由于RWKV架构无需KV cache,在超长推理后仍然可以速度恒定,内存占用恒定。

图片

  • RWKV Sudoku:超长CoT

RWKV 数独则展示了20M超小参数模型在超长链式推理(CoT)下的数学解题能力,凭借恒定内存与极少token消耗,轻松破解复杂数独,直观呈现RWKV架构在端侧的高效潜能。

图片

在Transformer架构主导大模型领域的当下,移远通信以前瞻性的眼光,积极布局非Transformer的技术路线,致力于为客户提供更低算力、更少内存消耗的解决方案。

此次展出的RWKV7-G1 1.5B模型,经过移远通信的工程优化后,在SG885G模组上的实测数据表现亮眼,明显优于同等参数量的Transformer架构的模型,具体来说,

在Prefill阶段:

  • 平均耗时减少83%

  • 平均处理速度提升345%

在Decoding阶段:

  • 平均CPU使用减少23%

  • 平均内存使用减少36%

  • 平均功耗减少18%

图片

移远通信的SG885G基于高通QCS8550平台开发,其AI综合算力高达48 TOPS,能够支撑7B左右参数级的多模态模型在本地化推理,从而实现实时视觉理解与多模态信息融合。在模型兼容性方面,移远构建了强大的端侧适配体系,率先实现对Llama、通义千问、DeepSeek等主流开源模型的全方位兼容,兼容的参数范围覆盖0.5B至8B,打造出了功能强大的端侧大模型超级平台。此外,在架构创新上,SG885G支持运行非Transformer路线的RWKV7架构,这一特征显著降低了对算力和内存的需求。

图片

移远通信首席运营官张栋表示:“此次与RWKV的战略合作,是移远通信 ‘让终端拥有AI大心脏’技术理念的关键落地!RWKV的线性注意力架构,突破性地解决了端侧设备的长序列处理瓶颈,再结合移远的高算力模组,成功将AI大模型‘装进’了物联网终端。当农机能‘看懂’土壤的干湿,当手表可以‘提醒’健康风险,AI就不再是飘在云里的概念,而是真真切切来到了田间地头、来到了你我的手腕上,让科技真正服务于每一处需要它的地方。”

RWKV联合创始人&COO罗璇表示:“我们希望让每一台设备都聪明起来,就像为它们植入了会思考的‘大脑’。随着RWKV架构在移远算力平台上实现规模化部署,让终端设备突破资源限制,构建‘云端能力+本地智能’的双引擎协同生态,为万物智联时代奠定技术基石。”

移远通信与RWKV的战略合作,不仅是一次技术与硬件的强强联合,更是推动智能计算走向普惠的关键里程碑,让“AI大模型”真正走出云端,融入万物。

http://www.lryc.cn/news/605003.html

相关文章:

  • 单片机电路基础
  • 【NCS随笔】如何在hello_world添加蓝牙功能(一)
  • sqli-labs:Less-7关卡详细解析
  • 国内数据集成厂商有哪些?如何选择最适合的数据集成平台?
  • Qt 与物联网(IoT)开发
  • 【Linux】重生之从零开始学习运维之备份恢复
  • String模拟实现的补充说明
  • 第1课:向量与矩阵运算
  • QT中QTableView+Model+Delegate实现一个demo
  • 【ESP32设备通信】-LAN8720与ESP32集成
  • 如何设计一个站内消息系统:架构设计合集(八)
  • 订单识别技术原理及场景应用
  • 【音视频】WebRTC 开发环境搭建-Web端
  • MYSQL:视图
  • Qt 下载说明
  • uniApp实战六:Echart图表集成
  • 实现implements InitializingBean, DisposableBean 有什么用
  • 【MATLAB/Simulink】查看MATLAB以往版本的帮助文档
  • 牛顿-拉夫森法求解非线性方程组
  • 无人机惯性导航模块运行与技术难点!
  • 25年新算法!基于猛禽的优化算法(BPBO):一种元启发式优化算法,附完整免费MATLAB代码
  • 《数学模型》——最大流与最小费用流问题
  • Mediapipe 的某些模型,网络下载不来可以去gitee找找看
  • 双塔模型 + 自监督学习:解决长尾物品表征难题
  • Helm在Kubernetes中的应用部署指南与案例解析
  • FragmentManager 返回栈与 Activity 运行栈的关系(当按下Back键时屏幕会如何变化?)
  • 基于SpringBoot+MyBatis+MySQL+VUE实现的便利店信息管理系统(附源码+数据库+毕业论文+远程部署)
  • 如何不让android studio自动换行
  • AI服务器中,EEPROM有哪些部件使用,需要存储哪些信息?
  • NLU 语义解析评测实践:基于函数调用的 ACC、ROUGE 与 BLEU 综合指标