当前位置: 首页 > article >正文

语言模型:AM-Thinking-v1 能和大参数语言模型媲美的 32B 单卡推理模型

介绍

a-m-team 是北科 (Ke.com) 的一个内部团队,致力于探索 AGI 技术。这是一个专注于增强推理能力的 32B 密集语言模型。 a-m-team / AM-Thinking-v1 是其旗下的一个语言模型,采用低成本的方式能实现和大参数模型媲美。

DeepSeek-R1 或 Qwen3-235B-A22B 等大型专家混合 (MoE) 模型在排行榜上占据主导地位,但它们也需要高端 GPU 集群。许多团队只需要适合单个卡的最佳密集模型。

AM-Thinking-v1 基于 Qwen 2.5-32B-Base 构建,在推理基准测试中表现出强大的性能,可与 DeepSeek-R1、Qwen3-235B-A22B、Seed1.5-Thinking 等更大的 MoE 模型以及 Nemotron-Ultra-253B-v1 等更大的密集模型相媲美。

开源组件:

  • 在AIME’24/'25和LiveCodeBench上的表现优于DeepSeek-R1,尽管参数数量只有Qwen3-235B-A22B的1/7。
  • 基于公开可用的 Qwen 2.5-32B-Base 以及 RL 训练查询构建。
  • 数据表明,通过精心设计的训练后管道( SFT + dual-stage RL ),您可以从 32 B 密集模型中挤出旗舰级推理。
  • 部署在一个 A100-80 GB 上,具有确定性延迟 - 无 MoE 路由开销。

将 base model 转变为高性能 reasoner 所涉及的关键阶段:

第 1 步 – 冷启动 SFT。我们从开源的 Qwen 2.5-32B-Base 开始,并在数学、代码和开放域聊天的混合训练数据集上运行广泛的监督微调。这赋予了模型一种 “思考-后回答 ”的行为模式,并使其具备了最初的推理能力。

第 2 步 – 通过率感知数据管理。在任何 RL 之前,SFT 模型都会在每个面向数学和代码的训练查询上进行评估。对于每个项目,我们都会记录一个通过率;仅保留 0 < 和 1 的 < 的通过率。实际上,我们丢弃了模型已经掌握的问题和它完全失败的问题,将学习集中在真正信息丰富的案例上。

第 3 步 – 强化学习。我们采用两阶段 GRPO 方案:第一阶段仅训练数学和代码查询。收敛后,第 2 阶段首先删除模型在第 1 阶段中 100% 正确回答的每个查询,并调整关键超参数,例如最大生成长度和学习率。

benchmark

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
代码任务

例如在“旋转三角形中红球反弹”的问题中,模型能完成较为完整的碰撞判断与动态轨迹模拟,说明其对多步逻辑有较好掌握。

在这里插入图片描述

逻辑推理任务

在结构性推理问题中,模型通常能保持较为稳定的思考过程。

在这里插入图片描述

写作与表达任务

我们也测试了其在长文本写作方面的能力,例如围绕“苏轼”撰写议论文,发现它在表达逻辑和意象捕捉方面已有初步的组织能力。
在这里插入图片描述

博客地址:https://a-m-team.github.io/am-thinking-v1/
huggingface:https://huggingface.co/a-m-team/AM-Thinking-v1

综合评价

  • 设备有限的企业可以选用,性价比还是很高的
  • 不支持mcp(function call),所以有这方面需求的不要用这个模型。未来会支持,青睐其性能但想要mcp的可以再蹲蹲
  • 对信息限制(比如严禁词汇)要求高的企业,需要微调训练。

官方描述:

While AM‑Thinking‑v1 excels at pure language reasoning and open‑domain chat, it has not yet been trained for structured function‑calling or tool‑use workflows, which restricts its usefulness in agent‑style applications that must act on external systems. Improving the model’s ability to follow complex instructions is also an important direction for our future work. In addition, our safety alignment is still at an early stage, so more rigorous red‑teaming are required to reduce potential harms.

在未来,会对更多能力进行支持:

  • 函数调用、工具联动等 Agent 化能力;
  • 进一步加强控制机制和边界测试;
  • 多模态交互的基础支持;
  • 更好地与外部工具集成等。
http://www.lryc.cn/news/2379688.html

相关文章:

  • ChatGPT:OpenAI Codex—一款基于云的软件工程 AI 代理,赋能 ChatGPT,革新软件开发模式
  • docker compose up -d 是一个用于 通过 Docker Compose 在后台启动多容器应用 的命令
  • 智能视觉检测技术:制造业质量管控的“隐形守护者”
  • 利用html制作简历网页和求职信息网页
  • Problem E: List练习
  • 卷积神经网络进阶:转置卷积与棋盘效应详解
  • 用 Kotlin 脚本(KTS)重塑 Android 工程效能:2000 字终极实践指南
  • 2025年5月13日第一轮
  • HarmonyOs开发之———使用HTTP访问网络资源
  • 小结:Android系统架构
  • 单物理机上部署多个TaskManager与调优 Flink 集群
  • 基于C#的MQTT通信实战:从EMQX搭建到发布订阅全解析
  • VUE3_ref和useTemplateRef获取组件实例,ref获取dom对象
  • ISP中拖影问题的处理
  • C++.备考知识点
  • SQLMesh 模型管理指南:从创建到验证的全流程解析
  • HarmonyOS AVPlayer 音频播放器
  • ⭐️白嫖的阿里云认证⭐️ 第二弹【课时1:提示词(Prompt)技巧】for 「大模型Clouder认证:利用大模型提升内容生产能力」
  • Filament引擎(一) ——渲染框架设计
  • c++从入门到精通(六)--特殊工具与技术-完结篇
  • JDK 1.8 全解析:从核心特性到企业实战的深度实践
  • MCP实战:在扣子空间用扣子工作流MCP,一句话生成儿童故事rap视频
  • 分布式微服务系统架构第134集:笔记1运维服务器经验,高并发,大数据量系统
  • 【SSL证书系列】客户端如何验证https网站服务器发的证书是否由受信任的根证书签发机构签发
  • SpringBoot基础项目搭建
  • Rust 学习笔记:关于 HashMap 的练习题
  • C语言-8.数组
  • Kotlin Android单元测试MockK指南
  • C# lock
  • 《算法导论(第4版)》阅读笔记:p83-p85