当前位置: 首页 > news >正文

【开源模型】高考数学139分!小米MiMo开源模型:7B参数突出重围

小米 MiMo:7 B 参数撬动推理巅峰,开源模型的技术突围

70 亿参数超越 320 亿对手,高考数学 139 分的背后是训练策略的全面革新。

2025 年 4 月 30 日,小米开源的首个推理大模型 Xiaomi MiMo-7 B 横空出世,以​​仅 7 B 参数​​在数学推理(AIME 24-25)和代码生成(LiveCodeBench v 5)等权威测评中,超越 OpenAI 闭源模型 o 1-mini 和阿里 320 亿参数的 QwQ-32 B-Preview。

更令人惊讶的是,其多模态版本​​MiMo-VL-7 B 在 2025 年高考数学新课标 I 卷中斩获 139 分​​,与 2350 亿参数的 Qwen 3-235 B 持平,仅比 OpenAI o 3 低 1 分,并将同尺寸的 Qwen 2.5-VL-7 B 甩开 56 分差距。


一、技术架构:小模型的“密度革命”

MiMo 的核心突破在于​​用算法密度替代参数规模​​,通过预训练与后训练的联动创新实现推理能力跃迁:

  1. ​预训练阶段:推理数据的精炼合成​

    • 构建​​2000 亿 Token 专项推理语料库​​,涵盖数学证明、算法竞赛等高阶场景
    • 采用三阶段渐进训练:
      • 阶段一:基础逻辑训练(如代数运算)
      • 阶段二:中级推理(如几何证明)
      • 阶段三:复杂问题求解(如组合优化)
    • 引入​​Multiple Token Prediction (MTP)​​ 技术提升生成准确性
    • 总训练量达 25 万亿 Token,是同等规模模型的 3 倍以上
  2. ​后训练阶段:强化学习的稳定性突破​

    • ​Test Difficulty Driven Reward (TDDR)​​:根据题目难度动态分配奖励系数,高难度题奖励提升 40%,缓解梯度震荡
    • ​Easy Data Re-Sampling 策略​​:将低难度样本训练比例从 60%压缩至 30%,高难度样本训练频率提高 2 倍
    • 自研​​Seamless Rollout 系统​​:通过模型并行与数据并行混合调度,RL 训练速度提升 2.29 倍
      architecture.png

二、性能实测:颠覆规模定律

MiMo 以 7 B 参数实现对大模型的跨级超越:

测试集MiMo-7 BQwQ-32 Bo 1-mini
AIME-24(数学推理)68.2%50.7%55.4%
LiveCodeBench v 5(代码)74.8%41.9%53.8%
高考数学客观题(73 分)68 分-65 分
curve.png

数据来源:

在特定领域表现尤为突出:

  • ​动态规划算法题​​:代码生成效率比 QwQ-32 B 快 1.5 倍,内存占用降低 40%
  • ​多模态推理​​:MiMo-VL-7 B 在 OlympiadBench 数学竞赛基准得分 59.4%,超越 720 亿参数的 QVQ-72 B(20.4%)
  • ​GUI 任务​​:在 OSWorld-G 测评达 56.1 分,超越专用模型 UI-TARS

三、部署实践:消费级硬件的福音

MiMo 系列已全模型开源,提供灵活部署方案:

  1. ​Hugging Face 模型库​

    # 基础推理示例
    from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("XiaomiMiMo/MiMo-7B-Base")
    model = AutoModelForCausalLM.from_pretrained("XiaomiMiMo/MiMo-7B-Base")input_text = "求解:若x²+y²=25,x+y=7,则x-y=?"
    inputs = tokenizer(input_text, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=100)
    print(tokenizer.decode(outputs[0]))
    
  2. ​端侧部署优化​

    • 支持​​RTX 3060 显卡推理​​,延迟<300 ms
    • 通过 INT 8 量化+CUDA kernel 优化,在 RTX 4090 实现​​30 token/s 生成速度​
    • 中文场景专项优化:适配数学符号(√/∑)和 Python 缩进规范
  3. ​多模态推理实践​
    高考数学题实测流程:

    # MiMo-VL-7B图像推理示例
    from PIL import Image
    from transformers import pipelinevl_pipe = pipeline("visual-question-answering", model="XiaomiMiMo/MiMo-VL-7B-SFT")
    image = Image.open("math_problem.jpg")
    result = vl_pipe(image, "求椭圆阴影面积", temperature=0.3, top_p=0.95)
    

四、技术启示:效率优先的新范式

MiMo 的成功验证了三条技术路径的可行性:

  1. ​推理数据定向合成​​:
    2000 亿 Token 的专项语料库证明,​​数据质量比规模更重要​​。通过拒绝采样生成的长链推理(CoT)数据,显著提升多步推理能力。
  2. ​难度驱动的 RL 训练​​:
    TDDR 机制打破传统 RL 的奖励稀疏困境,使模型在奥赛级难题上获得稳定提升。
  3. ​系统工程优化​​:
    Seamless Rollout 系统实现​​训练-验证加速比>2×​​,大幅降低实验迭代成本。

小米的混合在线强化学习(MORL)框架融合文本推理、多模态感知和 RLHF 信号,尽管面临多域干扰挑战,但在 OlympiadBench 等复杂任务中展现出显著优势。


从手机端侧到高考考场,MiMo 的技术突围印证了雷军的判断:“​​设备多样化的时代,需要把大模型能力下放到端侧​​”。其开源的​​Seamless Rollout 系统​​和​​混合强化学习框架​​已吸引超过 50 家硬件厂商测试端侧部署。

随着小米计划在 2025 年 Q 3 推出 700 亿参数的 MiMo-Pro,并整合米家智能生态,这场以“​​算法密度对抗参数规模​​”的技术革命,正在重构大模型的竞争规则。

在 Hugging Face 的 Open LLM 数学推理榜单上,7 B 的 MiMo 已稳居前三——千亿模型的护城河,第一次被轻量化技术凿开了裂缝。

模型开源地址:
https://huggingface.co/XiaomiMiMo
技术报告:
https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf


往期回顾:
🔥【三维重建】VGGT:告别漫长等待,几秒解锁3D世界的CVPR黑马
🔥【图片转 3D 模型】北大·字节跳动·CMU携手——单图15 秒生成结构化3D模型!
🔥【开源项目】FastMCP 让 MCP 服务器开发像搭积木一样简单

http://www.lryc.cn/news/572525.html

相关文章:

  • MySQL 的 WITH ROLLUP 功能
  • MySQL: Invalid use of group function
  • swing综合案例.
  • Github 热点项目 [特殊字符]PHP性能革命!FrankenPHP让Laravel/Symfony飞起来!
  • (哈希)128. 最长连续序列
  • 5G核心网周期性注册更新机制:信令流程与字段解析
  • Python 数据分析与可视化 Day 1 - Pandas 数据分析基础入门
  • 算法导论第十九章 并行算法:解锁计算新维度
  • 防火墙的禁用及开启
  • Stable Diffusion 实战-手机壁纸制作 第二篇:优化那些“崩脸”和“马赛克”问题,让图像更加完美!
  • ROS学习之动作通信
  • C#建立与数据库连接(版本问题的解决方案)踩坑总结
  • E结构体基础.go
  • 67、数据访问-crud实验-分页数据展示
  • ROS学习之服务通信
  • flink的多种部署模式
  • 【LLM学习笔记3】搭建基于chatgpt的问答系统(下)
  • 面试-操作系统
  • 【Dify 沙箱网络问题排查与解决】
  • 工程师生活:清除电热水壶(锅)水垢方法
  • 3DTiles三维模型
  • Python-循环结构解析
  • windows 11 安装和配置 WSL #1 Ubuntu
  • 30.all和any
  • 动态规划:01 背包(闫氏DP分析法)
  • python脚本间的相互调用
  • 磐基PaaS平台MongoDB组件SSPL许可证风险与合规性分析(上)
  • Git(三):分支管理
  • 达梦数据库锁超时问题
  • 使用Dagster资产工厂模式高效管理重复ETL任务