【开源模型】高考数学139分!小米MiMo开源模型:7B参数突出重围
小米 MiMo:7 B 参数撬动推理巅峰,开源模型的技术突围
70 亿参数超越 320 亿对手,高考数学 139 分的背后是训练策略的全面革新。
2025 年 4 月 30 日,小米开源的首个推理大模型 Xiaomi MiMo-7 B 横空出世,以仅 7 B 参数在数学推理(AIME 24-25)和代码生成(LiveCodeBench v 5)等权威测评中,超越 OpenAI 闭源模型 o 1-mini 和阿里 320 亿参数的 QwQ-32 B-Preview。
更令人惊讶的是,其多模态版本MiMo-VL-7 B 在 2025 年高考数学新课标 I 卷中斩获 139 分,与 2350 亿参数的 Qwen 3-235 B 持平,仅比 OpenAI o 3 低 1 分,并将同尺寸的 Qwen 2.5-VL-7 B 甩开 56 分差距。
一、技术架构:小模型的“密度革命”
MiMo 的核心突破在于用算法密度替代参数规模,通过预训练与后训练的联动创新实现推理能力跃迁:
-
预训练阶段:推理数据的精炼合成
- 构建2000 亿 Token 专项推理语料库,涵盖数学证明、算法竞赛等高阶场景
- 采用三阶段渐进训练:
- 阶段一:基础逻辑训练(如代数运算)
- 阶段二:中级推理(如几何证明)
- 阶段三:复杂问题求解(如组合优化)
- 引入Multiple Token Prediction (MTP) 技术提升生成准确性
- 总训练量达 25 万亿 Token,是同等规模模型的 3 倍以上
-
后训练阶段:强化学习的稳定性突破
- Test Difficulty Driven Reward (TDDR):根据题目难度动态分配奖励系数,高难度题奖励提升 40%,缓解梯度震荡
- Easy Data Re-Sampling 策略:将低难度样本训练比例从 60%压缩至 30%,高难度样本训练频率提高 2 倍
- 自研Seamless Rollout 系统:通过模型并行与数据并行混合调度,RL 训练速度提升 2.29 倍
二、性能实测:颠覆规模定律
MiMo 以 7 B 参数实现对大模型的跨级超越:
测试集 | MiMo-7 B | QwQ-32 B | o 1-mini |
---|---|---|---|
AIME-24(数学推理) | 68.2% | 50.7% | 55.4% |
LiveCodeBench v 5(代码) | 74.8% | 41.9% | 53.8% |
高考数学客观题(73 分) | 68 分 | - | 65 分 |
![]() |
数据来源:
在特定领域表现尤为突出:
- 动态规划算法题:代码生成效率比 QwQ-32 B 快 1.5 倍,内存占用降低 40%
- 多模态推理:MiMo-VL-7 B 在 OlympiadBench 数学竞赛基准得分 59.4%,超越 720 亿参数的 QVQ-72 B(20.4%)
- GUI 任务:在 OSWorld-G 测评达 56.1 分,超越专用模型 UI-TARS
三、部署实践:消费级硬件的福音
MiMo 系列已全模型开源,提供灵活部署方案:
-
Hugging Face 模型库
# 基础推理示例 from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("XiaomiMiMo/MiMo-7B-Base") model = AutoModelForCausalLM.from_pretrained("XiaomiMiMo/MiMo-7B-Base")input_text = "求解:若x²+y²=25,x+y=7,则x-y=?" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs, max_new_tokens=100) print(tokenizer.decode(outputs[0]))
-
端侧部署优化
- 支持RTX 3060 显卡推理,延迟<300 ms
- 通过 INT 8 量化+CUDA kernel 优化,在 RTX 4090 实现30 token/s 生成速度
- 中文场景专项优化:适配数学符号(√/∑)和 Python 缩进规范
-
多模态推理实践
高考数学题实测流程:# MiMo-VL-7B图像推理示例 from PIL import Image from transformers import pipelinevl_pipe = pipeline("visual-question-answering", model="XiaomiMiMo/MiMo-VL-7B-SFT") image = Image.open("math_problem.jpg") result = vl_pipe(image, "求椭圆阴影面积", temperature=0.3, top_p=0.95)
四、技术启示:效率优先的新范式
MiMo 的成功验证了三条技术路径的可行性:
- 推理数据定向合成:
2000 亿 Token 的专项语料库证明,数据质量比规模更重要。通过拒绝采样生成的长链推理(CoT)数据,显著提升多步推理能力。 - 难度驱动的 RL 训练:
TDDR 机制打破传统 RL 的奖励稀疏困境,使模型在奥赛级难题上获得稳定提升。 - 系统工程优化:
Seamless Rollout 系统实现训练-验证加速比>2×,大幅降低实验迭代成本。
小米的混合在线强化学习(MORL)框架融合文本推理、多模态感知和 RLHF 信号,尽管面临多域干扰挑战,但在 OlympiadBench 等复杂任务中展现出显著优势。
从手机端侧到高考考场,MiMo 的技术突围印证了雷军的判断:“设备多样化的时代,需要把大模型能力下放到端侧”。其开源的Seamless Rollout 系统和混合强化学习框架已吸引超过 50 家硬件厂商测试端侧部署。
随着小米计划在 2025 年 Q 3 推出 700 亿参数的 MiMo-Pro,并整合米家智能生态,这场以“算法密度对抗参数规模”的技术革命,正在重构大模型的竞争规则。
在 Hugging Face 的 Open LLM 数学推理榜单上,7 B 的 MiMo 已稳居前三——千亿模型的护城河,第一次被轻量化技术凿开了裂缝。
模型开源地址:
https://huggingface.co/XiaomiMiMo
技术报告:
https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
往期回顾:
🔥【三维重建】VGGT:告别漫长等待,几秒解锁3D世界的CVPR黑马
🔥【图片转 3D 模型】北大·字节跳动·CMU携手——单图15 秒生成结构化3D模型!
🔥【开源项目】FastMCP 让 MCP 服务器开发像搭积木一样简单