【论文笔记】【强化微调】Pixel Reasoner:早期 tool call 的调用
[2505.15966] Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
1. 引述
当场景元素比较丰富时,这篇论文提出的方法会调用工具,聚焦于自己感兴趣的那部分。我读这篇论文的目的,是想获得一点对于 tool call 的使用启发,以便应用于我自己的工作中。
以上是该论文方法的一个示例。其实这种静态工具调用已经不新鲜了。在之前我关于强化微调综述的博客中可以知道,该论文属于 Stage-1
【论文笔记】【强化微调】综述 - Think With Image-CSDN博客
2. 遇到的问题
说不定后续写本子的时候需要借鉴这篇论文遇到的问题:
-
操作掌握困难:现有 VLM 在执行预定义视觉操作方面零样本能力有限,必须通过精细的指令微调,建立起基本的操作能力,并保留模型的自我纠错能力,以为后续 RL 阶段的“试错学习”做准备。
-
能力失衡陷阱(Learning Trap):即使模型通过微调学会了视觉操作,其在文本推理方面的熟练度远超像素空间,导致模型在训练中更倾向于回避视觉操作。一方面,视觉操作初期更容易失败导致负反馈;另一方面,很多训练样本本身不强依赖视觉操作,模型因此“顺理成章”地选择跳过该技能。这种组合使得像素空间推理发展受阻,模型提前放弃对这项新能力的探索。
论文解决问题的方式是构建一个数据集,以及设置一个新的强化微调的奖励。
3. 构建数据集
论文从已有的视觉任务数据集(SA1B、FineWeb、STARQA)中构建了一个子数据集用于微调。
而为了让模型知道使用工具,论文利用为每条训练样本准备了一个 “视觉目标”,那种很小的视觉目标,不放大仔细看就看不清楚的那种。
构建的方式是使用 GPT-4o 给出一套范式:你应该先看哪里,调用哪个视觉操作,然后再怎么分析,最后得出答案。
然而,由于 4o 太强,所以在用 4o 构建数据集的时候,4o 可能都认为一些任务不需要调用工具。为了不让 GPT-4o 随意发挥,论文引导它按照一个“固定套路”生成每个推理过程。
如上图所示:
- (a) 部分,用户提问这是什么类型的餐馆,4o 在执行的放大操作后,回答说:“我没在放大的图中看到餐馆,从原图来看我觉得是卖茶的”;GPT-4o 没有使用视觉操作的结果做判断,而是回退到了全图印象 + 语言推理,这就产生了所谓的 bypassing trajectory(绕过轨迹),对训练无效甚至有害。
- (b) 部分,模板轨迹化合成数据。先全图概括,再准确放大参考视觉线索所在区域,随后在放大的局部区域内分析标识,最后据此回答:“这是卖茶的餐馆。”
- (c) 部分,自我纠错轨迹。如果在放大局部区域分析了但没有获得有用的信息,就认为放大出错了,于是重新 zoom 并再次分析得到结果。
4. 模型热启动时的训练数据
-
Single-pass 轨迹:
-
简单直接的推理轨迹:
全图分析 → zoom-in → 分析细节 → 回答
-
用于教模型“如何正常使用视觉操作”。
-
-
Error-induced Self-Correction Trajectories(错误诱导的自我纠错轨迹):
-
故意设计“先 zoom 错了”,然后再 zoom 对了的轨迹;
-
用于教模型如何识别错误操作并修正。
-
-
Textual Reasoning Trajectories(纯文本推理轨迹):
-
对于不需要细粒度视觉分析的视觉语言问题,仍保留它们的纯文本推理过程;
-
这样能防止模型“滥用视觉操作”,实现 按需调用。
-
5. 强化微调
5.1 好奇心奖励
模型初期不会用视觉操作;于是一用就容易出错,从而得到“错误”奖励信号(negative feedback)。相比之下,文本推理正确率高,反馈好,于是久而久之模型就开始回避视觉操作。
同时,数据集中很多问题其实不一定非得用视觉操作,这给了模型一个“捷径”:直接用文字答题就行,模型于是倾向于默认使用更可靠的文本推理,忽视了视觉路径。
于是,论文在强化微调过程中,设置了奖励来鼓励模型探索,这个奖励叫做好奇心奖励。
传统 RL 只给“对答案”的外部奖励(extrinsic reward),比如答对得 1 分,但好奇心奖励关注的是:你有没有主动尝试新的操作?即使没答对,也因为你勇敢尝试视觉操作而给你鼓励(奖励)。
5.2 约束
如果模型不断探索,是可以一直获得好奇心奖励,但是效率就显著下降了,这也不是我们想要的。为了平衡探索与效率,论文设计了两个约束:
① 第一个约束:RaPR(像素空间推理率)
The first constraint concerns the Rate of Pixel-space Reasoning (RaPR)
即对每个查询 xxx,其所有采样响应中使用像素空间操作的概率(平均值)不能低于预设阈值 H。
-
模型不能总是靠“纯文本推理”答题;
-
有 至少 H% 的回答中必须使用像素空间推理(即调用视觉操作);
-
这鼓励模型主动走“陌生但重要”的视觉推理路径。
② 第二个约束:视觉操作数量限制
The second constraint imposes an upper bound N on the number of visual operations used in any individual response.
-
不能让模型在一个回答里无限次调用视觉操作;
-
每条回答最多只能调用 N 次视觉工具;
-
保证推理过程不会“冗长、低效”;
-
保持计算成本可控。
5.3 奖励
然而有约束不太方便直接训练,因此论文基于前人的理论(受限强化学习),将约束转化为奖励函数:
新奖励 包含三部分:
-
原始奖励
:衡量回答是否正确;
-
好奇心奖励
:鼓励使用视觉操作;
-
惩罚项
:惩罚视觉操作过多。
其中:
这个奖励函数鼓励模型使用工具,使用一次工具可以获得 的奖励,但是使用次数过多,工具使用率 PaPR 提升,每次使用工具的奖励就少了,直到衰减到 0
这个奖励函数惩罚多次使用工具(超过 )