当前位置：首页 > news >正文

视觉语言导航（4）——强化学习的三种方法与优化算法 2.43.4

news 2025/8/19 11:08:57

之前已经讲过监督学习、无监督学习

监督学习的目标是找到函数拟合数据，无监督学习的目标是学习数据的规律和结构（聚类），强化学习则是最大化奖励。

本质上，监督学习和无监督学习都是在静态的环境下学习的，也就是输出不会对环境（数据）造成影响，而强化学习则是在动态环境中通过与环境交互获得最大化奖励，也就是说，强化学习的输出会影响环境，影响下一次决策，这就是它与前两者不同之处。

强化学习的基本框架包括智能体（agent）、环境（environment）、状态（state）、动作（action）和奖励（reward）。

在强化学习中，数据通常表示为状态-动作对（state-action pairs），即在某个状态下采取某个动作。我们的目标是在多个时间步上最大化累积奖励（cumulative rewards）。

奖励函数的设计

尽管数据增强等技术在一定程度上缓解了行为克隆的分布偏移问题，但模仿学习的“天花板”依然存在——它无法超越专家，且对于真正新颖、未曾预料到的情况，其泛化能力仍然有限。为了让智能体拥有真正的探索、试错和从错误中恢复的能力，研究者们将目光投向了强化学习（RL）。本部分将介绍RL在VLN中的基本框架，并重点探讨其核心挑战——奖励函数的设计

策略网络

智能体需要通过与环境的交互来学习最优的行为策略。而策略网络正是实现这一目标的关键组件之一。它是一种神经网络模型，用于根据当前的状态输出一个动作的概率分布，从而指导智能体采取相应的行动。

输入层接收环境的状态信息，经过隐藏层的计算和变换后，最终在输出层生成各个可能动作的概率值。

尽管策略网络主要用于强化学习，但它在训练过程中也借鉴了监督学习的思想。具体来说，在策略网络的训练过程中，我们同样需要通过前向传播和反向传播来更新网络的参数。

在前向传播阶段，策略网络根据当前的状态计算出各个动作的概率值；
而在反向传播阶段，我们则需要根据智能体的实际表现（即获得的奖励）来调整网络的参数，以优化其决策能力。

没有标志答案的情况下如何计算误差？

这个 0 -1.0 是怎么来的？

智能体从两个动作中采样了 动作1
执行后得到了奖励 R=−1.0（负奖励，表示这个动作不好）
我们希望降低未来选择这个动作的概率
所以我们要减少动作1的 log probability（对数概率）
因此，对 logp 的梯度是 -1.0（表示要往负方向调整）
而动作0没被选，所以它的 logp 不需要调整 → 梯度为 0

上面是单个动作，如果是动作链呢？

折扣因子（Discount Factor） 和 回报（Return）

🎮 场景：你玩《贪吃蛇》

你的目标是吃到苹果，活下来，越长越好。

假设你玩了一局，一共走了 5 步，最后得分 +10。

这 5 步是：

步数	动作	结果
1	向右	避开墙
2	向下	靠近苹果
3	向右	吃到苹果！🍎
4	向上	正常移动
5	向左	游戏结束，+10 分

现在问题来了：

❓ 这 +10 分，该怎么分给这 5 步？

第 3 步吃到苹果，功劳最大？
但第 1 步没撞墙，也很关键？
第 2 步靠近苹果，是“铺垫”？

这就用到了 折扣因子 γ（gamma）

💡 折扣因子 γ：越远的奖励，影响越小

我们设定一个 γ，比如 γ = 0.9，

我们从后往前算，给每一步一个“未来收益的估计值”，叫 回报（Return）

我们来算每一步的“回报”（Discounted Return）

假设每一步的即时奖励是：

吃到苹果：+1
其他：0
最后总分：+10（我们简化成每步的累计）

步数	即时奖励 rₜ	折扣回报 Gₜ = rₜ₊₁ + γ·rₜ₊₂ + γ²·rₜ₊₃ + ...
1	0	0 + 0.9×0 + 0.9²×1 + 0.9³×0 + 0.9⁴×0 = 0.81
2	0	0 + 0.9×1 + 0.9²×0 + 0.9³×0 = 0.9
3	1	1 + 0.9×0 + 0.9²×0 = 1.0
4	0	0 + 0.9×0 = 0
5	0	0（游戏结束）

✅ 注意：我们是从后往前算的，每一步的 Gₜ 是它之后所有奖励的“打折总和”

我们用这个 Gₜ 当作“梯度信号”

步数	动作	Gₜ（折扣回报）	如何更新策略
1	向右	0.81	稍微鼓励：“你第一步走得好，保持”
2	向下	0.9	更鼓励：“你靠近苹果，干得不错”
3	向右	1.0	大力鼓励：“你吃到苹果了！多这么干！”
4	向上	0	不鼓励也不惩罚
5	向左	0	不更新

👉 这就是 REINFORCE 算法 的完整逻辑：

策略梯度（Policy Gradient）

梯度信号是：策略网络输出的 log概率 对网络参数 θ 的梯度，再乘以奖励 G_t

要使at这个动作概率增大，θ应该怎么调。

✅ 举个例子：

状态：你看到一个苹果
动作：向右移动
当前网络输出：向右的概率是 60%
∂log⁡π∂θ∂θ∂logπ 告诉你：
“如果你想让‘向右’的概率变大，就把权重 W2W2 增加一点点”

真正决定θ增加减少的

Gt>0：好结果 → 应该鼓励这个动作
Gt<0：坏结果 → 应该惩罚这个动作

它只关心结果，不关心“怎么调参数”。

✅ 比如：

你向右移动 → 吃到苹果 → Gt=+1.0 → 鼓励
你向右移动 → 撞墙 → Gt=−1.0 → 惩罚

综上，

导航系统：告诉你“往北是上坡”（增大θ可以增加at的概率）
目的地：你说“我要去南方”（计算得到这个动作的Gt是负的，想要更多奖励就要反着走）
结果：你选择“往南下坡”（减小θ）

Q-LEARNING

Q-Learning是一种无模型的强化学习算法，它旨在学习一个策略，该策略告诉智能体在给定的状态下应该采取什么行动。Q-Learning的核心是学习一个动作价值函数 Q(s,a)，它代表当处于状态 ss 时执行动作 aa 所能得到的长期回报的期望值。

这个算法不需要一个环境模型，并且可以处理随机性的问题。

举例：

如果机器人能够离开房子，则视为成功；到达点5（房间外）的奖励设置为100，否则设置为0，不可达路径设为-1
状态：当前在哪个房间
动作：从哪个房间到哪个房间

奖励矩阵（R矩阵）

在Q-Learning中，奖励矩阵（R矩阵）定义了智能体在特定状态下执行某个动作后立即获得的奖励。这个矩阵通常是根据问题的具体情况手工设计的。每个元素 R(s,a) 表示在状态 s 下执行动作 a 后得到的即时奖励。

根据规则可以得到：
如果机器人能够离开房子，则视为成功；到达点5（房间外）的奖励设置为100，否则设置为0，不可达路径设为-1

初始Q表的设置

Q表是一个二维数组，其中行表示不同的状态，列表示可采取的动作。Q表中的每一个元素 Q(s,a) 存储的是在状态 s 下采取动作 a 的预期累积奖励。在学习过程开始之前，我们通常将Q表初始化为0或较小的随机数，以避免任何预先存在的偏好影响学习过程。

State\Actions | Action 0 | Action 1 | Action 2 | Action 3
-----------------------------------------------------------
State 0       |    0     |    0     |    0     |    0
State 1       |    0     |    0     |    0     |    0
State 2       |    0     |    0     |    0     |    0
State 3       |    0     |    0     |    0     |    0
State 4       |    0     |    0     |    0     |    0

Q-Learning的核心更新公式

Q-Learning算法的核心在于Q值的更新公式（可能和书上不一样，别急）：

其中：

手动计算Q值更新的例子

假设我们处于状态2，采取了动作3（即从房间2移动到房间3），并且已知即时奖励矩阵 R 和当前的Q表如下所示：

即时奖励矩阵 R

State	Action 0	Action 1	Action 2	Action 3	Action 4	Action 5
0	-1	-1	-1	-1	0	-1
1	-1	-1	-1	0	-1	100
2	-1	-1	-1	0	-1	-1
3	-1	0	0	-1	0	-1
4	0	-1	-1	0	-1	100
5	-1	0	-1	-1	0	100

当前Q表

State	Action 0	Action 1	Action 2	Action 3	Action 4	Action 5
0	0	0	0	0	0	0
1	0	0	0	0	0	0
2	0	0	0	0	0	0
3	0	0	0	0	0	0
4	0	0	0	0	0	0
5	0	0	0	0	0	0

假设折扣因子 γ=0.8，我们现在要更新Q(2, 3)的值。

计算即时奖励：根据即时奖励矩阵 R，我们可以看到 R(2,3)=0。
找到下一个状态的最大Q值：采取动作3后，我们到达状态3。我们需要查看Q表中状态3的所有可能动作对应的Q值，并找出最大值。目前Q表中所有值都是0，所以 max⁡a~{Q(3,a~)}=0
应用Q值更新公式：

在这个例子中，由于我们刚开始训练，Q表中的值都为0，因此更新后的Q(2, 3)仍然是0。随着更多的训练迭代，Q表中的值会逐渐被更新，从而更好地反映每个状态-动作对的价值。

理论上，在经过足够多的训练和探索之后，Q表中的每一个位置（即每个状态-动作对）都会被更新到接近其最优值。之后无论机器人在哪都能查表决策。

接下来解决为什么这个更新公式和书上不一样的问题

贝尔曼方程——“一个动作的价值 = 即时奖励 + 未来最大价值的折扣版”

-----①

-----②

①式这是理想情况下的等式，就像“正确答案”。

但在实际训练中，我们的 Q 值是估计值，不准确。所以我们不能直接“等于”，而要慢慢靠近这个目标。

因此在实际计算的时候我们使用的是②式。

经过多次迭代后，Q值会逐步逼近真实的方程，也就是②式经过多轮迭代后会更新为①式。

我们举例：

场景设定：机器人找宝藏（实则和上面一样走出房间）

想象有一个机器人在一个小迷宫里，有 6 个房间（状态 0~5），目标是找到藏在房间 5 的宝藏。

房间之间有门可以走
走错会2887（小惩罚）
走对能靠近宝藏
到达房间 5 → 拿到宝藏（大奖励）

我们的任务：教机器人学会“从任意房间出发，怎么最快走到房间 5”

🧩 第一步：定义“奖励规则”——我们人为设定 R(s,a)R(s,a)

我们先设计一个即时奖励矩阵 R，告诉机器人：

动作结果	奖励
走向宝藏房间	+100
走向死路/墙	-1
正常移动	0

比如：

从房间 1 走到房间 5 → R(1,5)=100
从房间 0 走到房间 4 → R(0,4)=0
从房间 0 想走到房间 1（没门）→ R(0,1)=−1

✅ 这个 R 矩阵是我们人为设定的，完全准确。

📊 第二步：初始化 Q 表——“机器人一无所知”

我们创建一个 Q 表，记录机器人对每个“状态+动作”的价值估计。

初始时，它啥也不知道，所以 Q 表全是 0：

State	a=0	a=1	a=2	a=3	a=4	a=5
0	0	0	0	0	0	0
1	0	0	0	0	0	0
2	0	0	0	0	0	0
3	0	0	0	0	0	0
4	0	0	0	0	0	0
5	0	0	0	0	0	0

✅ Q(s,a) 当前只是“猜测”，不是真实价值

🔁 第三步：机器人开始探索（试错）

机器人从某个房间出发（比如房间 2），开始乱走：

🎲 第一次尝试：2 → 3 → 1 → 5（成功！）

步骤	当前状态 s	动作 a	下一状态 s'	即时奖励 r	Q 更新
1	2	3	3	0	更新 Q(2,3)
2	3	1	1	0	更新 Q(3,1)
3	1	5	5	100	更新 Q(1,5)

🧮 第四步：用 Q-Learning 公式更新 Q 值

使用公式：

假设：

学习率 α=0.1
折扣因子 γ=0.9

我们从后往前更新（因为最后一步最确定）：

🔺 更新第3步：Q(1,5)

达到5已经找到了宝藏，因此未来收益为0：

🔺 更新第2步：Q(3,1)

🔺 更新第1步：Q(2,3)

此时Q表这三个位置被更新：

State	a=1	a=3	a=5
0	0	0	0
1	0	0	10
2	0	0.081	0
3	0.9	0	0
4	0	0	0
5	0	0	0

以上就是真实情况下的一次更新，第二次更新有两种选择：

机器人怎么决定下一步？——利用OR探索

策略	概率	行为
利用（Exploitation）	1−ε	查 Q 表，选当前 Q 值最大的动作 → 走“已知最优路径”
探索（Exploration）	ε	随机选一个动作 → 可能走新路、试错

其中 ε 是一个小数，比如 0.1 或 0.2。

决策过程：

随机生成一个数 p∈[0,1]
如果 p<0.2p<0.2 → 探索：随机选一个动作（比如 a=0，哪怕它Q值是0）
如果 p≥0.2p≥0.2 → 利用：查表，选 Q 值最大的动作（a=1 或 a=4）

利用是为了优化原先的路径，找找有没有更优的路径并更新原先路径的Q值。

ε 衰减——随着训练进行，策略会变化

通常我们会逐渐减小 ε：

训练阶段	ε	行为
早期	0.9 ~ 0.5	大部分时间乱走 → 快速探索环境
中期	0.3 ~ 0.1	偶尔探索， mostly 利用 → 精进策略
后期	0.05 ~ 0	几乎完全利用 → 稳定执行最优策略

这叫 ε 衰减（epsilon decay）

经过若干轮后，这张Q表就会更新得和答案一样了，同时②式也会和①式一样。

银浆-》锡焊浆
气流发声
有限元力学流体分析作为脚掌受力分析

如何学
第一遍流程+向量显示
第二遍向量+伪代码显示

Actor-Critic方法

AC都是网络，都需要训练。

AC 是“大脑的决策系统”，RCM 是“大脑的感知系统”。
在 VLN 等任务中，RCM 为 AC 提供“理解”，而 AC 基于这种理解做出“行动”。
它们不是替代关系，而是 “感知 → 决策” 的上下游协作关系。

增强交叉模态匹配 (RCM)

RCM的核心框架包含两个关键组件：一个负责决策的“推理导航器”（Reasoning Navigator），

即智能体的策略网络；以及一个提供内在奖励的“匹配评论家”（Matching Critic）。导航器的训

练目标是最大化一个混合奖励信号，该信号是外部环境奖励和内部语义匹配奖励的加权和。

考虑内在和外在，目标+距离奖励+指令保真度

外在奖励——欧几里得距离

R外定义为当前操作的距离减少+往期的操作奖励衰减

内在奖励——用Speaker的输出匹配语义相似度

外在奖励解决了“去哪里”的问题，但无法保证智能体”如何去”。智能体可能为了抄近路而忽略指令中的关键描述(如“从桌子后面绕过去”)。RCM的真正创新在于其内在奖励RCM,它通过一个“循环重构”(Cycle-Reconstruction)的思想来解决路径保真度问题。

这个思想非常巧妙：如果一条轨迹T很好地遵循了指令X,那么反过来，一个强大的模型（Speaker）应该能够仅根据这条轨迹T准确地重构出原始指令X。
因此，内在奖励被定义为这个重构的成功概率。

每一步生成的单词都会和真实的第i步的输出xi进行条件概率分析，为了防止连乘过小值，使用对数平均值实现

RCM的设计体现了一种深刻的洞察：奖励信号本身可以被设计成一种对复杂认知能力的代理度量。

VLN的核心挑战在于将语言符号（指令）与具身感知和行动（轨迹）联系起来，即“跨模态接地”。

仅仅依靠最终是否到达目的地的外在奖励，完全无法衡量这一过程的质量。RCM的创造者们巧妙地将问题反转：他们不直接问“智能体是否遵循了指令？”，而是问“一个外部观察者能否从智能体

的路径中推断出原始指令？”。这个反转的问题由匹配评论家来回答，其输出的重构概率就成了一

个衡量“语义-路径”一致性的直接代理指标。这不仅仅是关于正确地完成任务，更是关于“以正确

的方式”完成任务。这种方法建立了一个重要原则：可以通过构建一个执行“逆向任务”的评论家

模型，来为复杂的认知对齐任务创造有效的监督信号。

然而，这种设计的精妙之处也伴随着相应的代价。RCM的框架依赖于两个独立且复杂的神经网络：

导航器和评论家。
训练流程是多阶段的：必须首先在专家数据上预训练评论家，然后才能用它来训练导航器。
这不仅增加了工程上的复杂性和计算开销，更重要的是，导航器的最终性能上限被预训练评论家的质量所束缚。如果评论家本身对路径-指令的对齐判断能力不佳，它就会提供一个充满噪声甚至具有误导性的奖励信号，从而“毒化”导航器的学习过程。这种模块化的设计哲学虽然在当时很普遍，但它引入了潜在的性能瓶颈和显著的工程开销

双脑结构——AC方法和SF模型

混合模型

经过对模仿学习和强化学习各自优缺点的深入探讨，VLN领域的研究者们逐渐认识到，单一的学

习范式难以完美地解决任务的所有挑战。模仿学习高效但脆弱，强化学习鲁棒但低效。因此，将

两者结合，取长补短，形成混合方法，成为了该领域发展的必然趋势

VLN-R1模型（分层型（HANNA））——扩大预测视野、减小积累误差

确保智能体不仅关注当前步骤的正确性，还能考虑未来几步的动作。

TDR时间衰减奖励函数

描述

智能体的行为序列在多大度上模仿了专家的行为序列。

VLN-R1流程——走向LLM-VLN（将图片文字化）

VLNR1很像分层导航啊，从第三视角得到所有的可达位置，然后结合Q从离散图中得到轨迹，然后从自身视角获取环境信息，经过LLM输出动作
其中2）中的LVLM可以是CLIP（
视觉-语言翻译器

它能告诉你：

这张图“像”哪句话？
这句话“对应”哪类场景？

）

类比理解：LLM 是“盲人天才”，视觉编码器是“导盲犬”

LLM：语言能力极强，但天生“看不见”
视觉编码器 + Projector：是它的“眼睛”和“翻译官”，把图像转成“语言描述”（token 序列）
最终输入：是“文字+图像描述”的混合文本，LLM 就能“看图说话”了

整个流程如何运行？（带张量示例）

我们用一个具体例子 + 张量表示来说明：

🎯 任务：

“Walk forward and stop at the white and blue sofas.”

🧭 第一层：高层规划（离散路径生成）

# 第三人称视角提取的可达点（n x 2）
waypoints = tensor([[1.2, 3.5],  # p1: entrance[2.3, 4.0],  # p2: table[3.0, 2.8],  # p3: white sofa[4.1, 3.2],  # p4: bookshelf[8.5, 4.1]   # p17: blue sofa
])  # shape: [5, 2]# LVLM 输入：指令 + 所有点
prompt = f"""
Given the instruction: "{Q}"
Which sequence of waypoints leads to the correct destination?
Options: p1, p2, p3, p4, ..., p17
Answer: [p1 -> p3 -> p17]
"""# 高层输出：离散路径（token IDs）
high_level_path = [1, 3, 17]  # 模型输出的 token 序列

🎮 第二层：低层执行（动作生成）

# 当前状态：自身视角图像 + 当前位置 + 当前目标点
ego_image = get_current_view()        # shape: [3, 224, 224]
current_pos = tensor([2.3, 4.0])      # p2: 当前在 table 附近
target_pos = tensor([3.0, 2.8])       # p3: 要去 white sofa# LVLM 输入上下文：
prompt = f"""
You are at position {current_pos}.
Your next goal is to reach {target_pos}.
Instruction: "{Q}"
Current view: [image]
What should you do? Choose from:
A. Move forward
B. Turn left
C. Turn right
D. Stop
Answer: A
"""# 低层输出：动作 token
action_logits = model(prompt)          # shape: [vocab_size]
action = sample(action_logits)         # e.g., 'A' → Move forward

组相对优化GRPO

类似AC模型，其中LVLM是actor，TDR是critic，但是DTR不训练，仅仅作为打分标准，指导LVLM的行动。

TDR的设计反映了在拥有强大基础模型时代，奖励设计理念的根本性转变。VLN-R1所使用的LVLM是一个在海量数据上预训练过的巨模型，它本身已经内化了丰富的世界知识和语言理解能力。因此，RFT阶段的目标不再是从零开始向模型“注入”关于“椅子”是什么或如何“左转”的知识。
TDR奖励函数本身并不评估任何深层的语义一致性，它只衡量一件事：智能体的行为序列在多大程度上模仿了专家的行为序列。
因此，TDR并非一种知识注入机制，而是一种精细的“行为微调”（behavioral nudging）工具。它利用强化学习的框架，温和地引导LVLM强大的生成能力，使其输出的动作序列在VLN这个特定任务上更具鲁棒性和时序连贯性。
这标志着一种范式转变：当基础模型足够强大时，奖励设计的重点可以从构建复杂的、赋予知识的信号，转向设计更简单的、对齐行为的信号。繁重的认知工作由预训练完成，而强化学习则专注于“最后一公里”的专业化微调。（本节的主题“从认知走向决策”）

从一个更高的维度看，从RCM到TDR的演变，可以被视为奖励设计领域自身的一次“端到端”学习

革命。在机器学习的早期，特征工程是关键，研究者需要为模型手工设计有效的特征。深度学习

的革命在于将特征学习的过程自动化，并将其内化到模型本身。

在奖励设计上，我们看到了一个相似的趋势。RCM的内在奖励可以被看作是一个复杂的、“手工

工程化”的奖励函数。它需要设计一个全新的、结构复杂的神经网络（评论家）来“制造”这个

奖励信号，这本质上是一种“奖励特征工程”。而TDR则简单得多，它直接使用原始的基准真相

（专家动作）作为参考。其奖励函数本身不包含复杂的“智能”，所有的复杂性都被转移到了强

大的LVLM基础模型和RFT优化过程中。这标志着领域成熟度的一个重要里程碑：研究者们正逐渐将“智能”从奖励函数本身移出，并将其置于智能体模型的核心，从而将强化学习问题简化为一个

更纯粹的对齐问题