当前位置：首页 > news >正文

机器学习笔记之优化算法(六)线搜索方法(步长角度；非精确搜索；Glodstein Condition)

news 2025/7/10 4:30:01

机器学习笔记之优化算法——线搜索方法[步长角度，非精确搜索，Glodstein Condition]

引言

引言

上一节介绍了 $\text{Armijo}$ 准则 $(\text{Armijo Condition})$ ，本节将继续介绍 $\text{Glodstein}$ 准则 $(\text{Glodstein Condition})$ 。

回顾： $\text{Armijo Condition}$

首先，希望数值解对应的目标函数结果 $\{f(x_k)\}_{k=0}^{\infty}$ 收敛至最优解 $f^*$ ：
$\{f(x_k)\}_{k=0}^{\infty} \Rightarrow f^*$
而数值解对应的目标函数结果满足严格的单调性是一项不可忽视的重要因素：
$\begin{cases} \begin{aligned} & f(x_{k+1}) = f(x_k + \alpha \cdot \mathcal P_k) = \phi(\alpha) \\ & \phi(\alpha) = f(x_{k+1}) < f(x_k) = \phi(0) \end{aligned} \end{cases}$
但仅仅满足 $\{f(x_k)\}_{k=0}^{\infty}$ 服从严格的单调性不足以证明 $\{f(x_k)\}_{k=0}^{\infty} \Rightarrow f^*$ 。也就是说：后者是前者的必要不充分条件。
关于不充分性质的反例，见传送门

$\text{Armijo}$ 准则产生的动机在于：条件 $f(x_{k+1}) < f(x_k)$ 的约束能力太松散。而具体表现在： $\phi(\alpha)$ 函数中，满足条件 $f(x_{k+1})< f(x_k)$ 的 $\alpha$ 值过多，反而对优秀步长结果的选择产生阻碍：
基础条件涵盖范围
观察上图，其中：

蓝色曲线表示 $\phi(\alpha)$ 的函数曲线；
红色虚线表示步长 $\alpha$ 的划分边界 $\phi(\alpha) = f(x_k)$ 。因而 $f(x_{k+1})< f(x_k)$ 描述的是红色虚线下方的部分，具体对应步长 $\alpha$ 的选择范围见 $\alpha$ 轴上的红色实线。

$\text{Armijo Condition}$ 关于 $f(x_{k+1})< f(x_k)$ 条件过于松散的处理方法是：相比于上图中的红色虚线，尝试找到一条更优的直线对 $\phi(\alpha)$ 进行划分，最终使步长 $\alpha$ 的选择范围明显降低。

它选择了 $\phi(\alpha) = f(x_k)$ 与 $\phi(\alpha)$ 在 $\alpha=0$ 处的切线函数： $l(\alpha) = f(x_k) + [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha$ 进行组合，其划分边界函数表示为：
$\mathcal L(\alpha) = f(x_k) + \mathcal C_1 \cdot [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha \quad \mathcal C_1 \in (0,1)$
由于 $\mathcal C_1 >0,\alpha>0$ (步长的物理意义)；并且 $\left[\nabla f(x_k)\right]^T \mathcal P_k < 0$ ，因此函数 $\mathcal L(\alpha)$ 的斜率存在：
关于 $[\nabla f(x_k)]^T \mathcal P_k < 0$ 详见优化算法——下降方向的推导过程

上界： $0$ (无法取到)，此时 $\mathcal L(\alpha)$ 的函数图像与 $\phi(\alpha) = f(x_k)$ 的函数图像重合；
下界： $[\nabla f(x_k)]^T \mathcal P_k$ (无法取到)，此时 $\mathcal L(\alpha)$ 的函数图像与 $l(\alpha)$ 的函数图像重合。

对应函数图像表示如下。可以看到：相比上图， $\alpha$ 轴上绿色实线描述的步长 $\alpha$ 的选择范围明显小于上图中红色实线描述的范围。从而对最优步长 $\alpha$ 的选择进行优化。
这里并没有涉及证明过程，仅是从逻辑角度进行描述。
Armijo Condition效果
关于为什么要选择 $l(\alpha)$ 的斜率 $[\nabla f(x_k)]^T \mathcal P_k$ 作为下界的描述 $?$ 主要是因为：该切线函数在局部范围内的函数图像(凸函数)中不存在位于该切线下方的函数结果。但这仅仅作用于局部范围。因为我们对完整的 $\phi(\alpha)$ 函数未知，在全局范围中可能存在函数信息位于 $l(\alpha)$ 下方。例如下图描述的 $\phi(\alpha)$ 函数：
初始点对应的切线斜率不是绝对下界
因此，斜率 $[\nabla f(x_k)]^T \mathcal P_k$ 并不是绝对下界。但不否认的是： $l(\alpha)$ 的斜率用于划分有效的 $\alpha$ 步长来说是苛刻的，至少比 $\phi(\alpha) = f(x_k)$ 描述的范围更加严格。

关于 $\text{Armijo Condition}$ 的弊端

关于 $\text{Armijo}$ 规则，我们仅从 $\mathcal L(\alpha)$ 公式的角度也能看出它相比 $f(x_{k+1}) <f(x_k)$ 更加严格：
$f(x_{k+1}) = \phi(\alpha) < \mathcal L(\alpha) = f(x_k) + \underbrace{\mathcal C_1\cdot [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha}_{<0} <f(x_k)$
但 $\text{Armijo}$ 规则依然存在弊端：在 $\mathcal C_1 \in (0,1)$ 的选择过程中，依然存在：满足 $\phi(\alpha) < \mathcal L(\alpha)$ 的 $\alpha$ 结果过少，从而这些样本点包含的 $\alpha$ 范围过小。例如：
其中绿色实线描述 $\mathcal L(\alpha)$ ,其对应的有效范围见 $\alpha$ 轴上的绿色实线。可以看出，覆盖的 $\alpha$ 范围极小并且对应的 $\phi(\alpha)$ 结果也不够优秀。
包含a范围过小
上述情况是有可能出现的，虽然我们并不执著最小值一定位于 $\phi(\alpha) < \mathcal L(\alpha)$ 所描述的 $\alpha$ 范围内(因为是求数值解)，但我们同样希望：排除掉类似这种 $\alpha$ 较小，并且质量不高的情况，或者：我们更希望 $\phi(\alpha)$ 的核心部分有机会出现在范围内。

$\text{Glodstein Condition}$

$\text{Glodstein Consition}$ 是在 $\text{Armijo Condition}$ 的基础上，给 $\phi(\alpha)$ 的范围加上一个下界：
$\begin{cases} \text{Glodstein Condition : }\underbrace{f(x_k) + \mathcal C_2 \cdot [\nabla f(x_k)]^T\mathcal P_k \cdot \alpha}_{\text{Lower Bound}} \leq \phi(\alpha) \leq \underbrace{f(x_k) + \mathcal C_1 \cdot [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha}_{\text{Upper Bound;Armijo Condition}} \\ \quad \\ \mathcal C_1 + \mathcal C_2 = 1 \end{cases}$
经过整理，使用一个参数 $\mathcal C$ 对上述范围进行描述：
$f(x_k) + (1 - \mathcal C) [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha \leq \phi(\alpha) \leq f(x_k) + \mathcal C \cdot [\nabla f(x_k)]^T \mathcal P_k \alpha \quad \mathcal C \in \left(0,\frac{1}{2}\right)$
对应的函数图像表示如下：
Goldstein Condition示例
其中两条绿色实线关于 $\begin{aligned}f(x_k) + \frac{1}{2} [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha\end{aligned}$ (蓝色虚线)对称，两条绿色实线之间的范围就是 $\phi(\alpha)$ 有效的选择范围。其对应的 $\alpha$ 选择范围见上图 $\alpha$ 轴上的绿色实线。

从而可以通过修改 $\mathcal C$ 的数值，从而调整上图绿色实线之间的夹角。这种 $\phi(\alpha)$ 的选择方式极大程度地将 $\phi(\alpha)$ 的核心部分包含在选择范围内。从而缓解了 $\text{Armijo Condition}$ 的弊端。

$\text{Goldstein Condition}$ 的弊端

即便 $\text{Goldstein Condition}$ 缓解了 $\text{Armijo Condition}$ 的弊端。但其自身也同样存在弊端：当参数 $\mathcal C$ 接近 $\begin{aligned}\frac{1}{2}\end{aligned}$ 时，上下界均会朝着中心轴 $\begin{aligned}f(x_k) + \frac{1}{2} [\nabla f(x_k)]^T \mathcal P_k \cdot \alpha\end{aligned}$ 方向靠拢。最终可能得到如下效果：

虽然这里描述的 $\phi(\alpha)$ 范围还比较优秀，但这只是特例。在两条绿线之间的夹角极小时，我们映射出的 $\phi(\alpha)$ 范围以及对应的 $\alpha$ 范围都非常小，后面可能导致其将一些优质的 $\alpha$ 结果给过滤掉。
但与 $\text{Armijo Condition}$ 相比， $\text{Goldstein Condition}$ 确实将选择范围集中在 $\phi(\alpha)$ 的核心位置，而不是数量少的，较偏的 $\phi(\alpha)$ 位置上。

下一节针对 $\text{Glodstein Condition}$ 因 $\mathcal C$ 值过于接近 $\begin{aligned}\frac{1}{2}\end{aligned}$ 而导致优质 $\alpha$ 结果被误杀的情况，我们介绍 $\text{Wolfe Condition}$ 。