当前位置：首页 > news >正文

牛客网算法八股刷题系列(七)正则化(软间隔SVM再回首)

news 2025/7/20 21:42:31

牛客网算法八股刷题系列——正则化[软间隔SVM再回首]

题目描述
正确答案： $C\mathcal C$
题目解析
- 开端：关于函数间隔问题解释的补充
- 软间隔 $SVM\text{SVM}$
- $Hinge\text{Hinge}$ 损失函数
- 支持向量机的正则化

题目描述

关于支持向量机 $Machine,SVM)(\text{Support Vector Machine,SVM})$ ，下列说法错误的是 $()(\quad)$

$AL2\mathcal A \quad L_2$ 正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力

$BHinge\mathcal B \quad \text{Hinge}$ 损失函数，作用是最小化经验风险错误

$C\mathcal C \quad$ 分类间隔 $1∣∣W∣∣\begin{aligned}\frac{1}{||\mathcal W||}\end{aligned}$ ，其中 $∣∣W∣∣||\mathcal W||$ 代表向量的模

$DL1\mathcal D \quad L_1$ 正则化对所有参数的惩罚力度都一样，可以让一部分权重变为零，因此产生稀疏模型，能够去除某些特征

正确答案： $C\mathcal C$

题目解析

开端：关于函数间隔问题解释的补充

该部分对照支持向量机——模型构建思路进行阅读。

这里依然以二分类任务为例。已知数据集合 $D\mathcal D$ 以集合内的标签集合表示如下：
$D={(x(i),y(i))}i=1Ny(i)∈{+1,−1}\mathcal D = \{(x^{(i)},y^{(i)})\}_{i=1}^N \quad y^{(i)} \in \{+1,-1\}$

在支持向量机——模型构建思路介绍了分类正确的标志：模型输出结果 $WTx(i)+b\mathcal W^Tx^{(i)} + b$ 与对应标签结果 $y^{(i)}$ 同号：
${WTx(i)+b>0y(i)=+1WTx(i)+b<0y(i)=−1\begin{cases} \mathcal W^Tx^{(i)} + b > 0 \quad y^{(i)} = +1 \\ \mathcal W^T x^{(i)} + b < 0 \quad y^{(i)} = -1 \end{cases}$
从而确定模型的决策边界(超平面)：
$WTx+b=0\mathcal W^Tx + b = 0$
虽然找到了决策边界，但出现了新的问题：决策边界不唯一。我们可以对上述决策边界进行任意缩放 $⇒\Rightarrow$ 等式两侧同时乘以常数 $k$ ，决策边界并不发生影响。
$\cdot (\mathcal W^Tx + b) = k \cdot 0 = 0$
但是对应的函数间隔 $Margin)H(i)=y(i)(WTx(i)+b)(x(i),y(i)∈D)(\text{Functional Margin}) \mathcal H^{(i)} = y^{(i)}(\mathcal W^Tx^{(i)} + b) \quad (x^{(i)},y^{(i)} \in \mathcal D)$ 发生了变化：
$k⋅H(i)=y(i)[k⋅(WTx(i)+b)]\begin{cases} \text{Original : } \mathcal H^{(i)} = y^{(i)}(\mathcal W^Tx^{(i)} + b) \\ \text{Expand/Reduce : } k \cdot \mathcal H^{(i)} = y^{(i)} \left[k \cdot (\mathcal W^Tx^{(i)} + b)\right] \end{cases}$
不同的决策边界，会导致某个样本点会存在多个函数间隔的判别结果。这意味着：仅通过 $WTx(i)+b\mathcal W^Tx^{(i)} + b$ 和 $y^{(i)}$ 同号这个约束，没有办法让模型收敛。通过对函数间隔的描述，可以通过公式对该描述进行表达：
$∃γ>0⇒min⁡x(i),y(i)∈Dy(i)(WTx(i)+b)=min⁡x(i),y(i)DH(i)=γ\exist \gamma > 0 \Rightarrow \mathop{\min}\limits_{x^{(i)},y^{(i)} \in \mathcal D} y^{(i)}(\mathcal W^Tx^{(i)} + b) = \mathop{\min}\limits_{x^{(i)},y^{(i)}\mathcal D} \mathcal H^{(i)} = \gamma$
为了方便计算，设定 $γ=1\gamma = 1$ 。也就是说，无论对决策边界扩张还是收缩，都可以通过对 $W,b\mathcal W,b$ 进行相应的缩放，使得等式成立：

由于 $W,b\mathcal W,b$ 都是向量，缩放变换后的 $W′,b′\mathcal W',b'$ 必然和原结果线性相关。并没有影响对权重特征的描述。
该部分见《机器学习(周志华著)》P122 左侧小字解释部分
$min⁡x(i),y(i)∈Dy(i)(WTx(i)+b)=1⇔y(i)(WTx(i)+b)≥1\mathop{\min}\limits_{x^{(i)},y^{(i)} \in \mathcal D} y^{(i)}(\mathcal W^Tx^{(i)} + b) = 1 \Leftrightarrow y^{(i)} (\mathcal W^Tx^{(i)} + b) \geq 1$

最终可将支持向量机——最大间隔分类器表示为如下基本型：
${min⁡W,b12∣∣W∣∣2s.t.y(i)(WTx(i)+b)≥1(x(i),y(i))∈D\begin{cases} \begin{aligned}\mathop{\min}\limits_{\mathcal W,b} \frac{1}{2} ||\mathcal W||^2\end{aligned} \\ s.t. \quad y^{(i)}(\mathcal W^Tx^{(i)} + b) \geq 1 \quad (x^{(i)},y^{(i)}) \in \mathcal D \end{cases}$

软间隔 $SVM\text{SVM}$

该部分对照支持向量机——软间隔 $SVM\text{SVM}$ 进行阅读。

关于软间隔构建损失函数的动机 可描述为：

假设损失函数为 $L\mathcal L$ ，如果某样本被划分正确，那么对应的 $L=0\mathcal L = 0$ ；
相反，如果某样本没有被划分正确，意味着 $y(i)(WTx(i)+b)<1y^{(i)}(\mathcal W^Tx^{(i)} + b) < 1$ ，那么对应的函数结果为：
可以看出，该结果是一个 $≤1\leq 1$ 的正值。
$(x(i),y(i))⇒L(i)=1−y(i)(WTx(i)+b)(x^{(i)},y^{(i)}) \Rightarrow \mathcal L^{(i)} = 1 - y^{(i)}(\mathcal W^Tx^{(i)} + b)$

可以看出，该损失函数大于等于 $0$ 恒成立，并且这些正值是由划分错误的样本累积起来产生的。

基于上述动机，我们尝试使用 $0/1$ 损失函数描述上述两种情况：
该函数的特点：无论划分错误的偏差有多大，都被一视同仁为数值 $1$ .
$L0/1[y(i)(WTx(i)+b)−1]={1y(i)(WTx(i)+b)−1<00Otherwise\mathcal L_{0/1}\left[y^{(i)}(\mathcal W^Tx^{(i)} + b) - 1\right] = \begin{cases} 1 \quad y^{(i)}(\mathcal W^Tx^{(i)} + b) - 1 < 0 \\ 0 \quad \text{Otherwise} \end{cases}$
从而对应拉格朗日函数可描述为如下形式：
依然是‘拉格朗日乘数法’。
$min⁡W,b12∣∣W∣∣2+C∑x(i),y(i)∈DL0/1[y(i)(WTx(i)+b)−1]\mathop{\min}\limits_{\mathcal W,b} \frac{1}{2} ||\mathcal W||^2 + \mathcal C\sum_{x^{(i)},y^{(i)} \in \mathcal D}\mathcal L_{0/1} \left[y^{(i)}(\mathcal W^Tx^{(i)} + b) - 1\right]$

$Hinge\text{Hinge}$ 损失函数

由于 $0/1$ 损失函数在定义域内并非处处连续，在优化过程中因无法处处可导导致无法求解出迭代最优解；并且 $∑x(i),y(i)∈DL0/1[y(i)(WTx(i)+b)−1]\sum_{x^{(i)},y^{(i)} \in \mathcal D}\mathcal L_{0/1} \left[y^{(i)}(\mathcal W^Tx^{(i)} + b) - 1\right]$ 的结果是一个正整数，对于划分错误的样本偏差描述得不够细致。

因此，另一种方法是将偏差值直接作为损失函数的一部分，具体数学描述表示如下：
$L={0y(i)(WTx(i)+b)≥11−y(i)(WTx(i)+b)Otherwise\mathcal L = \begin{cases} 0 \quad y^{(i)}(\mathcal W^Tx^{(i)} + b) \geq 1 \\ 1 - y^{(i)}(\mathcal W^Tx^{(i)} + b) \quad \text{Otherwise} \end{cases}$

和上述 $0/1$ 损失函数的动机相比，该函数在以 $y(i)(WTx(i)+b)y^{(i)}(\mathcal W^Tx^{(i)} + b)$ 的定义域内处处连续，并且该方法累积的偏差是真实的偏差结果。将上述两种情况使用一个公式进行表达：
$LHinge=max⁡{0,1−y(i)(WTx(i)+b)}\mathcal L_{Hinge} = \max \left\{0,1 - y^{(i)}(\mathcal W^Tx^{(i)} + b)\right\}$
该函数的图像表示为如下形式：

该函数由于形似一个开合的书页，也被称作合页损失函数( $Function\text{Hinge Loss Function}$ )，记作 $LHinge\mathcal L_{Hinge}$ 。最终，基于该函数的拉格朗日函数可描述为如下形式：
$min⁡W,b12∣∣W∣∣2+C∑x(i),y(i)∈Dmax⁡{0,1−y(i)(WTx(i)+b)}\mathop{\min}\limits_{\mathcal W,b} \frac{1}{2}||\mathcal W||^2 + \mathcal C \sum_{x^{(i)},y^{(i)} \in \mathcal D} \max \left\{0,1 - y^{(i)}(\mathcal W^Tx^{(i)} + b) \right\}$

支持向量机的正则化

上面介绍了两种损失函数： $0/1$ 损失函数，合页损失函数。实际上，无论是哪种损失函数，我们关注的是它们整体的优化目标，也就是拉格朗日函数。
${min⁡W,b12∣∣W∣∣2+C∑x(i),y(i)∈DL0/1[y(i)(WTx(i)+b)−1]min⁡W,b12∣∣W∣∣2+C∑x(i),y(i)∈Dmax⁡{0,1−y(i)(WTx(i)+b)}\begin{cases} \begin{aligned}\mathop{\min}\limits_{\mathcal W,b} \frac{1}{2} ||\mathcal W||^2 + \mathcal C\sum_{x^{(i)},y^{(i)} \in \mathcal D}\mathcal L_{0/1} \left[y^{(i)}(\mathcal W^Tx^{(i)} + b) - 1\right] \end{aligned}\\ \begin{aligned} \mathop{\min}\limits_{\mathcal W,b} \frac{1}{2}||\mathcal W||^2 + \mathcal C \sum_{x^{(i)},y^{(i)} \in \mathcal D} \max \left\{0,1 - y^{(i)}(\mathcal W^Tx^{(i)} + b) \right\} \end{aligned} \end{cases}$
观察上述两个函数，它们存在共性：

第一项：都是通过调整合适的参数 $W∗\mathcal W^*$ ，并尽可能使最大间隔 $∣∣W∣∣2||\mathcal W||^2$ 达到最小；
第二项：针对划分错误样本产生的误差 $(L0/1,LHinge)(\mathcal L_{0/1},\mathcal L_{Hinge})$ 达到最小。

关于上述拉格朗日函数的通式表示如下：
详见《机器学习》(周志华著) P133 6.5 支持向量回归公式6.42
$min⁡fΩ(f)+C∑x(i),y(i)∈DL[f(x(i)),y(i)]\mathop{\min}\limits_{f} \Omega(f) + \mathcal C \sum_{x^{(i)},y^{(i)} \in \mathcal D} \mathcal L[f(x^{(i)}),y^{(i)}]$

我们通常称第一项 $Ω(f)\Omega(f)$ 为结构风险( $Risk\text{Structual Risk}$ )，在支持向量机中结构风险是指对模型 $f$ 的结构——最大间隔逻辑进行优化；
第二项被称为经验风险( $Risk\text{Empirical Risk}$ )，具体描述模型与数据之间的契合程度。 $Hinge\text{Hinge}$ 函数作为减小经验风险的损失函数， $B\mathcal B \quad$ 选项正确。

至此，我们要纠正两个误区：

真正的损失函数指的是经验风险。通过观察，结构风险 $∣∣W∣∣2||\mathcal W||^2$ 自身 就是正则化的表达形式。因此，正则化的功能都能在结构风险中进行表达。

这里关于 $A\mathcal A \quad$ 选项中选择 $L_2$ 正则化项描述最大间隔的逻辑正确。
关于结构风险 $∣∣W∣∣2||\mathcal W||^2$ ，它并不是 $∣∣W∣∣2||\mathcal W||_2$ ，在之前关于 $∣∣W∣∣2=WTW||\mathcal W||^2 = \mathcal W^T\mathcal W$ 只是选择了 $L_2$ 正则化进行示例。实际上，在描述最大间隔的时候，不一定仅使用欧氏距离。在 $K-Means\text{K-Means}$ 算法介绍中提到过明可夫斯基距离，比较有代表性的是曼哈顿距离，对应的 $L_1$ 正则化；以及欧式距离，对应 $L_2$ 正则化。

在正则化——权重衰减角度(直观现象)中补充了 $L_1$ 正则化稀疏权重特征的过程。在迭代过程中， $L_1$ 正则化产生的权重点仅让一部分权重分量描述，而剩余的权重分量没有参与，从而导致权重分量尽量稀疏；
一部分权重分量没有发挥作用，对应的权重结果就是 $0$ 。

并且 $L_1$ 正则化对应所有权重分量均是一次项，对应的权重分量不会出现非线性的提高/打压，因而 $L_1$ 对权重的惩罚力度相同， $D\mathcal D \quad$ 选项正确。

相反， $L_2$ 正则化会倾向于将迭代的权重分摊在各个权重分量 上使各分量取值尽量平衡。从而使非零分量的数量更加稠密。

$C\mathcal C \quad$ 选项中的 $1∣∣W∣∣\begin{aligned}\frac{1}{||\mathcal W||}\end{aligned}$ 描述的是支持向量到最优决策边界的距离；而分类间隔表示最优决策边界两侧支持向量之间的距离。即 $2×1∣∣W∣∣=2∣∣W∣∣\begin{aligned}2 \times \frac{1}{||\mathcal W||}= \frac{2}{||\mathcal W||}\end{aligned}$ 。因此 $C\mathcal C \quad$ 选项错误。
求解过程详见支持向量机——模型求解.