当前位置：首页 > news >正文

Dive into Deep Learning-优化算法(1)

news 2025/8/5 14:07:32

优化和深度学习的关系

优化是最小化损失函数，而深度学习的目标是在给定有限数据量的情况下寻找合适的模型，分别对应着训练误差和泛化误差；
需要注意过拟合；

优化面临的挑战（求解数值解）

局部最小值：当优化问题的数值解接近局部最优值的时候，目标函数解的梯度接近或者变为0，通过迭代获得的数值解可能仅使目标函数局部最优，而不是全局最优，一定程度的噪声会使参数跳出局部最小值，这是小批量随机梯度下降的有利特性之一，此时小批量上梯度的自然变化能够将参数从局部最小资中跳出；
鞍点：定义为梯度为0但是既不是全局最小值也不是局部最小值的点，尽管不是最小值，但是优化可能会停止，假设输入是k维向量，假设在0梯度处的Hessian矩阵的k个特征值均为正，此时局部最小值，均为负，为局部最大值，有正有负为鞍点；
梯度消失

凸性

凸集：对于任意的 $a,b\in X$ ，连接 $a, b$ 的线段也位于 $X$ ，则集合 $X$ 是凸集，数学化表示，对于任意 $\lambda\in[0,1]$ ，有 $\lambda a + (1-\lambda) b\in X$ ，例如实数集，两个凸集的交集也是凸集；
凸函数：对于所有 $x,x'\in X,\lambda\in [0,1]$ ，有 $\lambda f(x) + (1-\lambda)f(x') \geq f(\lambda x + (1-\lambda)x')$ ;
詹森不等式：凸性定义的推广 $\sum_i\alpha_if(x_i)\geq f(\sum_i\alpha_i x_i),\sum_i\alpha_i=1$ ;
凸函数的性质：凸函数的局部极小值是全局极小值

i. 特征值和特征向量， $Av=\lambda v$ ，其中 $v$ 是特征向量， $\lambda$ 是特征值；例如对于 $\begin{bmatrix} 2 & 1\\ 2 & 3\end{bmatrix}$ ，他的特征值是 $4, 1$ 对应的两个特征向量是 $\begin{bmatrix} 1\\ 2\end{bmatrix}$ 和 $\begin{bmatrix} 1 \\ -1\end{bmatrix}$
ii. 求解特征值和特征向量： $(A-\lambda I)v = 0$ ，所以 $(A-\lambda I)$ 不可逆，也就是 $det(A-\lambda I)= 0$ ，即可解得特征值
iii. 延续上面的例子，特征向量组成的矩阵 $W=\begin{bmatrix}1 & 1\\-1 & 2\end{bmatrix}$ ，特征值组成的矩阵 $\sum=\begin{bmatrix}1 & 0\\0 & 4\end{bmatrix}$ ，可得 $AW=W\sum$ ，而且 $W$ 是可逆的，所以等式两边同乘 $W^{-1}$ 得到 $A=W\sum W^{-1}$
iv. 一些良好的性质： $A^n = W\sum^n W^{-1}$ ，也就是对应一个矩阵的乘方进行特征值分解，只需要将特征值进行同样的n次方即可，此时n需要时正数；对于矩阵的求逆， $A^{-1}=W\sum^{-1}W^{-1}$ ，可以看到对矩阵的逆进行特征值分解，直接对特征值求逆即可；矩阵的行列式等于矩阵的特征值的乘积 $\lambda_1\cdots \lambda_n$ ；矩阵的秩等于非0特征值的个数；
v. https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/eigendecomposition.html