当前位置：首页 > news >正文

梯度下降法以及 Python 实现

news 2025/8/4 15:01:16

文章目录

1. 引言
2. 梯度法
3. 例子
4. 代码实现
5. 讨论 — 学习率 $\eta$
- 5.1 当 $\eta$ 设置过大
- 5.2 当 $\eta$ 设置过小
参考

1. 引言

梯度下降法，可以根据微分求出的斜率计算函数的最小值。
在人工智能中，经常被应用于学习算法。

2. 梯度法

梯度法 是根据函数的微分值（斜率）搜索最小值的算法。

梯度下降法也是一种梯度法，它通过向最陡方向下降来查找最小值。

给定一个多变量函数：
$f(x_1, x_2, \dots, x_i, \dots, x_n).$
首先为 $x$ 赋予一个合适的初始值，然后通过下面的表达式进行更新：
$x^{t+1}_i = x^{t}_i - \eta \frac{\partial f(x)}{\partial x_i}.$

其中， $\displaystyle \frac{\partial f(x)}{\partial x_i}$ 表示函数 $f (x)$ 对变量 $x_i$ 的偏导数。 $x^{t}_i$ 表示第 $t$ 次迭代时变量 $x_i$ 的取值， $x^{t+1}_i$ 表示第 $t + 1$ 次迭代时变量 $x_i$ 的取值。需要说明的是， $t$ 是一个非负整数，也即是 $\in \mathbb{N}$ 。

$\eta$ 是一个重要的参数，被称为学习系数或学习率的常数。 $\eta$ 决定了 $x_i$ 的更新速度。可以理解为，一个人 P 要从 A 点走到 B 点，， $\eta$ 就是 P 走路时每一步的跨步大小，也称为步长。

根据该表达式， $\displaystyle \frac{\partial f(x)}{\partial x_i}$ 越大，也即是坡度越陡， $x_i$ 值的变化就越大。

重复此操作，直到 $f (x)$ 停止变化，那么此时 $f (x)$ 的值就是 $\min f(x)$ 。

3. 例子

给定一个单变量函数 $f (x)$ ：
$f(x)= x^2 - 2x.$
求 $f (x)$ 的最小值。

解：函数 $f (x)$ 的导数记为 $f^{'} (x)$ ：
$f'(x)=\frac{\mathrm{d} f(x)}{\mathrm{d} x}=2x-2.$
令 $f^{'} (x) = 0$ ，则
$\begin{aligned} f'(x) =0 \Rightarrow 2x-2 & = 0 \\ x & = 1. \\ \end{aligned}$
即当 $x = 1$ 处， $f (x)$ 的导数 $f^{'} (x)$ 为 0。

将 $x = 1$ 带入到 $f (x)$ 中，得到：
$f_{\min}(x)=f(x=1)=1^2-2*1=-1.$

即 $f (x)$ 的最小值在 $x = 1$ 处取得，最小值为 -1。

下面通过模拟梯度下降法来求解。

假设 $x$ 的初始值为 2，即 $x^0=2$ ，令学习率 $\eta=0.1$ 。

次数 $t$	变量 $x^t$	导数 $f'(x^t)=2x^t-2$	函数 $f(x^t)=(x^t)^2-2x^t$	更新 $x^{t+1}$
0	$x^0=2$	$f'(x^0)=2*2-2=2$	$f(x^0)=2^2-2*2=0$	$x^1=2-0.1*2=1.8$
1	$x^1=1.8$	$f'(x^1)=2*1.8-2=1.6$	$f(x^1)=1.6^2-2*1.6=-0.64$	$x^2=1.8-0.1*1.6=1.64$
2	$x^2=1.64$	$f'(x^2)=2*1.64-2=1.28$	$f(x^2)=1.64^2-2*1.64=-0.5904$	$x^3=1.64-0.1*1.28=1.512$
3	$x^3=1.512$	$f'(x^3)=2*1.512-2=1.024$	$f(x^3)=1.512^2-2*1.512=-0.7379$	$x^4=1.512-0.1*1.024=1.4096$
4	$x^4=1.4096$	$\dots$	$\dots$	$\dots$

根据梯度下降法的公式进行计算，可以得到上面的表格。可以观察到，导数 $f^{'} (x)$ 的值越来越小。继续计算上面的表， $x$ 的值会越来越小，逐渐逼近 1。当 $f^{'} (x) = 0$ 时， $x = 1$ ，此时 $f (x) = - 1$ 。

4. 代码实现

我们利用 Python 代码可以模拟上面的梯度下降过程。

定义一个函数，表示 $f (x)$ ：

def my_func(x):"""$y = x^2 - 2x$:param x: 变量:return: 函数值"""return x**2 - 2*x

变量 x 对应于 $x$ ，my_func() 的结果（返回值）对应于 $f (x)$ 。

再定义一个函数，表示 $f^{'} (x)$ ：

def grad_func(x):"""函数 $y = x^2 - 2x$ 的导数:param x: 变量:return: 导数值"""return 2*x - 2

变量 x 对应于 $x$ ，grad_func() 的结果（返回值）对应于 $f^{'} (x)$ 。

给定一个学习率 $\eta$ ，给定一个 $x$ 的初始值

eta = 0.1
x = 4.0

那么就可以开始模拟梯度下降法求解最小值。

import numpy as np
import matplotlib.pyplot as pltdef my_func(x):"""$y = x^2 - 2x$:param x: 变量:return: 函数值"""return x**2 - 2*xdef grad_func(x):"""函数 $y = x^2 - 2x$ 的导数:param x: 变量:return: 导数值"""return 2*x - 2eta = 0.1
x = 4.0
record_x = []
record_y = []for i in range(20):y = my_func(x)record_x.append(x)record_y.append(y)x -= eta * grad_func(x)print(np.round(record_x, 4))
print(np.round(record_y, 4))x_f = np.linspace(-2, 4)
y_f = my_func(x_f)plt.plot(x_f, y_f, linestyle='--', color='red')
plt.scatter(record_x, record_y)plt.xlabel('x', size=14)
plt.ylabel('y', size=14)
plt.grid()
plt.show()

$x$ 的变化过程为：

[4. 3.4 2.92 2.536 2.2288 1.983 1.7864 1.6291 1.5033 1.4027 1.3221 1.2577 1.2062 1.1649 1.1319 1.1056 1.0844 1.0676 1.054 1.0432]

$f (x)$ 的变化过程为：

[ 8. 4.76 2.6864 1.3593 0.5099 -0.0336 -0.3815 -0.6042 -0.7467 -0.8379 -0.8962 -0.9336 -0.9575 -0.9728 -0.9826 -0.9889 -0.9929 -0.9954 -0.9971 -0.9981]

我们使用了 matplotlib 可视化函数 $f (x)$ 的图像，以及梯度下降法求解的过程。

在这里插入图片描述