当前位置：首页 > news >正文

33. 动量法（Momentum）介绍

news 2025/7/20 2:41:41

1. 背景知识

在深度学习的优化过程中，梯度下降法（Gradient Descent, GD）是最基本的方法。然而，基本的梯度下降法在实际应用中存在收敛速度慢、容易陷入局部最小值以及在高维空间中振荡较大的问题。为了解决这些问题，人们提出了动量法（Momentum）。

2. 动量法的概念

动量（Momentum）最初是一个物理学概念，表示物体的质量与速度的乘积。它的方向与速度的方向相同，并遵循动量守恒定律。尽管深度学习中的动量与物理学中的动量并不完全相同，但它们都强调了一个概念：在运动方向上保持运动的趋势，从而加速收敛。

3. 动量法在深度学习中的应用

在深度学习中，动量法通过记录梯度的增量并将其与当前梯度相加，来平滑梯度下降的路径。这意味着在每一步的迭代中，不仅考虑当前的梯度，还考虑之前梯度的累积效果。

动量法的更新公式如下：
\[ v_t = \beta v_{t-1} + (1 - \beta) \nabla L(w_t) \]
\[ w_{t+1} = w_t - \alpha v_t \]
其中：
- \( v_t \) 是动量项，记录了之前梯度的累积。
- \( \beta \) 是动量参数，控制动量项的衰减，一般取值为0.9。
- \( \nabla L(w_t) \) 是当前参数的梯度。
- \( \alpha \) 是学习率。

4. 动量法的优点

1. 加速收敛：动量法通过积累之前的梯度信息，使得优化过程更为顺畅，避免了曲折路径，提高了收敛速度。
2. 跳过局部最小值：由于动量的累积作用，可以帮助优化算法跳过一些局部最小值，找到更优的解。
3. 减少振荡：动量法可以有效减小学习过程中梯度震荡的现象，使得模型的训练更加稳定。

5. 动量法的缺点

1. 计算复杂度增加：由于需要维护动量项，会导致计算复杂度的增加。
2. 参数调节：动量法引入了新的超参数（动量系数），需要在实际应用中进行调节。

6. 动量法的改进及变种

在动量法的基础上，还有一些改进和变种，如Nesterov加速梯度（Nesterov Accelerated Gradient, NAG）、RMSprop、Adam等。这些方法在动量法的基础上进一步优化了收敛速度和稳定性。

7. 实验代码示例


import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt# 数据生成
torch.manual_seed(42)
X = torch.randn(1000, 1)
y = 3 * X.squeeze() + 2 + torch.randn(1000) * 0.5# 模型定义
class LinearModel(nn.Module):def __init__(self):super(LinearModel, self).__init__()self.linear = nn.Linear(1, 1)def forward(self, x):return self.linear(x)# 损失函数
criterion = nn.MSELoss()# 不同梯度下降方法的比较
methods = {'SGD': optim.SGD,'Momentum': lambda params: optim.SGD(params, lr=0.01, momentum=0.9)
}losses = {method: [] for method in methods}# 训练过程
epochs = 1000
for method_name, optimizer_fn in methods.items():model = LinearModel()optimizer = optimizer_fn(model.parameters())for epoch in range(epochs):optimizer.zero_grad()outputs = model(X)loss = criterion(outputs.squeeze(), y)loss.backward()optimizer.step()losses[method_name].append(loss.item())# 绘制损失曲线
for method_name, loss_values in losses.items():plt.plot(loss_values, label=method_name)
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.title('Loss Curve Comparison')
plt.show()