当前位置：首页 > news >正文

【单点知识】基于PyTorch讲解自动编码器（Autoencoder）

news 2025/7/6 4:50:41

文章目录

- 0. 前言
- 1. 自动编码器的基本概念
- - 1.1 定义
  - 1.2 目标
  - 1.3 结构
- 2. PyTorch实现自动编码器
- - 2.1 导入必要的库
  - 2.2 定义自动编码器模型
  - 2.3 加载数据
  - 2.4 训练自动编码器
- 3. 自动编码器的意义
- 4. 自动编码器的应用
- - 4.1 图像处理
  - 4.2自然语言处理：
  - 4.3推荐系统：
  - 4.4异常检测：
- 5. 总结

0. 前言

按照国际惯例，首先声明：本文只是我自己学习的理解，虽然参考了他人的宝贵见解及成果，但是内容可能存在不准确的地方。如果发现文中错误，希望批评指正，共同进步。

自动编码器（Autoencoder）是一种无监督学习方法，主要用于降维、特征学习和生成任务。它通过学习输入数据的压缩表示（编码）并尝试重构输入数据（解码）来实现这一目的。本文将详细介绍自动编码器的基本概念、工作原理及其在PyTorch中的实现。

1. 自动编码器的基本概念

1.1 定义

自动编码器是一种神经网络，由两部分组成：编码器（Encoder）和解码器（Decoder）。编码器将输入数据 $x$ 映射到一个低维的编码表示 $z$ ，解码器则将编码表示 $z$ 重构回输入数据 $x^{'}$ （理想情况下 $x = x^{'}$ ）。整个过程可以表示为：
$g_{\phi}(x)=z$
$f_{\theta}(z) = x'$

在这里插入图片描述

1.2 目标

自动编码器的目标是最小化重构误差，即输入数据 $x$ 和重构数据 $x^{'}$ 之间的差异。常用的损失函数包括均方误差（Mean Squared Error, MSE）和二值交叉熵（Binary Cross-Entropy）。

1.3 结构

典型的自动编码器结构如下：

编码器：将输入数据 $x$ 映射到低维编码 $z$ 。
解码器：将低维编码 $z$ 重构回输入数据 $x^{'}$ 。

2. PyTorch实现自动编码器

下面举一个MNIST数据的自动编码器实例（即上图的实现）。

2.1 导入必要的库

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

2.2 定义自动编码器模型

class Autoencoder(nn.Module):def __init__(self, input_dim, hidden_dim, latent_dim):super(Autoencoder, self).__init__()self.encoder = nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, latent_dim))self.decoder = nn.Sequential(nn.Linear(latent_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, input_dim),nn.Sigmoid())def forward(self, x):z = self.encoder(x)x_output = self.decoder(z)return x_output, z

2.3 加载数据

transform = transforms.Compose([transforms.ToTensor()])
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform) #这里需要有MNIST数据集
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)

2.4 训练自动编码器

input_dim = 28 * 28
hidden_dim = 128
latent_dim = 64
learning_rate = 0.001
num_epochs = 10model = Autoencoder(input_dim, hidden_dim, latent_dim)
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)for epoch in range(num_epochs):for data in train_loader:img, _ = dataimg = img.view(img.size(0), -1)  #把二维图像处理成一维向量optimizer.zero_grad()output, _ = model(img)loss = criterion(output, img)loss.backward()optimizer.step()print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

输出为：

Epoch [1/10], Loss: 1.2363
Epoch [2/10], Loss: 1.2503
Epoch [3/10], Loss: 1.2281
Epoch [4/10], Loss: 1.2087
Epoch [5/10], Loss: 1.1894
Epoch [6/10], Loss: 1.1315
Epoch [7/10], Loss: 1.1038
Epoch [8/10], Loss: 1.0488
Epoch [9/10], Loss: 1.0164
Epoch [10/10], Loss: 1.0135