当前位置：首页 > news >正文

Vision Transformer学习笔记（2020 ICLR）

news 2025/9/15 14:36:18

摘要(Abstract)：简述了ViT（Vision Transformer）模型的设计和实验结果，展示了其在大规模图像数据集上进行训练时的优越性能。该模型直接采用原始图像块作为输入，而不是传统的卷积神经网络（CNNs），并通过Transformer架构处理这些图像块以实现高效的图像识别。
引言(Introduction)：强调了传统卷积神经网络在图像识别领域的主导地位及其局限性，尤其是随着数据集规模的增大，CNNs的效率和可扩展性面临挑战。相比之下，基于Transformer的模型显示出强大的潜力，特别是在处理序列数据方面。文章提出，通过适当的调整，Transformer同样可以有效地应用于图像识别任务。
方法(Methods)：

图像分块：首先，图像被分割成固定大小的小块（例如16x16像素），然后每个小块被视为一个“词”。
线性嵌入：对每个图像块应用线性变换，将其映射到更高的维度空间。
位置嵌入：为了解决图像块的位置信息丢失问题，添加了位置嵌入，使模型能够学习到每个块的空间关系。
Transformer编码器：利用标准的Transformer编码器结构来处理这些嵌入后的图像块，从中提取特征并进行分类。

结果(Results)：ViT模型在多个基准数据集上进行了评估，包括ImageNet、CIFAR-100等，结果显示，在大规模数据集上进行预训练后，ViT模型的表现可以与甚至超越最先进的卷积神经网络模型。
讨论(Discussion)：探讨了ViT模型的有效性和潜在的应用范围，同时也指出了其局限性，如对于较小的数据集可能需要更多的正则化或数据增强技术来避免过拟合。
结论(Conclusion)：总结了ViT模型的成功之处在于它能够高效地处理大规模图像数据集，并且不需要复杂的卷积操作。这表明Transformer架构具有广泛的适用性，不仅限于NLP领域，也可以成为计算机视觉任务的强大工具。

论文标题	An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
论文作者	Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob; Houlsby, Neil
发表日期	2020年01月01日
GB引用	> Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.[J]. CoRR, 2020, abs/2010.11929. > [1]Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[J]. Arxiv E-prints, 2020, arXiv:2010.11929.
DOI	https://doi.org/10.48550/arXiv.2010.11929

论文PDF地址：https://arxiv.org/pdf/2010.11929

论文架构大纲

摘要

本文介绍了一种名为Vision Transformer (ViT)的新模型，该模型直接将Transformer应用于图像识别任务。不同于以往在计算机视觉中使用自注意力机制时引入特定于图像的归纳偏差，ViT将图像视为一系列补丁，并通过标准Transformer编码器处理这些补丁。实验表明，当在大规模数据集上进行预训练时，ViT在多种图像分类基准上取得了与最先进的卷积神经网络相当甚至更好的结果，同时所需的计算资源更少。ViT在小数据集上的表现受益于其较少的归纳偏差，而在大规模数据集上则通过预训练克服了这一劣势。此外，研究还探讨了ViT的内部表示以及不同模型规模下的性能对比。总体而言，ViT展示了在图像识别任务中的潜力，并为进一步探索提供了方向。

这篇论文提出了一种名为Vision Transformer（ViT）的新型图像识别模型，它直接将Transformer架构应用于图像处理任务。以下是论文的主要内容总结：

背景：尽管Transformer在自然语言处理（NLP）领域取得了巨大成功，但在计算机视觉领域的应用仍然有限。现有的方法通常将注意力机制与卷积神经网络（CNN）结合使用，或者完全替换CNN的某些部分。
方法：ViT通过将图像分割成小块（patches），然后将这些块线性嵌入到一个固定维度的空间中，并添加位置编码，最后将这些嵌入的序列输入到标准的Transformer编码器中。为了进行分类，ViT在序列中添加了一个额外的可学习的“分类”标记。
实验：ViT在多个图像识别基准测试（如ImageNet、CIFAR-100、VTAB等）上进行了评估。在大规模数据集（如ImageNet-21k和JFT-300M）上预训练后，ViT在这些任务上达到了与最先进的CNN模型相媲美的性能，同时在训练过程中需要的计算资源更少。
结果：ViT在ImageNet上的准确率达到了88.55%，在CIFAR-100上的准确率达到了94.55%，在VTAB任务上的准确率达到了77.63%。这些结果表明，通过大规模预训练，ViT能够有效地学习图像的表示，并在多种视觉任务上实现优秀的性能。
挑战与未来工作：尽管ViT取得了显著的成果，但仍有许多挑战需要解决，包括将ViT应用于其他计算机视觉任务（如检测和分割）、进一步探索自监督预训练方法，以及继续扩大ViT的规模以提高性能。

研究问题

如何在不依赖卷积神经网络（CNN）的情况下，通过直接应用Transformer到图像块序列中，实现高效的图像分类任务？

研究方法

实验研究： 通过在大规模数据集上预训练Vision Transformer，并将其应用于多个图像识别基准任务，验证了该模型的有效性和性能。

调查研究： 对不同大小的数据集进行预训练，观察Vision Transformer在不同规模数据下的表现，从而了解模型的数据需求。

混合方法研究： 结合卷积神经网络（CNN）和Transformer架构，探索不同组合下模型的性能变化，如使用不同的序列长度等。

研究思路

本文通过将图像分割成固定大小的patch，并将这些patch线性嵌入到一个序列中，然后输入到标准的Transformer编码器中进行处理。该方法不引入特定于图像的归纳偏置，除了最初的patch提取步骤外。实验表明，当在大规模数据集上进行预训练时，这种简单且可扩展的策略表现出了很好的效果。

论文通过以下步骤解决了将Transformer架构应用于图像识别任务的问题：

1. 图像分割：首先，将输入图像分割成固定大小的图像块（patches），这些图像块类似于自然语言处理中的单词（tokens）。

2. 线性嵌入：对每个图像块进行线性嵌入，将其映射到一个固定维度的向量空间。这个线性嵌入的过程类似于在NLP中将单词转换为词嵌入。

3. 位置编码：为了保留图像块的空间位置信息，向嵌入的图像块添加可学习的一维位置编码。

4. Transformer编码器：将嵌入后的图像块序列输入到标准的Transformer编码器中。编码器由多头自注意力（Multi-Head Self-Attention, MSA）和多层感知器（MLP）块交替组成。

5. 分类头：在Transformer编码器的输出中，使用一个额外的可学习“分类”标记（token），其状态在编码器输出时作为图像的表示。在预训练阶段，这个标记后面接一个MLP，而在微调（fine-tuning）阶段，使用一个线性层。

6. 大规模预训练：在大规模数据集（如ImageNet-21k或JFT-300M）上进行预训练，然后迁移到较小的数据集上进行微调，以实现在多个图像识别基准测试中的优秀性能。

7. 模型变体：提出了不同大小的Vision Transformer模型（ViT），包括基础（Base）、大型（Large）和巨大（Huge）版本，以适应不同的计算资源和性能需求。

Vision Transformer（ViT）

模型概述如图 1 所示。标准 Transformer 接收一个一维标记嵌入序列作为输入。为了处理二维图像，我们将图像 $\mathrm{x}\in\mathbb{R}^{H\times W\times C}$ 重塑为一个由展平的二维切片组成的序列 $\mathbf{x}_p\in\mathbb{R}^{N\times(P^2\cdot C)}$ ，其中 $(H, W)$ 是原始图像的分辨率，