当前位置：首页 > news >正文

ViT论文详解

news 2025/7/14 23:44:36

文章目录

前言
一、ViT理论
二、模型结构
三、实验结果
总结

前言

ViT是谷歌团队在2021年3月发表的一篇论文，论文全称是《AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》一张图片分成16x16大小的区域：使用Transformer进行按比例的图像识别。ViT是Vison Transformer的缩写，通过将一张照片分割为不同的Patch输入到Transformer中进行有监督的训练，从而实现Transformer在CV领域的应用。接下来我们进行这篇论文的详细介绍。

一、ViT理论

Transformer在NLP领域取得了很大的成功，但是应用在CV领域时却受到了限制。尽管已经有不少工作将Transformer应用在CV领域，但是这些工作要么就是将Transformer与CNN结合使用，要么就是使用自注意力替换CNN中的某些组件。ViT要做的就是直接将Transformer在NLP的工作方式搬移到CV中，而不改变网络结构和输入形式，从而打破CV和NLP领域之间的鸿沟。
ViT的核心思路就是将输入的照片划分成相同大小的patch，然后将这些patch经过一个全连接层进行embedding然后直接输入到Transformer中进行有监督的训练。但是由于Transformer应用在CV时缺少CNN网络的归纳偏置，所以ViT在小数据集上的效果并不如CNN。但是当扩展到较大规模的数据集时（14M-300M images），ViT便可弥补没有归纳偏置的缺点，通过Transformer优秀的全局建模能力在性能上超过经典的CNN网络。

二、模型结构

ViT模型由Transformer的编码器堆叠而成，但其对原始的Transformer编码器进行了一些改动，将LayerNorm放到了多头注意力的前面。如下图所示：
在这里插入图片描述
其模型的前向过程如下所示：

1.当输入一张照片尺寸为224x224x3，首先会将照片分割成16x16大小的patch，对于224x224大小的图片则被分成了14x14=196个patch，每个patch的维度为16x16x3。
2.将每个patch拉伸成16x16x3=768，则图片由224X224X3变为了196x768。
3.经过全连接层，输出维度仍然为196x768。相当于输入一共196个tokens，每个tokens的维度为768。
4.在最前面加上一个特殊提示符token，则输入维度变成了197x768。第一个token是特殊提示符（与BERT类似）
5.与可学习的位置编码进行相加，相加后的维度为197x768。
6.经过堆叠的Transformer encoder层，输出维度为197x768。
7.将第一个token对应的输出（维度为1x768）经过全连接层后进行分类。

当ViT在大规模数据集上预训练完成后在下游任务进行微调时，将预训练中的预测头去掉，然后新加一个适合于下游任务的分类头进行微调。
需要注意的一点是，一般来说微调时的数据分辨率大于训练时的数据分辨率着对模型提升是有益的。但这会导致预训练和微调阶段输入到模型的tokens数量也不相同。尽管Transformer可以处理任意长度的tokens输入，但是预训练时的可学习位置编码可能不在有意义。因此，ViT在微调时会根据patch在原始图像中的位置对训练好的位置编码进行2D内插。

三、实验结果

ViT共准备了三种大小尺寸的模型，分别为

Model	Layers	Hidden size	MLP size	Heads	Params
ViT-Base	12	768	3072	12	86M
ViT-Large	24	1024	4096	16	307M
ViT-Huge	32	1280	5120	16	632M

在下图中，BiT为基于ResNet的卷积网络，可以看到在ImageNet数据集上ViT的性能是不如CNN的，但是随着数据集的增加ViT的性能超过了CNN。说明在大数据集上ViT是更有优势的。

下图中Hybrid代表输入的图片先使用CNN进行特征提取然后送进Transformer中，相当于是CNN和Transformer的结合。可以看出当计算量较小（模型规模较小时）Hybrid的方法是超过ResNet和Transformer的，但是随着计算量的增大（模型规模变大），Transformer的性能仍然呈现出继续上升的趋势，而Hybrid方法的性能却趋向于饱和。这也是基于Transformer的一个优势，目前还没有发现随着模型和数据的增大性能趋于饱和的情况。

更多的实验结果小伙伴们可以去论文里查找。

总结

ViT通过将图片划分成许多patch实现了Transformer在CV领域的直接应用，而不用对图片输入进行额外的处理，在大规模数据集上ViT实现了当时最好的结果。ViT也存在着一些局限性，例如是有监督的，需要在大规模数据集上进行预训练等。总的来说，ViT缩小了CV和NLP领域之间的gap，也间接的推动了多模态的发展，后续基于ViT模型涌现出了一大批优秀的工作。

查看全文

http://www.lryc.cn/news/416579.html