BEiT: BERT Pre-Training of Image Transformers 论文笔记

论文名称：BEiT: BERT Pre-Training of Image Transformers

论文地址：2106.08254] BEiT: BERT Pre-Training of Image Transformers (arxiv.org)

代码地址：unilm/beit at master · microsoft/unilm (github.com)

作者讲解：BiLiBiLi

作者PPT：文章资源

文章目录

- BEiT: BERT Pre-Training of Image Transformers 论文笔记
- - Visual Tokens
- 1.1 总体方法
- 1.2 图像表示
- - 1.2.1 图像块 (Image Patches)
  - 1.2.2 视觉标记 (Visual Tokens)
- 1.3 ViT Backbone
- 2. BEiT的预训练：掩码图像建模
- - 2.1. Masked Image Modeling (MIM)
  - 2.2. Blockwise Masking 分块遮蔽
  - 2.3. From VAE Perspective 从VAE的角度
- 3. 实验结果
- - 3.1. ImageNet-1K 和 ImageNet-22K 预训练，以及在 ImageNet-1K 上的图像分类
  - 3.2. ADE20K的语义分割
  - 3.3. 消融研究
  - 3.4. 自注意力图分析

整体结构图

在这里插入图片描述

Visual Tokens

将图像分解为离散的标记

离散 variational autoencoder
学习通过视觉令牌的条件来重建原始图像

在这里插入图片描述

图像表示（两个视角）

在这里插入图片描述

分块遮罩
- 每次都会对图像块进行遮罩处理

在这里插入图片描述

将受损图像补丁输入到 Transformer 中
- 最终的隐向量被视为编码表示

在这里插入图片描述

在给定受损图像的情况下恢复正确的视觉标记
- 视觉标记将细节总结为高层抽象

在这里插入图片描述

1.1 总体方法

受 BERT 启发，提出了一项预训练任务，即掩码图像建模(MIM)。
MIM为每个图像使用了两种视图，即图像块(image patches)和视觉标记(visual tokens)。
图像被分割成一个网格的图像块，这些图像块是骨干Transformer的输入表示。
通过离散变分自编码器(discrete variational autoencoder)，图像被“标记化”(tokenized)为离散的视觉标记，其中离散变分自编码器来自于 DALL·E。

在预训练阶段，图像的一部分图块（image patches）会被随机地遮挡（masked），然后将这些被遮挡的输入提供给Transformer模型。模型会学习如何从遮挡后的输入中恢复原始图像中的视觉标记（visual tokens），而不是从遮挡的图块中恢复原始像素。

换句话说，模型在这个过程中学习了如何通过遮挡和损坏的输入来推断出原始图像的部分内容，这有助于模型学习图像的语义和特征。作者认为这种预训练策略可以增强模型在图像处理任务中的能力，使其能够更好地理解和表示图像。

1.2 图像表示

图像具有两种表示视图，即图像块和视觉标记。这两种类型在预训练期间分别用作输入和输出表示。

1.2.1 图像块 (Image Patches)

在这里插入图片描述

尺寸为 $H \times W \times C$ 的二维图像被分割成大小为 $P^2$ 的图像块序列 $x_p$ （其中 $p$ 从 $1$ 到 $N$ ），其中 $p a t c h$ 的数量 $N$ = $HW/P^2$ 。
图像块 $x_p$ 被展平为向量，并且进行线性投影，这与 BERT 中的词嵌入类似。

具体而言，BEiT 将每个 $224 \times 224$ 的图像分割成一个 $14 \times 14$ 的图像块网格，每个图像块大小为 $16 \times 16$ 。

1.2.2 视觉标记 (Visual Tokens)

在这里插入图片描述

图像不再以原始像素的形式表示，而是被分解成一系列离散的标记(tokens)，这些标记是通过一个名为“图像分词器”(image tokenizer)获得的。换句话说，图像被转化成了一串由特定标记组成的序列，而不再是像素点的集合。

具体而言，尺寸为 $H \times W \times C$ 的图像被标记化为 $z = [z 1, \dots, z N]$ ，其中词汇表 $V=\{1, 2, …, |V|\}$ 包含离散的标记索引。

由 DALL·E 学习的离散变分自编码器（dVAE）直接使用了图像标记器。
在视觉标记学习过程中，存在两个模块，即标记器（tokenizer）和解码器（decoder）。
标记器 $q (z ∣ x)$ 将图像像素 $x$ 映射为离散标记 $z$ ，根据一个视觉码本（即词汇表）。
解码器 $p(x|z) $学习基于视觉标记 $z$ 重构输入图像 $x$ 。
词汇表大小设置为 $∣ V ∣ = 8192$ 。

1.3 ViT Backbone

在ViT的基础上，使用了 $T r an s f or m er$ 骨干网络。
$T r an s f or m er$ 的输入是图像块序列 $x_i^p$
然后，图像块通过线性投影得到块嵌入 $Ex^p_i$
标准的可学习的一维位置嵌入 $E_{pos}$ 被添加到块嵌入中：

$\boldsymbol{H}_{0}=\left[\boldsymbol{e}_{[\mathrm{S}]}, \boldsymbol{E} \boldsymbol{x}_{i}^{p}, \ldots, \boldsymbol{E} \boldsymbol{x}_{N}^{p}\right]+\boldsymbol{E}_{p o s}$

编码器包含 $L$ 层 $T r an s f or m er$ 块：

$\boldsymbol{H}^{l}=\text { Transformer }\left(\boldsymbol{H}^{l-1}\right)$

最后一层的输出向量为：

在这里插入图片描述

这些向量被用作图像块的编码表示，其中 $h^L_i$ 是第 $i$ 个图像块的向量。

使用了ViTBase，它是一个包含 $12$ 层 $T r an s f or m er$ 的模型，每层有 $768$ 的隐藏大小和 $12$ 个注意力头。前馈网络的中间大小为 $3072$ 。

2. BEiT的预训练：掩码图像建模

2.1. Masked Image Modeling (MIM)

将图像分割成图像块后，如上所述，大约 $40\%$ 的图像块会被随机遮蔽，遮蔽的位置标记为M。被遮蔽的块会被可学习的嵌入e[M]所取代。在 BEiT 中，最多会遮蔽 $75$ 个图像块。
然后，好的和被遮蔽的图像块被输入到 $L$ 层 $T r an s f or m er$ 中。
使用softmax分类器来预测相应的视觉标记：