深度学习自编码器 - 收缩自编码器（CAE）篇

序言

在深度学习的浪潮中，收缩自编码器（ $\text{Compressive Autoencoder, CAE}$ ）作为自编码器的一种高级形式，正逐步崭露头角。收缩自编码器在保留自编码器核心功能——即数据压缩与重构的基础上，引入了更为严格的压缩技术，以追求更低维且更具代表性的数据表示。这一特性使得收缩自编码器在数据降维、特征学习、降噪及高效信息处理等方面展现出独特的优势。本文将简要介绍收缩自编码器的概念、原理及其在实际应用中的潜力，以期为读者提供一个全面而深入的了解。

收缩自编码器（Compressive Autoencoder）

收缩自编码器( $\text{Rifai et al., 2011a,b}$ ) 在编码 $\boldsymbol{h} = f(\boldsymbol{x})$ 的基础上添加了显式的正则项，鼓励 $f$ 的导数尽可能小：
$\Omega(\boldsymbol{h})=\lambda\Vert\frac{\displaystyle\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}\Vert_F^2$ $\quad\textbf{---\footnotesize{公式1}}$
惩罚项 $\Omega(\boldsymbol{h})$ 为平方 $\text{Frobenius}$ 范数（元素平方之和），作用于与编码器的函数相关偏导数的 $\text{Jacobian}$ 矩阵。
去噪自编码器和收缩自编码器之间存在一定联系： $\text{Alain and Bengio (2013)}$ 指出在小高斯噪声的限制下，当重构函数将 $\boldsymbol{x}$ 映射到 $\boldsymbol{r} = g(f(\boldsymbol{x}))$ 时，去噪重构误差与收缩惩罚项是等价的。换句话说，去噪自编码器能抵抗小且有限的输入扰动，而收缩自编码器使特征提取函数能抵抗极小的输入扰动。
分类任务中，基于 $\text{Jacobian}$ 的收缩惩罚预训练特征函数 $f(\boldsymbol{x})$ ，将收缩惩罚应用在 $f(\boldsymbol{x})$ 而不是 $g(\boldsymbol{x}))$ 可以产生最好的分类精度。如深度学习自编码器 - 去噪自编码器篇所讨论，应用于 $f(\boldsymbol{x})$ 的收缩惩罚与得分匹配也有紧密的联系。
收缩 ( $\text{contractive}$ ) 源于 $\text{CAE}$ 弯曲空间的方式。具体来说，由于 $\text{CAE}$ 训练为抵抗输入扰动，鼓励将输入点邻域映射到输出点处更小的邻域。我们能认为这是将输入的邻域收缩到更小的输出邻域。
说得更清楚一点， $\text{CAE}$ 只在局部收缩——一个训练样本 $\boldsymbol{x}$ 的所有扰动都映射到 $f(\boldsymbol{x})$ 的附近。
- 全局来看，两个不同的点 $\boldsymbol{x}$ 和 $\boldsymbol{x}^\prime$ 会分别被映射到远离原点的两个点 $f(\boldsymbol{x})$ 和 $f(\boldsymbol{x}^\prime)$ 。
- $f$ 扩展到数据流形的中间或远处是合理的（见图例1中小例子的情况）。
- 当 $\Omega(\boldsymbol{h})$ 惩罚应用于 $\text{sigmoid}$ 单元时，收缩 $\text{Jacobian}$ 的简单方式是令 $\text{sigmoid}$ 趋向饱和的 $0$ 或 $1$ 。
- 这鼓励 $\text{CAE}$ 使用 $\text{sigmoid}$ 的极值编码输入点，或许可以解释为二进制编码。
- 它也保证了 $\text{CAE}$ 可以穿过大部分 $\text{sigmoid}$ 隐藏单元能张成的超立方体，进而扩散其编码值。
我们可以认为点 $\boldsymbol{x}$ 处的 $\text{Jacobian}$ 矩阵 $\boldsymbol{J}$ 能将非线性编码器近似为线性算子。这允许我们更形式地使用 “收缩’’ 这个词。
- 在线性理论中，当 $\boldsymbol{J}\boldsymbol{x}$ 的范数对于所有单位 $\boldsymbol{x}$ 都小于等于 $1$ 时， $\boldsymbol{J}$ 被称为收缩的。
- 换句话说，如果 $\boldsymbol{J}$ 收缩了单位球，他就是收缩的。
- 我们可以认为 $\text{CAE}$ 为鼓励每个局部线性算子具有收缩性，而在每个训练数据点处将 $\text{Frobenius}$ 范数作为 $f(\boldsymbol{x})$ 的局部线性近似的惩罚。
如深度学习自编码器 - 使用自编码器学习流形篇中描述，正则自编码器基于两种相反的推动力学习流形。
- 在 $\text{CAE}$ 的情况下，这两种推动力是重构误差和收缩惩罚 $\Omega(\boldsymbol{h})$ )。
- 单独的重构误差鼓励 $\text{CAE}$ 学习一个恒等函数。
- 单独的收缩惩罚将鼓励 $\text{CAE}$ 学习关于 $\boldsymbol{x}$ 是恒定的特征。
- 这两种推动力的的折衷产生导数 $\displaystyle\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}$ 大多是微小的自编码器。
- 只有少数隐藏单元，对应于一小部分输入数据的方向，可能有显著的导数。
$\text{CAE}$ 的目标是学习数据的流形结构。
- 使 $\boldsymbol{J}\boldsymbol{x}$ 很大的方向 $\boldsymbol{x}$ ，会快速改变 $\boldsymbol{h}$ ，因此很可能是近似流形切平面的方向。
- $\text{Rifai et al. (2011a,b)}$ 的实验显示训练 $\text{CAE}$ 会导致 $\boldsymbol{J}$ 中大部分奇异值（幅值）比 $1$ 小，因此是收缩的。
- 然而，有些奇异值仍然比 $1$ 大，因为重构误差的惩罚鼓励 $\text{CAE}$ 对最大局部变化的方向进行编码。
- 对应于最大奇异值的方向被解释为收缩自编码器学到的切方向。
- 理想情况下，这些切方向应对应于数据的真实变化。
- 比如，一个应用于图像的 $\text{CAE}$ 应该能学到显示图像改变的切向量，如深度学习自编码器 - 使用自编码器学习流形篇 - 图例1图中物体渐渐改变状态。
- 如图例1所示，实验获得的奇异向量的可视化似乎真的对应于输入图象有意义的变换。
收缩自编码器正则化准则的一个实际问题是，尽管它在单一隐藏层的自编码器情况下是容易计算的，但在更深的自编码器情况下会变的难以计算。
- 根据 $\text{Rifai et al. (2011a)}$ 的策略，分别训练一系列单层的自编码器，并且每个被训练为重构前一个自编码器的隐藏层。
- 这些自编码器的组合就组成了一个深度自编码器。
- 因为每个层分别训练成局部收缩，深度自编码器自然也是收缩的。
- 这个结果与联合训练深度模型完整架构（带有关于 $\text{Jacobian}$ 的惩罚项）获得的结果是不同的，但它抓住了许多理想的定性特征。
另一个实际问题是，如果我们不对解码器强加一些约束，收缩惩罚可能导致无用的结果。
- 例如编码器将输入乘一个小常数 $\epsilon$ ，解码器将编码除以一个小常数 $\epsilon$ 。
- 随着 $\epsilon$ 趋向于 $0$ ，编码器会使收缩惩罚项 $\Omega(\boldsymbol{h})$ 趋向于 $0$ 而学不到任何关于分布的信息。
- 同时，解码器保持完美的重构。
- $\text{Rifai et al. (2011a)}$ 通过绑定 $f$ 和 $g$ 的权重来防止这种情况。
- $f$ 和 $g$ 都是由线性仿射变换后进行逐元素非线性变换的标准神经网络层组成，因此将 $g$ 的权重矩阵设成 $f$ 权重矩阵的转置是很直观的。

图例1：通过局部PCA和收缩自编码器估计的流形切向量的图示。
- 通过局部PCA和收缩自编码器估计的流形切向量的图示。
- 说明：
  - 流形的位置由来自 $\text{CIFAR-10}$ 数据集中狗的输入图像定义。
  - 切向量通过输入到代码映射的 $\text{Jacobian}$ 矩阵 $\frac{\partial \boldsymbol{h}}{\partial \boldsymbol{x}}$ 的前导奇异向量估计。
  - 虽然局部 $\text{PCA}$ 和 $\text{CAE}$ 都可以捕获局部切方向，但 $\text{CAE}$ 能够从有限训练数据形成更准确的估计，因为它利用了不同位置的参数共享（共享激活的隐藏单元子集）。
  - $\text{CAE}$ 切方向通常对应于物体的移动或改变部分（例如头或腿）。
  - 经 $\text{Rifai et al. (2011c)}$ 许可转载此图。

总结

收缩自编码器通过其高效的压缩机制，实现了对输入数据更为紧凑和精确的特征提取。相比传统自编码器，收缩自编码器在保持数据质量的同时，进一步降低了数据维度，减少了存储和传输的开销，提高了计算效率。此外，其强大的降噪和特征学习能力，使得收缩自编码器在数据预处理、特征工程及异常检测等领域具有广泛的应用前景。随着深度学习技术的不断发展，收缩自编码器将持续进化，为更多复杂数据的处理与分析提供有力支持。