深度学习自编码器 - 收缩自编码器(CAE)篇

news2025/1/21 10:16:37

序言

在深度学习的浪潮中,收缩自编码器( Compressive Autoencoder, CAE \text{Compressive Autoencoder, CAE} Compressive Autoencoder, CAE)作为自编码器的一种高级形式,正逐步崭露头角。收缩自编码器在保留自编码器核心功能——即数据压缩与重构的基础上,引入了更为严格的压缩技术,以追求更低维且更具代表性的数据表示。这一特性使得收缩自编码器在数据降维、特征学习、降噪及高效信息处理等方面展现出独特的优势。本文将简要介绍收缩自编码器的概念、原理及其在实际应用中的潜力,以期为读者提供一个全面而深入的了解。

收缩自编码器(Compressive Autoencoder)

  • 收缩自编码器( Rifai et al., 2011a,b \text{Rifai et al., 2011a,b} Rifai et al., 2011a,b) 在编码 h = f ( x ) \boldsymbol{h} = f(\boldsymbol{x}) h=f(x) 的基础上添加了显式的正则项,鼓励 f f f 的导数尽可能小:
    Ω ( h ) = λ ∥ ∂ f ( x ) ∂ x ∥ F 2 \Omega(\boldsymbol{h})=\lambda\Vert\frac{\displaystyle\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}\Vert_F^2 Ω(h)=λxf(x)F2 — 公式1 \quad\textbf{---\footnotesize{公式1}} 公式1
  • 惩罚项 Ω ( h ) \Omega(\boldsymbol{h}) Ω(h) 为平方 Frobenius \text{Frobenius} Frobenius范数(元素平方之和),作用于与编码器的函数相关偏导数的 Jacobian \text{Jacobian} Jacobian矩阵。
  • 去噪自编码器和收缩自编码器之间存在一定联系: Alain and Bengio (2013) \text{Alain and Bengio (2013)} Alain and Bengio (2013) 指出在小高斯噪声的限制下,当重构函数将 x \boldsymbol{x} x 映射到 r = g ( f ( x ) ) \boldsymbol{r} = g(f(\boldsymbol{x})) r=g(f(x)) 时,去噪重构误差与收缩惩罚项是等价的。换句话说, 去噪自编码器能抵抗小且有限的输入扰动,而收缩自编码器使特征提取函数能抵抗极小的输入扰动。
  • 分类任务中,基于 Jacobian \text{Jacobian} Jacobian的收缩惩罚预训练特征函数 f ( x ) f(\boldsymbol{x}) f(x),将收缩惩罚应用在 f ( x ) f(\boldsymbol{x}) f(x) 而不是 g ( x ) ) g(\boldsymbol{x})) g(x)) 可以产生最好的分类精度。如深度学习自编码器 - 去噪自编码器篇所讨论,应用于 f ( x ) f(\boldsymbol{x}) f(x)的收缩惩罚与得分匹配也有紧密的联系。
  • 收缩 ( contractive \text{contractive} contractive) 源于 CAE \text{CAE} CAE弯曲空间的方式。具体来说,由于 CAE \text{CAE} CAE训练为抵抗输入扰动,鼓励将输入点邻域映射到输出点处更小的邻域。我们能认为这是将输入的邻域收缩到更小的输出邻域。
  • 说得更清楚一点, CAE \text{CAE} CAE只在局部收缩——一个训练样本 x \boldsymbol{x} x 的所有扰动都映射到 f ( x ) f(\boldsymbol{x}) f(x) 的附近。
    • 全局来看,两个不同的点 x \boldsymbol{x} x x ′ \boldsymbol{x}^\prime x 会分别被映射到远离原点的两个点 f ( x ) f(\boldsymbol{x}) f(x) f ( x ′ ) f(\boldsymbol{x}^\prime) f(x)
    • f f f 扩展到数据流形的中间或远处是合理的(见图例1中小例子的情况)。
    • Ω ( h ) \Omega(\boldsymbol{h}) Ω(h) 惩罚应用于 sigmoid \text{sigmoid} sigmoid单元时, 收缩 Jacobian \text{Jacobian} Jacobian的简单方式是令 sigmoid \text{sigmoid} sigmoid趋向饱和的 0 0 0 1 1 1
    • 这鼓励 CAE \text{CAE} CAE使用 sigmoid \text{sigmoid} sigmoid的极值编码输入点,或许可以解释为二进制编码。
    • 它也保证了 CAE \text{CAE} CAE可以穿过大部分 sigmoid \text{sigmoid} sigmoid隐藏单元能张成的超立方体,进而扩散其编码值。
  • 我们可以认为点 x \boldsymbol{x} x 处的 Jacobian \text{Jacobian} Jacobian矩阵 J \boldsymbol{J} J 能将非线性编码器近似为线性算子。这允许我们更形式地使用 “收缩’’ 这个词。
    • 在线性理论中,当 J x \boldsymbol{J}\boldsymbol{x} Jx 的范数对于所有单位 x \boldsymbol{x} x 都小于等于 1 1 1 时, J \boldsymbol{J} J 被称为收缩的。
    • 换句话说,如果 J \boldsymbol{J} J 收缩了单位球,他就是收缩的。
    • 我们可以认为 CAE \text{CAE} CAE为鼓励每个局部线性算子具有收缩性,而在每个训练数据点处将 Frobenius \text{Frobenius} Frobenius范数作为 f ( x ) f(\boldsymbol{x}) f(x) 的局部线性近似的惩罚。
  • 深度学习自编码器 - 使用自编码器学习流形篇中描述,正则自编码器基于两种相反的推动力学习流形。
    • CAE \text{CAE} CAE的情况下,这两种推动力是重构误差和收缩惩罚 Ω ( h ) \Omega(\boldsymbol{h}) Ω(h))。
    • 单独的重构误差鼓励 CAE \text{CAE} CAE学习一个恒等函数。
    • 单独的收缩惩罚将鼓励 CAE \text{CAE} CAE学习关于 x \boldsymbol{x} x 是恒定的特征。
    • 这两种推动力的的折衷产生导数 ∂ f ( x ) ∂ x \displaystyle\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}} xf(x) 大多是微小的自编码器。
    • 只有少数隐藏单元,对应于一小部分输入数据的方向,可能有显著的导数。
  • CAE \text{CAE} CAE的目标是学习数据的流形结构。
    • 使 J x \boldsymbol{J}\boldsymbol{x} Jx 很大的方向 x \boldsymbol{x} x,会快速改变 h \boldsymbol{h} h,因此很可能是近似流形切平面的方向。
    • Rifai et al. (2011a,b) \text{Rifai et al. (2011a,b)} Rifai et al. (2011a,b) 的实验显示训练 CAE \text{CAE} CAE会导致 J \boldsymbol{J} J 中大部分奇异值(幅值)比 1 1 1 小,因此是收缩的。
    • 然而,有些奇异值仍然比 1 1 1大,因为重构误差的惩罚鼓励 CAE \text{CAE} CAE对最大局部变化的方向进行编码。
    • 对应于最大奇异值的方向被解释为收缩自编码器学到的切方向。
    • 理想情况下,这些切方向应对应于数据的真实变化。
    • 比如,一个应用于图像的 CAE \text{CAE} CAE应该能学到显示图像改变的切向量,如深度学习自编码器 - 使用自编码器学习流形篇 - 图例1图中物体渐渐改变状态。
    • 图例1所示,实验获得的奇异向量的可视化似乎真的对应于输入图象有意义的变换。
  • 收缩自编码器正则化准则的一个实际问题是,尽管它在单一隐藏层的自编码器情况下是容易计算的,但在更深的自编码器情况下会变的难以计算。
    • 根据 Rifai et al. (2011a) \text{Rifai et al. (2011a)} Rifai et al. (2011a) 的策略,分别训练一系列单层的自编码器,并且每个被训练为重构前一个自编码器的隐藏层。
    • 这些自编码器的组合就组成了一个深度自编码器。
    • 因为每个层分别训练成局部收缩,深度自编码器自然也是收缩的。
    • 这个结果与联合训练深度模型完整架构(带有关于 Jacobian \text{Jacobian} Jacobian的惩罚项)获得的结果是不同的,但它抓住了许多理想的定性特征。
  • 另一个实际问题是,如果我们不对解码器强加一些约束,收缩惩罚可能导致无用的结果。
    • 例如 编码器将输入乘一个小常数 ϵ \epsilon ϵ, 解码器将编码除以一个小常数 ϵ \epsilon ϵ
    • 随着 ϵ \epsilon ϵ 趋向于 0 0 0, 编码器会使收缩惩罚项 Ω ( h ) \Omega(\boldsymbol{h}) Ω(h) 趋向于 0 0 0 而学不到任何关于分布的信息。
    • 同时, 解码器保持完美的重构。
    • Rifai et al. (2011a) \text{Rifai et al. (2011a)} Rifai et al. (2011a) 通过绑定 f f f g g g 的权重来防止这种情况。
    • f f f g g g 都是由线性仿射变换后进行逐元素非线性变换的标准神经网络层组成,因此将 g g g 的权重矩阵设成 f f f 权重矩阵的转置是很直观的。

  • 图例1:通过局部PCA和收缩自编码器估计的流形切向量的图示。
    • 通过局部PCA和收缩自编码器估计的流形切向量的图示。
      在这里插入图片描述

    • 说明:

      • 流形的位置由来自 CIFAR-10 \text{CIFAR-10} CIFAR-10数据集中狗的输入图像定义。
      • 切向量通过输入到代码映射的 Jacobian \text{Jacobian} Jacobian矩阵 ∂ h ∂ x \frac{\partial \boldsymbol{h}}{\partial \boldsymbol{x}} xh 的前导奇异向量估计。
      • 虽然局部 PCA \text{PCA} PCA CAE \text{CAE} CAE都可以捕获局部切方向,但 CAE \text{CAE} CAE能够从有限训练数据形成更准确的估计,因为它利用了不同位置的参数共享(共享激活的隐藏单元子集)。
      • CAE \text{CAE} CAE切方向通常对应于物体的移动或改变部分(例如头或腿)。
      • Rifai et al. (2011c) \text{Rifai et al. (2011c)} Rifai et al. (2011c) 许可转载此图。

总结

收缩自编码器通过其高效的压缩机制,实现了对输入数据更为紧凑和精确的特征提取。相比传统自编码器,收缩自编码器在保持数据质量的同时,进一步降低了数据维度,减少了存储和传输的开销,提高了计算效率。此外,其强大的降噪和特征学习能力,使得收缩自编码器在数据预处理、特征工程及异常检测等领域具有广泛的应用前景。随着深度学习技术的不断发展,收缩自编码器将持续进化,为更多复杂数据的处理与分析提供有力支持。

往期内容回顾

深度学习自编码器 - 去噪自编码器篇
深度学习自编码器 - 使用自编码器学习流形篇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2148786.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RT-DETR改进策略:BackBone改进|Next-ViT主干赋能下的革命性改进

摘要 Next-ViT(下一代视觉Transformer)是专为解决传统ViT模型在工业部署中遇到的推理速度慢、计算复杂度高等问题而设计的。它巧妙地结合了高效的Next Convolution Block(NCB)和Next Transformer Block(NTB),通过创新的混合策略(NHS)堆叠这些模块,从而在各种视觉任务…

数据不出境------IP证书申请

数据不出境IP证书的申请流程主要涉及选择国内验签的SSL证书服务商、注册账号、选择证书类型、提交验证文件和等待签发等步骤。以下是具体说明: 选择服务商:需要选择一个提供国内验签服务的SSL证书供应商,如JoySSL,这些服务商通常具…

校医务室健康服务系统小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,医生管理,医患交流管理,预约医生管理,健康打卡管理,运动打卡管理,饮食打卡管理 微信端账号功能包括:系统首…

在MAC中Ollama开放其他电脑访问

ollama安装完毕后默认只能在本地访问,之前我都是安装其他的软件之后可以结合开放其他端口访问,其实是可以新增或修改下电脑的系统配置,就可以打开端口允许除本机IP或localhost访问。 步骤如下: 1、查看端口(默认是&…

气膜场馆造价解析:来自气膜厂家的专业解答—轻空间

气膜场馆作为一种新型的建筑形式,凭借其独特的结构和材料优势,逐渐在体育、文旅、工业等领域崭露头角。相较于传统建筑,气膜场馆在造价方面具有显著的优势,尤其是在节能、环保、安全等方面表现突出。然而,气膜场馆的造…

Spring底层架构源码解析(二)

目录 BeanDefiniton BeanDefinitionReader(读取器) AnnotatedBeanDefinitionReader XmlBeanDefinitionReader ClassPathBeanDefinitionScanner (扫描器) BeanFactory 有关该篇内容的前置知识可以参考我上篇文章:…

2024最新-基于 VUE + Flask全国空气质量预测数据可视化

目录 1.1. 项目介绍 1.2. 技术栈 1.3. 数据来源 1.3.1. 设置城市和时间为爬虫程序的入口 1.3.2. 爬虫程序主要代码 1.3.3. 后端代码调用js 1.4. 后端实现 1.5. 前端实现 1.6. 页面展示 1.6.1. 地图展示 1.6.1.1 省级地图 1.6.1.2 县级地图 1.6.2. 全国分布 1.6.3. 区…

项目生命周期的类型

‌项目生命周期的类型包括预测型生命周期、迭代型生命周期、增量型生命周期、适应型生命周期和混合型生命周期。 预测型生命周期(或称为瀑布型生命周期) 从名称中我们就可以看出,我们对行业和项目是非常了解的,可以预测到下一步…

Laravel邮件发送:从配置到发邮件的指南!

Laravel邮件发送功能如何实现?怎么使用Laravel发信? Laravel作为一款流行的PHP框架,提供了强大且易用的邮件发送功能。AokSend将详细介绍如何从配置到实际发送邮件的全过程,帮助你快速掌握Laravel邮件发送的技巧。 Laravel邮件发…

解决CodeBlocks中的界面wxSmith界面无法打开问题?

在CodeBlocks中,wxSmith如果想要保存已经编辑好的UI界面,你需要勾选生成xrc文件才行。 譬如我这里就有好几个wxSmith的界面,由于没有生成xrc文件,导致关闭项目后,再次打开wxs界面,无法正常导入了&#xff0…

QT开发:事件循环与处理机制的概念和流程概括性总结

事件循环与处理机制的概念和流程 Qt 事件循环和事件处理机制是 Qt 框架的核心,负责管理和分发各种事件(用户交互、定时器事件、网络事件等)。以下是详细透彻的概念解释和流程讲解。 1. 事件循环(Event Loop)的概念 …

AI+教育|拥抱AI智能科技,让课堂更生动高效

AI在教育领域的应用正逐渐成为现实,提供互动性强的学习体验,正在改变传统教育模式。AI不仅改变了传统的教学模式,还为教育提供了更多的可能性和解决方案。从个性化学习体验到自动化管理任务,AI正在全方位提升教育质量和效率。随着…

观察者模式全攻略:从设计原理到 SpringBoot 实践案例

🎯 设计模式专栏,持续更新中~~ 欢迎订阅:JAVA实现设计模式 🛠️ 希望小伙伴们一键三连,有问题私信都会回复,或者在评论区直接发言 观察者模式 观察者模式(Observer Pattern)是一种行…

web学习——VUE

VUE&Element 今日目标: 能够使用VUE中常用指令和插值表达式能够使用VUE生命周期函数 mounted能够进行简单的 Element 页面修改能够完成查询所有功能能够完成添加功能 1,VUE 1.1 概述 接下来我们学习一款前端的框架,就是 VUE。 Vue 是…

JAVA并发编程系列(8)CountDownLatch核心原理

拼多多 D2面试,现场编程模拟拼团,10人拼团成功。限时2分钟!开始吧.....!在面试过程经常有算法题、模拟现实案例、经典功能设计、核心原理分析这种。这些看似简单,实际需要候选人有非常扎实的基础,才能应付这…

maxwell 输出消息到 kafka

文章目录 1、kafka-producer2、运行一个Docker容器,该容器内运行的是Zendesk的Maxwell工具,一个用于实时捕获MySQL数据库变更并将其发布到Kafka或其他消息系统的应用3、进入kafka容器内部4、tingshu_album 数据库中 新增数据5、tingshu_album 数据库中 更…

【Django5】django的helloworld

安装django pip install djangoDjango官方中文文档 https://docs.djangoproject.com/zh-hans/5.1/Github链接 https://github.com/django/django创建Django项目 cd到想要创建项目的文件夹下,输入以下命令创建项目 这行代码将会在当前目录下创建一个 mysite 目录 …

Seeing What You Said Talking Face Generation Guided论文随记

Seeing What You Said Talking Face Generation Guided by a Lip Reading Expert 文章认为以往工作很少关注唇语清晰度,希望通过惩罚不准确结果来提升唇部区域动作的可理解性。 原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_…

【吊打面试官系列-MySQL面试题】LIKE 声明中的%和_是什么意思?

大家好,我是锋哥。今天分享关于【LIKE 声明中的%和_是什么意思?】面试题,希望对大家有帮助; LIKE 声明中的%和_是什么意思? %对应于 0 个或更多字符,_只是 LIKE 语句中的…

PSINS工具箱函数介绍——myfig

文章目录 关于工具箱使用方法与主要作用例程实践运行代码函数解析关于工具箱 myfig是关于绘图的函数,位置在: p s i n s / b a s e / p l o t psins/\ base/\ plot