自编码器(Autoencoder,AE)

news2025/1/11 23:56:29

Autoencoders and their applications in machine learning: a survey

1、Autoencoder(自编码器,AE)

自编码器(Autoencoder)是一种无监督学习算法,主要用于数据的降维、特征提取和数据重建。自编码器由两个主要部分组成: 编码器(Encoder)解码器(Decoder) 。其基本思想是 将输入数据映射到一个低维的潜在空间,然后再从该潜在空间重建出原始数据,即提取输入输入数据特征,再利用特征还原数据,其中输入数据和输出数据存在差异,可称为有损压缩。

(1)Construction

一个典型的自编码器包括以下部分:

  • 编码器(Encoder):将输入数据压缩到一个低维的潜在空间表示。通常由若干层神经网络组成。
  • 潜在空间(Latent Space):编码器输出的低维表示,也称为编码(Code)或瓶颈(Bottleneck)。
  • 解码器(Decoder):将低维的潜在空间表示解码回原始数据的维度。通常也由若干层神经网络组成。

在这里插入图片描述

(2)Principle

自编码器通过两个阶段来训练和使用:

  1. train

    • 输入数据 x 通过编码器映射到潜在空间 z,表示为 z=f(x)。
    • 潜在空间表示 z 通过解码器重建出原始数据 x^ ,表示为 x^=g(z)=g(f(x))。
    • 训练目标是最小化重建误差,即 x 和 x^ 之间的差异,常用的损失函数为均方误差(MSE)。
  2. use

    • 训练完成后,编码器可以用于将新数据映射到低维潜在空间进行特征提取或降维。
    • 解码器可以用于从潜在空间表示生成数据,应用于生成模型等任务。

(2)Type

根据不同的应用和需求,自编码器有多种变体:

  1. 稀疏自编码器(Sparse Autoencoder):

    • 通过添加稀疏性约束,使得潜在空间表示中只有少数几个单元被激活,常用于特征提取。
  2. 去噪自编码器(Denoising Autoencoder):

    • 输入数据加入噪声,目标是从噪声数据中重建出原始的无噪声数据,常用于去噪和鲁棒性增强。
  3. 变分自编码器(Variational Autoencoder, VAE):

    • 在潜在空间中引入概率分布,学习数据的生成分布,可以用于生成新数据和数据增强。
  4. 卷积自编码器(Convolutional Autoencoder, CAE):

    • 使用卷积层替代全连接层,常用于图像数据的降维和特征提取。

【深度学习】 自编码器(AutoEncoder)

2、Denoising Autoencoder(去噪自编码器,DAE)

DAE 通过对输入数据加入噪声,目标是从噪声数据中重建出原始的无噪声数据,常用于去噪和鲁棒性增强。

在这里插入图片描述

3、Variational Autoencoder(变分自编码器,VAE)

VAE 在 AE 潜在空间中引入概率分布,学习数据的生成分布,可以用于生成新数据和数据增强。

在这里插入图片描述

在 AE 中,可以通过 encoder 从输入图像中学习到人脸表情、皮肤、头发颜色等特征,但是人脸的表情到底是微笑还是呲牙的笑,或者是哈哈大笑,在潜在空间是没办法表示的。

而在 VAE 中,通过在潜在空间中引入概率分布,可以在潜在空间中表示人脸的微笑程度,进而修改潜在空间的概率分布,可以生成与输入图像不同的新数据。

Variational autoencoders.

4、Application

自编码器(Autoencoder)具有广泛的应用场景,以下是一些主要的应用领域:

  1. 数据降维
    自编码器可以用于高维数据的降维,将数据压缩到低维空间,从而减少存储和计算的复杂性。这种方法在很多方面可以替代主成分分析(PCA),特别是在处理非线性数据时。

  2. 特征提取
    在无监督学习中,自编码器能够自动学习数据的潜在特征表示。通过训练自编码器模型,可以提取输入数据的有用特征,这些特征可以用于其他机器学习任务,例如分类和聚类。

  3. 图像去噪
    去噪自编码器(Denoising Autoencoders, DAE)被用来去除图像中的噪声。通过向输入图像添加噪声,并训练自编码器去重构原始的无噪声图像,可以有效地消除噪声。

  4. 数据生成
    变分自编码器(Variational Autoencoders, VAE)是一种生成模型,可以用来生成与训练数据分布相似的新数据。VAE在潜在空间中引入了随机性,使得生成的样本具有多样性。

  5. 异常检测
    自编码器可以用来检测数据中的异常点。通过训练自编码器重构正常数据,任何重构误差较大的数据点可能就是异常点。这个方法广泛应用于工业设备故障检测、网络入侵检测等领域。

  6. 图像和视频压缩
    自编码器可以用于图像和视频压缩,通过将图像和视频数据压缩到潜在空间,再从潜在空间重构,从而实现高效压缩。

  7. 自监督学习
    自编码器作为自监督学习的一个重要工具,可以在没有标签的数据上进行预训练,帮助提升有监督学习任务的效果。它在自然语言处理、图像识别等领域有重要应用。

  8. 数据填补
    自编码器可以用于数据缺失值的填补。通过训练自编码器重构完整数据,可以用潜在空间的表示来推断并填补缺失的数据。

[REFERENCE]
李宏毅2020机器学习深度学习(完整版)国语
(强推)李宏毅2021/2022春机器学习课程
李宏毅2024春《生成式人工智能导论》
【15分钟】了解变分自编码器
【全】一文带你了解自编码器(AutoEncoder)
【深度学习】 自编码器(AutoEncoder)
Variational autoencoders.

[COPY]
[深度学习] 自编码器Autoencoder

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2117647.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机毕业设计hadoop+spark+hive动漫推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据

《HadoopSparkHive动漫推荐系统》开题报告 一、引言 随着互联网技术的飞速发展,动漫产业的数据量急剧增长。用户面临着海量动漫作品的选择难题,如何从这些数据中高效地提取有价值的信息,为用户推荐符合其喜好的动漫作品,成为当前…

创客匠人_公域变天!知识IP传统打法失灵,不转型就出局!

“什么叫定位?我认为定位就是你在这个社会里找到属于你自己的分工。然后通过深挖客户群体的痛点,去做产品升级和迭代。企业的价值或者IP的价值,就是为这个社会解决某一方面的问题。”老蒋说。 在老蒋创客圈第65期对话标杆直播连麦中&#xff…

PTA求一批整数中出现最多的个位数字

作者 徐镜春 单位 浙江大学 给定一批整数,分析每个整数的每一位数字,求出现次数最多的个位数字。例如给定3个整数1234、2345、3456,其中出现最多次数的数字是3和4,均出现了3次。 输入格式: 输入在第1行中给出正整数…

鸿蒙OS Page Ability

鸿蒙OS 基本概念 Page与AbilitySlice Page 模板(以下简称“Page”)是 FA 唯一支持的模板,用于提供与用户交互的能力。一个 Page 可以由一个或多个 AbilitySlice 构成,AbilitySlice 是指应用的单个页面及其控制逻辑的总和。 当一…

虚拟现实智能家居实训系统实训解决方案

随着科技的飞速发展,智能家居已成为现代生活的重要组成部分,它不仅极大地提升了居住的便捷性与舒适度,还推动了物联网、大数据、人工智能等前沿技术的融合应用。为了满足市场对智能家居专业人才日益增长的需求,虚拟现实智能家居实…

在Go中迅速使用RabbitMQ

文章目录 1 认识1.1 MQ分类1.2 安装1.3 基本流程 2 [Work模型](https://www.rabbitmq.com/tutorials/tutorial-two-go#preparation)3 交换机3.1 fanout3.2 direct3.3 [topic](https://www.rabbitmq.com/tutorials/tutorial-five-go) 4 Golang创建交换机/队列/Publish/Consume/B…

视频监控系统选型:为何EasyCVR视频汇聚平台成为优选方案

随着科技的飞速发展,视频监控系统作为现代安防体系的核心组成部分,其重要性日益凸显。无论是智慧城市、智慧交通、智慧园区还是企业安防,高效、稳定、智能的视频监控解决方案都是不可或缺的。在众多视频监控平台中,EasyCVR视频汇聚…

《向量数据库指南》——如何评估 Embedding 模型

01. 简介 在此前发布的文章(https://zilliz.com/learn/sparse-and-dense-embeddings)中,我们探析了当前稠密 Embedding 模型的架构,并介绍了 sentence-transformers 库的一些基础用法。虽然通过 sentence-transformers 可以使用众多预训练模型,但这些模型几乎都采用了与…

【空气能热泵热水系统原理

高温直热循环系列:1、系统简图(带电辅热) 注:1)图适用于以一次加热式热泵热水机组为主机的热水系统。2)系统所有机组的启、停都由生活热水箱中水位开关控制。机组以直热式动作的条件为:①当线控器设定水箱…

VM中创建CentOS 7及VM中如何修改DHCP的IP网段

一、创建虚拟机 1新建Centos虚拟机 2类型选择 3版本兼容性选择 4镜像选择 5安装系统选择 6虚拟机的创建路径(选择C盘以外且不包含中文名称的路径) 7硬件配置选择 网络类型的选择(通常情况下选择NAT模式) 8剩下的全部按推荐走&…

AcWing算法基础课-787归并排序-Java题解

大家好,我是何未来,本篇文章给大家讲解《AcWing算法基础课》787 题——归并排序。本文详细介绍了归并排序的算法思路,包括分解、合并和递归排序三个主要步骤。通过 Java 代码实现,展示了如何将数组递归分解至单个元素,…

揭秘!焦虑症与气血不足:是巧合还是内在关联?

在这个快节奏、高压力的时代,焦虑症仿佛成了现代人难以言说的“隐形伴侣”。失眠、心悸、易怒……这些症状让许多人苦不堪言。而另一边,中医理论中的“气血不足”也常常被视为身体虚弱、情绪不稳的根源。那么,焦虑症与气血不足之间&#xff0…

EMLOG程序单页友链和标签增加美化

单页友联效果图: 标签页面效果图: 源码介绍 EMLOG单页友情链接和TAG标签,友链单页文件代码main{width: 58%;是设置宽度 自己把设置成与您的网站宽度一样,如果自适应就填写100%,TAG文件不用修改 安装方法&#xff1a…

使用Selenium与WebDriver实现跨浏览器自动化数据抓取

背景/引言 在数据驱动的时代,网络爬虫成为了收集和分析海量数据的关键工具。为了应对不同浏览器环境下的兼容性问题,Selenium与WebDriver成为了开发者实现跨浏览器自动化数据抓取的首选工具。本文将深入探讨如何利用Selenium和WebDriver实现跨浏览器的数…

客户管理太难了?你可能忽视了这些常见问题

在客户管理中,你是不是常常感到力不从心?客户信息不准确、沟通不到位、客户流失毫无预警……这些问题不仅让管理者头疼,还严重影响企业的业绩增长。客户管理看似简单,但往往隐藏着很多不易察觉的细节问题。如果你觉得客户越来越难…

什么运动耳机好用?六大技巧助力选购优质产品

​开放式蓝牙耳机现在超流行,不仅年轻人爱用,连不少上了年纪的人也喜欢在公园里散步时戴上。这些耳机无论是听歌、学习、健身还是办公,都能派上用场。到了2024年,想要挑到一款既好用又好听的开放式蓝牙耳机,得好好比较…

Vue2+JS项目升级为Vue3+TS之jquery的maphilight引入项目

本人由于想提升自己的项目开发能力,所以将就项目的vue2JavaScriptwebpack的旧技术栈升级为vue3typescriptvite的技术栈,所以遇到很多坑,以下是maphilight的解决方法。 众所周知jquery是基于JavaScript进行开发,但是已有typescript…

LiveKit的agent介绍

概念 LiveKit核心概念: Room(房间)Participant(参会人)Track(信息流追踪) Agent 架构图 ​ 订阅信息流 ​ agent交互流程 客户端操作 加入房间 房间创建方式 手动 赋予用户创建房间的…

【原创】java+springboot+mysql校园疫情管理系统设计与实现

个人主页:程序猿小小杨 个人简介:从事开发多年,Java、Php、Python、前端开发均有涉猎 博客内容:Java项目实战、项目演示、技术分享 文末有作者名片,希望和大家一起共同进步,你只管努力,剩下的交…

【JAVA开源】基于Vue和SpringBoot的图书个性化推荐系统

本文项目编号 T 015 ,文末自助获取源码 \color{red}{T015,文末自助获取源码} T015,文末自助获取源码 目录 一、系统介绍1.1 业务分析1.2 用例设计1.3 时序设计 二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究…