编码器-解码器架构_by《李沐:动手学深度学习v2》pytorch版

news2025/1/16 13:58:57

系列文章目录


文章目录

  • 系列文章目录
  • 一、引言
    • 编码器
    • 解码器
    • 合并编码器和解码器
    • 小结
    • 练习
    • 答案
      • 1. 编码器和解码器是否必须是同一类型的神经网络?
      • 2. 除了机器翻译,还有其它可以适用于“编码器-解码器”架构的应用吗?


一、引言

正如我们在上一节中所讨论的, 机器翻译是序列转换模型的一个核心问题, 其输入和输出都是长度可变的序列。 为了处理这种类型的输入和输出, 我们可以设计一个包含两个主要组件的架构: 第一个组件是一个编码器(encoder): 它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。 第二个组件是解码器(decoder): 它将固定形状的编码状态映射到长度可变的序列。 这被称为编码器-解码器(encoder-decoder)架构, 如下图所示。
在这里插入图片描述
我们以英语到法语的机器翻译为例: 给定一个英文的输入序列:“They”“are”“watching”“.”。 首先,这种“编码器-解码器”架构将长度可变的输入序列编码成一个“状态”, 然后对该状态进行解码, 一个词元接着一个词元地生成翻译后的序列作为输出: “Ils”“regordent”“.”。 由于“编码器-解码器”架构是形成后续章节中不同序列转换模型的基础, 因此本节将把这个架构转换为接口方便后面的代码实现。

编码器

在编码器接口中,我们只指定长度可变的序列作为编码器的输入X。任何继承这个Encoder基类的模型将完成代码实现。

from torch import nn


class Encoder(nn.Module):
    """编码器-解码器架构的基本编码器接口"""
    def __init__(self, **kwargs):
        super(Encoder, self).__init__(**kwargs)

    def forward(self, X, *args):
        raise NotImplementedError

解码器

在下面的解码器接口中,我们新增一个init_state函数,用于将编码器的输出(enc_outputs)转换为编码后的状态。
注意,此步骤可能需要额外的输入,例如:输入序列的有效长度,
这在上一节中进行了解释。为了逐个地生成长度可变的词元序列,解码器在每个时间步都会将输入(例如:在前一时间步生成的词元)和编码后的状态映射成当前时间步的输出词元。

#@save
class Decoder(nn.Module):
    """编码器-解码器架构的基本解码器接口"""
    def __init__(self, **kwargs):
        # 调用父类 nn.Module 的构造函数进行初始化
        super(Decoder, self).__init__(**kwargs)

    def init_state(self, enc_outputs, *args):
        # 初始化解码器状态,基于编码器的输出
        # 该方法尚未实现,需在子类中具体定义
        raise NotImplementedError

    def forward(self, X, state):
        # 定义解码器的前向传播过程
        # 接受输入 X 和当前状态 state
        # 该方法尚未实现,需在子类中具体定义
        raise NotImplementedError

合并编码器和解码器

总而言之,“编码器-解码器”架构包含了一个编码器和一个解码器,并且还拥有可选的额外的参数。
在前向传播中,编码器的输出用于生成编码状态,这个状态又被解码器作为其输入的一部分。

#@save
class EncoderDecoder(nn.Module):
    """编码器-解码器架构的基类"""
    def __init__(self, encoder, decoder, **kwargs):
        # 调用父类 nn.Module 的构造函数进行初始化
        super(EncoderDecoder, self).__init__(**kwargs)
        # 保存传入的编码器和解码器对象
        self.encoder = encoder
        self.decoder = decoder

    def forward(self, enc_X, dec_X, *args):
        # 通过编码器处理输入 enc_X,获取编码器的输出
        enc_outputs = self.encoder(enc_X, *args)
        # 初始化解码器的状态,基于编码器的输出
        dec_state = self.decoder.init_state(enc_outputs, *args)
        # 使用解码器处理输入 dec_X 和初始化的状态,返回最终输出
        return self.decoder(dec_X, dec_state)

“编码器-解码器”体系架构中的术语状态
会启发人们使用具有状态的神经网络来实现该架构。
在下一节中,我们将学习如何应用循环神经网络,
来设计基于“编码器-解码器”架构的序列转换模型。

小结

  • “编码器-解码器”架构可以将长度可变的序列作为输入和输出,因此适用于机器翻译等序列转换问题。
  • 编码器将长度可变的序列作为输入,并将其转换为具有固定形状的编码状态。
  • 解码器将具有固定形状的编码状态映射为长度可变的序列。

练习

  1. 假设我们使用神经网络来实现“编码器-解码器”架构,那么编码器和解码器必须是同一类型的神经网络吗?
  2. 除了机器翻译,还有其它可以适用于”编码器-解码器“架构的应用吗?

答案

1. 编码器和解码器是否必须是同一类型的神经网络?

不,编码器和解码器不必是同一类型的神经网络。虽然它们通常在同一架构中协同工作,但可以使用不同类型的网络。例如:

  • 编码器可以是卷积神经网络(CNN),用于处理图像数据,而解码器可以是循环神经网络(RNN),用于生成序列数据。
  • 在某些情况下,编码器和解码器也可以是同一类型的网络,例如都使用RNN,但它们的具体结构和参数可以不同。

2. 除了机器翻译,还有其它可以适用于“编码器-解码器”架构的应用吗?

是的,编码器-解码器架构适用于多种应用,除了机器翻译之外,还包括:

  1. 图像生成

    • 例如,图像到图像的转换(如从素描到真实图像)。
  2. 文本摘要

    • 自动生成文章的简要摘要。
  3. 语音识别

    • 将语音信号编码为文本。
  4. 对话系统

    • 生成对话回复,基于用户输入的上下文。
  5. 视频分析

    • 从视频中提取特征并生成描述或动作预测。
  6. 图像标注

    • 为图像生成描述性文本。
  7. 时间序列预测

    • 从历史数据预测未来的数值序列。

这些应用展示了编码器-解码器架构的灵活性和广泛适用性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2149766.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LocalDateTime,OffsetDateTime和ZonedDateTime(上)

图片来源:https://www.cnblogs.com/yourbatman/p/14324575.html 一. LocalDate和LocalTime LocalDate:代表不含时区信息的日期,它只能表示年、月、日。它适用于记录一个日子,比如生日、纪念日、或者任何只需要日期而不需要具体时…

除猫毛用粘毛器还是宠物空气净化器?希喂/米家/352/范罗士/有哈空气净化器对比

微博之夜,明星互送礼物环节,要求所有嘉宾准备一份礼物,再由其他明星随机抽取互换礼物。田曦薇送粘毛器可是引起了广泛的争议和批评。不说价格,粘毛器对咱养猫人来讲还真是刚需啊。我朋友家三只猫,出门不用说啥&#xf…

掌握数据中心虚拟化:关键挑战与解决方案

数据中心虚拟化是使用云软件平台将物理数据中心转变为数字数据中心的过程,使企业能够远程访问信息和应用程序。它包括在数据中心内创建物理基础设施的多个虚拟版本,通过将服务器、存储和网络等资源划分为虚拟实体来实现资源的高效利用。 虚拟化环境中的关…

[c++进阶(八)]STL容器适配器之queue

1.前言 和stack一样,队列也没有把他放在容器的一栏里面,而是把他放在容器适配器的一栏。这也是因为queue是使用了别人的相关接口,空间然后来封装自己的内容,最后再给上层用户使用。 2.队列 队列的性质就是先进先出,他…

【C++ 学习】多态的基础和原理(10)

目录 前言1. 概念2. 多态的定义及实现2.1 多态的构成条件2.2 虚函数2.3 虚函数重写2.4 虚函数重写的例外2.4.1 协变2.4.1 析构函数的重写 2.5 多态调用和普通调用2.6 函数重写/函数隐藏/函数重载 的对比2.6.1 函数重写2.6.2 函数隐藏2.6.3 函数重载 2.7 C11 final 和override 3…

HT326 免电感滤波2x20W D类立体声音频功放

特点 输出功率(BTL模式) 2x20W (VDD14.5V,RL4Ω,THDN1%) 单电源系统: 4.5V-18V; 超过90%效率,无需散热器 扩频功能,免电感滤波 模拟差分/单端输入可选 增益:32dB 保护功能:过压/过流/过热/欠压异常,直流检测 和短路保护 无铅无卤封装&#x…

three.js 热力图

使用three.js 和 heatMap.js 实现在 三维场景中展示热力图的效果,以下代码复制粘贴即可在你的本机运行。 在线编辑运行预览可方位 https://threehub.cn/#/codeMirror?navigationThreeJS&classifyexpand&idheatmap3D 在 https://threehub.cn 中还有很多案例…

[PTA]7-3 乘法口诀数列

[PTA]7-3 乘法口诀数列 输出格式: 在一行中输出数列的前 n 项。数字间以 1 个空格分隔,行首尾不得有多余空格。 输入样例: 2 3 10 输出样例: 2 3 6 1 8 6 8 4 8 4 样例解释: 数列前 2 项为 2 和 3。从 2 开始&#…

Java集合(三)

目录 Java集合(三) Java双列集合体系介绍 HashMap类 HashMap类介绍 HashMap类常用方法 HashMap类元素遍历 LinkedHashMap类 LinkedHashMap类介绍 LinkedHashMap类常用方法 LinkedHashMap类元素遍历 Map接口自定义类型去重的方式 Set接口和Ma…

grafana 使用常见问题

一、点击 panel 没有反应,没有出现 edit 选项。 方法一 将鼠标放在 panel 的任意位置,然后键盘输入 "e",然后再次点击 title,即可出现选项框。 方法二 F12 查看当前 panel id,然后在浏览器 url 地址上拼接…

探索AI大模型的未来:电信运营商与云服务商的新征途@附58页PDF文件下载

在数字化浪潮的推动下,人工智能(AI)大模型正成为推动行业变革的关键力量。近日,腾讯云联合中国信通院及中国通信标准化协会发布了《2024年AI大模型应用发展研究报告》,深入探讨了电信运营商与云服务商在AI大模型领域的…

Unicode与UTF-8的关系

Unicode又称统一码,万国码。uni是一个英文词根,原型是one, 表示“单一, 一个”,所以unicode本意是“一个码”,就是让每个字符都有一个唯一的编码。它就像个武林盟主,把世上所有的语言符号一勺烩,一统了编码…

反相求和电路设计

1 简介 该电路可对两个输入信号进行求和(相加),并将其在输出端反相。输入信号通常要求低阻抗源,因为该电路的输入阻抗由输入电阻R1和R2决定。反相放大器的共模电压等于连接到同相节点的电压。 2 设计目标 2.1 输入 2.2 输出 2.3…

9.4 溪降技术:带包下降

目录 9.4 携包下降概述观看视频课程电子书:携包下降在瀑布中管理背包扔背包滑索传送背包固定到安全带 V7 提示:将背包固定到安全带总结 9.4 携包下降 概述 在水流和悬崖边缘携包下降是最危险的情况! 正如我们之前所学,在峡谷探险中…

Tomcat 后台弱⼝令部署war包

漏洞原理 在tomcat8环境下默认进⼊后台的密码为 tomcat/tomcat ,未修改造成未授权即可进⼊后台,或者管理员把密码设置成弱⼝令。 影响版本 全版本(前提是⼈家存在弱⼝令) 环境搭建 8 cd vulhub-master/tomcat/tomcat8 docker-compose up -d 漏洞复…

AD9854 为什么输出波形幅度受限??

🏆本文收录于《全栈Bug调优(实战版)》专栏,主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&am…

【CSS in Depth 2 精译_035】5.5 Grid 网格布局中的子网格布局(全新内容)

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一章 层叠、优先级与继承(已完结) 1.1 层叠1.2 继承1.3 特殊值1.4 简写属性1.5 CSS 渐进式增强技术1.6 本章小结 第二章 相对单位(已完结) 2.1 相对…

C++速通LeetCode中等第6题-找到字符串中所有字母异位词(滑动窗口最详细代码注释)

滑动窗口法&#xff1a; class Solution { public:vector<int> findAnagrams(string s, string p) {unordered_map<char,int> need,window;for(char c : p) need[c];int left 0,right 0;int valid 0;vector<int> res;//窗口数据更新while(right < s.s…

FDM3D打印系列——黑悟空打印

大家好&#xff0c;我是阿赵。   最近很火的黑神话悟空&#xff0c;阿赵我没有玩&#xff0c;原因是没时间。不过看着身边的同事都在玩&#xff0c;我也心痒难耐&#xff0c;所以我打印了一个悟空的模型&#xff0c;并且自己配了色。 打印这个悟空模型&#xff0c;过程是一波…

Telephony VOWIFI

1、VOWIFI框架 参考3GPP 23402文档, VOWIFI有如下相关架构设置。 1、S2a信任的WIFI热点 2、S2b非信任WIF热点 3、S2c直联核心WIF热点 目前使用比较多的为S2b非信任WIF热点。 2、EPDG建立过程 //Telephony Log IWLAN拨号 08-30 21:36:34.702857 1347 5131 D ConnectivityS…