pytorch nn.utils.rnn.pack_padded_sequence 分析

news2025/7/8 15:23:59

pack_padded_sequence

在nlp模型的forward方法中，可能有以下调用令读者疑惑

packed_embedded = nn.utils.rnn.pack_padded_sequence(embedded, text_lengths, batch_first=True, enforce_sorted=False)

为什么要使用pack_padded_sequence？

参考

Pytorch中的RNN之pack_padded_sequence()和pad_packed_sequence()
Pytorch中pack_padded_sequence和pad_packed_sequence的理解

当我们训练RNN时，如果想要进行批次化训练，由于句子的长短不一，所以需要截断和填充。

为什么要截断？对于那些太长的句子，一般选择一个合适的长度来进行截断。
为什么要填充？对于那些太短的句子，需要以填充字符（比如<pad>）填充，使得该批次内所有的句子长度相同。

但是，填充会带来其它问题：

增加了计算复杂度。假设一个批次内有2个句子，长度分别为5和2。我们要保证批次内所有的句子长度相同，就需要把长度为2的句子填充为5。这样喂给RNN时，需要计算 $\times 5 =10$ 次，而实际真正需要的是 $5 + 2 = 7$ 次。
得到的结果可能不准确。我们知道RNN取的是最后一个时间步的隐藏状态做为输出，虽然在填充时，一般是以全0的词向量填充，RNN神经元的权重乘以零不会影响最终的输出，但还有偏差 $b$ ，如果 $\neq 0$ ，还是会影响到最后的输出。

当然这个问题不大，主要是第1个问题，毕竟批次大小很大的时候影响还是不小的。

我们用图解进一步说明这个问题。假设某句子“Yes”只有一个单词，但是填充了多余的pad符号，这样会导致LSTM对它的表示通过了非常多无用的字符，这样得到的句子表示就会有误差

那么我们正确的做法应该是怎么样呢？在上面这个例子，我们想要得到的仅仅是LSTM过完单词"Yes"之后的表示，而不是通过了多个无用的“Pad”得到的表示，如下图：

所以，Pytorch提供了pack_padded_sequence方法来压缩填充字符，加快RNN的计算效率。

pack_padded_sequence是如何压缩的？

那么它是如何做压缩的呢？举个例子，假如一个batch里有5个句子，长度分别是5、4、3、3、2、1。将它们按列压缩，在这个过程中删除了pad字符。所以你可以想象这样的训练过程：

第一个batch有5个单词，[I, I, This, No, Yes]，它们被送入LSTM。
第二个batch有4个单词被送入LSTM。
以此类推，之后的batch长度逐渐减小，分别是3、3、2、1
在这个过程中，pad字符被自然地忽略掉了。

pack_padded_sequence的参数含义

必备参数是句子向量embedded，以及每个句子长度的变量text_lengths。前者通常包含3个维度，即[批次大小、句子最大长度、单词向量长度]（前两者顺序可换）；后者通常是list类型，或者一维Tensor类型，包含了每个句子的长度。

batch_first表示输入的向量是batch维度优先的。
enforce_sorted代表输入的句子是否已经按照长度顺序排好，如果为False，那么函数估计会先按照长度排好，进行计算，再还原回原来的顺序。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/62056.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

TDengine3.0：解决高基数问题的时序数据库设计思路

TDengine3.0：解决高基数问题的时序数据库设计思路

小 T 导读： 数据集的高基数（High-Cardinality）问题一直困扰着诸多主流的时序数据库（Time Series Database，TSDB）产品。一些数据库管理系统，在基数较低时表现良好；但是随着基数的增加…

阅读更多...

vue2.x与vue3.x中自定义指令详解

vue2.x与vue3.x中自定义指令详解

🐱个人主页：不叫猫先生 🙋‍♂️作者简介：前端领域新星创作者、华为云享专家、阿里云专家博主，专注于前端各领域技术，共同学习共同进步，一起加油呀！ 💫系列专栏&#xff…

阅读更多...

m基于GA遗传算法的分件供送螺杆参数优化matlab仿真,优化参数包括螺杆总尺寸-最大圈数等

m基于GA遗传算法的分件供送螺杆参数优化matlab仿真,优化参数包括螺杆总尺寸-最大圈数等

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述首先介绍MATLAB部分的遗传算法的优化算法介绍： 遗传算法的原理遗传算法GA把问题的解表示成“染色体”，在算法中也即是以二进制编码的串。并且，在执行遗传算法…

阅读更多...

AI 对话模型被网友玩坏了！这次还可以运行 Docker 容器...

AI 对话模型被网友玩坏了！这次还可以运行 Docker 容器...

最近一款新的聊天 AI 被网友们玩疯了。它可以直接生成代码、可以给你的代码 debug 以及提出优化...可以模仿莎士比亚风格写作...还可以解答各种各样的问题，而且显然不只 10 岁小孩子的智商，感觉它已经把互联网上所有的公开资料都吸收并消化了。这就是 Op…

阅读更多...

mssql（1433端口）介绍

mssql（1433端口）介绍

mssql介绍 Microsoft SQL Server是一个关系型数据库，微软开发的管理系统。作为数据库服务器，它是一种软件产品，其主要功能是存储和检索其他软件应用程序所请求的数据，这些应用程序可以运行在同一台计算机上，也可以运行…

阅读更多...

Java连接数据库(JDBC非常重要)

Java连接数据库(JDBC非常重要)

目录一.数据库连接 1.1之前如何操作数据库 1.2.实际开发中如何操作数据库？ 二.JDBC(Java Database Connectinity)(重要) 2.1.JDBC的概念 2.2 JDBC核心思想 2.2.1 MySQL数据库驱动 2.2.2 JDBC API 2.3JDBC 环境搭建 2.4准备一张表 2.4.1 创建student表 2.4.…

阅读更多...

[附源码]Python计算机毕业设计Django三星小区车辆登记系统

[附源码]Python计算机毕业设计Django三星小区车辆登记系统

项目运行环境配置： Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。项目技术： django python Vue 等等组成，B/S模式 pychram管理等等。环境需要 1.运行环境：最好是python3.7.7，…

阅读更多...

Json简介与基本使用

Json简介与基本使用

前言本文为Json简介与基本使用相关知识，下边具体将对什么是JSON，XML与JSON的区别，JSON的语法格式，JSON数据的转换（包括：Java对象转换为JSON格式、JSON格式转换为Java对象）等进行详尽介绍~ &am…

阅读更多...

学习 MySQL：什么是分页

学习 MySQL：什么是分页

在本文中，我将解释在MySQL中，什么是分页以及我们如何实现它。当我们从 MySQL 数据库填充大型数据集时，读取同一页面上的所有记录并不容易。使用分页，我们可以将结果集划分为多个页面，这增加了结果集的可读性。在本文中…

阅读更多...

协议-序列化-http-Cookie-Session-https

协议-序列化-http-Cookie-Session-https

文章目录再谈协议什么是序列化，什么是反序列化？为什么要进行序列化和反序列化？怎么进行序列化和反序列化呢？网络计算器版本总结http协议httpurlencode&urldecode一. 格式认识二代码实现一个http协议下的服务器安装telnet服务…

阅读更多...

javaScript 进阶之路 --- 《加深理解回调函数》

javaScript 进阶之路 --- 《加深理解回调函数》

前言： 回想当初第一次看到“回调函数”这个名词的时候，真的快把我难哭了。所有视频教程在讲到某个知识点的时候，大概都会说一句：“啊，这里怎么办呢？这里我们就需要用到一个回调函数...”。等等&#xff0…

阅读更多...

校园论坛（Java）—— 数据报表模块

校园论坛（Java）—— 数据报表模块

校园论坛（Java）—— 数据报表模块文章目录校园论坛（Java）—— 数据报表模块1、写在前面2、系统结构设计2.1 各个页面之间的调用关系2.2.3、数据报表设计3.1 数据报表主界面的实现3.2 发表数Top5的普通帖子3.3 回帖数Top5的普通帖…

阅读更多...

技术人员创业的第一步分析（续，可听音频）

技术人员创业的第一步分析（续，可听音频）

概述：昨天的文章发布以后，在腾讯云TVP专家群里和多个技术群里都引起了一些讨论，基于这些讨论，有了今天的这篇续章。里面谈到了这次创业中，青润经历过的几次生死关头，是真的差点离开人世，而不是想…

阅读更多...

2022年物联卡的发展前景如何

2022年物联卡的发展前景如何

在这个万物互联的时代，针对于企业设备联网的物联卡就显得格外重要了，而共享单车，移动支付，智慧城市，自动售卖机等企业采购物联卡会面临着各种问题，低价陷阱，流量虚假，管理混乱&#…

阅读更多...

JMeter 做性能测试，YYDS！

JMeter 做性能测试，YYDS！

2. JMeter下载和安装 JMeter可以在JMeter的官方网站下载，下载链接如下图所示，xmeter君写本文的时候（2016/11）可以下载到的最新的版本是3.0。下载后解压到你系统下的任意目录，我们称该目录为%JMETER_HOME%，…

阅读更多...

Dart语言简介

Dart语言简介

简单介绍Dart语言 Dart是一种针对客户优化的语言，亦可在任何平台上快速开发的应用陈旭。目标是为多平台开发提供最高效的变成语言，并为应用程序框架搭配了领会的运行时执行平台。 Dart特点 Dart语言类型安全，使用静态型检查来确保变量的…

阅读更多...

Linux命令之常用基础命令备查手册

Linux命令之常用基础命令备查手册

一、前言家里领导因公司系统部署国产化发展趋势，需要学习Linux。作为Linux初学者，希望能有一篇博文提供学习快速学习和掌握Linux系统的常用基础命令。为了满足领导要求，特编写此博文，尽量将常用Linux命令囊括进来，以示…

阅读更多...

基于ssm的宠物商城网站设计与实现

基于ssm的宠物商城网站设计与实现

项目描述临近学期结束，还是毕业设计，你还在做java程序网络编程，期末作业，老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下，你想解决的问…

阅读更多...

HTML5期末大作业：基于HTML+CSS+JavaScript实现中国风文化传媒企业官网源码

HTML5期末大作业：基于HTML+CSS+JavaScript实现中国风文化传媒企业官网源码

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业： 【📚毕设项目精品实战案例 (10…

阅读更多...

【一条命令搞定rabbitmq的安装与配置】

【一条命令搞定rabbitmq的安装与配置】

提示：宝塔面板安装docker/docker-compose，一条命令搞定rabbitmq的安装与配置文章目录前言一、docker-compose.yml配置二、安全组规则添加端口三、通过浏览器访问rabbitmq的管控页面总结前言已经安装好了宝塔面板、并且可以在Docker栏目，选…

阅读更多...

推荐文章

最新文章