pytorch nn.utils.rnn.pack_padded_sequence 分析

news2024/11/13 10:18:43

pack_padded_sequence

在nlp模型的forward方法中,可能有以下调用令读者疑惑

packed_embedded = nn.utils.rnn.pack_padded_sequence(embedded, text_lengths, batch_first=True, enforce_sorted=False)

为什么要使用pack_padded_sequence?

参考

  • Pytorch中的RNN之pack_padded_sequence()和pad_packed_sequence()
  • Pytorch中pack_padded_sequence和pad_packed_sequence的理解

当我们训练RNN时,如果想要进行批次化训练,由于句子的长短不一,所以需要截断和填充。

  • 为什么要截断?对于那些太长的句子,一般选择一个合适的长度来进行截断。
  • 为什么要填充?对于那些太短的句子,需要以 填充字符(比如<pad>)填充,使得该批次内所有的句子长度相同。

但是,填充会带来其它问题:

  • 增加了计算复杂度。假设一个批次内有2个句子,长度分别为5和2。我们要保证批次内所有的句子长度相同,就需要把长度为2的句子填充为5。这样喂给RNN时,需要计算 2 × 5 = 10 2 \times 5 =10 2×5=10次,而实际真正需要的是 5 + 2 = 7 5+2=7 5+2=7次。
  • 得到的结果可能不准确。我们知道RNN取的是最后一个时间步的隐藏状态做为输出,虽然在填充时,一般是以全0的词向量填充,RNN神经元的权重乘以零不会影响最终的输出,但还有偏差 b b b,如果 b ≠ 0 b \neq 0 b=0,还是会影响到最后的输出。

    当然这个问题不大,主要是第1个问题,毕竟批次大小很大的时候影响还是不小的。

我们用图解进一步说明这个问题。假设某句子“Yes”只有一个单词,但是填充了多余的pad符号,这样会导致LSTM对它的表示通过了非常多无用的字符,这样得到的句子表示就会有误差

那么我们正确的做法应该是怎么样呢?在上面这个例子,我们想要得到的仅仅是LSTM过完单词"Yes"之后的表示,而不是通过了多个无用的“Pad”得到的表示,如下图:

所以,Pytorch提供了pack_padded_sequence方法来压缩填充字符,加快RNN的计算效率。

pack_padded_sequence是如何压缩的?

那么它是如何做压缩的呢?举个例子,假如一个batch里有5个句子,长度分别是5、4、3、3、2、1。将它们按列压缩,在这个过程中删除了pad字符。所以你可以想象这样的训练过程:

  1. 第一个batch有5个单词,[I, I, This, No, Yes],它们被送入LSTM。
  2. 第二个batch有4个单词被送入LSTM。
  3. 以此类推,之后的batch长度逐渐减小,分别是3、3、2、1
    在这个过程中,pad字符被自然地忽略掉了。

pack_padded_sequence的参数含义

必备参数是句子向量embedded,以及每个句子长度的变量text_lengths。前者通常包含3个维度,即[批次大小、句子最大长度、单词向量长度](前两者顺序可换);后者通常是list类型,或者一维Tensor类型,包含了每个句子的长度。

  • batch_first表示输入的向量是batch维度优先的。
  • enforce_sorted代表输入的句子是否已经按照长度顺序排好,如果为False,那么函数估计会先按照长度排好,进行计算,再还原回原来的顺序。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/62056.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TDengine3.0:解决高基数问题的时序数据库设计思路

小 T 导读&#xff1a; 数据集的高基数&#xff08;High-Cardinality&#xff09;问题一直困扰着诸多主流的时序数据库&#xff08;Time Series Database&#xff0c;TSDB&#xff09;产品。一些数据库管理系统&#xff0c;在基数较低时表现良好&#xff1b;但是随着基数的增加…

vue2.x与vue3.x中自定义指令详解

&#x1f431;个人主页&#xff1a;不叫猫先生 &#x1f64b;‍♂️作者简介&#xff1a;前端领域新星创作者、华为云享专家、阿里云专家博主&#xff0c;专注于前端各领域技术&#xff0c;共同学习共同进步&#xff0c;一起加油呀&#xff01; &#x1f4ab;系列专栏&#xff…

m基于GA遗传算法的分件供送螺杆参数优化matlab仿真,优化参数包括螺杆总尺寸-最大圈数等

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 首先介绍MATLAB部分的遗传算法的优化算法介绍&#xff1a; 遗传算法的原理 遗传算法GA把问题的解表示成“染色体”&#xff0c;在算法中也即是以二进制编码的串。并且&#xff0c;在执行遗传算法…

AI 对话模型被网友玩坏了!这次还可以运行 Docker 容器...

最近一款新的聊天 AI 被网友们玩疯了。它可以直接生成代码、可以给你的代码 debug 以及提出优化...可以模仿莎士比亚风格写作...还可以解答各种各样的问题&#xff0c;而且显然不只 10 岁小孩子的智商&#xff0c;感觉它已经把互联网上所有的公开资料都吸收并消化了。这就是 Op…

mssql(1433端口)介绍

mssql介绍 Microsoft SQL Server是一个关系型数据库&#xff0c;微软开发的管理系统。作为数据库服务器&#xff0c;它是一种软件产品&#xff0c;其主要功能是存储和检索其他软件应用程序所请求的数据&#xff0c;这些应用程序可以运行在同一台计算机上&#xff0c;也可以运行…

Java连接数据库(JDBC非常重要)

目录 一.数据库连接 1.1之前如何操作数据库 1.2.实际开发中如何操作数据库&#xff1f; 二.JDBC(Java Database Connectinity)(重要) 2.1.JDBC的概念 2.2 JDBC核心思想 2.2.1 MySQL数据库驱动 2.2.2 JDBC API 2.3JDBC 环境搭建 2.4准备一张表 2.4.1 创建student表 2.4.…

[附源码]Python计算机毕业设计Django三星小区车辆登记系统

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

Json简介与基本使用

前言 本文为Json简介与基本使用相关知识&#xff0c;下边具体将对什么是JSON&#xff0c;XML与JSON的区别&#xff0c;JSON的语法格式&#xff0c;JSON数据的转换&#xff08;包括&#xff1a;Java对象转换为JSON格式、JSON格式转换为Java对象&#xff09;等进行详尽介绍~ &am…

学习 MySQL:什么是分页

在本文中&#xff0c;我将解释在MySQL中&#xff0c;什么是分页以及我们如何实现它。当我们从 MySQL 数据库填充大型数据集时&#xff0c;读取同一页面上的所有记录并不容易。使用分页&#xff0c;我们可以将结果集划分为多个页面&#xff0c;这增加了结果集的可读性。在本文中…

协议-序列化-http-Cookie-Session-https

文章目录再谈协议什么是序列化&#xff0c;什么是反序列化&#xff1f;为什么要进行序列化和反序列化&#xff1f;怎么进行序列化和反序列化呢&#xff1f;网络计算器版本总结http协议httpurlencode&urldecode一. 格式认识二 代码实现一个http协议下的服务器安装telnet服务…

javaScript 进阶之路 --- 《加深理解回调函数》

前言&#xff1a; 回想当初第一次看到“回调函数”这个名词的时候&#xff0c;真的快把我难哭了。所有视频教程在讲到某个知识点的时候&#xff0c;大概都会说一句&#xff1a;“啊&#xff0c;这里怎么办呢&#xff1f;这里我们就需要用到一个回调函数...”。 等等&#xff0…

校园论坛(Java)—— 数据报表模块

校园论坛&#xff08;Java&#xff09;—— 数据报表模块 文章目录校园论坛&#xff08;Java&#xff09;—— 数据报表模块1、写在前面2、系统结构设计2.1 各个页面之间的调用关系2.2.3、数据报表设计3.1 数据报表主界面的实现3.2 发表数Top5的普通帖子3.3 回帖数Top5的普通帖…

技术人员创业的第一步分析(续,可听音频)

概述&#xff1a;昨天的文章发布以后&#xff0c;在腾讯云TVP专家群里和多个技术群里都引起了一些讨论&#xff0c;基于这些讨论&#xff0c;有了今天的这篇续章。里面谈到了这次创业中&#xff0c;青润经历过的几次生死关头&#xff0c;是真的差点离开人世&#xff0c;而不是想…

2022年物联卡的发展前景如何

在这个万物互联的时代&#xff0c;针对于企业设备联网的物联卡就显得格外重要了&#xff0c;而共享单车&#xff0c;移动支付&#xff0c;智慧城市&#xff0c;自动售卖机等企业采购物联卡会面临着各种问题&#xff0c;低价陷阱&#xff0c;流量虚假&#xff0c;管理混乱&#…

JMeter 做性能测试,YYDS!

2. JMeter下载和安装 JMeter可以在JMeter的官方网站下载&#xff0c;下载链接如下图所示&#xff0c;xmeter君写本文的时候&#xff08;2016/11&#xff09;可以下载到的最新的版本是3.0。 下载后解压到你系统下的任意目录&#xff0c;我们称该目录为%JMETER_HOME%&#xff0c;…

Dart语言简介

简单介绍Dart语言 Dart是一种针对客户优化的语言&#xff0c;亦可在任何平台上快速开发的应用陈旭。 目标是为多平台开发提供最高效的变成语言&#xff0c;并为应用程序框架搭配了领会的运行时执行平台。 Dart特点 Dart语言 类型安全&#xff0c;使用静态型检查来确保变量的…

Linux命令之常用基础命令备查手册

一、前言 家里领导因公司系统部署国产化发展趋势&#xff0c;需要学习Linux。作为Linux初学者&#xff0c;希望能有一篇博文提供学习快速学习和掌握Linux系统的常用基础命令。为了满足领导要求&#xff0c;特编写此博文&#xff0c;尽量将常用Linux命令囊括进来&#xff0c;以示…

基于ssm的宠物商城网站设计与实现

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下&#xff0c;你想解决的问…

HTML5期末大作业:基于HTML+CSS+JavaScript实现中国风文化传媒企业官网源码

&#x1f389;精彩专栏推荐 &#x1f4ad;文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业&#xff1a; 【&#x1f4da;毕设项目精品实战案例 (10…

【一条命令搞定rabbitmq的安装与配置】

提示&#xff1a;宝塔面板安装docker/docker-compose&#xff0c;一条命令搞定rabbitmq的安装与配置 文章目录前言一、docker-compose.yml配置二、安全组规则添加端口三、通过浏览器访问rabbitmq的管控页面总结前言 已经安装好了宝塔面板、并且可以在Docker栏目&#xff0c;选…