pytorch-LSTM

pytorch-LSTM

news2025/4/11 9:43:12

目录

1. RNN存在的问题
2. LSTM的由来
3. LSTM门
- 3.1 遗忘门
- 3.2 输入门
- 3.3 输出门
4. LSTM是如何减轻梯度弥散问题

1. RNN存在的问题

如下图：RNN能满足预测下一个单词，但是对于获取更多的上下文信息就做不到了。
在这里插入图片描述

2. LSTM的由来

RNN能做到短时记忆即short time memory，而LSTM相对RNN能够处理更长的时间序列，因此被称为LSTM即long short time memory

RNN有一串重复的模块，这些模块使用统一的权重Whh和Wih
在这里插入图片描述
LSTM也有一连串的类似结构，但是重复模块是不同的结构，它用四个单层的神经网络替代，并以指定的方式相互作用。它有三个门，分别是遗忘门、输入门和输出门。

3. LSTM门

门是一种信息过滤方式，他们由sigmod函数和点乘操作组成，sigmod范围是0~1，因此通过sigmod函数可以控制输出。
在这里插入图片描述

3.1 遗忘门

遗忘门f_t是h_t-1和x_t经过一系列运算，再经过sigmod函数得到的
在这里插入图片描述

3.2 输入门

输入门由两部分组成，一个是i_t输入门层，它是通过h_t-1和x_t经过一系列运算，再经过sigmod函数得到的。
另一个是新的输入C_t^’，这里没有直接使用x_t作为输入，而是通过h_t-1和x_t经过一系列运算，再经过tanh函数得到新的输入C_t^’。

在这里插入图片描述
最后输出C_t = f_t*C_t-1 + i_t*C_t^’

3.3 输出门

输出门o_t也是通过h_t-1和x_t经过一系列运算，再经过sigmod函数得到的。
最后的输出h_t = o_t*tanh(C_t)
注意：LSTM中h_t已经不是memory了，而是输出，C_t才是memory
在这里插入图片描述
可以看出每个门的运算都与h_t-1和x_t相关，并且通过sigmod函数来控制门的开度，最后的输出h_t使用了tanh

输入们和遗忘门门的组合，会得到不同的值，如下图：

4. LSTM是如何减轻梯度弥散问题

从梯度计算公式可以知道，RNN的梯度中有W_hh的累乘，当W_hh<1时，就可能出现梯度弥散，而LSTM梯度由几项累加得到，即使W很小也很难出现梯度弥散。
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1924731.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

jenkins系列-04-jenkins参数化构建

jenkins系列-04-jenkins参数化构建

使用maven build之前，先checkout 指定分支或标签： 拖拽调整顺序：shell执行在前，构建在后： gitee新建标签tag:

阅读更多...

【持续集成_06课_Jenkins高级pipeline应用】

【持续集成_06课_Jenkins高级pipeline应用】

一、创建项目选择pipeline的风格它主要是以脚本（它自己的语言）的方式进行运行，一般由运维去做的事情，作为测试而言。了解即可。 --- 体现形式全部通过脚本去实现：执行之前（拉取代码）执行&…

阅读更多...

$《Cross-Image Pixel Contrasting for Semantic Segmentation》论文解读$

《Cross-Image Pixel Contrasting for Semantic Segmentation》论文解读

期刊：TPAMI 年份：2024 摘要研究图像语义分割问题。目前的方法主要集中在通过专门设计的上下文聚合模块(如空洞卷积、神经注意力)或结构感知的优化目标(如iou样损失)挖掘"局部"上下文，即单个图像中像素之间的依赖关系。然而&…

阅读更多...

【图解大数据技术】流式计算：Spark Streaming、Flink

【图解大数据技术】流式计算：Spark Streaming、Flink

【图解大数据技术】流式计算：Spark Streaming、Flink 批处理 VS 流式计算Spark StreamingFlinkFlink简介Flink入门案例Streaming Dataflow Flink架构Flink任务调度与执行task slot 和 task EventTime、Windows、WatermarksEventTimeWindowsWatermarks 批处理 VS 流式…

阅读更多...

Lottery 分布式抽奖（个人向记录总结）

Lottery 分布式抽奖（个人向记录总结）

1.搭建（DDDRPC）架构 DDD——微服务架构（微服务是对系统拆分的方式） （Domain-Driven Design 领域驱动设计） DDD与MVC同属微服务架构是由Eric Evans最先提出，目的是对软件所涉及到的领域进行建…

阅读更多...

jenkins系列-05-jenkins构建golang程序

jenkins系列-05-jenkins构建golang程序

下载go1.20.2.linux-arm64.tar.gz 并存放到jenkins home目录： 写一个golang demo程序：静态文件服务器：https://gitee.com/jelex/jenkins_golang package mainimport ("encoding/base64""flag""fmt""lo…

阅读更多...

搜索引擎中的相关性模型

搜索引擎中的相关性模型

一、什么是相关性模型？ 相关性模型主要关注的是query和doc的相关性。例如给定query，和1000个doc，找到哪个doc是好query最相关的。二、为什么需要相关性模型？ 熟悉es的应该都熟悉BM25相关性算法。它是一个很简单的相关性算法。我…

阅读更多...

【Linux】权限管理与相关指令

【Linux】权限管理与相关指令

文章目录 1.权限、文件权限、用户文件权限的理解以及对应八进制数值表示、设置目录为粘滞位文件类型 2.权限相关的常用指令susudochmodchownchgrpumaskwhoamifile 1.权限、文件权限、用户通过一定条件，拦住一部分人，给另一部分权利来访问资源&#xff0…

阅读更多...

【node-RED 4.0.2】连接 Oracle 数据库踩坑解决，使用模组：node-red-contrib-agur-connector

【node-RED 4.0.2】连接 Oracle 数据库踩坑解决，使用模组：node-red-contrib-agur-connector

关于 Oracle Oracle 就好像一张吸满水的面巾纸，你稍一用力它就烂了。一、发现的问题 1.为什么需要 Oracle Instant Client && 不能使用 rpm 安装的原因我们在使用 node-red 的 node-red-contrib-agur-connector 插件模组时，需要用到 Oracl…

阅读更多...

QML界面控件加载与显示顺序

QML界面控件加载与显示顺序

一、QML界面控件加载顺序 QML在界面加载时的顺序和我们认知的有很大的不同，有时候会对我们获取参数以及界面实现造成很大的困扰 1、加载顺序 import QtQuick 2.12 import QtQml 2.12 import QtQuick.Window 2.12 import QtQuick.VirtualKeyboard 2.4Window {id: …

阅读更多...

Oracle使用fetch first子句报错：ORA-00933 SQL命令未正确结束

Oracle使用fetch first子句报错：ORA-00933 SQL命令未正确结束

问题背景今天在统计终端厂商告警次数Top10的时候使用SQL查询使用到了fetch first子句，结果执行报错：ORA-00933 SQL命令未正确结束。报错原因 Oracle数据库中，使用 FETCH FIRST 子句需要启用 Oracle 12c 及以上版本。如果在较低版本的 Or…

阅读更多...

德迅与DSV携香港蝴蝶效应集团,创半导体与新能源汽车物流新篇章

德迅与DSV携香港蝴蝶效应集团,创半导体与新能源汽车物流新篇章

在全球经济一体化的大背景下,物流行业作为连接生产与消费的重要纽带,正迎来前所未有的发展机遇。特别是在半导体产业和新能源汽车领域,物流服务的专业性和高效性已成为企业竞争力的重要体现。近日,国际物流巨头德迅(Kuehne Nagel International)与全球汽车行业供应链物流专家D…

阅读更多...

GitHub+Picgo图片上传

GitHub+Picgo图片上传

Picgo下载，修改安装路径，其他一路下一步！ 地址注册GitHub，注册过程不详细展开，不会的百度一下地址新建GitHub仓库存放图片生成Token令牌点击头像，点击Settings 滑到最后过期时间：No expi…

阅读更多...

用HTML和CSS实现提示工具（tooltip）及HTML元素的定位

用HTML和CSS实现提示工具（tooltip）及HTML元素的定位

所谓提示工具，是指将鼠标移动到某个HTML元素（工具）时会显示一些提示内容（提示文本），而鼠标移出工具元素的范围时提示文本就消失了。考虑到提示文本元素应当在鼠标进入工具元素时显示，鼠标离开工…

阅读更多...

网络安全防御【防火墙NAT智能选举综合实验】

网络安全防御【防火墙NAT智能选举综合实验】

目录一、实验拓扑图二、实验要求三、实验思路四、实验步骤 1、FW2的网络相关配置： 2、路由器需要增加的（接口）命令配置 3、新增加的PC、client、sever的IP地址配置： 4、多对多的NAT，并且需要保留一个公网I…

阅读更多...

LeetCode 3011.判断一个数组是否可以变为有序

LeetCode 3011.判断一个数组是否可以变为有序

注：这个题目有序的意思是“升序” 解法一：bubblesort O(nlogn) 核心思想：冒泡每次会将一个数归位到最后的位置上，所以我们如果碰到无法向右交换的数字，即可return false class Solution { public:// 返回一个十进制…

阅读更多...

链接追踪系列-05.mac m1 安装es+kibana

链接追踪系列-05.mac m1 安装es+kibana

运行启动脚本： docker run -e ES_JAVA_OPTS"-Xms512m -Xmx512m" -d -p 9200:9200 -p 9300:9300 -e "discovery.typesingle-node" \-v /Users/jelex/dockerV/es/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml …

阅读更多...

初涉项目架构

初涉项目架构

初涉项目架构了解传统项目与互联网项目的区别传统项目指OA、HR、CRM这种，互联网项目则是常见的app 首先是受众（服务对象）不同，传统项目是面向公司、学校等群体，互联网项目则是面向全体网民两种对象数量不同&#x…

阅读更多...

使用Java连接星火认知大模型：一个实际案例解析

使用Java连接星火认知大模型：一个实际案例解析

引言： 随着人工智能技术的快速发展，认知大模型如星火在自然语言处理、语音识别等领域发挥着越来越重要的作用。本文将通过一个实际的Java代码示例，详细讲解如何使用Java连接星火认知大模型，并处理其响应。 1.导入依赖&#xff1…

阅读更多...

Github 2024-07-13 开源项目日报 Top10

Github 2024-07-13 开源项目日报 Top10

根据Github Trendings的统计，今日(2024-07-13统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目3TypeScript项目2Go项目2Java项目2Rust项目1非开发语言项目1Solidity项目1从零开始构建你喜爱的技术创建周期：2156 天Star数量：25…

阅读更多...

推荐文章

最新文章