第二十四天 循环神经网络(RNN)LSTM与GRU

news2024/12/21 9:40:44

LSTM(长短期记忆网络)和GRU(门控循环单元)是两种流行的循环神经网络变体,它们被设计来解决传统RNN在处理长序列数据时遇到的梯度消失和梯度爆炸问题。这两种网络都通过引入门控机制来控制信息的流动,从而能够更好地捕捉长距离依赖关系。

LSTM(Long Short-Term Memory)

LSTM网络由Hochreiter和Schmidhuber于1997年提出。它通过引入三个门控(输入门、遗忘门、输出门)和一个单元状态来解决梯度消失问题。

  1. 遗忘门(Forget Gate):决定哪些信息需要从单元状态中丢弃。
  2. 输入门(Input Gate):决定哪些新信息将被存储在单元状态中。
  3. 单元状态(Cell State):携带有关输入序列的信息,并在整个序列中传递。
  4. 输出门(Output Gate):决定输出值,基于单元状态和隐藏状态。

LSTM的数学表达式如下:

[ f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ]
[ i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) ]
[ \tilde{C}t = \tanh(W_C \cdot [h{t-1}, x_t] + b_C) ]
[ C_t = f_t * C_{t-1} + i_t * \tilde{C}t ]
[ o_t = \sigma(W_o \cdot [h
{t-1}, x_t] + b_o) ]
[ h_t = o_t * \tanh(C_t) ]

其中,( f_t )、( i_t )、( o_t ) 分别是遗忘门、输入门和输出门的激活值,( C_t ) 是单元状态,( h_t ) 是隐藏状态,( \sigma ) 是sigmoid函数,( * ) 表示逐元素乘法。

GRU(Gated Recurrent Unit)

GRU是Cho等人在2014年提出的一种更简洁的RNN变体,它将LSTM中的遗忘门和输入门合并为一个更新门,并引入重置门。

  1. 更新门(Update Gate):控制从旧的隐藏状态到新的隐藏状态的转换。
  2. 重置门(Reset Gate):控制从过去的信息中忘记多少,以帮助模型处理长期依赖。
  3. 隐藏状态(Hidden State):同时作为单元状态和输出状态。

GRU的数学表达式如下:

[ z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z) ]
[ r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r) ]
[ \tilde{h}t = \tanh(W \cdot [r_t * h{t-1}, x_t] + b) ]
[ h_t = (1 - z_t) * h_{t-1} + z_t * \tilde{h}_t ]

其中,( z_t ) 是更新门的激活值,( r_t ) 是重置门的激活值,( \tilde{h}_t ) 是候选隐藏状态,( h_t ) 是最终的隐藏状态。

LSTM与GRU的比较

  • 参数数量:GRU的参数数量通常少于LSTM,因为它没有单独的单元状态和输出门。
  • 计算复杂度:GRU的计算复杂度较低,因为它的结构更简单。
  • 性能:在某些任务中,LSTM和GRU的性能相当,但在处理非常长的序列时,LSTM通常表现更好。
  • 适用性:对于较小的数据集,GRU可能更快地收敛,但在较大的数据集上,LSTM可能更稳定。

在实际应用中,选择LSTM还是GRU取决于具体任务的需求、数据集的大小以及模型的复杂度。有时,通过实验比较两者的性能来决定使用哪种模型是一个好的选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2263179.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

线程池ForkJoinPool详解

由一道算法题引发的思考 算法题:如何充分利用多核CPU的性能,快速对一个2千万大小的数组进行排序? 这道算法题可以拆解来看: 1)首先这是一道排序的算法题,而且是需要使用高效的排序算法对2千万大小的数组…

基于多尺度动态卷积的图像分类

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…

[Linux] 信号保存与处理

🪐🪐🪐欢迎来到程序员餐厅💫💫💫 主厨:邪王真眼 主厨的主页:Chef‘s blog 所属专栏:青果大战linux 总有光环在陨落,总有新星在闪烁 信号的保存 下面的概…

计算机网络-GRE Over IPSec实验

一、概述 前情回顾:上次基于IPsec VPN的主模式进行了基础实验,但是很多高级特性没有涉及,如ike v2、不同传输模式、DPD检测、路由方式引入路由、野蛮模式等等,以后继续学习吧。 前面我们已经学习了GRE可以基于隧道口实现分支互联&…

进网许可认证、交换路由设备检测项目更新25年1月起

实施时间 2025年1月1日起实施 涉及设备范围 核心路由器、边缘路由器、以太网交换机、三层交换机、宽带网络接入服务器(BNAS) 新增检测依据 GBT41266-2022网络关键设备安全检测方法交换机设备 GBT41267-2022网络关键设备安全技术要求交换机设备 GB/…

用C#(.NET8)开发一个NTP(SNTP)服务

完整源码,附工程下载,工程其实也就下面两个代码。 想在不能上网的服务器局域网中部署一个时间服务NTP,当然系统自带该服务,可以开启,本文只是分享一下该协议报文和能跑的源码。网上作为服务的源码不太常见,…

Connection lease request time out 问题分析

Connection lease request time out 问题分析 问题背景 使用apache的HttpClient,我们知道可以通过setConnectionRequestTimeout()配置从连接池获取链接的超时时间,而Connection lease request time out正是从连接池获取链接超时的报错,这通常…

【课程论文系列实战】:随机对照实验驱动的电商落地页优化

数据与代码见文末 摘要 随机对照试验(Randomized Controlled Trial,RCT)被认为是因果推断的“金标准”方法。通过随机分配实验参与者至不同组别,确保了组间可比性,RCT能够有效地消除样本选择偏差和混杂变量问题。本文…

UML 建模实验

文章目录 实验一 用例图一、安装并熟悉软件EnterpriseArchitect16二、用例图建模 实验二 类图、包图、对象图类图第一题第二题 包图对象图第一题第二题 实验三 顺序图、通信图顺序图银行系统学生指纹考勤系统饮料自动销售系统“买到饮料”“饮料已售完”“无法找零”完整版 通信…

高质量翻译如何影响软件用户体验 (UX)

在软件开发领域,用户体验 (UX) 是决定产品成败的关键因素之一。一个流畅、吸引人且直观的用户体验可以决定一款软件的成功与否。在影响优秀用户体验的众多因素中,高质量翻译尤为重要,尤其是在当今全球化的市场环境中。确保软件为不同语言和文…

ArcGIS Pro 3.4新功能2:Spatial Analyst新特性,密度、距离、水文、太阳能、表面、区域分析

Spatial Analyst 扩展模块在 ArcGIS Pro 3.4 中引入了新功能和增强功能。此版本为您提供了用于表面和区域分析的新工具以及改进的密度和距离分析功能,多种用于水文分析的工具性能的提高,一些新的太阳能分析功能。 目录 1.密度分析 2.距离分析 3.水文…

Linux C 程序 【05】异步写文件

1.开发背景 Linux 系统提供了各种外设的控制方式,其中包括文件的读写,存储文件的介质可以是 SSD 固态硬盘或者是 EMMC 等。 其中常用的写文件方式是同步写操作,但是如果是写大文件会对 CPU 造成比较大的负荷,采用异步写的方式比较…

凯酷全科技抖音电商服务的卓越践行者

在数字经济蓬勃发展的今天,电子商务已成为企业增长的新引擎。随着短视频平台的崛起,抖音作为全球领先的短视频社交平台,不仅改变了人们的娱乐方式,也为品牌和商家提供了全新的营销渠道。厦门凯酷全科技有限公司(以下简…

精准提升:从94.5%到99.4%——目标检测调优全纪录

🚀 目标检测模型调优过程记录 在进行目标检测模型的训练过程中,我们面对了许多挑战与迭代。从初始模型的训练结果到最终的调优优化,每一步的实验和调整都有其独特的思路和收获。本文记录了我在优化目标检测模型的过程中进行的几次尝试&#…

STM8单片机学习笔记·GPIO的片上外设寄存器

目录 前言 IC基本定义 三极管基础知识 单片机引脚电路作用 STM8GPIO工作模式 GPIO外设寄存器 寄存器含义用法 CR1:Control Register 1 CR2:Control Register 2 ODR:Output Data Register IDR:Input Data Register 赋值…

国标GB28181平台EasyGBS在安防视频监控中的信号传输(电源/视频/音频)特性及差异

在现代安防视频监控系统中,国标GB28181协议作为公共安全视频监控联网系统的国家标准,该协议不仅规范了视频监控系统的信息传输、交换和控制技术要求,还为不同厂商设备之间的互联互通提供了统一的框架。EasyGBS平台基于GB28181协议&#xff0c…

如何使用checkBox组件实现复选框

文章目录 概念介绍使用方法示例代码我们在上一章回中介绍了DatePickerDialog Widget相关的内容,本章回中将介绍Checkbox Widget.闲话休提,让我们一起Talk Flutter吧。 概念介绍 我们在这里说的Checkbox也是叫复选框,没有选中时是一个正方形边框,边框内容是空白的,选中时会…

基于“2+1 链动模式商城小程序”的微商服务营销策略探究

摘要:本文探讨在竞争激烈的市场经济与移动互联网时代背景下,微商面临的机遇与挑战。着重分析“21 链动模式商城小程序”如何助力微商改变思路,通过重视服务、提升服务质量,以服务营销放大利润,实现从传统微商模式向更具…

1-1 STM32-0.96寸OLED显示与控制

1.0 模块原理图 2.0 0.96OLED简介 资料下载:https://jiangxiekeji.com/download.html 程序介绍:https://jiangxiekeji.com/tutorial/oled.html SSD1306是一款OLED/PLED点阵显示屏的控制器,可以嵌入在屏幕中,用于执行接收数据、显…

在Visual Studio 2022中配置C++计算机视觉库Opencv

本文主要介绍下载OpenCV库以及在Visual Studio 2022中配置、编译C计算机视觉库OpenCv的方法 1.Opencv库安装 ​ 首先,我们需要安装OpenCV库,作为一个开源库,我们可以直接在其官网下载Releases - OpenCV,如果官网下载过慢&#x…