《深度学习》LSTM 长短期记忆网络 结构及原理解析

news2024/11/19 10:38:11

目录

一、关于LSTM网络

1、什么是LSTM网络

        举例:

2、RNN网络的结构

3、Tanh双曲正切函数

二、LSTM网络结构

1、遗忘门

        1)功能

        2)步骤

2、输入门

        1)功能

        2)步骤

3、输出门

        1)功能

        2)步骤


一、关于LSTM网络

1、什么是LSTM网络

        LSTM网络,全称长短期记忆网络(Long Short-Term Memory network),是一种特殊的循环神经网络(RNN)架构,大部分与RNN模型相同,但它们用了不同的函数来计算隐状态h,旨在解决传统RNN在处理长序列数据时遇到的梯度消失梯度爆炸问题。LSTM网络通过引入自循环的巧妙设计,使得信息能够在网络中长期保留或遗忘,从而能够捕获长距离的时间依赖关系。

        举例:

                当你想在网上购买生活用品时,一般都会查看一下其他已购买的用户评价。当你浏览评论时,大脑下意识记住重要的关键词,比如“好看”和“真酷”这样的词汇,而不太会关心“我”、“也”、“是”等字样。如果朋友第二天问你用户评价都说了什么,你不可能会全部记住它,而是说出大脑里记得的主要观点,比如“下次肯定还会来买”,无关紧要的内容自然会从记忆中逐渐消失。

2、RNN网络的结构

        如下图所示,首先第一个单词的词向量进入隐含层与偏置项进行处理后进入tanh激活函数然后得到的结果进入下一个隐含层与第二个单词的词向量结合再传入激活函数,以此类推,将所有单词都传入隐含层处理,得到最终结果。

        上述的隐状态单独拿出来一个,得到下列状态

3、Tanh双曲正切函数

                保证值在-1~1之间

4、sigmoid函数

二、LSTM网络结构

        X表示做内积+表示数值相加

        LSTM网络的核心在于其内部的“记忆单元”(Memory Cell),这个单元由三个“门”结构(遗忘门、输入门和输出门)来控制信息的流动。

1、遗忘门

        上述第一幅图的左下角,x和h经过乘以矩阵U和W再加上偏置项后传入sigmoid激活函数,得到0-1之间的结果,然后左上角传来一个c细胞或叫c仓库,其中存储当前的关键信息(关键词信息),h存储句子的特征信息,将上述结果与c做内积,如下图所示,最终得到的结果一部分很接近0,一部分很接近1,遗忘接近0的数据,保留接近1的信息。

        c仓库的数据最初为空,之后来自于上一层的隐藏层的输出的处理完的关键词信息,每输入一个词,经过sigmoid激活函数处理后与c仓库的数据内积,即可除去当前隐藏层处理的不需要的词,然后剩下的即为需要的关键词,将关键词加入c仓库,经过不断剔除,最终得到完整的所有关键词。

        1)功能

                决定从上一个时间步长的记忆单元状态中丢弃哪些信息。

        2)步骤

                来自前一个隐藏状态的信息和当前输入的信息同时传递到 sigmoid 函数中去,输出值介于 0 和 1 之间,越接近 0 意味着越应该丢弃,越接近 1 意味着越应该保留。

2、输入门

        1)功能

                决定当前时间步长的输入信息中有哪些部分应该被加入到记忆单元c中,以此来更新细胞状态

        2)步骤

                1、首先将前一层隐藏状态的信息和当前输入的信息传递到 sigmoid 函数中去。将值调整到 0~1 之间来决定要更新哪些信息。0 表示不重要,1 表示重要。

                2、将前一层隐藏状态的信息和当前输入的信息传递到 tanh 函数中去,创造一个新的侯选值向量。最后将 sigmoid 的输出值与 tanh 的输出值相乘,sigmoid 的输出值将决定 tanh 的输出值中哪些信息是重要且需要保留下来的,然后将重要的信息增加到仓库c中去。

3、输出门

        1)功能

                用来确定下一个隐藏状态的值。

        2)步骤

                1、将前一个隐藏状态和当前输入传递到 sigmoid 函数中,然后将新得到的细胞状态传递给 tanh 函数。

                2、将 tanh 的输出与 sigmoid 的输出相乘,以确定隐藏状态应携带的信息。再将隐藏状态作为当前细胞的输出,把新的细胞状态和新的隐藏状态传递到下一个时间步长中去。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2200115.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

斯坦福 CS229 I 机器学习 I 构建大型语言模型 (LLMs)

1. Pretraining -> GPT3 1.1. Task & loss 1.1.1. 训练 LLMs 时的关键点 对于 LLMs 的训练来说,Architecture(架构)、Training algorithm/loss(训练算法/损失函数)、Data(数据)、Evalu…

3D看车如何实现?有哪些功能特点和优势?

3D看车是一种创新的汽车展示方式,它利用三维建模和虚拟现实技术,将汽车以更真实、更立体的形式呈现在消费者面前。 一、3D看车的实现方式 1、三维建模: 通过三维建模技术,按照1:1的比例还原汽车外观,包括车身线条、细…

uniapp学习(003-2 vue3学习 Part.2)

零基础入门uniapp Vue3组合式API版本到咸虾米壁纸项目实战,开发打包微信小程序、抖音小程序、H5、安卓APP客户端等 总时长 23:40:00 共116P 此文章包含第15p-第p20的内容 文章目录 事件监听以及组件内置事件处理自定义模板快速创建uniapp条件渲染 v-if和v-elsev-e…

骨传导耳机哪个牌子好?五大选购妙计带你精准入手优质骨传导耳机!

随着骨传导耳机市场的蓬勃发展,此产品凭借优秀的佩戴体验以及可降低听力损伤等优点引起了广泛的关注。然而,随着热度提高,市面上开始出现了许多品牌,这些品牌实力技术各不相同,甚至其中还有一些劣质机型,这…

国内经典多模态大模型工作1——Qwen-VL系列(Qwen-VL、Qwen2-VL解读)

Qwen-VL 论文标题:《Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond》 论文链接:https://arxiv.org/pdf/2308.12966.pdf 项目:https://github.com/QwenLM/Qwen-VL/tree/master 模…

如何构建某一行业的知识图谱

构建一个行业的知识图谱是一个系统而复杂的过程,它涉及到数据收集、处理、分析等多个环节。以下是构建行业知识图谱的基本步骤: 1. 需求分析: - 明确构建知识图谱的目的和应用场景,比如是用于辅助决策、市场分析、产品推荐等。…

【python机器学习】线性回归 拟合 欠拟合与过拟合 以及波士顿房价预估案例

文章目录 线性回归之波士顿房价预测案例 欠拟合与过拟合线性回归API 介绍:波士顿房价预测数据属性:机器学习代码实现 拟合 过拟合 欠拟合 模拟 及处理方法(正则化处理)导包定义函数表示欠拟合定义函数表示拟合定义函数表示过拟合 正则化处理过拟合L1正则化L2正则化 线性回归之波…

李沐 X动手学深度学习 数据操作+数据预处理 学习笔记(无代码,纯理论部分)

数据结构介绍 机器学习和神经网络最主要的的数据结构:N维数组0维数组:标量,eg:1.0(是一个浮点数,可能表示一个类别)1维数组:向量,eg:[1.0, 2.7, 3.4](特征向量&#xf…

Java中System类和RunTime类的Api

目录 System 类 1)out 2)err 3)in 4)currentTimeMillis() 5)nanoTime() 6)arraycopy(Object 要从里面复制东西的数组, int 要从里面复制东西数组的索引起始位置, Object 获得复制元素的数组, int 获得复制元素数组的起始索引, int 要复制东西的个数) 7)gc() 8)exit(int status)…

Miniconda 入门级使用教程

前言 Miniconda是一个更小的Anaconda发行版(Anaconda是一个包含大量预装数据科学和机器学习库的Python发行版),它只包含conda包管理器和Python以及其必要的库。Miniconda的目的是提供一个更轻量级的选项来安装和运行conda环境,同…

动态轻量级线程池项目

动态线程池: 使用线程池ThreadPoolExecutor过程中你是否有以下痛点呢? ① 代码中创建了一个ThreadPoolExecutor,但是不知道参数设置多少比较合适。 ② 凭经验设置参数值,上线后发现需要调整,改代码重新发布服务&…

电脑缺失msvcr120.dll怎样修复,马上教你6种修复方法

在用电脑的时候,经常会碰到各种错误提示,比如“msvcr120.dll丢失”,导致的结果就是某些程序无法正常启动。那么,这个dll文件到底是啥,为什么会丢失,怎么解决呢?将通过这篇文章详细解释一下&…

Agent心理诊所上线!基于1.3K抑郁症问诊对话,上海交大团队搭建大模型对话Agent,可初诊抑郁症

心理健康问题是当今社会最大的挑战之一,根据 WHO 的世界心理健康报告,约有 2 亿 4,600 万人患有抑郁障碍,平均每 10 万人中就有 3,153 个案例,可以说,这是最常见的精神障碍之一。 然而,如今在心理健康方面…

终于有人把思科认证全部说清楚了

思科作为全球领先的网络设备供应商,其认证体系在全球范围内被广泛认可; 但是大部分了解的朋友都只知道CCNA、CCNP和CCIE,但对思科的整个系统不是很清楚。 随着Cisco产品线的扩大和市场份额的不断提升,Cisco认证产品从当初仅有的路…

Kubernetes的Pod调度:让你的应用像乘坐头等舱!

一、Kubernetes 中 Pod 调度的重要性 在 Kubernetes 的世界里,Pod 调度就像是一个繁忙的交通指挥官,负责把小车(也就是我们的 Pod)送到最合适的停车位(节点)。调度不仅关乎资源的合理利用,还关乎…

【投稿优惠|稳定检索】2024 年信息学、网络与电子工程国际会议(INEE 2024)

2024 年信息学、网络与电子工程国际会议 2024 International Conference on Informatics, Networks, and Electronic Engineering 【1】大会信息 会议名称:2024 年信息学、网络与电子工程国际会议 会议简称:INEE 2024 大会时间:请查看官网 …

P-Tuning v2:一种普遍有效的提示调整方法

人工智能咨询培训老师叶梓 转载标明出处 预训练语言模型通过微调(fine-tuning)来适应特定任务虽然效果显著,但存在训练成本高、参数存储量大等问题。为了解决这些问题,清华大学的研究者们提出了一种名为P-Tuning v2的提示调整&am…

whistle配合app抓包

whistle配合app抓包 1.前置准备2.手机配置3.手机安装证书1.前置准备 下载启动whistle,本例使用默认的127.0.0.1:8899 需要保证Capture TUNNEL CONNECTS处在开启状态: 输入命令:w2 start,获取当前局域网的ip地址,并记录: 2.手机配置 打开无线局域网连接dxm_phone,配置…

Codeforces Round 833 (Div. 2)

比赛链接:Dashboard - Codeforces Round 833 (Div. 2) - Codeforces B. Diverse Substrings 题意: 思路: 当字符串长度 > 10 时,每个字符出现的次数至少是 2 次 ( 0 ~ 9 个出现一次,剩余字符出现 ) 当字符串长度…

Kali Linux 下载与安装手册

目录 Kali 是什么? 通过Kali官方网站下载 Kali 是什么? Kali Linux,前称BackTrack,是一个基于Debian的Linux发行版,专为数字取证和渗透测试而设计。它由Offensive Security Ltd.开发和维护,旨在为安全专…