了解长短期记忆 (LSTM) 网络:穿越时间和记忆的旅程

news2025/1/11 2:26:19

一、说明

        在人工智能和机器学习的迷人世界中,长短期记忆 (LSTM) 网络作为一项突破性创新脱颖而出。LSTM 旨在解决传统循环神经网络 (RNN) 的局限性,尤其是在学习长期依赖性方面的局限性,彻底改变了我们在各个领域建模和预测序列的能力。本文深入探讨了 LSTM 网络的核心机制、其独特功能以及改变行业的应用。

在时间和记忆领域,LSTM 网络就像警惕的守护者,弥合了现在转瞬即逝的低语和过去深刻的回声之间的差距。

二、序列的挑战

        在了解 LSTM 之前,了解为什么建模序列(如时间序列数据或语言)具有挑战性至关重要。包括 RNN 在内的传统神经网络都在与“长期依赖性”作斗争。从本质上讲,他们发现很难记住和连接序列中相距太远的信息。想象一下,试图理解一本小说的情节,但只记住你读过的最后几页——这就是 RNN 在处理长序列时面临的问题。

2.1 LSTM 的出现

        长短期记忆网络是由 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年开发的。他们的创新是设计一个能够学习存储哪些信息、存​​储多长时间以及丢弃哪些信息的神经网络。这种能力对于处理相关信息跨越较大时间间隔的序列至关重要。

2.2 LSTM 的核心组件

        LSTM 引入了几个关键组件:

  1. 记忆单元:LSTM 单元的核心是记忆单元,它可以长期保留信息。它类似于人类记忆的数字形式。
  2. :这些是 LSTM 网络的调节器,由遗忘门、输入门和输出门组成。门是决定允许多少信息通过的神经网络。
  • 遗忘门:确定要擦除存储单元的哪些部分。
  • 输入门:用当前输入的新信息更新存储单元。
  • 输出门:根据当前输入和单元的内存决定输出什么。

2.3 LSTM 工作流程

序列处理过程中 LSTM 单元内的过程可以描述如下:

  1. 忘记不相关的数据:忘记门评估新的输入和之前的隐藏状态,决定哪些信息不再相关并且应该被丢弃。
  2. 存储重要信息:输入门识别有价值的新信息并相应地更新单元状态。
  3. 计算输出:输出门使用更新的细胞状态来计算将作为该时间步的隐藏状态输出的细胞状态部分。

2.4 LSTM网络的应用

LSTM 已得到广泛应用,证明了它们的多功能性和有效性:

  1. 自然语言处理 (NLP):从生成文本到翻译语言以及为会话代理提供支持,LSTM 在理解和生成人类语言方面发挥着关键作用。
  2. 时间序列预测:在金融、天气预报和能源需求预测中,LSTM 可以对复杂的时间模式进行建模以进行准确的预测。
  3. 音乐和艺术生成:LSTM 可以在创意领域生成序列,通过学习现有作品中的模式来制作音乐甚至艺术品。
  4. 医疗保健:它们通过分析连续的患者数据来预测疾病进展,用于预测诊断。

三、代码

        使用长短期记忆 (LSTM) 网络创建完整的 Python 示例涉及几个步骤:生成合成数据集、构建 LSTM 模型、在数据集上训练模型,最后绘制结果。为此,我们将使用numpytensorflow、 和 等库。matplotlib

首先,确保您已安装所需的库:

pip install numpy tensorflow matplotlib

这是完整的代码:

import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
import matplotlib.pyplot as plt

# Parameters
n_steps = 50
n_features = 1

# 1. Generate Synthetic Dataset
def generate_sine_wave_data(steps, length=1000):
    x = np.linspace(0, length * np.pi, length)
    y = np.sin(x)
    sequences = []
    labels = []
    for i in range(length - steps):
        sequences.append(y[i:i+steps])
        labels.append(y[i+steps])
    return np.array(sequences), np.array(labels)

X, y = generate_sine_wave_data(n_steps)
X = X.reshape((X.shape[0], X.shape[1], n_features))

# 2. Build LSTM Model
model = Sequential()
model.add(LSTM(50, activation='relu', input_shape=(n_steps, n_features)))
model.add(Dense(1))
model.compile(optimizer='adam', loss='mse')

# 3. Train the Model
model.fit(X, y, epochs=20, verbose=1)

# Predictions for plotting
x_input = np.array(y[-n_steps:])
x_input = x_input.reshape((1, n_steps, n_features))
yhat = model.predict(x_input, verbose=1)

# 4. Plot the Results
plt.plot(y[-100:], label='Actual')  # Plot the last 100 actual values
next_time_step = len(y)  # Next time step after the last actual value
plt.scatter(next_time_step, yhat[0], color='red', label='Predicted')  # Plot the predicted value
plt.title("LSTM Model Predictions vs Actual Data")
plt.legend()
plt.show()

解释

  • 合成数据生成:我们生成正弦波作为我们的数据集。
  • LSTM 模型构建:一个简单的 LSTM 模型,具有一个 LSTM 层和一个 Dense 层。
  • 训练:模型根据合成数据进行训练。
  • 绘制结果:我们绘制数据集的最后一部分以及模型对下一个时间步的预测。

请注意,此代码是一个基本示例。现实世界的应用程序需要更复杂的数据处理、模型调整和验证技术。此外,运行此代码需要安装了必要库的 Python 环境。

四、结论

        长短期记忆网络的发展是我们迈向更智能、更强大的人工智能系统之旅的一个重要里程碑。通过模仿人类记忆的选择性保留和回忆,LSTM 提供了一种强大的工具,可以以深度和暂时的方式理解我们周围的世界。随着我们不断完善和构建这些网络,潜在的应用程序与它们旨在建模的序列一样广泛。在人工智能领域,LSTM 不仅仅与记忆有关,而且与记忆有关。它们以一种以前无法实现的方式理解世界的连续性和背景。

md-com@evertongomede

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1351795.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法分析与设计 第一次课外作业

算法分析与设计 第一次课外作业 文章目录 算法分析与设计 第一次课外作业一. 单选题(共8题,80分)二. 判断题(共2题,20分) 一. 单选题(共8题,80分) (单选题)以下叙述中错误…

【模拟电路】模拟集成电路之神-NE555

一、集成电路NE555简介 二、功能框图与引脚说明 三、比较器(运放) 四、反相门(非门) 五、或非门 六、双稳态触发器 七、NE555的工作原理 集成电路NE555的芯片手册 C5157696 一、集成电路NE555简介 NE555起源于上个世纪70年代&a…

CCNP课程实验-03-Route_Path_Control_CFG

目录 实验条件网络拓朴需求 基础配置需求实现1.A---F所有区用Loopback模拟,地址格式为:XX.XX.XX.XX/32,其中X为路由器编号。根据拓扑宣告进对应协议。A1和A2区为特例,A1:55.55.55.0/24,A2:55.55…

java spring boot 获取resource目录下的文档

主要代码 String filePath"templates/test.xls" ClassPathResource classPathResource new ClassPathResource(filePath); InputStream inputStream classPathResource.getInputStream();目录 主要目录存放再这 代码案例 public void downloadTemplate( HttpS…

是否需要跟上鸿蒙(OpenHarmony)开发岗位热潮?

前言 自打华为2019年发布鸿蒙操作系统以来,网上各种声音百家争鸣。尤其是2023年发布会公布的鸿蒙4.0宣称不再支持Android,更激烈的讨论随之而来。 本文没有宏大的叙事,只有基于现实的考量。 通过本文,你将了解到: Har…

密码学上的经典瞬间:如果当时有Python!

提到“安全”,首先想到的一定是加密。 在如今的互联网环境中,信息加密无处不在,我们早已习惯,甚至毫无感觉。 比如,通过https协议访问的各个网站的内容,QQ,微信等聊天工具之间互相发送的信息等等…

前端开发_JavaScript基础

JavaScript介绍 JS是一种运行在客户端(浏览器)的编程语言,实现人机交互效果 作用: 网页特效 (监听用户的一些行为让网页作出对应的反馈) 表单验证 (针对表单数据的合法性进行判断) 数据交互 (获取后台的数据, 渲染到前端) 服…

Android--Jetpack--WorkManager详解

2024已经到来,愿你安睡时,山河入梦。愿你醒来时,满目春风。愿你欢笑时,始终如一。愿你行进时,前程似锦,坦荡从容。 编程语言的未来? 目录 一,定义 二,特点 三&#xff0c…

【心得】PHP文件包含高级利用攻击面个人笔记

目录 一、nginx日志文件包含 二、临时文件包含 三、php的session文件包含 四、pear文件包含 五 、远程文件包含 文件包含 include "/var/www/html/flag.php"; 一 文件名可控 $file$_GET[file]; include $file.".php"; //用php伪协议 &#xff0…

【Leetcode】2487. 从链表中移除节点

文章目录 题目思路代码 题目 2487. 从链表中移除节点 思路 1、递归移除节点: 如果头节点为空,直接返回空。递归调用函数处理下一个节点 head->next。在递归返回后,判断当前节点的值是否小于之前记录的最大值 maxVal。如果小于 maxVal…

【Unity中的A星寻路】Navigation导航寻路系统四大页签详解

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:Uni…

uniapp 使用wx.getFuzzyLocation获取当前的模糊地理位置

前言: 最近在进行一个小程序项目开发的时候,需要用到定位的功能,然后首先是尝试了getLocation方法,但是sccess中的内容始终无法打印,后来才知道是需要申请权限,在连续小程序后台管理员申请权限之后&#x…

【鸿蒙千帆起】《开心消消乐》完成鸿蒙原生应用开发,创新多端联动用户体验

《开心消消乐》已经完成鸿蒙原生应用开发,乐元素成为率先完成鸿蒙原生应用开发的 20游戏厂商之一。作为一款经典游戏,《开心消消乐》已经拥有 8 亿玩家,加入鸿蒙原生应用生态,将为其带来更优的游戏性能和更多创新体验。自 9 月 25…

【Math】重要性采样 Importance sample推导【附带Python实现】

【Math】重要性采样 Importance sample推导【附带Python实现】 文章目录 【Math】重要性采样 Importance sample推导【附带Python实现】1. Why need importance sample?2. Derivation of Discrete Distribution3. Derivation of Continuous Distribution3. An Example 笔者在学…

虹科方案|从困境到突破:TigoLeap方案引领数据采集与优化

导读:在数字化工厂和智能制造的时代,数据已经成为优化机器和流程的关键。然而,如何高效地收集和处理这些数据,特别是在开发、部署和生产阶段,仍是企业面临的一大挑战。虹科TigoLeap平台,作为一款引领行业变…

Windows mp4info使用教程(提取MP4盒子信息、MP4 box信息、box分析工具、atom分析工具)

参考文章:https://www.onlinedown.net/soft/617940.htm 文章目录 软件主界面打开视频文件点击左方能看到各盒子信息 软件主界面 双击打开软件: 打开视频文件 点击左方能看到各盒子信息 比我用xxd命令查看原始16进制数据方便多了。 ᅟᅠ        …

C++初阶——类与对象

目录 C宏函数 在使用宏函数时,有几个常见的错误需要注意: 宏函数在某些情况下有以下优势: 1.C宏函数 在 C 中,宏函数(Macro Function)是使用预处理器定义的宏(Macro)&#xff0…

一、HTML5简介

一、简介 超文本标记语言&#xff08;英语&#xff1a;HyperText Markup Language&#xff0c;简称&#xff1a;HTML&#xff09;是一种用于创建网页的标准标记语言。可以使用 HTML 来建立自己的 WEB 站点&#xff0c;HTML 运行在浏览器上&#xff0c;由浏览器来解析。 <!…

swift-碰到的问题

如何让工程不使用storyboard和scene 删除info.plist里面的Application Scene mainifest 删除SceneDelegate.swift 删除AppDelegate.swift里面的这两个方法 func application(_ application: UIApplication, configurationForConnecting connectingSceneSession: UISceneSession…

javascript 常见工具函数(四)

31.RGB值和十六进制值之间的转换&#xff1a; &#xff08;1&#xff09;十六进制的颜色转为 RGB格式&#xff1a; /*16进制颜色转为RGB格式*/String.prototype.colorRgb function () {var sColor this.toLowerCase();if (sColor && reg.test(sColor)) {if (sColor.l…