Jurgen提出的Highway Networks:LSTM时间维方法应用到深度维

news2025/1/7 13:00:06

Jurgen提出的Highway Networks:LSTM时间维方法应用到深度维

具体实例与推演

假设我们有一个离散型随机变量 X X X,它表示掷一枚骰子得到的点数,求 X X X 的期望。

  • 步骤
    1. 列出 X X X 的所有可能取值 x i x_i xi(1, 2, 3, 4, 5, 6)。
    2. 计算每个 x i x_i xi 出现的概率 p i p_i pi(均为 1/6)。
    3. 应用期望公式计算 E ( X ) E(X) E(X)

E ( X ) = 1 ⋅ 1 6 + 2 ⋅ 1 6 + ⋯ + 6 ⋅ 1 6 = 3.5 E(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + \cdots + 6 \cdot \frac{1}{6} = 3.5 E(X)=161+261++661=3.5

第一节:LSTM与Highway Networks的类比与核心概念

1.1 LSTM与Highway Networks核心公式

LSTM公式

i t = σ ( W i i x t + W h i h t − 1 + b i ) f t = σ ( W i f x t + W h f h t − 1 + b f ) o t = σ ( W i o x t + W h o h t − 1 + b o ) g t = tanh ⁡ ( W i g x t + W h g h t − 1 + b g ) c t = f t ⊙ c t − 1 + i t ⊙ g t h t = o t ⊙ tanh ⁡ ( c t ) \begin{aligned} i_t &= \sigma(W_{ii} x_t + W_{hi} h_{t-1} + b_i) \\ f_t &= \sigma(W_{if} x_t + W_{hf} h_{t-1} + b_f) \\ o_t &= \sigma(W_{io} x_t + W_{ho} h_{t-1} + b_o) \\ g_t &= \tanh(W_{ig} x_t + W_{hg} h_{t-1} + b_g) \\ c_t &= f_t \odot c_{t-1} + i_t \odot g_t \\ h_t &= o_t \odot \tanh(c_t) \\ \end{aligned} itftotgtctht=σ(Wiixt+Whiht1+bi)=σ(Wifxt+Whfht1+bf)=σ(Wioxt+Whoht1+bo)=tanh(Wigxt+Whght1+bg)=ftct1+itgt=ottanh(ct)

Highway Networks公式

H = σ ( W H x + b H ) T = σ ( W T x + b T ) y = H ⊙ T + x ⊙ ( 1 − T ) \begin{aligned} H &= \sigma(W_H x + b_H) \\ T &= \sigma(W_T x + b_T) \\ y &= H \odot T + x \odot (1 - T) \\ \end{aligned} HTy=σ(WHx+bH)=σ(WTx+bT)=HT+x(1T)

1.2 核心解释

核心概念定义比喻或解释
LSTM一种解决长时间依赖问题的RNN架构,使用门控机制控制信息流动。就像记忆模块,能够选择性记住或忘记信息。
Highway Networks将LSTM的门控机制应用到深度学习网络,允许信息直接通过网络层类似于在复杂路网上增加高速公路,使信息传输更快速高效。

1.3 优势与劣势

方面描述
优势解决了深度网络中的梯度消失问题,提高了信息传递效率。
劣势需要更多的参数和计算资源。

1.4 类比与总结

Highway Networks通过引入门控机制,使得信息在深度网络中能够更有效地传递。这就像在复杂的交通网络中增加高速公路,使得车辆能够更快速地到达目的地。

第四节:核心代码与可视化

4.1 Python代码示例

以下是演示如何应用Highway Networks和LSTM的Python代码示例:

import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt
import seaborn as sns

# 定义LSTM模型
class LSTMModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(LSTMModel, self).__init__()
        self.lstm = nn.LSTM(input_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        h0 = torch.zeros(1, x.size(0), hidden_dim).to(device)
        c0 = torch.zeros(1, x.size(0), hidden_dim).to(device)
        out, _ = self.lstm(x, (h0, c0))
        out = self.fc(out[:, -1, :])
        return out

# 定义Highway Network模型
class HighwayModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(HighwayModel, self).__init__()
        self.fc1 = nn.Linear(input_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, output_dim)
        self.t = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        H = torch.relu(self.fc1(x))
        T = torch.sigmoid(self.t(x))
        out = H * T + x * (1 - T)
        return out

# 生成数据并训练模型
input_dim = 10
hidden_dim = 20
output_dim = 1
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 创建模型实例
lstm_model = LSTMModel(input_dim, hidden_dim, output_dim).to(device)
highway_model = HighwayModel(input_dim, hidden_dim, output_dim).to(device)

# 损失函数和优化器
criterion = nn.MSELoss()
optimizer_lstm = optim.Adam(lstm_model.parameters(), lr=0.01)
optimizer_highway = optim.Adam(highway_model.parameters(), lr=0.01)

# 训练过程示例
epochs = 100
for epoch in range(epochs):
    # 生成随机输入数据
    inputs = torch.randn(100, 1, input_dim).to(device)
    targets = torch.randn(100, output_dim).to(device)

    # 训练LSTM模型
    outputs_lstm = lstm_model(inputs)
    loss_lstm = criterion(outputs_lstm, targets)
    optimizer_lstm.zero_grad()
    loss_lstm.backward()
    optimizer_lstm.step()

    # 训练Highway Network模型
    inputs_highway = inputs.view(-1, input_dim)
    outputs_highway = highway_model(inputs_highway)
    loss_highway = criterion(outputs_highway, targets)
    optimizer_highway.zero_grad()
    loss_highway.backward()
    optimizer_highway.step()

# 可视化损失函数
sns.set_theme(style="whitegrid")
plt.plot(range(epochs), [loss_lstm.item() for _ in range(epochs)], label='LSTM Loss')
plt.plot(range(epochs), [loss_highway.item() for _ in range(epochs)], label='Highway Network Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.title('LSTM vs Highway Network Loss')
plt.legend()
plt.show()

4.2 解释与可视化

  • 代码功能:定义LSTM和Highway Networks模型,对比二者在训练过程中的损失函数变化。
  • 可视化结果:展示LSTM和Highway Networks在训练过程中的损失函数变化,比较二者的收敛速度和效果。

参考文献

  1. Srivastava, R. K., Greff, K., & Schmidhuber, J. (2015). Highway Networks. arXiv preprint arXiv:1505.00387.
  2. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).

关键词:

#Highway Networks #LSTM #ResNet #深度学习 #门控机制

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2271671.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大脑特训,自信 “满格”

编辑:念小艺 在追求自信的漫漫长路上,诸多因素如同闪耀的星光,为人们指引着方向。保持良好的饮食习惯,让身体摄取充足且均衡的营养,为精神的饱满提供坚实后盾;持续投身于锻炼之中,在挥洒汗水的…

渗透测试-非寻常漏洞案例

声明 本文章所分享内容仅用于网络安全技术讨论,切勿用于违法途径,所有渗透都需获取授权,违者后果自行承担,与本号及作者无关,请谨记守法. 此文章不允许未经授权转发至除先知社区以外的其它平台!&#xff0…

计算机的发展、计算机基本组成原理

计算机系统 软件 硬件 硬件的发展 软件的发展 低级语言:机器语言、汇编语言 一、早期冯诺依曼机的结构 存储程序:将指令以二进制代码事先输入计算机的主存储器 在计算机系统软件和硬件是等效的 软件:数据 程序 硬件: 存储器、…

公共数据授权运营系统建设手册(附下载)

在全球范围内,许多国家和地区已经开始探索公共数据授权运营的路径和模式。通过建立公共数据平台,推动数据的开放共享,促进数据的创新应用,不仅能够提高政府决策的科学性和公共服务的效率,还能够激发市场活力&#xff0…

[极客大挑战 2019]HardSQL 1

看了大佬的wp,没用字典爆破,手动试出来的,屏蔽了常用的关键字,例如:order select union and 最搞的是,空格也有,这个空格后面让我看了好久,该在哪里加括号。 先传入1’ 1试试&#…

iOS 逆向学习 - iOS Architecture Cocoa Touch Layer

iOS 逆向学习 - iOS Architecture Cocoa Touch Layer 一、Cocoa Touch Layer 简介二、Cocoa Touch Layer 的核心功能1. UIKit2. Event Handling(事件处理)3. Multitasking(多任务处理)4. Push Notifications(推送通知&…

STM32烧写失败之Contents mismatch at: 0800005CH (Flash=FFH Required=29H) !

一)问题:用ULINK2给STM32F103C8T6下载程序,下载方式设置如下: 出现下面两个问题: 1)下载问题界面如下: 这个错误的信息大概可以理解为,在0x08000063地址上读取到flash存储为FF&am…

使用命令行管理git项目

# 初始化一个新的Git仓库 git init # 添加文件到暂存区 git add <file> # 提交暂存区的更改到仓库 git commit -m "commit message" # 查看当前仓库的状态 git status # 查看提交历史 git log # 查看文件的改动 git diff <file> # 创建一个新…

论文笔记PhotoReg: Photometrically Registering 3D Gaussian Splatting Models

1.abstract 最近推出的3D高斯飞溅(3DGS)&#xff0c;它用多达数百万个原始椭球体来描述场景&#xff0c;可以实时渲染。3DGS迅速声名鹊起。然而&#xff0c;一个关键的悬而未决的问题仍然存在&#xff1a;我们如何将多个3DG融合到一个连贯的模型中&#xff1f;解决这个问题将使…

javaEE-网络原理-1初识

目录 一.网络发展史 1.独立模式 2.网络互联 二.局域网LAN 1.基于网线直连&#xff1a; 2.基于集线器组件&#xff1a; 3.基于交换机组件&#xff1a; 4.基于交换机和路由器组件 ​编辑 三、广域网WAN 四、网络通信基础 1.ip地址 2.端口号&#xff1a; 3.协议 4.五…

电子电气架构 --- 整车整车网络管理浅析

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 所谓鸡汤,要么蛊惑你认命,要么怂恿你拼命,但都是回避问题的根源,以现象替代逻辑,以情绪代替思考,把消极接受现实的懦弱,伪装成乐观面对不幸的…

xml格式化(3):增加头部声明

前言 这篇文章&#xff0c;是用来增加头部声明。 正文 from lxml import etreedef pretty_print(element, level0, indent" "):result ""# 判断元素是否为注释节点if isinstance(element, etree._Comment):result f"{indent * level}<!--{el…

STM32 高级 物联网通讯之LoRa通讯

目录 LoRa通讯基础知识 常见的3种通讯协议 远距离高速率的传输协议 近距离高速率传输技术 近距离低功耗传输技术 低功耗广域网 采用授权频段技术 非授权频段 LoRa简介 LoRa的特点 远距离 低功耗 安全 标准化 地理定位 移动性 高性能 低成本 LoRa应用 LoRa组…

【FlutterDart】 拖动改变 widget 的窗口尺寸大小GestureDetector~简单实现(10 /100)

上效果 预期的是通过拖动一条边界线改变窗口大小&#xff0c;类似vscode里拖动效果。这个是简单的拖动实现 上代码&#xff1a; import package:flutter/material.dart;class MyDraggableViewDemo extends StatelessWidget {const MyDraggableViewDemo({super.key});override…

Luma AI 简单几步生成视频

简单几步生成视频 登录我们的 AceDataPlatform 网站&#xff0c;按照下图所示即可生成高质量的视频&#xff0c;同时&#xff0c;我们也提供了简单易用的 API 方便集成调用&#xff0c;可以查看 Luma API了解详情 技术介绍 我们使用了 Luma 的技术&#xff0c;实现了上面的图…

如何免费解锁 IPhone 网络

您是否担心 iPhone 上的网络锁定&#xff1f;如果您的 iPhone 被锁定到特定运营商&#xff0c;解锁它可以连接到不同的运营商。好吧&#xff0c;我们为您准备了一份指南。 iPhone运营商免费解锁将是小菜一碟。在我们的解锁运营商 iphone 免费指南中。我们为您提供了一份简介&am…

[读书日志]8051软核处理器设计实战(基于FPGA)第三篇:8051 keil编程配置 C语言开发流程 中断程序实例

第一篇https://blog.csdn.net/m0_74021449/article/details/144796689 第二篇https://blog.csdn.net/m0_74021449/article/details/144813103 3.8051中断与keil开发流程 3.1 keil的下载与概述 关于keil&#xff0c;大家都并不陌生&#xff0c;它是开发51单片机和ARM架构的32…

音视频-----RTSP协议 音视频编解码

流媒体协议详解&#xff1a;RTSP、RTP、RTCP、SIP、SDP、RTMP、WebRTC、WebSocket-CSDN博客 上文讲解比较清楚 多媒体编解码基础知识 一文详解WebRTC、RTSP、RTMP、SRT-腾讯云开发者社区-腾讯云 RTP :(Real-time Transport Protocol)是用于Internet上针对多媒体数据流的一种传…

Nginx代理本地exe服务http为https

Nginx代理本地exe服务http为https 下载NginxNginx命令exe服务http代理为https 下载Nginx 点击下载Nginx 下载好之后是一个压缩包&#xff0c;解压放到没有中文的路径下就可以了 Nginx命令 调出cmd窗口cd到安装路径 输入&#xff1a;nginx -v 查看版本 nginx -h&#xff…

《Vue3实战教程》40:Vue3安全

如果您有疑问&#xff0c;请观看视频教程《Vue3实战教程》 安全​ 报告漏洞​ 当一个漏洞被上报时&#xff0c;它会立刻成为我们最关心的问题&#xff0c;会有全职的贡献者暂时搁置其他所有任务来解决这个问题。如需报告漏洞&#xff0c;请发送电子邮件至 securityvuejs.org。…