NNDL 作业10:第六章课后题(LSTM | GRU)

news2025/1/6 20:53:56

文章目录

    • 习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.
    • 习题6-4 推导LSTM网络中参数的梯度,并分析其避免梯度消失的效果
    • 习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果
    • 附加题 6-1P 什么时候应该用GRU? 什么时候用LSTM?
    • 附加题 6-2P LSTM BP推导,并用Numpy实现
    • 参考

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.

令Zk= Uhk-1 + Wxk + b 为在第 k 时刻函数g(.) 的输入,在计算公式6.34中的误差项在这里插入图片描述

时,梯度可能过大,从而导致梯度过大问题。

解决方法:增加门控机制,例如:使用长短期记忆神经网络。

习题6-4 推导LSTM网络中参数的梯度,并分析其避免梯度消失的效果

在这里插入图片描述
LSTM中通过门控机制解决梯度问题,遗忘门,输入门和输出门是非0就是1的,并且三者之间都是相加关系,梯度能够很好的在LSTM传递,减轻了梯度消失发生的概率,门为0时,上一刻的信息对当前时刻无影响,没必要接受传递更新参数了。

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果

GRU结构图:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

GRU具有调节信息流动的门单元,但没有一个单独的记忆单元,GRU将输入门和遗忘门整合成一个升级门,通过门来控制梯度。这种门控的方式,让网络学会如何设置门控数值,来决定何时让梯度消失,何时保持梯度。

附加题 6-1P 什么时候应该用GRU? 什么时候用LSTM?

  • GRU和LSTM的区别:
    • LSTM利用输出门(output gate)可以选择性的使用细胞状态(cell state),而GRU总是不加选择的使用细胞状态
    • LSTM利用更新门(update gate)可以独立控制加入多少新的“记忆”,与老“记忆”无关,而GRU对新“记忆”的加入会受老“记忆”的约束,老“记忆”留存越多新“记忆”加入越少。
    • GRU的优点是其模型的简单性 ,因此更适用于构建较大的网络。它只有两个门控,从计算角度看,它的效率更高,它的可扩展性有利于构筑较大的模型;但是LSTM更加的强大和灵活,因为它具有三个门控。LSTM是经过历史检验的方法。

附加题 6-2P LSTM BP推导,并用Numpy实现

首先求出它们在t时刻的梯度,然后再求出他们最终的梯度。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

import numpy as np
def sigmoid(x):
    return 1/(1+np.exp(-x))

def softmax(x):
    e_x = np.exp(x-np.max(x))# 防溢出
    return e_x/e_x.sum(axis=0)


def LSTM_CELL_Forward(xt, h_prev, C_prev, parameters):
   
    # 获取参数字典中各个参数
    Wf = parameters["Wf"]
    bf = parameters["bf"]
    Wi = parameters["Wi"]
    bi = parameters["bi"]
    Wc = parameters["Wc"]
    bc = parameters["bc"]
    Wo = parameters["Wo"]
    bo = parameters["bo"]
    Wy = parameters["Wy"]
    by = parameters["by"]

    # 获取 xt 和 Wy 的维度参数
    n_x, m = xt.shape
    n_y, n_h = Wy.shape

    # 拼接 h_prev 和 xt
    concat = np.zeros((n_x + n_h, m))
    concat[: n_h, :] = h_prev
    concat[n_h:, :] = xt

    # 计算遗忘门、输入门、记忆细胞候选值、下一时间步的记忆细胞、输出门和下一时间步的隐状态值
    ft = sigmoid(np.dot(Wf, concat) + bf)
    it = sigmoid(np.dot(Wi, concat) + bi)
    cct = np.tanh(np.dot(Wc, concat) + bc)
    c_next = ft * C_prev + it * cct
    ot = sigmoid(np.dot(Wo, concat) + bo)
    h_next = ot * np.tanh(c_next)

    # LSTM单元的计算预测
    yt_pred = softmax(np.dot(Wy, h_next) + by)

    return h_next, c_next, yt_pred
np.random.seed(1)
xt = np.random.randn(3,10)
h_prev = np.random.randn(5,10)
c_prev = np.random.randn(5,10)
Wf = np.random.randn(5, 5+3)
bf = np.random.randn(5,1)
Wi = np.random.randn(5, 5+3)
bi = np.random.randn(5,1)
Wo = np.random.randn(5, 5+3)
bo = np.random.randn(5,1)
Wc = np.random.randn(5, 5+3)
bc = np.random.randn(5,1)
Wy = np.random.randn(2,5)
by = np.random.randn(2,1)

parameters = {"Wf": Wf, "Wi": Wi, "Wo": Wo, "Wc": Wc, "Wy": Wy, "bf": bf, "bi": bi, "bo": bo, "bc": bc, "by": by}

h_next, c_next, yt = LSTM_CELL_Forward(xt, h_prev, c_prev, parameters)
print("a_next[4] = ", h_next[4])
print("a_next.shape = ", c_next.shape)
print("c_next[2] = ", c_next[2])
print("c_next.shape = ", c_next.shape)
print("yt[1] =", yt[1])
print("yt.shape = ", yt.shape)

运行结果:
在这里插入图片描述

参考

deeplearning.ai - 网易云课堂 (163.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/43121.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[附源码]Python计算机毕业设计Django餐馆点餐管理系统

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

Apple ID 登录

Apple登录可以看做第三方登录的一种,即使用Apple ID登录,前提是你已经有了苹果开发者账号,直接进入主题吧。 添加App IDs 填写Bundle ID 勾选“Sign In with Apple” 创建Key 苹果将使用公钥/私钥对作为OAuth客户端机密,其中客…

【mongodb】重新整理mongodb中的各种操作

目录前言初始化封装基础方法增:向集合内添加一个文档增:向集合内一次添加多条文档删:删除一条文档删:删除多条文档删:清空某个集合的所有文档查:查询符合条件的文档查询某个集合内所有文档:定位…

python>>numpy(第二讲)

章节内容 元素操作 常用的方法 广播 数组形状操作 排序数组 目录 元素操作 一些常用的方法 广播 数组形状操作 数组排序 元素操作 生成元素a np.array([1,2,3,4]) b np.ones(4)1 生成一个原来数组的n倍生成一个所有元素均跟2次方有关的数组一个计算矩阵相乘的函数判断两个…

<Android开发> HAL层集成第三方so库

当我们需要在自己的代码中使用第三方提供的一些接口函数时,我们该如何加入?作者在写这比安文章前遇到了一个问题:需要在自己的HAL层中引用第三饭提供的算法库即so库;这个问题是作者第一次遇到,以往都是自己写一些代码编…

原宇宙之地产探索

前言 随着“元宇宙”的概念风靡全球,一股“炒房”之风也开始在元宇宙世界兴起,就连大家熟知的歌手林俊杰、Snoop Dogg也纷纷入局元宇宙。昂贵的元宇宙房价有些甚至高于北京的一套别墅价格。 元宇宙中的“炒房” 去年下半年,元宇宙房地产玩家竞…

Android Compose Bloom 项目实战 (二) : 欢迎页

1. 前言 上一篇文章我们讲到了Compose Bloom项目开发之前的一些配置及沉浸式状态栏的修改。 这篇文章接着上文,会介绍欢迎页的开发。 需要实现的页面效果如下所示 2. 分析页面组件 根据UI图,我们可以可知,该页面是由背景和前面部分部分组…

IDEA配置tomcat,快速部署tomcat

Tomcat简介 Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。由于有了Sun 的参与和支持,最新的Servlet 和JSP 规范总是能在Tomcat 中得…

地震数据处理研究(Matlab代码实现)

👨‍🎓个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜…

Kubernetes集群coredns缓存容器bind: address already in use错误导致集群服务无法互通解决

coredns缓存nodelocal dns cache :53: bind: address already in use错误处理起因分析问题处理问题重启Node local dns起因 事情起因是Kubernetes集群内的服务无法互相访问了 分析问题 因为Kubernetes集群内的服务都是通过service、pod的名称作为域名到coredns解析Cluster I…

ubuntu 18.04安装python3.7.5,并将 python 设定为python3, pip设定为pip3

ubuntu 18.04安装python3.7.5,并将 python 设定为python3, pip设定为pip3环境:Ubuntu 18.04.1安装步骤:一、安装python3.7二、安装pip3三、更改python为 python3指向,更改pip为pip3指向四、注意点,必须改回…

基于java+ssm+easyui灵悟酒店系统

✌博主介绍✌:一个致力于全战开发的代码热爱者 基于javassmeasyui灵悟酒店系统一、前言介绍:二、系统设计:2.1 系统整体架构:2.2 系统功能设计:三、功能截图:3.1 首页:3.2 用户登陆:3.2.1 登陆后…

【Android App】三维处理中三维投影OpenGL功能的讲解及实战(附源码和演示 超详细必看)

运行有问题或需要源码请点赞关注收藏后评论区留言~~~ 一、OpenGL的讲解 OpenGL定义了一个跨语言,跨平台的图形程序接口,对Android开发者来说,OpenGL就是用来绘制三维图形的技术手段,当然OpenGL不仅仅能够展现静止的三维图形&…

深入理解地址翻译 CSAPP

地址翻译, 用自己的话说一遍, 然后自己在draw.io画图理解. 术语 页表就是一个 页表条目(Page Table Entry PTE)的数组,每一项(每个PTE)是[有效位,物理地址]. 我们是用VPN来标识每个PTE,但记住这些VPN并不是页表的一部分,不会储…

基础知识——进制 与 进制转换 (C++ 程序)

目录 一、进制的定义 二、表示方法 1、当进制数 ≤ 10时 2、当进制数>10时 三、进制的计算 1、整数 2、小数 3、非十进制数 4、非十进制转十进制 四、十进制转非十进制数 1、整数部分 2、小数部分 3、整小混合 五、程序实现 1、十进制 转 其它进制 …

Unity 3D 动画系统(Mecanim)|| Unity 3D 人形角色动画(Avatar)

Unity 3D 动画系统(Mecanim) Mecanim 动画系统是 Unity 公司推出的全新动画系统,具有重定向、可融合等诸多新特性,可以帮助程序设计人员通过和美工人员的配合快速设计出角色动画,其主界面如下图所示。 Unity 公司计划…

wy的leetcode刷题记录_Day50

wy的leetcode刷题记录_Day50 声明 本文章的所有题目信息都来源于leetcode 如有侵权请联系我删掉! 时间:2022-11-23 前言 补 目录wy的leetcode刷题记录_Day50声明前言1742. 盒子中小球的最大数量题目介绍思路代码收获700. 二叉搜索树中的搜索题目介绍思路代码收获…

Maven问题相关 1 存在jar 却无法映射

这是一个比较新手的问题了,可能刚接触这个问题的小伙伴会纳闷,我这个本地仓库明明有却怎么映射失败吗?不科学啊。尤其是面临公司项目很多依赖的情况下,会出现大量这种情况,就算是项目经理过来。也可能会卧槽,我电脑上…

基于python的CLI应用程序开发(第一节):简单了解一下Typer

Typer开发(第一节):简单了解一下Typer 文章目录Typer开发(第一节):简单了解一下Typer1. 简介2. 安装3. 在编辑器中使用Typer4. 简单应用15. 简单应用26. 命令参数7.其它1. 简介 Typer 是一个python用于构建 CLI 应用程序的库,简单说就是开发控制台程序&…

Idea+maven+spring-cloud项目搭建系列--8整合Zookeeper

本文为 Ideamavenspring-cloud项目搭建系列,maven项目的创建可以参考: https://blog.csdn.net/l123lgx/article/details/121467823 本文使用了nacos 作为微服务的注册与发现,nacos 阿里云服务器的安装可以参考:https://blog.csdn.…