2022.12.4 学习周报

news2025/1/11 21:41:50

文章目录

  • 摘要
  • 文献阅读
    • 1.题目
    • 2.摘要
    • 3.介绍
    • 4.方法
    • 5.实验
      • 5.1 数据集
      • 5.2 网络模型
      • 5.3 实验表现
    • 6.展望
  • 深度学习
    • 1.LSTM原理
      • 1.1 什么是LSTM?
      • 1.2 遗忘门(forget gate)
      • 1.3 输入门(input gate)
      • 1.4 输出门(output gate)
    • 2.GRU原理
    • 3.LSTM与GRU的比较
    • 4.张量
    • 5.梯度、散度和旋度
    • 6.利用张量证明矢量分析中的恒等式
    • 7.将任意一个波函数,通过差分推导写成RNN结构
  • 总结


摘要

This week, I read a paper on Recurrent Reural Networks that proposed a new recurrent reural network architecture that achieves functionality comparable to LSTM and GRU in a simplified structure. Compared with LSTM and GRU, this network architecture has the least amount of parameter update, which is conducive to efficient training and testing. More importantly, it has better interpretability and trainability. In the learning of Recurrent Neural Network, I simply learn the variant models of RNN, LSTM and GRU, which can solve the problems of gradient vanshing and gradient explode in the process of long sequence training encountered by RNN. In addition, I summarize some simple understandings of tensor, gradient, divergence and curl, and prove the identities in vector analysis using tensor.

本周,我阅读了一篇关于循环神经网络的论文,论文中提出了一种新的循环神经网络架构,它以简化的结构实现了与LSTM和GRU相当的功能。这种网络架构比LSTM和GRU有着最少的参数更新量,有利于高效的训练和测试,更重要的是它具有更好的可解释性和可训练性。在循环神经网络的学习中,我简单地学习了RNN的变体模型LSTM和GRU,它们能够解决RNN遇到的长序列训练过程中的梯度消失和梯度爆炸问题。此外,我还总结了一些对张量、梯度、散度和旋度的简单理解,并利用张量证明了矢量分析中的恒等式。


文献阅读

1.题目

文献链接:MinimalRNN: Toward More Interpretable and Trainable Recurrent Neural Networks

2.摘要

We introduce MinimalRNN, a new recurrent neural network architecture that achieves comparable performance as the popular gated RNNs with a simplified structure. It employs minimal updates within RNN, which not only leads to efficient learning and testing but more importantly better interpretability and trainability. We demonstrate that by endorsing the more restrictive update rule, MinimalRNN learns disentangled RNN states. We further examine the learning dynamics of different RNN structures using input-output Jacobians, and show that MinimalRNN is able to capture longer range dependencies than existing RNN architectures.

3.介绍

RNN已经广泛应用于各个领域的序列数据建模,其中LSTM和GRU是最突出的模型,尽管它们的性能优异,但由于这些模型的内在复杂性使我们无法彻底了解它们的优势,以至于存在局限性。因此,论文对现有RNN模型的问题进行了改良设计,在不损失性能的同时进一步缓解了梯度消失问题,增强了内部神经元的可解释性。

现有RNN存在的一个问题是对于噪声扰动过于敏感,不够稳健。初始状态的轻微扰动都会造成后续结果的巨大变化,为此论文中提到Chaos Free Networks (CFN)可以试图解决这一问题。因此,CFN的做法是将循环部分的矩阵相乘换成element-wise product,
以GRU为例:
在这里插入图片描述
修改为:
在这里插入图片描述
其中的思想是每一个神经元在各个时间步t之间应当保持独立性,这样可以增强内部神经元的可解释性,而现有的矩阵相乘是通过全连接联系ht和ht+1,这样隐状态h下一时刻的每一个神经元除了和自身关联,还会和其它神经元有权重关联。受到CFN成功的启发,论文中提出更简单的RNN结构MinimalRNN,它简单不牺牲性能,不仅带来了效率,还带来了可解释性和可训练性。

4.方法

如下图所示,这是论文中提出更简单的RNN结构:MinimalRNN的模型架构图
在这里插入图片描述
Ф(x)将输入x映射到zt,使得zt和隐状态ht在同一个空间中,这样它们就能在上图中第三个式子通过相加操作来更新隐状态,其中的ut是门,作用相当于缩放操作。原因是在同一个空间中的两个向量相加才有明晰的意义,不在同一空间的话我们认为没有意义,或者说我们不好说清楚它有什么意义。相较于传统的LSTM或GRU,这个结构要简单许多,无论是参数数量还是计算复杂度上有具有优势。

5.实验

目标:考虑到用户使用系统中项目的历史情况下,向用户推荐感兴趣的项目。

5.1 数据集

数据集包含数以亿计的用户记录,记录用户使用推荐项目的上下文。论文中考虑了长达数月的用户活动,并将序列截断最大长度设为500,项目词汇表包含了过去48小时内500万个最受欢迎的项目。

5.2 网络模型

论文采用GRU模型,用于捕捉随时间演变的用户兴趣。

5.3 实验表现

在这里插入图片描述
从图中信息可以看出,VanillaRNN在学习的早期阶段由于梯度爆炸而导致出现失败情况,在其他三种模型的比较中,由于MinimalRNN的更新要简单得多,因此训练所需的时间更少,大概在30小时内完成,而CFN需要36小时,GRU需要46小时。因此,MinimalRNN的表现比其他几个模型更好。

6.展望

论文中较为简单的循环神经网络架构能否执行除论文中所述任务之外的广泛任务,还有待观察。因为针对论文中的任务最有效的模型仅使用一个全连接层,而面对更为复杂的输入时,我们就需要增加模型的深度来寻找更为有效的方法去解决问题。

深度学习

LSTM参考链接:https://www.cnblogs.com/luyizhou/p/15469779.html
GRU参考链接:https://blog.51cto.com/u_15127545/4367220
张量参考链接:https://zhuanlan.zhihu.com/p/121429834

1.LSTM原理

1.1 什么是LSTM?

LSTM是一种特殊的RNN,主要的作用是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,相比于普通的RNN,LSTM能够在更长的序列中有更好的表现。
在这里插入图片描述
将上图拆分理解:
1)如果没有门结构,细胞的状态类似于输送带,细胞的状态在整个链上运行,只有一些线性函数作用,信息很容易保持不变的流过整个链。
2)门(gate)是一种可选地址信息通过的方式, 它由一个Sigmoid神经网络层和一个点乘法运算组成。简单来说,就是对数据进行运算操作,而对运算后的数据信息是否处理需要靠gate来判断。Sigmoid神经网络层输出范围为0到1之间的数字,它表示每个组件有多少信息可以通过, 0表示不通过任何信息,1表示全部通过。
3)LSTM有三个gate,用于保护和控制细胞的状态。

1.2 遗忘门(forget gate)

在这里插入图片描述
遗忘门的作用是决定神经网络需要丢弃哪些不重要的信息,此操作由遗忘门的Sigmoid层实现。
可训练参数:Wf ,bf 参数矩阵

1.3 输入门(input gate)

在这里插入图片描述
输入门的作用是决定神经网络需要存储哪些信息,此部分分为两个步骤:
1)输入门的sigmoid神经网络层决定了应不应该更新数据或者以多大的比例去更新数据。
2)输入门的tanh神经网络层生成了一个加入到细胞态的候选向量Ct。
于是,将上面两个步骤的结果向量进行点乘,最终确定如何去更新细胞态。
可训练参数:Wi,bi,Wc,bc参数矩阵
在这里插入图片描述
上图为Ct的更新公式,清晰地说明了遗忘门和输入门是如何对长期、短期的信息来实现遗忘和记忆的。
可训练参数:无

1.4 输出门(output gate)

在这里插入图片描述
输出门的作用是决定神经网络输出哪些信息。首先通过输出门的sigmoid层决定输出信息,然后将Ct通过tanh层将值规范化到-1和1之间,并将其乘以Sigmoid门的输出,此时得到的结果为最终要输出的结果ht。
可训练参数:Wo,bo 参数矩阵。

2.GRU原理

GRU是LSTM一个效果不错的变体网络,它较于LSTM的结构更为简单,也能够解决RNN遇到的长依赖问题。

GRU的特点是参数数量较少,训练速度快,能够降低过拟合的风险。对比于LSTM引入3个gate:遗忘门、输入门和输出门,GRU只有两个gate:更新门和重置门。

GRU具体结构如下图所示:
在这里插入图片描述
其中:zt表示更新门,rt表示重置门。
更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入量越多。
重置门控制前一状态有多少信息被写入到当前的候选集上,重置门越小,前一状态的信息被写入量越少。

3.LSTM与GRU的比较

1)GRU相比于LSTM少了一个输出门,则GRU的参数量比LSTM少。
2)对于某些较小的数据集上,GRU相比于LSTM能够表现出更好的性能。
3)从严格意义上来说,LSTM比GRU更强,因为它可以很容易地进行无限计数,这也是LSTM能够学习简单语言的原因。

4.张量

张量:不依赖坐标系来反应物质的一个物理量。
在这里插入图片描述
标量:一个0阶张量
矢量:一个1阶张量
有人说矩阵是一个张量,但是从严格意义来说,它不是一个张量,因为一个张量由一个数(张量的分量)和基矢量的并矢组成,而这个数也可以是一个矩阵,因此我们可以用一个矩阵唯一的代表一个张量。
并矢:当我们把一个m阶张量和一个n阶张量做并矢,就会得到一个m+n阶的张量,因此并矢是一个升阶的过程。

5.梯度、散度和旋度

梯度:在某个场中,某点某物理参数增加最快的方向
散度:矢量场发散的程度
旋度:矢量场对于某一点附近的旋转程度
在这里插入图片描述
其中有两个公式需要记忆:
1)梯度的旋度是0,理解为一个发散的场不会旋转。
2)旋度的散度是0,理解为一个旋转的场不会发散。

6.利用张量证明矢量分析中的恒等式

在这里插入图片描述

7.将任意一个波函数,通过差分推导写成RNN结构

在这里插入图片描述


总结

在本周的学习中,我继续学习了循环神经网络方面的内容,对于RNN面临的长期依赖问题(由于反向传播存在的梯度消失或爆炸问题,简单RNN很难建模长距离的依赖关系),一种比较有效的方案是在RNN基础上引入门控机制来控制信息的传播,因此LSTM和GRU得到了广泛的使用。在下周的学习中,我们深入地学习LSTM和GRU,掌握其中的原理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/61531.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python声明式统计可视化库 altair-GitHub鉴赏官

推荐理由:Vega-Altair是 Python 的声明式统计可视化库。借助 Vega-Altair,您可以花更多时间来理解数据及其含义。Vega-Altair 的 API 简单、友好且一致,建立在强大的 Vega-Lite JSON 规范之上。这种优雅的简单性可以用最少的代码产生漂亮而有…

FT2004(D2000)开发实战之在线开发GPIO LED程序

一 在线开发GPIO LED程序 分析GPIO LED原理图 从飞腾FT2004原理图可知,开发板将GPIO1_A3和GPIO1_A4连接到LED上,具体如下: 开发板将GPIO1_A3和GPIO1_A4连接到LED上,因此代码初始化时需要注意以下几点: => 打开/dev/gpiochip1设备 => gpio偏移量为3和4创建led.c roo…

OpenShift 4 - 从 FreeIPA/RHIdM 向 RHSSO 同步用户和组

《OpenShift / RHEL / DevSecOps / Ansible 汇总目录》 说明:本文已经在 OpenShift 4.11 环境中验证 文章目录安装 FreeIPA/RHIdM在 FreeIPA/RHIdM 中添加用户和组从 FreeIPA/RHIdM 向 RHSSO 同步用户和组参考红帽 RHIdM 基于开源项目 FreeIPA,其内部提供…

Windows Access Token

Windows Access Token Windows Token其实叫Access Token(访问令牌),它是一个描 述进程或者线程安全上下文的一个对象。不同的用户登录计算机后, 都会生成一个Access Token,这个Token在用户创建进程或者线程 时会被使用,不断的拷贝…

如何选择和使用腾讯云服务器的方法新手教程

本文将介绍如何选择和使用腾讯云服务器的方法新手教程。云服务器能帮助快速构建更稳定、安全的应用,降低开发运维的难度和整体IT成本。腾讯云CVM云服务器提供多种类型的实例、操作系统和软件包。各实例中的 CPU、内存、硬盘和带宽可以灵活调整,以满足应用…

C++11中可变参数模板使用

在看同事编写的代码&#xff0c;发现有如下的代码&#xff0c;因为没用过&#xff0c;所以查了一下这是什么语法&#xff0c;通过查询资料知道了这是C11中增加的可变参数模板。 template<class T, class ...Args> bool GetValue(T &value, Args &&...args) c…

12.2-12.4总结

12.2 明明跟着Vue3的视频学的&#xff0c;结果今天发现我学的都是vue2的写法&#xff0c;导致网上查阅资料调用组件有很多东西看不懂。设置langts也用不了&#xff0c;所以去查文档&#xff0c;增加配置了。 -安装vue-cli手脚架 解决lang"ts"报错http://t.csdn.cn/…

【力扣周总结】

题目汇总 判断括号的合法 #20 有效的括号&#xff08;栈问题 stack &#xff09;#921. 使括号有效的最少添加&#xff08;纯逻辑题&#xff09;#1541. 平衡括号字符串的最少插入次数&#xff08;纯逻辑题&#xff09; 单调(递减)栈 - Next Greater Element 题型 496. 下一个…

计算机毕业设计源码——基于Android的真人社交游戏辅助应用开发

编号 本科生毕业设计&#xff08;论文&#xff09; 题目&#xff1a; 真人社交游戏辅助应用开发 专业 学 号 学生姓名 指导教师 摘 要 时至今日&#xff0c;社交已成为人们生活中必不可少的一部分&#xff0c;社交网络的盛行已经成为一种必然趋势&#xff0e;与此同时&a…

央企招聘:正式编制!八险三金!各项福利!中国邮政招人啦!

中国邮政薪酬待遇情况 &#xff08;仅供参考&#xff09; &#xff08;一&#xff09;薪酬水平 1.邮储总行&#xff1a;刚入职有六个月实习期&#xff0c;月薪6k左右&#xff0c;转正以后一年到手大概25w&#xff0c;在大行中处于中等偏上。利润中心等部门可能更高一些&#…

Java基于JSP的幼儿园管理系统

幼儿是祖国的花朵,是未来国家建设的接班人。如果能够让幼儿园更好的对院所内部进行更好的管理是很多家长和幼儿园的工作人员所关心的问题。为此我开发了幼儿园管理系统,让家长和院所的管理人员能够更好的进行沟通,从而到达更好的培养幼儿和让家长更好的了解自己孩子生活教育问题…

springboot自定义参数解析器

springboot自定义参数解析器1.前言2.springMVC参数解析器3.如何自定义参数解析器4测试1.前言 1.springMVC是如何把参数解析完毕后注入到controller方法参数上的呢&#xff1f;在javaweb阶段&#xff0c;我们都学过使用HttpServletRequest这个对象获取参数&#xff0c;比如 req…

Dubbo-服务暴露

前言 Dubbo源码阅读分享系列文章&#xff0c;欢迎大家关注点赞 SPI实现部分 Dubbo-SPI机制 Dubbo-Adaptive实现原理 Dubbo-Activate实现原理 Dubbo SPI-Wrapper 注册中心 Dubbo-聊聊注册中心的设计 Dubbo-时间轮设计 通信 Dubbo-聊聊通信模块设计 RPC 聊聊Dubbo协议 …

【编程题】【Scratch四级】2022.09 绘制图形

绘制图形 1. 准备工作 &#xff08;1&#xff09;默认小猫角色&#xff0c;默认白色背景。 2. 功能实现 &#xff08;1&#xff09;绘制出如上图所示图案&#xff0c;图形的中心在舞台中心点&#xff1b; &#xff08;2&#xff09;图形由12条蓝红相间&#xff0c;长度为80…

[附源码]Python计算机毕业设计Django咖啡销售平台

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

最强大脑记忆曲线(13)--应用程序的加密及授权码的实现

加密和授权一、python程序加密与授权的思考二、python文件 加密三、注册机代码目前我的小项目“最强大脑记忆曲线”已经可以出1.0版了&#xff0c;发布之前的最后一个环节就是给应用程序加密&#xff0c;并增加授权码了。关于这些&#xff0c;我之前思考过很多&#xff0c;因为…

【数据结构】二叉树OJ练习

&#x1f451;作者主页&#xff1a;进击的安度因 &#x1f3e0;学习社区&#xff1a;进击的安度因&#xff08;个人社区&#xff09; &#x1f4d6;专栏链接&#xff1a;数据结构 文章目录一、二叉树的最小深度二、单值二叉树三、相同的树四、另一棵树的子树五、翻转二叉树六、…

毫米波传感器原理介绍:测速_1相位

在前文中&#xff0c;我们分析了 IF信号的频率&#xff0c;并展示了该频率与物体到雷达的距离 成正比。在本文中&#xff0c;我们将探讨IF 信号的相位。如果我们希望了解 FMCW 雷达响应物体极小位移的能力&#xff0c;那么研究相位就非常重要。雷达正是凭此非常快速且准确地测量…

Java 基础之线程

线程是 cpu 可以调度的最小单元&#xff0c;多线程可以利用 cpu 轮询时间片的特点&#xff0c;在一个线程进入阻塞状态时&#xff0c;快速切换到其余线程执行其余操作&#xff0c;减少用户的等待响应时间。所以我们需要了解线程的基本概念&#xff0c;如何启动线程以及怎么去控…

最短路径(Dijkstra算法与Floyd算法)

一、Dijkstra算法 Dijkstra算法与之前学习过的Prim算法有些相似之处。我们直接通过一个例子来讲解 假设要求的是A->E之间的最短路径。首先我们来列出顶点A到其他各顶点的路径长度&#xff1a;A->D 2&#xff0c;A->B 6&#xff0c;A->C 1&#xff0c;A->E…