第6章 循环神经网络

news2024/11/20 14:41:21

系列文章目录

第1章 绪论
第2章 机器学习概述
第3章 线性模型
第4章 前馈神经网络
第5章 卷积神经网络
第6章 循环神经网络
第7章 网络优化与正则化
第8章 注意力机制与外部记忆
第9章 无监督学习
第10章 模型独立的学习方式
第11章 概率图模型
第12章 深度信念网络
第13章 深度生成模型
第14章 深度强化学习
第15章 序列生成模型


文章目录

  • 系列文章目录
  • 前言
  • 6.1 给神经网络添加记忆
    • 6.1.1 延时神经网络
    • 6.1.2 自回归模型
    • 6.1.3 非线性自回归模型
  • 6.2 循环神经网络
    • 6.2.1 网络结构
    • 6.2.2 网络按时间展开
    • 6.2.3 简单循环网络
    • 6.2.4 图灵完备
    • 6.2.5 应用
  • 6.3 循环神经网络在机器学习中的应用
    • 6.3.1 序列到类别
    • 6.3.2 同步的序列到序列模式
    • 6.3.3 异步的序列到序列模式
  • 6.4 梯度
    • 6.4.1 参数定义
    • 6.4.2 梯度
    • 6.4.3 长程依赖问题
  • 6.5 GRU 与LSTM
    • 6.5.1GRU(Gated Recurrent Unit)
    • 6.5.2 LSTM(Long Short-Term Memory)
  • 6.6 深层模型
  • 6.7 图网络
    • 6.7.1 递归神经网络
    • 6.7.2 图网络
  • 6.7 循环网络的应用
    • 判断句子合理性 作词、作诗、机器的翻译、看图说话、写字、对话系统、
  • 总结


前言


6.1 给神经网络添加记忆

6.1.1 延时神经网络

延时神经网络(Time Delay Neural Network,TDNN),即建立一个额外的延时单元,用来存储网络的历史信息(可以包括输入、输出、隐状态等)
h t ( l ) = f ( h t ( l − 1 ) , h t − 1 ( l − 1 ) , … h t − K ( l − 1 ) ) h_t^{(l)}=f(h_t^{(l-1)},h_{t-1}^{(l-1)},…h_{t-K}^{(l-1)}) ht(l)=f(ht(l1),ht1(l1),htK(l1))
在这里插入图片描述

6.1.2 自回归模型

自回归模型(Autoregressive Model,AR),一类时间序列模型,用变量的历史信息来预测自己。
y t = w 0 + ∑ k = 1 K w k y t − k + ϵ t y_t=w_0+\sum _{k=1}^K w_ky_{t-k}+\epsilon_t yt=w0+k=1Kwkytk+ϵt

ϵ t \epsilon_t ϵt为第t个时刻的噪音

6.1.3 非线性自回归模型

有外部输入的非线性自回归模型(Nonlinear Autoregressive with Exogenous Inputs Model,NARX)
y t = f ( x t , x t − 1 , … , x t − K x , y t − 1 , y t − 2 , … , y t − K x ) y_t=f(x_t,x_{t-1},…,x_{t-K_x},y_{t-1},y_{t-2},…,y_{t-K_x}) yt=f(xt,xt1,xtKx,yt1,yt2,ytKx)
其中 f(⋅) 表示非线性函数,可以是一个前馈网络, K x K_x Kx K y K_y Ky 为超参数
在这里插入图片描述

6.2 循环神经网络

6.2.1 网络结构

循环神经网络通过使用带自反馈的神经元,能够处理任意长度的时序数据。
h t = f ( h t − 1 , x t ) h_t=f(h_{t-1},x_t) ht=f(ht1,xt)
在这里插入图片描述

  • 循环神经网络比前馈神经网络更加符合生物神经网络的结构。
  • 循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。

6.2.2 网络按时间展开

在这里插入图片描述

6.2.3 简单循环网络

状态更新:
h t = f ( U h t − 1 + W x t + b ) h_t=f(Uh_{t-1}+Wx_{t}+b) ht=f(Uht1+Wxt+b)
一个完全连接的循环网络是任何非线性动力系统的近似器 。

在这里插入图片描述

6.2.4 图灵完备

图灵完备(Turing Completeness)是指一种数据操作规则,比如一种计算机编程语言,可以实现图灵机的所有功能,解决所有的可计算问题。
在这里插入图片描述
一个完全连接的循环神经网络可以近似解决所有的可计算问题。

6.2.5 应用

  • 作为输入-输出映射的机器学习模型(本节主要关注这种情况)。
  • 作为存储器中的联想记忆模型。

6.3 循环神经网络在机器学习中的应用

6.3.1 序列到类别

模型结构
在这里插入图片描述
实际应用

情感分类任务

在这里插入图片描述

6.3.2 同步的序列到序列模式

模型结构
在这里插入图片描述
实际应用

1.中文分词

在这里插入图片描述

2.信息抽取(Information Extraction,IE)

从无结构的文本中抽取结构化的信息,形成知识。
在这里插入图片描述

3.语音识别

在这里插入图片描述

6.3.3 异步的序列到序列模式

模型结构
在这里插入图片描述
应用

机器翻译

在这里插入图片描述
ϵ t \epsilon_t ϵt为第t个时刻的噪音

6.4 梯度

6.4.1 参数定义

给定一个训练样本(x,y),其中x = ( x 1 x_{1} x1,… , x T x_{T} xT )为长度是T 的输入序列,y = ( y 1 y_{1} y1 ,… , y T y_{T} yT )是长度为T 的标签序列。则时刻t的瞬时损失函数为:
L t = L ( y t , g ( h t ) ) L_{t}=L(y_t,g(h_t)) Lt=L(yt,g(ht))
总损失函数为:
L = ∑ t = 1 T L t L=\sum_{t=1}^{T}L_{t} L=t=1TLt

6.4.2 梯度

随时间反向传播算法:
在这里插入图片描述

在这里插入图片描述

梯度消失与爆炸:

在这里插入图片描述
由于计算过程中 λ \lambda λ部分要经过多次求积,所以当得到的大于1时会出现梯度爆炸问题,小于1时会出现梯度消失问题。

6.4.3 长程依赖问题

出现原因
循环神经网络在时间维度上非常深,所以会出现梯度消失或爆炸问题,因此实际上只能学习到短周期的依赖关系。这就是所谓的长程依赖问题

改进原理
针对梯度爆炸问题,可采用权重衰减或梯度截断方法;针对梯度消失问题,可改进模型。
改进方法

  1. 循环边改为线性依赖关系:
    h t = h t − 1 + g ( x t ; θ ) h_t = h_{t-1}+g(x_t;\theta) ht=ht1+g(xt;θ)
  2. 增加非线性:
    h t = h t − 1 + g ( x t ; h t − 1 ; θ ) h_t = h_{t-1}+g(x_t;h_{t-1};\theta) ht=ht1+g(xt;ht1;θ)
  3. 使用门控制机:
    控制信息的累计速度,包括有选择地加入新的信息,并由选择地遗忘之前累积的信息。

h t = h t − 1 + g ( x t ; h t − 1 ; θ ) h_t = h_{t-1}+g(x_t;h_{t-1};\theta) ht=ht1+g(xt;ht1;θ)

6.5 GRU 与LSTM

6.5.1GRU(Gated Recurrent Unit)

  1. 结构图
    在这里插入图片描述
  2. 计算公式
    r t = σ ( W r x t + U r h t − 1 + b r ) z t = σ ( W r x t + U z h t − 1 + b z ) h ~ t = t a n h ( W c x t + U ( r t ⊙ h t − 1 ) ) h t = z t ⊙ h t − 1 + ( 1 − z t ) ⊙ h ~ t r_t = \sigma(W_rx_t+U_rh_{t-1}+b_r) \\ z_t = \sigma(W_rx_t+U_zh_{t-1}+b_z)\\ \tilde h_t = tanh(W_cx_t+U(r_{t}\odot h_{t-1}))\\ h_t = z_t\odot h_{t-1}+(1-z_t)\odot \tilde h_t rt=σ(Wrxt+Urht1+br)zt=σ(Wrxt+Uzht1+bz)h~t=tanh(Wcxt+U(rtht1))ht=ztht1+(1zt)h~t

6.5.2 LSTM(Long Short-Term Memory)

  1. 结构图
    在这里插入图片描述

  2. 计算公式
    f t = σ ( W f x t + U f h t − 1 + b f ) i t = σ ( W i x t + U i h t − 1 + b i ) c ~ t = t a n h ( W c x t + U c h t − 1 + b c ) o t = σ ( W o x t + U o h t − 1 + b o ) c t = f t ⊙ c t − 1 + i t ⊙ c ~ t h t = o t ⊙ t a n h ( c t ) f_t = \sigma(W_fx_t+U_fh_{t-1}+b_f) \\ i_t = \sigma(W_ix_t+U_ih_{t-1}+b_i)\\ \tilde c_t = tanh(W_cx_t+U_ch_{t-1}+b_c)\\ o_t = \sigma(W_ox_t+U_oh_{t-1}+b_o) \\ c_t = f_t\odot c_{t-1}+i_t\odot \tilde c_t\\ h_t = o_t\odot tanh(c_t) ft=σ(Wfxt+Ufht1+bf)it=σ(Wixt+Uiht1+bi)c~t=tanh(Wcxt+Ucht1+bc)ot=σ(Woxt+Uoht1+bo)ct=ftct1+itc~tht=ottanh(ct)

  3. LSTM的各种变体
    在这里插入图片描述

6.6 深层模型

堆叠循环神经网络
在这里插入图片描述
双向循环神经网络
在这里插入图片描述

6.7 图网络

6.7.1 递归神经网络

递归神经网络实在一个有向图无循环图上共享一个组合函数:

在这里插入图片描述
退化为循环神经网络:

在这里插入图片描述
自然语言的处理:
在这里插入图片描述

6.7.2 图网络

计算过程:
在这里插入图片描述
函数计算:
在这里插入图片描述

6.7 循环网络的应用

判断句子合理性
作词、作诗、机器的翻译、看图说话、写字、对话系统、

总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/29099.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

新相微在科创板过会:计划募资约15亿元,2022年业绩开始下滑

11月22日,上海证券交易所科创板披露的信息显示,上海新相微电子股份有限公司(下称“新相微”)获得上市委会议通过。据贝多财经了解,新相微于2022年6月28日在科创板递交招股书。 本次冲刺科创板上市,新相微计…

企业架构LB-服务器的负载均衡之LVS实现

01_学习目标和内容 02_LVS介绍和ipvsadm管理工具安装 03_LVS常见工作方式和调度算法介绍 04_需要知道的几个概念名词 05_LVS-NAT方式实现的流程原理 06_配置NAT模式准备工作 在centos中建立网卡配置信息 07_NAT模型RS真实服务器的网关配置 08_NAT模型DR调度服务器规则和转发配…

2010年数学二真题复盘

高数部分 选择题 第一题 思路分析:本要主要考察间断点的概念与极限运算. ☆首先无穷间断点属于第二类间断点,则至少有一个点不存在,要么没定义,要么就是在某个点的左极限或者右极限上趋于无穷,可以先化简,找一些分母趋于0的,那么就是无穷间断点了。 第二题 思路分…

设计模式之美——多组合少继承

组合优于继承,多用组合少用继承。 继承举例 假设我们要设计一个关于鸟的类。我们将“鸟类”这样一个抽象的事物概念,定义为一个抽象类 AbstractBird。所有更细分的鸟,比如麻雀、鸽子、乌鸦等,都继承这个抽象类。 我们知道&…

web前端期末大作业——贵州山地旅游介绍网页1页 HTML旅游网站设计与实现

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓,页面排版干净简洁。使用HTMLCSS页面布局设计,web大学生网页设计作业源码,这是一个不错的旅游网页制作,画面精明,排版整洁,内容…

Qt+Win10使用QAxWidget控件实现远程桌面控制

Windows开始菜单-运行-输入mstsc,可以打开自带的远程桌面连接工具。如果想使用Qt来实现这个工具,怎么弄? 一、Win10环境的配置 1、Win10-我的电脑-属性-远程桌面-开启 2、打开控制面板-管理工具(Win11是【Windows工具】&#xff…

Ubuntu16.4安装搜狗拼音输入法

Ubuntu16.04安装搜狗输入法,总结可以分为5步: 1.下载搜狗输入法的安装包 2.安装fcitx输入法框架 3.安装搜狗输入法 4.重启Ubuntu 5.配置搜狗输入法 1.下载搜狗输入法的安装包 百度搜索“搜狗输入法 linux” https://pinyin.sogou.com/linux. ​​​​…

CY3/CY5/CY7标记牛血清白蛋白/人血清白蛋白,CY3/CY5/CY7-BSA/HSA

产品名称:CY3/CY5/CY7标记牛血清白蛋白/人血清白蛋白 英文名称:CY3/CY5/CY7-BSA/HSA 血清白蛋白一般指人血白蛋白,是由580个氨基酸残基单链组成的蛋白质,由肝脏分泌,在血浆中含量最高,约占52%-68%左右。血…

Flink之ProcessFunction

ProcessFunction基本处理函数处理函数的功能和使用ProcessFunction 解析处理函数的分类按键分区处理函数(KeyedProcessFunction)定时器(Timer)和定时服务(TimerService)KeyedProcessFunction 的使用窗口处理…

机房动环状态综合触摸屏监控解决方案

随着移动互联网、电子商务等迅速扩张,大型互联网企业的用户数再创新高,数据量爆发式增长,企业对IDC资源的需求越来越大。机房状态安全的重要性对于一个企业来说一直以来都是一个令人头疼的问题。因此,我们推出了动环状态网络触摸屏…

Linux学习-51-进程间通信和终止线程命令

12.9 常用信号(进程间通信)及其含义 进程的管理主要是指进程的关闭与重启。我们一般关闭或重启软件,都是关闭或重启它的程序,而不是直接操作进程的。比如,要重启 apache 服务,一般使用命令"service ht…

旅游定制服务|基于SSM实现旅游个性化定制网站平台

旅游定制订单管理 旅游订单管理 作者主页:编程千纸鹤 作者简介:Java、前端、Pythone开发多年,做过高程,项目经理,架构师 主要内容:Java项目开发、毕业设计开发、面试技术整理、最新技术分享 收藏点赞不迷路…

大一新生HTML期末作业,网页制作作业——明星介绍易烊千玺网站HTML+CSS

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

【配电网规划】配电网网架重构、DG位置选择容量配置(Matlab代码实现)

👨‍🎓个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜…

基于主动视觉机制的深度学习--一个综合池化框架

卷积神经网络(CNN)是深度学习的代表算法之一,长期以来被广泛应用于图像识别领域。它是受到了生物处理过程的启发,通过模仿人类视觉系统(HVS)的工作机制,完成各种视觉任务等。但与HVS相比,CNN不能够像人类一样,迅速的分…

项目管理(项目管理中的重要角色项目经理)

项目经理: 项目经理是由执行组织委派,领导团队实 现项目目标的个人。 项目经理如何进行沟通: 1、通过多种方法(例如口头、书面和非言语)培养完善的技能; 2、创建、维护和遵循沟通计划和进度计划; 3、不断地以可预见的方式进行沟通; 4、寻求了解项目相关方的沟通需求…

非人工智能方向粗糙理解深度学习

非人工智能方向粗糙理解深度学习线性模型基本形式线性回归数据集学习目标均方误差监督学习弱监督学习不完全监督主动学习半监督学习迁移学习不确切监督不准确监督线性模型基本形式 你要训练的线性模型(模型不一定是线性的,为方便理解,此处以…

ceph部署踩坑——OSD服务无法启动

前话:部署ceph时,所有OSD节点的服务启动报错,无法正常启动服务。 问题现象:OSD节点启动ceph-osd0.service服务报错,start request repeated too quickly for ceph-osd0.service 解决过程: 1、修改启动的…

线上演唱会成歌手身价新标准,十月天传媒正式合作腾格尔

曾记得某位音乐人说过,每一位歌手都有自己的段位,其实也就是所谓的身价和演出费用。歌手的身价段位,要通过演唱会的出场费来体现,可惜最近两年由于特殊原因,线下演唱会已经很难举办。 既然线下演唱会很难举办&#xff…

Nginx:过滤模块的实现

文章目录1、过滤模块的概念2、过滤模块原理2.1、过滤链表2.2、执行顺序3、过滤模块的实现3.1、编写模块结构3.1.1、模块配置结构3.1.2、模块配置命令3.1.3、模块上下文3.1.4、定义模块3.2、设置响应头3.3、设置响应体3.4、编译测试3.5、完整代码4、参考文章参考<零声教育>…