RNN And CNN通识

news2025/2/12 3:43:16

CNN And RNN

  • RNN And CNN通识
    • 一、卷积神经网络(Convolutional Neural Networks,CNN)
      • 1. 诞生背景
      • 2. 核心思想和原理
        • (1)基本结构:
        • (2)核心公式:
        • (3)关键特性:
        • (4)局限性:
      • 3. 发展历史
        • (1)LeNet的提出(1989年)
        • (2)AlexNet的突破(2012年)
        • (3)VGG和GoogLeNet(2014-2015年)
        • (4)ResNet的提出(2015年)
      • 4. 最佳实践
    • 二、循环神经网络(Recurrent Neural Network, RNN)
      • 1. 诞生背景
      • 2. 核心思想和原理
        • (1) 基本结构:
        • (2)核心公式:
        • (3)关键特性:
        • (4)局限性:
      • 3. 发展历史
        • (1)经典RNN的提出(1986年)
        • (2)LSTM的诞生(1997年)
        • (3)GRU的提出(2014年)
        • (4)基于注意力机制的改进(2014-2017年)
        • (5)现代发展(2020年至今)
      • 4. 最佳实践
    • 三、RNN与CNN对比
      • 1. 应用场景
      • 2. 核心思想
      • 3. 结构与原理对比
      • 4. 优缺点对比
      • 5. 适用场景与选择建议
      • 6. 总结

RNN And CNN通识

近期正在阅读《Attention Is All You Need》这篇Transformer的原始论文,阅读中碰到了一些对我来说,是新名词、新技术、新模型的知识,因此进行一个通识的学习和总结,记录在此。


一、卷积神经网络(Convolutional Neural Networks,CNN)

1. 诞生背景

卷积神经网络(Convolutional Neural Network, CNN)最早的基础可以追溯到20世纪80年代,由Yann LeCun等人提出,最初用于手写数字识别。与传统的前馈神经网络相比,CNN在处理图像数据方面表现出了显著优势。传统神经网络需要连接每一对输入和输出,这在处理高维数据(如图像)时计算成本较高且效率低。CNN通过局部连接共享权重等方式,有效地减少了模型参数,并使得神经网络能够捕捉到输入数据的空间结构。

  • 诞生时间:CNN的概念最早由LeCun于1989年提出,并在1998年发布了经典的LeNet-5模型。
  • 主要解决问题:CNN主要解决了图像数据处理中的参数过多和计算效率低的问题,同时通过局部连接和权重共享使得神经网络能够有效地捕捉图像的局部特征。

2. 核心思想和原理

卷积神经网络的核心思想是通过卷积层提取局部特征,并通过池化层降低特征维度,逐步提取更高级的特征,从而进行分类或回归任务。

(1)基本结构:

CNN的基本结构通常包括:

  1. 卷积层(Convolutional Layer):用于提取局部特征,通常使用多个滤波器(卷积核)在输入图像上滑动,进行局部感受野的计算。
  2. 池化层(Pooling Layer):通过下采样减少特征图的大小,降低计算量,同时保留最重要的特征信息。
  3. 全连接层(Fully Connected Layer):在卷积和池化层提取特征之后,使用全连接层进行分类或回归任务。
  4. 激活函数(Activation Function):通常使用ReLU(Rectified Linear Unit)激活函数,使模型能够学习非线性特征。
(2)核心公式:
  1. 卷积操作公式
    在这里插入图片描述

  2. 池化操作公式
    池化层通常使用最大池化(Max Pooling)或平均池化(Average Pooling),最大池化公式为:
    在这里插入图片描述

(3)关键特性:
  • 局部连接:每个神经元只连接到输入图像的局部区域,这样可以减少计算量。
  • 共享权重:同一卷积核在图像的不同位置使用相同的权重,进一步减少参数数量。
  • 平移不变性:通过卷积操作,CNN能够在不同位置识别相同的特征,具有平移不变性。
(4)局限性:
  • 对空间关系的依赖:CNN主要关注局部特征和空间关系,对于长期依赖和全局上下文的建模能力较弱。
  • 计算开销:尽管通过共享权重减少了参数数量,但卷积和池化操作仍然需要较高的计算资源。

3. 发展历史

(1)LeNet的提出(1989年)

LeNet由Yann LeCun等人提出,是第一个成功应用于手写数字识别的卷积神经网络模型。LeNet使用卷积和池化层提取特征,然后通过全连接层进行分类。它是CNN的早期代表之一,标志着CNN在计算机视觉领域的首次成功应用。

(2)AlexNet的突破(2012年)

2012年,AlexNet在ImageNet比赛中取得了突破性成绩,显著提高了深度学习在计算机视觉中的应用。AlexNet通过使用更深的网络结构(8层卷积层和全连接层)、ReLU激活函数、Dropout正则化等技术,解决了过拟合和计算效率问题,使得CNN成为深度学习领域的重要研究方向。

(3)VGG和GoogLeNet(2014-2015年)
  • VGG提出了更深的网络结构,使用了重复的3×3卷积层,改进了模型的表现。
  • GoogLeNet(Inception Network)引入了Inception模块,通过使用不同尺寸的卷积核和池化操作来提高网络的表达能力,同时保持较少的计算量。
(4)ResNet的提出(2015年)

ResNet通过引入残差连接(Residual Connection)解决了深度网络训练中的梯度消失问题,使得网络深度可以达到上千层,并且提高了网络的性能。ResNet开创了深度网络的新方向,使得深度学习技术在各个领域取得了更大的突破。


4. 最佳实践

(1)网络结构的选择

  • 简单任务:对于较简单的图像分类任务,可以选择较浅的网络,如LeNet或AlexNet。
  • 复杂任务:对于复杂的任务,如图像识别和检测,可以使用更深的网络,如VGG、ResNet或Inception。

(2)正则化技术

  • Dropout:可以有效减少过拟合,尤其是在训练大型深度神经网络时。
  • Batch Normalization:通过对每一层的输出进行标准化,加速训练并提高模型的稳定性。

(3)优化技术

  • 数据增强:通过对输入数据进行旋转、缩放、裁剪等变换来扩增数据集,增强模型的泛化能力。
  • 学习率调度:使用动态调整学习率的方法(如学习率衰减)来加速训练过程并避免局部最优解。

(4)硬件加速

  • GPU加速:使用GPU进行矩阵运算的加速,可以大大缩短训练时间。
  • 分布式训练:对于超大规模数据集和模型,可以使用分布式训练框架(如TensorFlow、PyTorch)来进行并行训练。

二、循环神经网络(Recurrent Neural Network, RNN)

1. 诞生背景

在上世纪80年代至90年代,传统神经网络(如前馈神经网络)在处理序列数据时表现出局限性。这些网络无法有效捕获序列中前后数据的关联,因为输入之间是独立的。然而,许多实际任务(如语音识别、机器翻译和时间序列预测)都涉及顺序依赖关系。为了克服这一问题,==循环神经网络(RNN)==应运而生。

  • 诞生时间:RNN最初由David Rumelhart等人于1986年提出,后来由Sepp Hochreiter和Jürgen Schmidhuber在1997年提出LSTM(长短期记忆网络)加以改进。
  • 主要解决问题:如何在序列数据中捕获长期依赖关系,记住前面输入的信息,并将其用于当前和后续的预测。

2. 核心思想和原理

循环神经网络的核心思想是通过隐藏状态(Hidden State)存储过去的信息,并在序列的每一步中将当前输入与之前的隐藏状态结合起来,以动态更新隐藏状态。

(1) 基本结构:

RNN每个时间步的输入输出关系如下:
在这里插入图片描述

(2)核心公式:
  1. 隐藏状态更新公式
    在这里插入图片描述

  2. 输出计算公式

(3)关键特性:
  • 权重共享:在不同时间步之间,RNN的参数(如权重矩阵)是共享的。
  • 序列依赖:每个时间步的输出依赖于之前时间步的隐藏状态,从而捕获序列中的时间依赖关系。
(4)局限性:
  • 梯度消失和梯度爆炸:在长序列中,反向传播时梯度可能会逐渐衰减(梯度消失)或迅速增长(梯度爆炸),导致难以捕获长期依赖。

3. 发展历史

(1)经典RNN的提出(1986年)

David Rumelhart等人首次提出RNN结构,用于解决序列数据的建模问题。但受限于梯度消失问题,其性能有限。

(2)LSTM的诞生(1997年)

Sepp Hochreiter和Jürgen Schmidhuber提出长短期记忆网络(LSTM),通过引入记忆单元(Cell State)和门机制(如输入门、遗忘门和输出门)有效缓解了梯度消失问题,使得RNN可以处理更长的序列。

(3)GRU的提出(2014年)

Kyunghyun Cho等人提出门控循环单元(GRU),简化了LSTM的结构,保留了其捕获长期依赖的能力,同时减少了计算开销。

(4)基于注意力机制的改进(2014-2017年)
  • 2014年,Bahdanau等人提出注意力机制(Attention Mechanism),让模型在生成每个输出时能够灵活选择关注输入序列的不同部分。
  • 2017年,Transformer的提出彻底改变了序列建模领域,完全摒弃了RNN结构,依赖于全局注意力机制。
(5)现代发展(2020年至今)

虽然Transformer已在许多任务中取代了RNN,但RNN及其变体(如LSTM、GRU)仍在语音识别、时间序列预测等领域具有重要地位。


4. 最佳实践

(1)选择合适的RNN变体

  1. 标准RNN:适用于短序列任务,如简单时间序列预测。
  2. LSTM:更适合长序列任务,如文本生成、机器翻译。
  3. GRU:计算效率更高,但在大多数任务中的性能与LSTM相当。

(2)梯度问题的解决

  • 梯度裁剪(Gradient Clipping):防止梯度爆炸,通过限制梯度的最大值来稳定训练。
  • 权重正则化:使用L2正则化或Dropout减少过拟合。

(3)优化训练

  • 小批量梯度下降(Mini-Batch Gradient Descent):使用小批量样本训练,提高计算效率。
  • 学习率调度:动态调整学习率以加快收敛。

(4)结合注意力机制

  • 在序列到序列(Seq2Seq)模型中,结合注意力机制可提升RNN对长序列的处理能力。

(5)硬件加速与库选择

  • 硬件:利用GPU或TPU加速矩阵计算。
  • 深度学习框架:如PyTorch、TensorFlow等框架提供了高效的RNN、LSTM、GRU实现。

三、RNN与CNN对比

卷积神经网络(CNN)和循环神经网络(RNN)是深度学习中两种重要的神经网络架构,分别擅长处理不同类型的数据。以下将从应用场景核心思想结构与原理优缺点等方面进行详细对比。

1. 应用场景

网络类型主要应用领域示例任务
CNN计算机视觉、图像处理、视频分析图像分类、目标检测、语义分割、风格迁移
RNN自然语言处理、时间序列分析、语音处理机器翻译、文本生成、语音识别、时间序列预测

总结

  • CNN适合空间结构数据,如图像、视频等。
  • RNN适合序列数据,如文本、语音等。

2. 核心思想

网络类型核心思想
CNN通过卷积核提取局部特征,并利用权重共享减少参数数量。
RNN通过隐藏状态捕获序列中的时间依赖关系。

总结

  • CNN专注于空间特征提取,局部感受野逐层扩展至全局。
  • RNN专注于时间依赖建模,当前输出依赖于过去的信息。

3. 结构与原理对比

(1) CNN结构特点

  • 卷积层(Convolutional Layer):用于提取局部特征,通过卷积核在输入图像上滑动进行计算。
  • 池化层(Pooling Layer):对特征图进行下采样,以此减少特征维度。
  • 激活函数(ReLU):引入非线性特性,使模型能够学习更复杂的映射关系。
  • 全连接层(Fully Connected Layer):将前面提取的特征用于分类或回归任务。

(2)RNN结构特点

  • 隐藏状态(Hidden State):当前时间步的隐藏状态(h_t)由前一时间步(h_{t - 1})和当前输入(x_t)共同决定,以此实现信息在序列中的传递与累积。
  • 时间依赖(Temporal Dependency):借助循环结构来对序列数据的依赖关系进行建模,体现序列顺序特性。
  • 序列输出:输出可以是单个值,也可以是整个序列,具体取决于具体任务需求。

4. 优缺点对比

对比维度卷积神经网络(CNN)循环神经网络(RNN)
优势1. 具备高效并行计算能力,计算速度相对较快。
2. 通过参数共享机制,可有效减少模型参数数量。
3. 在处理图像、视频等空间数据方面表现优异。
1. 非常适合处理序列数据,能够有效捕获其中的时间依赖关系。
2. 可以处理长度可变的输入和输出序列。
3. 使用如LSTM、GRU等变体,能够在一定程度上缓解梯度消失问题。
劣势1. 擅长处理固定大小的输入,对于序列数据的处理效果欠佳。
2. 较难捕获长距离依赖关系,对于远距离特征关联建模能力有限。
3. 对全局特征的捕获能力相对有限(通常需要加深网络结构来改善)。
1. 计算过程难以并行化,导致训练速度较慢。
2. 原始的RNN容易出现梯度消失或梯度爆炸问题,影响模型训练效果和稳定性。
3. 针对长序列任务,往往需要较长的训练时间。
并行化能力优异(卷积操作和池化操作均可并行执行)。较差(其计算依赖前一时间步的结果,限制了并行计算的可行性)。
参数规模较小(得益于卷积核共享权重的特性,整体参数数量相对较少)。较大(因为每个时间步都涉及参数更新,所以参数规模相对更大)。

5. 适用场景与选择建议

  1. 使用CNN的场景

    • 图像分类、目标检测、语义分割、视频分析等计算机视觉相关任务。
    • 需要高效并行处理以及捕获空间特征的任务场景。
  2. 使用RNN的场景

    • 自然语言处理相关任务,例如机器翻译、文本生成等。
    • 时间序列预测、语音识别等涉及序列数据处理的任务。
  3. 综合建议

    • 若任务涉及长序列并且需要捕获复杂的时间依赖关系,建议使用RNN或其变体(如LSTM、GRU)。
    • 若任务涉及空间特征(如图像或视频),则使用CNN更为高效。
    • 在某些场景下,可结合CNN + RNN架构,比如在视频分类任务中,先利用CNN提取视频帧中的空间特征,再借助RNN对帧序列的时间关系进行建模。

6. 总结

卷积神经网络(CNN)作为一种强大的深度学习模型,在计算机视觉领域中发挥了巨大的作用。它通过局部连接和共享权重等方式,成功提取图像中的局部特征,并进行分类或回归任务。从LeNet到AlexNet,再到ResNet,CNN不断发展和完善,推动了深度学习技术的进步。对于研究者和工程师而言,理解CNN的核心原理、选择合适的网络结构,并掌握最佳实践,是构建高效神经网络模型的关键。

循环神经网络作为一种能够建模序列数据的强大工具,在深度学习的发展中具有重要地位。从经典RNN到LSTM、GRU,再到结合注意力机制的Seq2Seq模型,RNN不断演化以适应更复杂的序列建模需求。虽然Transformer已在许多领域占据主导地位,但RNN仍在一些特定任务中具有不可替代的优势。对于研究者而言,了解RNN的发展历史、核心原理以及最佳实践,是深入掌握序列建模技术的基础。

卷积神经网络(CNN)和循环神经网络(RNN)各有所长,分别在不同类型的数据处理上展现优势。CNN主要聚焦于空间结构数据的处理,适用于图像、视频等任务;RNN则侧重于序列数据,更契合自然语言处理和时间序列分析等应用场景。深入理解二者的差异、优势以及应用场景,有助于针对具体任务准确选择最适配的模型架构,进而提升任务处理效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2251021.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

求整数的和与均值

求整数的和与均值 C语言代码C 代码Java代码Python代码 &#x1f490;The Begin&#x1f490;点点关注&#xff0c;收藏不迷路&#x1f490; 读入n&#xff08;1 < n < 10000&#xff09;个整数&#xff0c;求它们的和与均值。 输入 输入第一行是一个整数n&#xff0c;…

配置idea环境进行scala编程

这里用的jdk是jdk-8u161,scala版本是2.12.0 在d盘新建一个本地仓库用来存放下载的maven包&#xff0c;在里面创建如下两个文件 更改settings文件为下面的样子 点击左下角的设置&#xff0c;更改maven本地仓库的位置&#xff08;默认在c盘用户目录下的.m2文件中&#xff0c;更改…

WSL简介与安装流程(Windows 下的 Linux 子系统)

目录 1.wsl安装 1.1 WSL简介 1.1.1 WSL 的主要功能 1.1.2 WSL 的版本 1.1.3 为什么使用 WSL&#xff1f; 1.1.4 WSL 的工作原理 1.1.5 WSL 的常见使用场景 1.1.6 与虚拟机的区别 1.1.7 适合使用 WSL 的人群 1.2 启用 WSL 1.2.1 打开 PowerShell&#xff08;管理员模…

【Java树】二叉树遍历的简单实现

二叉树的遍历 二叉树的遍历是值按照一定顺序访问二叉树中所有结点的过程&#xff0c;确保每个结点被访问且仅被访问一次。遍历操作是对二叉树的基础操作&#xff0c;用于后续的查找、排序和路径计算等功能。 二叉树的遍历有以下几种常见方式&#xff1a;深度遍历&#xff08;…

STL算法之set相关算法

STL一共提供了四种与set(集合)相关的算法&#xff0c;分别是并集(union)、交集(intersection)、差集(difference)、对称差集(symmetric difference)。 目录 set_union set_itersection set_difference set_symmetric_difference 所谓set&#xff0c;可细分为数学上定义的和…

鸿蒙ArkUI-X已更新适配API13啦

ArkUI-X 5.0.1 Release版配套OpenHarmony 5.0.1 Rlease&#xff0c;API 13&#xff0c;新增适配部分API 13接口支持跨平台&#xff1b;框架能力进一步完善&#xff0c;支持Android应用非压缩模式&#xff0c;支持Android Fragment对接跨平台。ACE Tools工具易用性提升&#xff…

rest-assured multiPart上传中文名称文件,文件名乱码

rest-assured是一个基于java语言的REST API测试框架&#xff0c;在使用rest-assured的multipart 上传文件后&#xff0c;后端获取的文件名称乱码。截图如下&#xff1a; 原因是rest-assured multipart/form-data默认的编码格式是US-ASCII&#xff0c;需要设置为UTF-8。 Befo…

前端页面或弹窗在线预览文件的N种方式

需求&#xff1a;后端返回给前端一个地址后&#xff0c;在前端页面上或则在弹框中显示在线的文档、表格、图片、pdf、video等等&#xff0c;嵌入到前端页面 方式一&#xff1a; 使用vue-office 地址&#xff1a;vue-office简介 | vue-office 个人感觉这个插件是最好用的&#x…

<<WTF-Solidity>>学习笔记(part 21-24)

part 21: 调用已部署合约 在Solidity中&#xff0c;一个合约可以调用另一个合约的函数&#xff0c;这在构建复杂的DApps时非常有用。本教程将会介绍如何在已知合约代码&#xff08;或接口&#xff09;和地址的情况下&#xff0c;调用已部署的合约。 part 22: Call call 是…

element的el-table表格标题用css自定义是否必填,用添加伪类的方式标红色*

element的el-table表格标题用css自定义是否必填添加伪类红色 * 效果图如下&#x1f447; el-table组件的html部分 css部分 /deep/.el-table__header-wrapper{.el-table__header{.has-gutter tr .el-table__cell:nth-of-type(3) .cell:before{content: *;color:red}.has-gutte…

2024 ccpc 辽宁省赛 E(构造 思维?)L(二分+一点点数论知识?)

E 题意&#xff1a; 可以注意到&#xff1a; 我的两种方格都四个方格的大小。 所以 如果存在一种摆放方式 那么 4|nm。 再考虑一种特殊的情况 22 &#xff0c;此时虽然我的积是4 但是无法摆放的。 1>对于 4 | n,或者 4 | m.我直接摆放第二种方格就可以了。 如果我n 是4 的…

【python】OpenCV—Tracking(10.5)—dlib

文章目录 1、功能描述2、代码实现3、效果展示4、完整代码5、涉及到的库函数dlib.correlation_tracker() 6、参考 1、功能描述 基于 dlib 库&#xff0c;实现指定类别的目标检测和单目标跟踪 2、代码实现 caffe 模型 https://github.com/MediosZ/MobileNet-SSD/tree/master/…

Ps:存储 Adobe PDF

在 Adobe Photoshop 中&#xff0c;将图像保存为 PDF 文件时&#xff0c; 会弹出“存储 Adobe PDF” Save Adobe PDF对话框。在此对话框中提供了多个选项&#xff0c;用于控制 PDF 文件的输出&#xff0c;包括一般设置&#xff08;选择预设、兼容性和保留编辑功能&#xff09;、…

【查询目录】.NET开源 ORM 框架 SqlSugar 系列

.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列【数据事务…

论文笔记(五十七)Diffusion Model Predictive Control

Diffusion Model Predictive Control 文章概括摘要1. Introduction2. Related work3. 方法3.1 模型预测控制3.2. 模型学习3.3. 规划&#xff08;Planning&#xff09;3.4. 适应 4. 实验&#xff08;Experiments&#xff09;4.1. 对于固定奖励&#xff0c;D-MPC 可与其他离线 RL…

hadoop环境配置-创建hadoop用户+更新apt+安装SSH+配置Java环境

一、创建hadoop用户(在vm安装的ubantu上打开控制台) 1、sudo useradd -m hadoop -s /bin/bash &#xff08;创建hadoop用户&#xff09; 2、sudo passwd hadoop (设置密码) 3、sudo adduser hadoop sudo&#xff08;将新建的hadoop用户设置为管理员&#xff09; 执行如下图 将…

基于 SpringBoot 的新冠密接者跟踪系统:如何实现高效信息推送功能

第2章 程序开发技术 2.1 Mysql数据库 为了更容易理解Mysql数据库&#xff0c;接下来就对其具备的主要特征进行描述。 &#xff08;1&#xff09;首选Mysql数据库也是为了节省开发资金&#xff0c;因为网络上对Mysql的源码都已进行了公开展示&#xff0c;开发者根据程序开发需要…

Python 自动化办公的 10 大脚本

大家好&#xff0c;我是你们的 Python 讲师&#xff01;今天我们将讨论 10 个实用的 Python 自动化办公脚本。这些脚本可以帮助你简化日常工作&#xff0c;提高效率。无论是处理 Excel 文件、发送邮件&#xff0c;还是自动化网页操作&#xff0c;Python 都能派上用场。 1. 批量…

Android 使用OpenGLES + MediaPlayer 获取视频截图

概述 Android 获取视频缩略图的方法通常有: ContentResolver: 使用系统数据库MediaMetadataRetriever: 这个是android提供的类&#xff0c;用来获取本地和网络media相关文件的信息ThumbnailUtils: 是在android2.2&#xff08;api8&#xff09;之后新增的一个&#xff0c;该类为…

数字化转型背景下,高职院校计算机网络应用的革新策略

在当今信息化时代&#xff0c;计算机网络已经成为高职院校教育不可或缺的一部分&#xff0c;它不仅极大地丰富了教育资源&#xff0c;提高了交流的便捷性&#xff0c;还催生了多样化的教学模式。对于高职院校来说&#xff0c;加强计算机网络应用的建设不仅是顺应时代潮流的必然…