rnn、lstm、cnn、transformer

rnn、lstm、cnn、transformer

news2025/7/4 17:42:37

rnn不能并行的原因：不同时间步的隐藏层之间有关联。

rnn中batch的含义

如何理解RNN中的Batch_size？_batch rnn_Forizon的博客-CSDN博客

rnn解决的问题

不定长输入
带有顺序的序列输入

1 rnn前向传播

2 rnn中的反向传播

还有loss对其他参数的求导，较为复杂。

rnn容易出现梯度消失的问题，因为经过反向传播后，较远时间步的梯度趋近于0，导致模型难以学到远距离的信息。

2 lstm

优点：通过门控机制，来记忆一些长期信息，相应也就保留了更多的梯度，缓解rnn梯度消失的问题。

缺点：

无法并行，耗时
对于特别长的序列，梯度消失问题依然存在
参数多，计算耗时

3 cnn

cnn和rnn都是权值共享

cnn的特点：

1 局部连接，可以捕捉局部特征
2 参数共享，大大减小参数量，防止过拟合，提高模型的泛化性能
3 池化，减少特征数量，防止过拟合，使每个像素点的感受野被放大，更能捕获全局信息

卷积层虽然可以显著减少网络中连接的数量，但特征映射组中的神经元个数并没有显著减少。如果后面接一个分类器，分类器的输入维数依然很高，很容易过拟合。为了解决这个问题，可以再卷积层之后加上一个pooling layer，从而降低特征维数，避免过拟合。

优点：可以并行

缺点：1单个卷积层难以捕获全局信息（改善方法有使用更大的卷积核、使用池化层、使用多层卷积层、空洞卷积tcn用了因果空洞卷积来处理时间序列问题。

2卷积核从左往右滑动的时候捕获了相对位置关系，但是如果接池化层的话就会损失掉这些信息（所以一般不用池化层）

1x1卷积核的作用

1 改变通道数
2 增加一层非线性映射，使得网络提取更有判别信息的特征

cnn参数

卷积核尺寸
stride：太小导致计算量大，效率低；太大可能会遗漏某些重要信息
空洞尺寸：提升感受野，但是也容易遗漏某些信息
padding：让后续的特征图不至于太小，便于继续增加层数，提升模型的拟合能力；缓解最边缘的数据只被用了一次的问题，充分利用数据，从而提取有用特征。

4 transformer

优点：

可以提取全局信息（处理时间序列时可以捕捉长时间依赖）
可以并行计算
引入位置编码提取帮助提取位置信息
可以处理不定长的输入（rnn、cnn（不带全连接层）、transformer都有参数共享，有参数共享的一般都可以接受不定长的输入）。在一个batch中将所有序列padding到同一长度，方便对一个batch的数据进行矩阵的并行运算。其中的fnn是共享参数的point-wise，对一个序列的每个token都处理。因此transformer也可以处理不定长输入，只是为了方便并行计算而对每一个batch的数据进行padding

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/431106.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Flutter渲染原理

Flutter渲染原理

一 Widget Element RenderObject 之间的关系 1 Widget 在Flutter 中，万物皆是Widget,无论是可见的还是功能型的。一切都是Widget. 官方文档中说的Widget 使用配置和状态来描述View 界面应该长什么样子。它不仅可以表示UI元素，也可以表示一些功能性的…

阅读更多...

前端学习：HTML JavaScript

前端学习：HTML JavaScript

目录一、JavaScript 使HTML页面更具有动态性和交互性浏览器中的 JavaScript 能做什么？ 二、 HTML三、HTML标签编辑四、JavaScript 的功能示例 1. JavaScript 能够更改内容： 2. JavaScript能够更改样式：3.JavaScript能够更改属性五、…

阅读更多...

拼多多运营中需要采集淘宝天猫京东平台商品详情页面数据上架拼多多店铺，如何使用技术封装接口实现

拼多多运营中需要采集淘宝天猫京东平台商品详情页面数据上架拼多多店铺，如何使用技术封装接口实现

业务背景：电商平台趋势，平台化。大家可以看到大的电商都开始有自己的平台，其实这个道理很清楚，就是因为这是充分利用自己的流量、自己的商品和服务大效益化的一个过程，因为有平台，可以利用全社会的资源弥补…

阅读更多...

FT2000+ openEuler 20.03 virsh创建qemu kvm虚拟机启动qemu kvm

FT2000+ openEuler 20.03 virsh创建qemu kvm虚拟机启动qemu kvm

安装qemu、libvirt yum install libvirt libvirt-client -y yum install qemu -y 安装固件包 yum install edk2-aarch64 固件文件配置/etc/libvirt/libvirtd.conf auth_tcp "sasl" listen_tcp 1 listen_tls 0 tcp_port "16509" unix_sock_dir …

阅读更多...

RK3588_X703 音频调试笔记

RK3588_X703 音频调试笔记

x703项目扩接板有接喇叭音频，硬件如下： 喇叭SPK播放无声的时候，首先要测R43贴片电压正常。需要dts中正确配置SPK_CTL_H的GPIO脚： es8316_sound: es8316-sound {status "okay";compatible "rockchip,multicodec…

阅读更多...

javaScript---js如何实现继承

javaScript---js如何实现继承

目录 1、构造函数继承 2、原型链继承 3、组合继承 4、class继承 5、寄生组合继承 JavaScript 是以对象为基础，以函数为模型，以原型为继承的面向对象开发模式。 javascript继承的作用： 可以不调用“父类”的构造方法就创造新的实例&…

阅读更多...

JavaScript 基础入门速成上篇

JavaScript 基础入门速成上篇

JavaScript 嵌入页面的方式 1. 行间事件 <button onclick"alert(点击按钮)">按钮</button> 2. script标签 <script type"text/javascript">console.log(Hello javascript !) </script> 3. 外部引入 <script type"t…

阅读更多...

并发编程三要素：可见性、原子性、有序性

并发编程三要素：可见性、原子性、有序性

一、介绍 1、什么是可见性、原子性、有序性？ 可见性（visibility）：指一个线程对共享变量的修改能够被其他线程立即看到的特性。在多线程环境下，如果一个线程修改了一个共享变量的值，那么其他线程可能无法立…

阅读更多...

时隔两个多月，一起来看ChatGPT现况如何？

时隔两个多月，一起来看ChatGPT现况如何？

ChatGPT这股风吹了两个多月，时至今日，各平台上与ChatGPT相关的文章，到现在依旧拥有着不小的流量。三月中旬上线了ChatGPT-4，与我们的文心一言前后脚发布，而后阿里的“通义千问”也展现了不俗的实力，那到现在…

阅读更多...

【多线程】初识多线程

【多线程】初识多线程

1. 为什么要学习多线程？首先相信各位小伙伴在学习 JavaSE 的时候，肯定写过一些小游戏吧，比如猜数字，关机小程序...但是如果现在要在猜数字小游戏上面加上一个功能，设定20秒没猜中，就判定游戏失败&#xff0…

阅读更多...

数据结构：什么是堆，和二叉树有什么关系

数据结构：什么是堆，和二叉树有什么关系

堆栈模型 JS 代码执行时，值类型变量存储在栈，引用类型变量存储在堆。 // 变量 a 存储在栈里 let num1 1 let num2 num1 num2 2 // 这时打印 num1 是 1，num2 是 2。// { a: 1 } 存在堆里，obj1 只是一个指针引用 let obj1 { a…

阅读更多...

华为 WATCH Ultimate 如何开通和使用北斗卫星卡

华为 WATCH Ultimate 如何开通和使用北斗卫星卡

华为春季新品发布会发布了全新系列手表华为WATCH Ultimate非凡大师，实现了“向上捅破天”的突破性应用，让大家通过手表与世界一直相连。当用户在周围无信号（无蜂窝网络/WLAN网络覆盖）的情况下，处于空旷无遮挡的环境时&…

阅读更多...

基于超声波传感器的液位测量及控制系统设计（STM32）

基于超声波传感器的液位测量及控制系统设计（STM32）

一、引言随着工业的发展，计算机、微电子、传感器等高新技术的应用和研究，液位仪表的研制得到了长足的发展，以适应越来越高的应用要求。液位的测量在工业生产过程中已经起着相当重要的作用，其类型大概可以分为接触型和非接触型两大…

阅读更多...

最近搭了一个数据监测看板。

最近搭了一个数据监测看板。

在大数据时代（这个开头我已经看腻了 ），为了挖掘冗余数据的价值，数据分析需求日益增多，而分析结果的常见表现形式有数据分析报告和数据看板（大屏），与报告文档不同，数据看板…

阅读更多...

8.1.0:DHTMLX Suite JavaScript UI Crack

8.1.0:DHTMLX Suite JavaScript UI Crack

适用于现代 Web 应用程序的强大 JavaScript 小部件库 - DHTMLX 套件用于创建现代用户界面的轻量级、快速且通用的 JavaScript/HTML5 UI 小部件库。 DHTMLX Suite 有助于推进 Web 开发和构建具有丰富功能的数据密集型应用程序。 DHTMLX Suite 是一个 UI 小部件库，用…

阅读更多...

移动端高性能Unity播放器实现方案

移动端高性能Unity播放器实现方案

前情提要： 视听体验再进化——如何在24小时内全面升级你的视频应用如何打造新时代的终端播放产品？ 随着VR、AR、元宇宙等新玩法的出现，Unity平台的视频播放需求逐渐增加，比如下面两个动图就是在百度真实的案例。前者是演唱会场景…

阅读更多...

ChatGPT能够知道当下最流行的开发语言，以及各语言哪个开发框架最火吗？

ChatGPT能够知道当下最流行的开发语言，以及各语言哪个开发框架最火吗？

如果你准备成为一名开发人员，但是面对琳琅满目的开发语言，然后每种语言的开发框架却无从下手，张三推荐你学这个，李四推荐你学那个，而你的时间又是有限的，于是我决定问一问这个万事通ChatGPT。目录 1. 目前…

阅读更多...

C语言小项目 -- 扫雷游戏完整代码（递归展开 + 选择标记）

C语言小项目 -- 扫雷游戏完整代码（递归展开 + 选择标记）

目录 🚀0. 游戏介绍： 🐷 游戏规则 🛸雷诀八条 🚀1. 开发环境及框架： 🚀2. 游戏具体功能分析实现： 🐷2.1 棋盘 🐷2.2 棋盘初始化 init_Board; &#x1…

阅读更多...

用Abp实现两步验证（Two-Factor Authentication，2FA）登录（三）：免登录验证

用Abp实现两步验证（Two-Factor Authentication，2FA）登录（三）：免登录验证

文章目录原理修改请求报文配置JwtBearerOptions生成Token校验Token修改认证EndPoint修改前端登录登出最终效果项目地址免登录验证是用户在首次两步验证通过后，在常用的设备（浏览器）中，在一定时间内不需要再次输入验证码直接登录。…

阅读更多...

Go 语言入门基于 GoLand 2023.1 创建第一个Go程序

Go 语言入门基于 GoLand 2023.1 创建第一个Go程序

文章目录Go 语言入门go 语言是什么?go 入门需要学习什么?Go 语言有那些优势?Go 语言与 Java 语言对比Go 语言与Python 语言对比Go 语言基于 GoLand 创建第一个程序1. 打开 GoLand2.选择 new3. 选择SDK版本4. 输入项目名称,点击 cteate项目创建完成下一步,创建一个…

阅读更多...

推荐文章

最新文章