记录：自回归模型在记忆全随机序列的潜变量统计量爆炸现象

记录：自回归模型在记忆全随机序列的潜变量统计量爆炸现象

news2025/4/11 14:27:52

只是一个记录

8层12头512维度的 GPT 模型，使用它来记忆 10000 条 512长度的无序序列，vocab_size 为100。

模型要自回归生成这些序列，不可能依赖局部推理，必须依赖全局视野，即记住前面的序列。

然后统计最后一个norm层前的 latent 的均方根值。然后发现，这个值会在训练初期迅速飙升到1e4 - 1e6 的域，非常巨大，如果使用半精度训练，会直接撑爆然后变成nan，只能使用float32值域训练。
一开始，我以为这模型又完蛋了，但后面让他继续训练，发现它居然在缓缓下降，当下降到 1e2 - 1e3 的以内的域时，模型基本记忆正确率已经 90%以上了。

在自然语言序列的训练中，这个值从来没有这么大过，最大也就500以内。

然后检查了这么巨大的值的来源，发现来源有两个，一个是注意力计算的第二个矩阵乘法。
out = v @ a
一个是注意力计算的最后一个层。
但是神奇的是，这个注意层的各个权重是正常的，即权重的标准差均在1以内。（不过这也是能收敛的基础，权重不正常那基本不可能收敛）
下面的 z_loss 就是潜变量的均方根
在这里插入图片描述

还是老问题，全局能力强的，局部能力就差。局部能力强的，全局能力就差。
写的在全局性能上很好的，在无序序列的模型收敛很快，在自然语言上被普通gpt秒成渣（指验证集分数提升慢，最终分数也差一点）
而普通的gpt模型，在自然语言上效果很好，但在记忆无序序列上，收敛速度极慢。

不知道有什么办法能结合他们优点，搞一个全局性能和局部性能兼优的模型

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/548378.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

HF宣布在transformers库中引入首个RNN模型：RWKV，一个结合了RNN与Transformer双重优点的模型

HF宣布在transformers库中引入首个RNN模型：RWKV，一个结合了RNN与Transformer双重优点的模型

RWKV是一个结合了RNN与Transformer双重优点的模型架构。由香港大学物理系毕业的彭博首次提出。简单来说，RWKV是一个RNN架构的模型，但是可以像transformer一样高效训练。今天，HuggingFace官方宣布在transformers库中首次引入RNN这样的模型&…

阅读更多...

记录一下调试atbf时候imu的pin连接

记录一下调试atbf时候imu的pin连接

在这里插入图片描述

阅读更多...

QGC局域网内连接PX4模拟器JMAVSim

QGC局域网内连接PX4模拟器JMAVSim

环境 QGroundControl 开源地面站系统; 代码地址: https://github.com/mavlink/qgroundcontrolPX4 开源飞控系统; 代码地址: https://github.com/PX4/PX4-Autopilot QGC可以直接下载运行包. PX4 请根据代码中的说明,进行环境的配置和运行. 通过代码去build地面站和PX4的步骤见官…

阅读更多...

【Linux 之五】 Linux中使用fdisk命令实现磁盘分区

【Linux 之五】 Linux中使用fdisk命令实现磁盘分区

最近由于工作的需要，初步研究了uboot中的fastboot实现方式。研究fastboot不可避免的需要了解磁盘分区的相关知识点，在linux下可以使用fdisk命令实现磁盘的分区。好了，下面步入正题。 1. 查看帮助信息（fdisk --help） …

阅读更多...

计算机网络 - 传输层

计算机网络 - 传输层

Transport-Layer Services Transport layer, 传输层主要是完成进程(proces)到进程(process)之间的通讯的. 在传输层之下的IP协议, 提供的是best-effort的传输, 也就是对信息的正确性没有保证, 也就是IP的协议是unreliable的, TCP的协议是在IP协议至少提供可靠的数据传输. UDP…

阅读更多...

Word批量更改图片环绕方式与=尺寸大小

Word批量更改图片环绕方式与=尺寸大小

前提：一份Word文档里面有100张图片，有大有小，需要将100张图片更改为统一大小，宽度与高度均为5厘米，同时环绕方式也需要改成四周型。默认Word图片的默认环绕方式为嵌入型，需要统一更改为四周型，…

阅读更多...

多元时间序列 | RBF径向基神经网络多变量时间序列预测（Matlab完整程序）

多元时间序列 | RBF径向基神经网络多变量时间序列预测（Matlab完整程序）

多元时间序列 | RBF径向基神经网络多变量时间序列预测（Matlab完整程序）目录多元时间序列 | RBF径向基神经网络多变量时间序列预测（Matlab完整程序）预测结果评价指标基本介绍程序设计参考资料预测结果评价指标训练集数据的R2为：0.99805 测试集数据的R2为：0.98351 训练…

阅读更多...

二叉树最大宽度_深度优先方式_20230520

二叉树最大宽度_深度优先方式_20230520

二叉树最大宽度_深度优先方式_20230520 前言给定一颗二叉树，求解其最大宽度。定义每层宽度为该层最左和最右之间的长度，也即左右两个端点之间的所跨越的长度，两个端点直接可能会包含一些延伸到本层的空节点，这些空节点的长度由…

阅读更多...

【小沐学NLP】Python实现聊天机器人（OpenAI，模型概述笔记）

【小沐学NLP】Python实现聊天机器人（OpenAI，模型概述笔记）

🍺NLP开发系列相关文章编写如下🍺：1🎈【小沐学NLP】Python实现词云图🎈2🎈【小沐学NLP】Python实现图片文字识别🎈3🎈【小沐学NLP】Python实现中文、英文分词🎈4&#x1…

阅读更多...

Springcloud1-----＞Hystrix

Springcloud1-----＞Hystrix

目录雪崩问题服务降级原理实践order降级处理user降级处理服务熔断原理实践 hystrix，英文意思是豪猪，全是是刺，一种保护机制，即熔断器。主页：https://github.com/Netflix/Hystrix/ 雪崩问题在微服务中，…

阅读更多...

selenium自动化测试报告_selenium自动化测试断言

selenium自动化测试报告_selenium自动化测试断言

一、元素操作方法方法： 1、.send_keys() # 输入方法 2、.click() # 点击方法 3、.clear() # 清空方法复制注意：在输入方法之前一定要清空操作!! # 导包 from time import sleep from selenium import webdriver# 实例化浏览器 driver webdriver…

阅读更多...

这才是自动化测试，资深测试构建持续交付体系（高质量）持续集成...

这才是自动化测试，资深测试构建持续交付体系（高质量）持续集成...

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜） 前言软件测试-自动化测…

阅读更多...

OptimizePI仿真流程

OptimizePI仿真流程

OptimizePI软件介绍 OptimizePI是用于针对PI设计进行优化的一个设计流程，可以针对PDN的设计进行仿真计算，主要功能包括以下几个： PDN前仿真分析PDN后仿真分析PDN阻抗检查去耦电容的回路电感分析芯片的电源管脚的电感分析去耦电容最佳位置评…

阅读更多...

一文参透AB斗篷的前世今生

一文参透AB斗篷的前世今生

做FP独立站的应该都对cloak斗篷不陌生，cloak已经成为出海营销行业的必备工具之一。尽管使用cloak并不能保证一定有效，但不使用cloak却也是不可行的。今天本文将详细讲解cloak系统的“前世今生”，以便让大家更好地了解cloak系统并能挑选到最适…

阅读更多...

【中间件】通过 docker-compose 快速部署 Zookeeper 保姆级教程

【中间件】通过 docker-compose 快速部署 Zookeeper 保姆级教程

文章目录一、概述二、前期准备1）部署 docker2）部署 docker-compose 三、创建网络四、Zookeeper 编排部署1）下载 Zookeeper2）配置3）启动脚本 bootstrap.sh4）构建镜像 Dockerfile5）编排 docker-c…

阅读更多...

如何使用ChatGpt来学习和提问【对话ChatGPT】？

如何使用ChatGpt来学习和提问【对话ChatGPT】？

ChatGPT的不断发展和进步，我们需要工作中很多时候会用到ChatGPT，那么如何使用ChatGPT来解决我们工作中的问题呢？ Q1如何向ChatGPT提问，从而更快解决我们的问题？ ChatGPT：以下是向ChatGPT提问的一些提示&a…

阅读更多...

CISSP和Security+的区别和学习建议

CISSP和Security+的区别和学习建议

当谈到网络安全认证时，经常有朋友问我CISSP 与 Security认证。两者都是业内比较认可，对实际工作有所帮助的认证，但是哪一个适合自己呢，区别又是什么呢？ 在深入研究细节之前，让我们先简要了解一下 CISSP 与 …

阅读更多...

深度学习之自编码器实现——实现图像去噪

深度学习之自编码器实现——实现图像去噪

大家好，我是带我去滑雪！ 自编码器是一种无监督学习的神经网络，是一种数据压缩算法，主要用于数据降维和特征提取。它的基本思想是将输入数据经过一个编码器映射到隐藏层，再通过一个解码器映射到输出层，使得输…

阅读更多...

数字宁夏“1244+N”行动进行时，实在智能以AI为宁夏全区县数字化转型加“数”度

数字宁夏“1244+N”行动进行时，实在智能以AI为宁夏全区县数字化转型加“数”度

建设数字中国是数字时代推进中国式现代化的重要引擎，是构筑国家竞争新优势的有力支撑。现如今，政府部门发展数字经济已然成为新科技浪潮下的战略选择。可以预见，在数字化浪潮的推动下，中国经济将迎来新的高峰。近日，宁…

阅读更多...

English Learning - L3 作业打卡 Lesson2 Day13 2023.5.17 周三

English Learning - L3 作业打卡 Lesson2 Day13 2023.5.17 周三

English Learning - L3 作业打卡 Lesson2 Day13 2023.5.17 周三引言🍉句1: A blacklist is illegal now.成分划分弱读爆破语调 🍉句2: But at one time, some businesses refused to employ people who were on a blacklist for belonging to unpopular…

阅读更多...

推荐文章

最新文章