Attention机制竟有bug,Softmax是罪魁祸首,影响所有Transformer

news2024/9/20 20:29:26

大模型开发者,你们错了!

「我发现注意力公式里有个 bug,八年了都没有人发现。所有 Transformer 模型包括 GPT、LLaMA 都受到了影响。」

昨天,一位名叫 Evan Miller 的统计工程师的话在 AI 领域掀起了轩然大波。

图片

我们知道,机器学习中注意力公式是这样的:

图片

自 2017 年 Transformer 问世,这个公式已被广泛使用,但现在,Evan Miller 发现这个公式是错的,有 bug!

Evan Miller 的这篇博客解释了当前流行的 AI 模型如何在关键位置出现错误,并使得所有 Transformer 模型都难以压缩和部署。

总结而言,Evan Miller 引入了一种新函数 Quiet Attention,也叫 Softmax_1,这是对传统 softmax 函数的创新调整。

图片

有网友对该博客总结出了一个「太长不看版」。博客作者建议在注意力机制使用的 softmax 公式分母上加 1(不是最终输出 softmax)。注意力单元中的 softmax 使其可以将键 / 查询匹配作为概率;这些概率支持一个键 - 值查找的连续值版本(我们得到的权重不是一个查找的 1/0 输出,而是高权重 = 所需的键 - 值查找)。

分母上加 1 将改变注意力单元,不再使用真实的权重概率向量,而是使用加起来小于 1 的权重。其动机是该网络可以学习提供高权重,这样调整后的 softmax 非常接近概率向量。同时有一个新的选项来提供 all-low 权重(它们提供 all-low 输出权重),这意味着它可以选择不对任何事情具有高置信度。

图片

有人甚至猜测「这就是微软 RetNet 比 transformer 性能更优的原因?」

图片

还有网友表示,这项研究可以促进 LLM 的改进,从而极大对权重进行压缩,使得较小的模型媲美较大的模型:

图片

Miller 表示:你可以像使用传统的 softmax 函数一样使用 Softmax_1 函数,示例如下。

import torchfrom softmax_one.softmax_one import softmax_onex = torch.randn(5)y = softmax_one(x, dim=0)

基于这样的修改,Miller 还做了实验,结果如下:

图片

接下来我们看看 Miller 到底发现了什么错误。

异常值

Evan Miller 是在阅读关于量化的论文时发现了这个 bug。当前,内存和存储已经成为限制人工智能发展的重要因素。人们一直在努力压缩模型,并尝试在云端、在边缘设备上运行大型语言模型(LLM)。

在计算机中,信息是用二进制数据流来存储的。如果数据流是高度可预测的,例如总是包含在有限的范围内,那么我们就可以用相对较少的位(bit)来存储它们。反之,如果一串数字是不可预测的,可能是千载难逢的巨大数字,我们就需要更多的二进制数字来编码和存储。而 Transformer 模型包含一些异常值权重。

在高通 AI Research 6 月发表的一篇论文《Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing》中,研究团队将这些异常值的存在追溯到注意力机制的 softmax 函数。

图片

高通论文地址:https://arxiv.org/abs/2306.12929

这听起来令人意外,但 Evan Miller 认为这是对的,并进一步发现 softmax 函数存在一个错误。

我们来看下 Evan Miller 是如何说明 softmax 函数在注意力机制方面并不是一个合适的工具的。

Softmax 引出的问题

为什么说 softmax 不适合注意力机制,这还得从注意力机制可以做什么开始。

一般来讲,数值错误一般是由程序错误引起的,然而,当程序没有错误,这时就需要从修复复杂的数学公式入手,耗费大量时间。

Evan Miller 大概阅读了 50 篇 arXiV 论文才有点眉目。Miller 从「输入嵌入」入手,我们可以将「输入嵌入」理解为一个浮点向量,代表输入字符串中的一个单词。

举例来说,Meta 最近推出的 LLaMA 2 模型使用了一个长度为 3204 的嵌入向量,以半精度浮点数表示,这仅仅是为了表示词汇表中的一个单词,而词汇表通常包含 30000 到 50000 个条目(entry)。意味着一个单词的嵌入向量占用 6KB + 的存储空间。随着技术的发展,「输入嵌入」的长度逐渐增加,所占存储空间也随之增加。

如果你是一个对存储占用非常敏感的 C 程序员,你可能接受不了这一数字,明明是 2 字节就能存储的东西,为什么偏偏要用 6KB?如果按照 2 字节来计算,假如词汇量少于 2^16=65384,那么我们只需要 16 位来表示一个条目。

但是,实际上 Transformer 的工作原理是这样的:它将输入向量转换为大小相同的输出向量,最终的 6KB 输出向量用来预测下一个 token。运行中,Transformer 每一层的工作流都将信息添加到原始的单词向量中。在这其中,还用到了残差连接:所有的注意力机制都在为原始的两个字节的信息添加补充材料,从而是的 LLM 能够分析更长的上下文。

Transformer 的最后一步是将这个输出向量与一个矩形矩阵相乘,并将得到的词汇长度向量压缩到一个 softmax 函数中,将这些指数化的输出视为下一个 token 的概率。这是合理的,但众所周知,这并不完全正确,因为我们不能确定这些输出概率是正确的。相反,每个 Transformer 实现和其衍生版本都使用采样机制来隐藏 softmax 过度表示概率较低的事实。

接下里,Miller 介绍了 softmax 的发展史。softmax 最初出现在统计学中,最早作为一种基于能级预测状态分布的方法,其形式如下:

图片

之后经济学家又将其修改为

图片

这一修改,softmax 才拥有了多项逻辑函数。由于 Miller 对 softmax 函数的研究颇深,因而,他能识别出 softmax 使用不恰当的地方。

Softmax 应用广泛,在物理学中,它非常有效;在经济学中,它可能不那么准确;但将其应用到机器学习领域时,只要涉及离散选择,它似乎总是有效的:

图片

Miller 进一步表示,softmax 的关键在于,如果你不想保留一些项,必须对 softmax 进行修改,否则结果就会产生扭曲。

举例来说,在 LLM 上下文中,扭曲产生的原因是对非语义 token(逗号等)进行大量加权导致的,这些较高的权重成为难以压缩的异常值,使得研究变得更加困难。来自高通的 AI 研究员也发现了这一现象,在 LLM 中,97% 以上的异常激活发生在空格和标点符号位置上。

接下来,Miller 介绍了 softmax 是如何在注意力中使用的,从而发现问题到底出现在哪里:

图片

对上述公式进行分解,在仅解码器模型中,𝑄、𝐾和𝑉源自相同的输入序列。它们又不完全相同,即投影方式不同。但在每一层中,它们都以相同的注释嵌入向量开始。

𝑄𝐾^𝑇项用于寻找不同位置 token 向量之间的相关性,实质上构建了一个相关性矩阵(点积按

图片

缩放),其中每一列和每一行对应一个 token 位置。然后,对这个方阵的每一行进行 softmax 操作,得到的概率用作𝑉矩阵中值向量的混合函数。概率混合后的𝑉与输入向量相加,将求和结果传递给神经网络进行进一步处理。

多头注意力每层并行执行多次上述过程。从本质上讲,这种方法划分了嵌入向量,每个头使用整个向量中的信息来注释输出向量的一个(非重叠)片段。这就是原始 Transformer 论文中的串联操作。

使用 softmax 的问题在于,它强制每个注意力头进行注释,即使没有信息可添加到输出向量中。

Softmax_1 和 QuietAttention

来了,在这里你将看到 Softmax Super-Mod 点燃了 LLM 黑客频道。

有点失望,对吧?Miller 所做的只是在分母上加 1。如果想要的话,这可以让该向量作为一个趋于 0 的整体。否则只会将值缩小一点,并且缩小的值会在归一化过程中得到补偿,这在注意力之后发生。

图片

当 𝑥 中的条目显著小于零并且模型试图完全避免注释时,主要的区别在于负值限制。将如下原始 softmax 的限制行为

图片

与新的、改进后的 softmax_1 相比较。

图片

Vanilla softmax 将始终释出相同的总权重;softmax_1 看起来大部分相同,但在负象限中有一个「逃出口」(escape hatch)。需要明确的是,这里的核心问题在本质上是数学而非数值问题。额外的精度并不能拯救 softmax,所有的 Transformers 都会受到影响。

你还可以观察到关于 softmax_1 的其他一些事项。导数是正的,所以总是有一个非零梯度,并且它的和介于 0 和 1 之间,所以输出不会失控。该函数保持以下属性

图片

即输出向量中的相对值不变。

最开始 Miller 打算将这个函数称为 ghostmax,这是因为你可以认为

图片

中有一个额外的零值条目,并且 V 矩阵中有一个能够衰减结果的零向量。

尽管 softmax_1 表面上看起来很无聊,但 Miller 99.44% 确信它将解决异常值反馈循环,使量化成为级联研究的主题。Miller 表示,如果你想进行一些实验来证明他是对的,可以联系他。他将撰写一篇论文。

改进后的机制可以被称为 QuietAttention,它允许注意力头保持「沉默」。

图片

Miller 认为很快可以整合一项测试:如果你在每个输入上下文的前面加上一个零向量,并确保你选择的神经网络不添加任何偏差(包括位置编码),那么零在通过时不会改变,并对每个后续的 softmax 分母添加 unity 产生影响。这样你不会因为处理梯度代码失去理智。Miller 认为这可以通过使用固定嵌入和特殊前缀 token 的 LLaMA 模型来完成。

你仍然需要重新训练模型,因此暂时不要在树莓派(RPi)上尝试此操作。但 Miller 想知道这些权重峰度和激活无穷范数在运行几次后是什么样子的。他认为这会成为有影响力的研究,无论是高通 AI Research 团队的论文,还是 LLM 黑客频道有人计算出 biblatex,但自己最先发现的。

  项目地址:https://github.com/kyegomez/AttentionIsOFFByOne

  博客链接:https://www.evanmiller.org/attention-is-off-by-one.html?continueFlag=5d0e431f4edf1d8cccea47871e82fbc4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/820979.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决单节点es索引yellow

现象 单节点的es,自动创建索引后,默认副本个数为1,索引状态为yellow 临时解决 修改副本个数为0 永久解决 方法1、修改elasticsearch.yml文件,添加配置并重启es number_of_replicas:副本分片数,默认…

UG\NX二次开发 创建分割面、细分面

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan 简介: 群友问“UF没有分割面吗” 这个是有的,下面就是分割面(细分面)的演示效果和c++源代码。 效果: 代码: #include "me.hpp" #include <stdio.h> #include <string.h> #i…

财报解读:英特尔二季度业绩回暖,IFS业务增长势能已然释放?

英特尔终于看到了盈利曙光。 北京时间7月28日&#xff0c;英特尔公布了2023财年第二季度财报&#xff0c;数据显示公司业绩超出市场预期&#xff0c;财报一经发布&#xff0c;第二个交易日英特尔股价上涨6.6%&#xff0c;最终报收36.83美元。 &#xff08;图片来源&#xff1a…

挪威网络安全大危机?数据备份刻不容缓

挪威国家安全局近期确认&#xff0c;黑客利用Ivanti Endpoint Manager Mobile&#xff08;EPMM&#xff09;解决方案中的零日漏洞对多个软件平台进行攻击&#xff0c;访问并窃取了受感染系统中的敏感数据&#xff0c;导致出现数据泄露问题。 此次零日漏洞&#xff08;CVE-2023-…

CentOS7环境安装tomcat

环境准备 由于是在练习&#xff0c;为了方便&#xff0c;我们可以 1.关闭防火墙 systemctl disable firewalld.service systemctl stop firewalld.service 2.关闭selinux 在/etc/selinux/config中&#xff0c;设置&#xff1a; SELINUXdisabled 3.准备jdk---》jdk-8u333-li…

通过电商项目,详解抓包到接口测试,附验证码 +cookie 问题处理!

一、背景 通常来说&#xff0c;进行接口测试&#xff0c;开发会提供对应的接口文档给到测试&#xff0c;但也有例外。开发无接口文档&#xff0c;但领导又需要你对刚开发的软件&#xff0c;进行接口测试、接口自动化测试、甚至是性能测试。这个时候作为专业测试应该怎么办&…

WebDAV之π-Disk派盘+Flacbox

Flacbox是一款移动端的文件管理器和播放器应用。它支持在iOS设备上进行文件管理和音频播放,包括FLAC、MP3、AAC等格式的音频文件。Flacbox还支持WebDAV协议,可以通过WebDAV连接来访问和管理WebDAV服务器上的文件。 π-Disk派盘 – 知识管理专家 派盘是一款面向个人和企业的…

CMake:为Eigen库使能向量化

CMake:为Eigen库使能向量化 导言构建Eigen项目结构CMakeLists.txt相关源码 导言 本篇开始将涉及检测外部库相关的内容&#xff0c;期间会穿插着一些其他的内容。为了能够使得系统在系统中运行Eigen库&#xff0c;我们首先需要在系统中配置好Eigen库。然后介绍与Eigen库相关的C…

PostMan调用gitlab接口,OAuth 2.0 身份认证 API ,copy完事~

获取token接口&#xff1a; https://gitlab.***.com/oauth/token &#xff0c;接下来就可以调用其他功能的接口了 例&#xff1a;创建账户&#xff0c;将获取到的access_token放置在接口请求的token中 其他接口调用同上

【雕爷学编程】MicroPython动手做(27)——物联网之掌控板小程序3

知识点&#xff1a;什么是掌控板&#xff1f; 掌控板是一块普及STEAM创客教育、人工智能教育、机器人编程教育的开源智能硬件。它集成ESP-32高性能双核芯片&#xff0c;支持WiFi和蓝牙双模通信&#xff0c;可作为物联网节点&#xff0c;实现物联网应用。同时掌控板上集成了OLED…

【图解】反卷积Deconvolution

1. 反池化和反卷积 以下是DeconvNet的整体架构&#xff1a; unpooling&#xff1a; (Unpooling操作需要依据max pooling记录的位置,将每个pooling区域还原回去。在进行max pooling时,我们记录下每个pooling区域的最大激活值所在的位置坐标,在unpooling时就可以依据这些坐标,把激…

express学习笔记4 - 热更新以及express-boom

我们每次改动代码的时候都要重启项目&#xff0c;现在我们给项目添加一个热更新 npm install --save-dev nodemon # or using yarn: yarn add nodemon -D 在package.json添加一行代码 "dev": "nodemon ./bin/www" 重启项目 然后随便做改动&#xff…

将子域名连接到 Shopify 的步骤,也就是把不是www的域名链接到shopify商店,二级域名链接到shopify店铺

将子域名连接到 Shopify 的步骤&#xff1a; 1. Shopify 后台&#xff1a; 首先&#xff0c;检查您的 Shopify 控制面板并验证您使用的是 Shopify 提供的免费域&#xff08;也就是xxxxxxxxx.myshopify.com&#xff09;。这是至关重要的&#xff0c;因为它将帮助您在连接子域时避…

数据结构--图的遍历 DFS

数据结构–图的遍历 DFS 树的深度优先遍历 //树的先根遍历 void PreOrder(TreeNode *R) {if(R ! NULL){visit(R); //访问根节点while(R还有下一个子树T)PreOrder(T);//先根遍历下一棵子树} }图的深度优先遍历 bool visited [MAX_VERTEX_NUM]; //访问标记数组 void DFS(Grap…

最长公共前缀_力扣14

文章目录 题目描述法一 横向比较 题目描述 法一 横向比较 将多个字符串比较转换为两两比较&#xff0c;如果比较完最长公共前缀已经是空串&#xff0c;则最长公共前缀一定是空串&#xff0c;因此不需要继续遍历剩下的字符串&#xff0c;直接返回空串。 string longestCommonPre…

Django实现音乐网站 ⑵

使用Python Django框架制作一个音乐网站&#xff0c;在系列文章1的基础上继续开发&#xff0c;本篇主要是后台歌手表模块开发。 目录 表结构设计 歌手表&#xff08;singer&#xff09;结构 创建表模型 设置图片上传路径 创建上传文件目录 生成表迁移 执行创建表 后台管…

uniapp 路由跳转方式

export function goBack(index, url) {if (index 1) { // 关闭当前页&#xff0c;返回上一页面或多级页面。uni.navigateBack({delta: url,animationType: pop-out,animationDuration: 300});} else if (index 2) { // 保留当前页&#xff0c;跳转到非tabbar页面&#xff0c;…

GWJDN-1000B高温介电温谱分析仪

GWJDN-1000B高温介电温谱分析仪 关键词&#xff1a;弹性常数等C-V ,介电常数&#xff0c;损耗角&#xff0c;电导率&#xff0c;C-特性 产品简介 GWJDN-1000B高温介电温谱分析仪采用当前的自动平衡电桥原理研制成功的新一高温介电温谱分析仪&#xff0c;产品全新的电子器件。…

【TypeScript】类型断言的基本使用

类型断言的概念 有些时候开发者比TS本身更清楚当前的类型是什么&#xff0c;可以使用断言&#xff08;as&#xff09;让类型更加精确和具体。 类型断言&#xff08;Type Assertion&#xff09;表示可以用来手动指定一个值的类型。 类型断言语法&#xff1a; 值 as 类型 或 <…

Character.AI搭建了用户创建AI角色并与之聊天的平台及社区

character Character.AI 公司是一家致力于通用人工智能&#xff08;AGI&#xff09;的全栈公司&#xff0c;于2021年10月创立&#xff0c;创始团队来自Google Brain和Meta AI&#xff0c;是深度学习、大型语言模型和对话领域的专家。Character.AI搭建了用户创建AI角色并与之聊…