虾皮:LLM注意力机制的下沉现象分析

news2025/1/22 19:36:09

在这里插入图片描述

📖标题:When Attention Sink Emerges in Language Models: An Empirical View
🌐来源:arXiv, 2410.10781

🌟摘要

🔸语言模型(LM)将大量注意力分配给第一个标记,即使它在语义上并不重要,也被称为注意力汇。这种现象已被广泛应用于流媒体/长上下文生成、KV缓存优化、推理加速、模型量化等应用中。尽管它被广泛使用,但对LMs中的注意力吸收器仍然缺乏深入的了解。
🔸在这项工作中,我们首先证明了在具有各种输入的LMs中,即使在小模型中,注意力汇也普遍存在。此外,在LM预训练过程中观察到注意力汇的出现,这促使我们研究LM预训练中的优化、数据分布、损失函数和模型架构如何影响其出现。我们强调,在对足够的训练数据进行有效优化后,注意力汇就会出现。汇点位置与损失函数和数据分布高度相关。最重要的是,我们发现注意力汇更像是关键偏差,存储额外的注意力分数,这可能是非信息性的,对价值计算没有贡献。我们还观察到,这种现象(至少部分)源于softmax归一化后令牌对注意力得分的内在依赖。通过用其他注意力操作(如没有归一化的sigmoid注意力)替换softmax注意力来放松这种依赖性后,在1B参数以下的LM中不会出现注意力下沉。该代码可在以下网址获得https://github.com/sail-sg/Attention-Sink.

🛎️文章简介

🔸研究问题:在大语言模型(LLM)中,初始标记如何成为注意力汇聚点并导致了“注意力下沉”现象的出现?
🔸主要贡献:论文通过实证研究揭示了注意力下沉现象的机制和普遍存在性,并探讨了其与模型训练、数据分布、损失函数和模型架构之间的关系。

📝重点思路

🔺相关工作

🔸研究表明,LLM对初始标记给予了极大的关注,而不管它们的语义相关性如何,这种现象被称为注意力下沉,在流式/长上下文生成、KV缓存优化、高效推理和模型量化等都有应用。
🔸一系列工作试图理解注意力下沉,有研究表明只出现在第一个标记上,如LLaMA2中的早期FFN会破坏其隐藏状态的大范数,从而导致后面层的注意力下沉,也有研究认为可能出现在几个携带有限语义信息且没有固定位置的单词标记中。

🔺论文方案

🔸通过分析不同类型的位置嵌入(如绝对位置嵌入、相对位置嵌入等)对注意力机制的影响,来研究注意力下沉现象。
🔸使用不同的语言模型(如LLaMA2、GPT2、Mistral等)进行实验,观察和比较它们在注意力机制上的表现。
🔸提出了基于阈值的度量方法来量化注意力下沉现象,并通过可视化注意力分数来展示这一现象的具体表现。

🔎分析总结

🔸注意力下沉现象在自回归语言模型中普遍存在,即使在小型模型或随机标记序列中也是如此。
🔸注意力下沉在模型预训练阶段出现,且在持续指令调优之前就已经存在。
🔸不同类型的位置嵌入会影响注意力下沉现象的出现,相对位置嵌入和ALiBi等方法可以减少这一现象。
🔸通过实验验证了注意力下沉现象与模型性能之间的关系,发现引入可学习的下沉标记可以减少注意力下沉,但会显著降低模型性能。
🔸研究了窗口大小对注意力下沉现象的影响,发现较小的窗口大小可以防止注意力下沉的出现。

💡个人观点

论文的核心是分析注意力下沉现象的机制,并提出了优化方法。

🧩附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2242715.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MyBatis的select标签的resultType属性

在MyBatis框架中,映射文件中select标签的resultType属性,用于指定从数据库查询返回结果集需要映射的Java类型,即Mapper接口中方法返回值类型(或集合中的泛型类型),可以是基本数据类型、基本数据类型的包装类型、自定义的PO类型、集…

ubuntu20.04如何升级python3.8到python3.10

主要参考了这两个链接: 如何在Ubuntu 20.04安装Python 3.10 | myfreaxhttps://www.myfreax.com/how-to-install-python-3-10-on-ubuntu-20-04/#:~:text%E5%9C%A8%E8%B0%83%E8%AF%95%E5%92%8C%E5%85%B6%E4%BB%96%E5%B7%A5%E5%85%B7%E4%B8%AD%E4%BD%BF%E7%94%A8%E7%B…

AWTK-WIDGET-WEB-VIEW 发布

awtk-widget-web-view 是通过 webview 提供的接口,实现的 AWTK 自定义控件,使得 AWTK 可以方便的显示 web 页面。 项目网址: https://gitee.com/zlgopen/awtk-widget-web-view webview 提供了一个跨平台的 webview 接口,是一个非…

丹摩征文活动|FLUX.1+ComfyUI部署与使用

丹摩征文活动|FLUX.1ComfyUI部署与使用 1.引言 在人工智能飞速发展的今天,丹摩智算平台(DAMODEL)以其卓越的AI算力服务脱颖而出,为开发者提供了一个简化AI开发流程的强大工具。通过租赁GPU资源,丹摩智算平…

性能高于Transformer模型1.7-2倍,彩云科技发布基于DCFormer架构通用大模型云锦天章

2017年,谷歌发布《Attention Is All You Need》论文,首次提出Transformer架构,掀开了人工智能自然语言处理(NLP)领域发展的全新篇章。Transformer架构作为神经网络学习中最重要的架构,成为后来席卷全球的一…

【异常解决】Linux shell报错:-bash: [: ==: 期待一元表达式 解决方法

博主介绍:✌全网粉丝21W,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…

Linux解决普通用户无法使用sudo指令的问题

问题描述: Linux解决普通用户无法使用sudo指令的问题 sudo 指令是允许 普通用户 临时 以 超级用户 root 的权限运行。 普通用户如果没有配置而直接使用 sudo 指令:系统会提示没有权限(如下图) 使用sudo时系统提示(当前…

9.1 使用haarcascade_frontalface_default.xml分类器对静态图像进行人脸检测。

1)程序代码: # 1. 使用haarcascade_frontalface_default.xml分类器对静态图像进行人脸检测。 import cv2 import numpy as np # 构造级联分类器对象face_cascade cv2.CascadeClassifier(./data/haarcascades/haarcascade_frontalface_default.xml# ./…

【Mysql】Mysql函数----字符串函数

1、字符串函数 函数 描述 示例 CHAR_LENGTH(S) 返回字符串S的字符个数 返回字符串runoob的字符个数&…

(干货)Jenkins使用kubernetes插件连接k8s的认证方式

#Kubernetes插件简介 Kubernetes 插件的目的是能够使用 Kubernetes 配合,实现动态配置 Jenkins 代理(使用 Kubernetes 调度机制来优化负载),在执行 Jenkins Job 构建时,Jenkins Master 会在 kubernetes 中创建一个 Sla…

微积分第五版课后习题答案详解PDF电子版 赵树嫄

(一) 习题解答与注释 该部分基本上对《微积分》(第五版) 中的习题给出了解答, 并结合教与学作了大量注释。通过这些注释, 读者可以深刻领会教材中基本概念的准确含义, 开阔解题思路, 掌握解题方法, 避免在容易发生错误…

【Linux庖丁解牛】—权限!

目录 1、shell命令以及运行原理 2、Linux中的用户及用户切换 3、sudo指令 ​编辑 4、角色与目标属性 5、修改权限 5.1修改文件属性(chmod) 5.2修改文件角色(chown/chgrp) 6、rwx对目录意味着什么 7、Linux中多用户之间的相互“隔离” 8、Linux中的缺省权限 ​编辑 9…

uniapp对接极光推送,实现消息推送功能

通过集成JG-JPush和JG-JCore插件,可以在应用中添加消息推送功能,向用户发送通知、消息等。这对于提升用户体验、增加用户粘性非常有帮助‌。 效果图: 一、登录极光官网 官网链接:portalhttps://www.jiguang.cn/console/#/home点…

【3D Slicer】的小白入门使用指南八

3D Slicer DMRI(Diffusion MRI)-扩散磁共振认识和使用 0、简介 大脑解剖 ● 白质约占大脑的 45% ● 有髓神经纤维(大约10微米轴突直径) 白质探索 朱尔斯约瑟夫德杰林(Jules Joseph Dejerine,《神经中心解剖学》(巴黎,1890-1901):基于髓磷脂染色标本的神经解剖图谱)…

IP数据云 识别和分析tor、proxy等各类型代理

在网络上使用代理(tor、proxy、relay等)进行访问的目的是为了规避网络的限制、隐藏真实身份或进行其他的不正当行为。 对代理进行识别和分析可以防止恶意攻击、监控和防御僵尸网络和提高防火墙效率等,同时也可以对用户行为进行分析&#xff…

GPU分布式通信技术-PCle、NVLink、NVSwitch深度解析

GPU分布式通信技术-PCle、NVLink、NVSwitch 大模型时代已到来,成为AI核心驱动力。然而,训练大模型却面临巨大挑战:庞大的GPU资源需求和漫长的学习过程。 要实现跨多个 GPU 的模型训练,需要使用分布式通信和 NVLink。此外&#xf…

基于 PyTorch 从零手搓一个GPT Transformer 对话大模型

一、从零手实现 GPT Transformer 模型架构 近年来,大模型的发展势头迅猛,成为了人工智能领域的研究热点。大模型以其强大的语言理解和生成能力,在自然语言处理、机器翻译、文本生成等多个领域取得了显著的成果。但这些都离不开其背后的核心架…

数据集的重要性:如何构建AIGC训练集

文章目录 一、为什么数据集对AIGC如此重要?1. 数据决定模型的知识边界2. 数据质量直接影响生成效果3. 数据集多样性提升模型鲁棒性 二、构建AIGC训练集的关键步骤1. 明确目标任务和生成需求2. 数据源的选择3. 数据清洗与预处理4. 数据标注5. 数据增强 三、针对不同类…

全网首发:Ubuntu编译跨平台嵌入式支持ffmpeg的OpenCV

难题: 使用cmake编译,死活找不到ffmpeg 使用cmake-gui,能找到ffmpeg,不能编译。 解决思路 结合cmake和cmake-gui。 为了给初次编译的朋友一点方便,这里专门完整详细记录。 安装编译环境 其他的略。 apt -y in…

算法——两两交换链表中的节点(leetcode24)

这是一道对于链表节点进行操作的题目非常考验对于链表操作的基本功; 解法: 本题的解法结合下图来进一步解释 创建一个虚拟节点指向头结点以便使代码逻辑看起来更为简便且操作节点容易,定义cur是为了方便找到cur之后的两个节点进行交换操作定义pre和aft是为了保存执…