2024 年1月12日最热NLP大模型论文:Transformers are Multi-State RNNs

news2025/1/10 4:12:48

揭秘Transformer的无限可能,Meta研究发现Transformer其实是多状态RNN

引言:重新定义Transformer的视角

在自然语言处理(NLP)的领域,Transformer架构自2017年提出以来,已经成为了一种主流的模型,它在多种任务中取得了前所未有的成功。与此同时,循环神经网络(RNN)这一曾经的主流架构逐渐被边缘化。然而,本文的研究提出了一个颠覆性的观点:即使Transformer在概念上与RNN有所不同,但在某些情况下,仅包含解码器的Transformer实际上可以被视为一种无限多状态的RNN(MSRNN)——一种具有无限隐藏状态大小的RNN变体。

通过将预训练的Transformer转换为有限的MSRNN,我们可以通过固定其隐藏状态的大小来实现这一点。这种转换不仅揭示了Transformer在实践中常常表现为RNN的行为,而且还为缓解其最大的计算瓶颈之一——缓存大小提供了可能的解决方案。本研究提出了一种名为TOVA的新策略,它通过仅基于注意力分数来选择保留哪些令牌,相比于现有的缓存压缩技术,TOVA更为简单。实验结果表明,TOVA在多个长期任务中的表现超越了所有其他基线策略,同时与完整(无限)模型几乎持平,有时仅使用原始缓存大小的1/8。

我们的研究不仅重新定义了Transformer的理解,还为减少推理过程中的内存消耗提供了实际的方法,有望在硬件资源受限的情况下推广Transformer模型的使用。

本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。

「AI论文解读达人」 可提供最热AI论文推荐、论文解读等功能。

传送门:

https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf

论文标题、机构、论文链接和项目地址(如有)

论文标题:Transformers are Multi-State RNNs
机构:The Hebrew University of Jerusalem, FAIR, AI at Meta
论文解读链接:

https://www.saibomaliang.com/generate?session_id=210b194f-c5c4-4a1c-8d81-8ddae744aa4a

项目地址:未提供具体链接,但论文中提到公开发布了相关代码。

Transformer与RNN的联系:一种新的视角

1. Transformer的无限多状态RNN(MSRNN)理论

在对自然语言处理(NLP)模型的发展历程进行回顾时,我们发现Transformer模型(Vaswani et al., 2017)已经取代了循环神经网络(RNNs; Elman, 1990)成为了NLP领域的首选架构。尽管Transformer与RNN在概念上被认为有着显著的不同——Transformer能够直接访问序列中的每个标记,而RNN则通过维护先前输入的递归状态来处理信息——我们在本工作中展示了,仅包含解码器的Transformer实际上可以被概念化为无限多状态的RNN(MSRNN),这是一种具有无限隐藏状态大小的RNN变体。随着每个解码步骤中先前标记数量的增加,Transformer对应于具有无限状态数的MSRNN。

2. 将Transformer转化为有限MSRNN的方法

我们进一步展示了,通过限制每一步处理的标记数量,预训练的Transformer可以被压缩成有限的MSRNN。我们观察到,一些现有的Transformer缓存压缩技术可以被视为这种转换策略,并引入了一种新的策略,即TOVA,这种策略相比于这些策略更为简单。我们的实验表明,TOVA在多个长期任务上的表现超过了所有其他基线策略,同时与完整的(无限)模型几乎持平,在某些情况下仅使用原始缓存大小的1/8。

提出TOVA策略:简化的有限MSRNN压缩方法

1. TOVA策略的工作原理

TOVA策略基于一个简单的原则:仅根据它们的注意力分数来选择保留在多状态中的标记。在每个解码步骤中,我们考虑当前查询对所有当前多状态中的标记以及当前标记的softmax归一化注意力分数。得分最低的标记将被丢弃。这种策略相比于上述策略做出了更少的假设:它既不固定最近的标记窗口,也不偏好序列中早期的标记。我们的分析表明,尽管TOVA策略存在轻微的近期偏见,但大量的近期标记被丢弃,而一些初始标记在数千个解码步骤中被保留,表明它们对于成功解码确实很重要。

2. TOVA策略与现有方法的对比

我们的实验结果表明,TOVA策略在长期任务的评估中超越了所有现有策略,并且在多数情况下,使用1/8至1/4的多状态大小就能与无限MSRNN模型(即常规预训练的Transformer)的性能相媲美。此外,我们的分析还发现,并非所有最近的标记都是重要的,有些可以安全地丢弃。我们还强调了在序列中保留第一个标记的重要性,并突出了其他一些可能令人惊讶的重要标记,例如所有格名词。我们的结果揭示了Transformer解码器LLMs的行为;虽然它们被训练为无限MSRNNs,但它们在实践中通常表现为有限MSRNNs。我们的结果还具有实际的好处——我们提出的方法在推理过程中大幅度减少了内存消耗,导致LLM缓存大小减少了多达88%。

实验设置:评估压缩策略的性能

1. 长范围评估的三种类型

在评估压缩策略的性能时,我们采用了三种长范围评估类型:语言建模、长范围理解和长文本生成。语言建模任务使用PG-19测试集,该测试集包含平均长度为70k令牌的100本完整书籍。长范围理解任务则采用了ZeroSCROLLS基准测试中的两个测试集,分别关注长范围摘要和长范围问答。长文本生成任务则通过提示促使模型生成长篇故事,并使用GPT-4作为评估器,比较不同种子生成的故事质量。

2. 选用的Transformer LLM家族

实验中选用了三个最先进的Transformer LLM家族:LLaMA-2、Mistral和Yi,每个家族提供了约7B参数的版本进行评估。对于语言建模任务,使用了模型的原始版本。对于长范围理解任务,还考虑了三个经过微调的版本:LLaMA-2-chat、Mistral-Instruct和neural-chat,这些版本在特定指令任务中表现出色。最后,对于文本生成任务,使用了专门为故事生成微调的MythoLogic版本。

实验结果:TOVA策略的表现

1. 语言建模任务的结果

在语言建模任务中,TOVA策略在所有多状态大小中均优于其他策略,并且在使用1/8至1/4的上下文大小时,与完整上下文的顶线模型的结果相当(图3)。这表明TOVA策略在保留关键信息的同时,大幅减少了所需的上下文长度。

2. 长范围理解任务的结果

在长范围理解任务中,TOVA策略在所有多状态大小中一致地优于其他基线策略。在SQuALITY数据集上,使用1/8至1/4的完整上下文大小,TOVA的结果与顶线模型相差不到一个点(图4)。在QASPER基准测试上,尽管TOVA策略需要一半的完整多状态大小才能与顶线模型的结果相当,但它仍然优于其他基线策略(图5)。

3. 长文本生成任务的结果

在长文本生成任务中,限制多状态大小会导致生成的文本更短。然而,TOVA策略在多状态大小为1024时,能够保持与完整模型相同的平均故事长度。通过GPT-4对生成的故事进行评估,TOVA策略在与顶线模型的比较中获得了平均胜率(图6)。尽管评估长篇故事的质量具有挑战性,但TOVA策略在生成长文本方面的表现仍然与无限MSRNN模型相当。

综上所述,TOVA策略在各项任务中表现出色,特别是在使用远小于原始缓存大小的情况下,仍能与完整模型相媲美,显示出其在压缩Transformer LLM缓存方面的巨大潜力。

分析:哪些Token更重要?

在深入探讨Transformer模型的行为时,了解哪些Token在模型中扮演关键角色是至关重要的。本章节将分析保留和丢弃Token的趋势,以及特定Token的重要性。

1. 保留和丢弃Token的趋势

研究表明,并非所有最近的Token都是重要的,有些可以安全地从记忆中丢弃。此外,研究还显示了序列中第一个Token的重要性,并强调了其他一些意外重要的Token,例如所有格名词。这些发现揭示了Transformer解码器LLMs的行为;虽然它们被训练为无限MSRNNs,但在实践中它们通常表现为有限MSRNNs。这些结果还具有实际的好处,它们提出的方法大幅度减少了推理过程中的内存消耗,导致LLM缓存大小减少了多达88%。

2. 特定Token的重要性

通过分析TOVA策略保留的Token,我们发现,尽管大多数压缩策略(如Sec. 3.3中提到的)保留了最近的Token,TOVA策略却显示出了明显的窗口趋势,表明了最近Token对解码的重要性。然而,我们也观察到许多较旧的Token被保留下来。实际上,只有73-76%的Token是最近的,其余的是较旧的。这表明,尽管最近的Token很重要,但远远不够。重要的是,与之前手工制作的最近窗口不同,我们的方法自动识别了它。

此外,通过将每个Token映射到其词性标记(POS-tag),我们发现标点符号和其他特殊符号往往被保留。然而,我们还发现了其他倾向于保留更长时间的Token,例如所有格名词(POS)和专有名词(NNPS)。研究这些Token的作用是一个令人兴奋的研究方向,我们将在未来的工作中探讨。

讨论:Transformer作为有限MSRNN的行为

Transformer模型通常被视为与RNNs不同的架构,因为它们可以直接访问序列中的每个Token,而不是像RNNs那样维护前一个输入的重复状态。然而,最近的研究表明,仅解码器的Transformer实际上可以被概念化为具有无限隐藏状态大小的多状态RNNs(MSRNNs)。通过限制每一步处理的Token数量,Transformer可以被压缩成有限的MSRNNs。

本文介绍的TOVA策略,通过仅基于它们的注意力分数来选择保留哪些Token,表现出比现有策略更优越的性能。此外,我们的结果表明,在许多情况下,使用TOVA策略的有限MSRNNs在性能上与相应的无限MSRNNs相当,同时只需要1/8–1/4的多状态大小。值得注意的是,尽管Transformer没有被训练为这样,它们通常的功能类似于有限MSRNNs。

这些发现不仅揭示了Transformer的内部工作机制,以及它们与RNNs的联系,而且还具有实际价值——它们可以显著减少Transformer LLMs的缓存大小,从而可能增加它们被具有有限硬件访问的用户采用的可能性。

相关工作:Transformer、RNN和有限KV缓存

在自然语言处理(NLP)领域,Transformer模型自2017年由Vaswani等人提出以来,已经取代了循环神经网络(Recurrent Neural Networks, RNNs)成为了主流架构。与RNNs不同,Transformer模型能够直接访问序列中的每个token,而不是像RNNs那样维护一个反复出现的先前输入的状态。然而,最近的研究表明,仅包含解码器的Transformer(decoder-only transformers)实际上可以被概念化为具有无限隐藏状态大小的多状态RNNs(infinite multi-state RNNs, MSRNNs)。

1. Transformer与RNN的关系

在本项工作中,我们展示了解码器仅包含Transformer的自回归性与RNNs的核心原则——保留从一个步骤到下一个步骤的状态——是一致的。基于这一观察,我们正式将仅包含解码器的Transformer重新定义为MSRNNs的一种形式。重要的是,随着每个解码步骤之前的tokens数量的增长,Transformers对应于具有无限数量状态的MSRNNs。我们进一步展示了通过限制每个步骤处理的tokens数量,Transformers可以被压缩成有限的MSRNNs。

2. 有限KV缓存

在先前的工作中,已经提出了几种压缩策略,这些策略有效地限制了预训练基于Transformer的大型语言模型(LLMs)的容量。这些压缩策略通常被称为KV缓存技术,例如H2O策略和Window+i策略,它们通过聚合整个序列的注意力分数并保留得分最高的tokens来动态选择非窗口tokens。我们的定义将这些工作框定为将预训练的Transformers从无限转换为有限的MSRNNs。

结论:Transformer作为MSRNN的实践意义

我们的研究结果表明,尽管Transformer模型在理论上被训练为无限的MSRNNs,但在实践中它们通常表现为有限的MSRNNs。我们提出的方法TOVA(Token Omission Via Attention)在多个长期任务中的表现超过了所有现有策略,并且与完整的(无限)模型相比,性能几乎相同,而在某些情况下只使用了原始缓存大小的1/8。

我们的分析还发现,并非所有最近的tokens都需要保留在内存中,有些可以安全地丢弃。此外,我们还展示了保留序列中的第一个token的重要性,并强调了其他一些可能令人惊讶的重要tokens,如所有格名词。这些发现不仅揭示了Transformer解码器LLMs的行为,并且还具有实际价值——我们提出的方法大幅度减少了推理过程中的内存消耗,导致LLM缓存大小减少了多达88%。

总的来说,我们的工作不仅阐明了Transformers的内部工作原理及其与RNNs的联系,还具有实际应用价值,可以显著减少Transformer LLMs的内存占用,从而可能增加其在硬件资源有限的用户中的采用率。

本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。

传送门:

赛博马良——懂流量密码的新媒体AI员工定制平台

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1377025.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

呼吸道病毒感染后,为何会引发细菌性肺炎?气道和肠道微生物组改变是关键

谷禾健康 病毒-细菌合并或继发感染 引起呼吸道感染的病毒是导致全世界高发病率和死亡率的原因,数十年来通常发生在冬季。在冬天,空气干燥,那些可能含有病毒的飞沫可以在空气中停留更长时间,并可以进一步传播。此外人的免疫力在冬季…

“Frontiers”系列多本期刊分区下跌,1本SCI被踢,2本SCI升为Top,还可投吗?

近期,2023年中科院分区正式发布,不少学者都很关心期刊变动情况。此次分区更新中,Frontiers出版社旗下的医学期刊表现让人大跌眼镜。 据汇总来看,32本大类医学SCI期刊中,Frontiers of Hormone Research直接从原来的医学…

照片模糊如何变清晰不妨试试这款软件吧

很多人希望能把模糊的图片或照片变得很清晰,或者把一个只有几十KB的小图变成有几M大小的高清大图。一般来说,一张模糊或打了马赛克的图片本身很多细节信息就没有或被删除了,就像一本书缺了很多页,我们是可能百分百的还原出它原来的…

云服务器ECS_GPU云服务器_AIGC_弹性计算-阿里云

阿里云高性能云服务器60%单实例最大性能提升,35Gbps内网带宽,网络增强&通用型云服务器、本地SSD型云服务器、大数据型云服务器、GPU异构型云服务器,阿里云百科aliyunbaike.com分享阿里云高性能云服务器: 阿里云高性能云服务器…

小红书年终“礼物营销”玩法:种拔一体,实现品效破圈

恰逢年末,用户送礼需求旺盛,小红书推出“礼物季”,品牌们纷纷入局,话题上线18天浏览量破9亿。“礼物营销”覆盖全年营销节点,贯穿始终,礼赠场景下用户消费决策链路缩短,种拔一体,帮助…

【Golang】二进制字符串转换为数字

在本文中,我们将探讨如何使用 Go 语言将十六进制字符串转换为二进制字符串,将不定长整型补码字符串转换为数字,以及如何将 IEEE754 标准的单精度(32位)和双精度(64位)浮点数字符串转换为数字。最…

数据科学低代码工具思考2—现状分析

数据科学工具伴随着计算机技术的发展也在持续的演进。数据库、大数据以及人工智能等时代标志性技术的出现,对数据科学工具的能力也有了更高的要求。一般而言,工具发展的趋势都是首先会出现一个能够支持数据科学计算的开发框架,方便用户能够更…

GC2003七通道NPN 达林顿管,专为符合标准 TTL 而制造

GC2003 内部集成了 7 个 NPN 达林顿晶体管,连接的阵列,非常适合逻辑接口电平数字电路(例 如 TTL,CMOS 或PMOS 上/NMOS)和较高的电流/电压,如电灯电磁阀,继电器,打印机或其他类似的负…

PMP应试小技巧,赶紧码住!

虽然单靠应试技巧是万万不行的,但是在较好地掌握了项目管理知识的基础上,应试技巧可以使我们得到更高的分数。 1、一定要认真阅读答案的全部四个选项。千万不要看到某个选项是正确的,就不看其它选项,因为可能还有更正确的选项。P…

大数据Doris(五十四):SQL函数之日期函数(二)

文章目录 SQL函数之日期函数(二) 一、DAYOFMONTH(DATETIME date) 二、dayofweek(DATETIME date)

docker部署mongo过程

1、拉取MongoDB镜像,这里拉取最新版本。 docker pull mongo2、运行容器 docker run -d --name mongo -p 27017:27017 \ -e MONGO_INITDB_ROOT_USERNAMEadmin \ -e MONGO_INITDB_ROOT_PASSWORD123456 \ mongo:latest --auth#由于 mongodb 默认情况下,…

亚马逊测评是什么?一个账号的收益能有多少?

今天我们来分享一下亚马逊测评,这是一个备受关注的轻资创业项目,受到广大人士关注。为了解答大家心中的疑惑,我们将会回答一些问题,帮助大家更好地理解亚马逊测评。 亚马逊测评,简而言之,就是我们为亚马逊商…

回顾我的2023:碌碌无为,有滋有味

文章目录 前言一、很多事情不需要有意义二、衣 食 住 行的变化三、我的收获与成长3.1 Github工具开发3.2 持续渐进的Java学习-Codeql-Trivy-Frida-Brida3.3 CSDN的收获 四、写在最后Eureka 前言 我的2020年度总结: 年度总结&新年目标 我的2021年度总结&#x…

【控制篇 / 策略】(7.4) ❀ 01. IP地理位置数据库和地理地址对象 ❀ FortiGate 防火墙

【简介】在很多使用环境下,我们需要对指定国家的IP地址进行允许或禁止访问操作,例如只允许访问国内IP。以前只能手动添加IP地址对象到地址组,繁杂且效率低下,Fortinet提供了基于地理位置的IP库,就可以解决这个问题。 I…

视频智能剪辑方案,企业视频制作新时代

视频已经成为了人们获取信息、娱乐和学习的重要方式。然而,传统的视频制作过程繁琐且耗时,这对于许多企业来说无疑是一个巨大的挑战。为了解决这个问题,美摄科技凭借其在机器学习、深度学习等AI算法方面的深厚积累,自主研发了一套…

html+css+Jquery 实现 文本域 文字数量限制、根据输入字数自适应高度

先看效果&#xff1a;初始的效果&#xff0c;样式多少有点问题&#xff0c;不重要&#xff01;重要的是功能&#xff01; 输入后&#xff1a; 根据文字长度&#xff0c;决定文本域长度 限制文字数量 话不多说&#xff0c;直接上代码&#xff01; <!DOCTYPE html> <h…

【动态规划】【二分查找】C++算法 466 统计重复个数

作者推荐 【动态规划】458:可怜的小猪 涉及知识点 动态规划 二分查找 力扣:466 统计重复个数 定义 str [s, n] 表示 str 由 n 个字符串 s 连接构成。 例如&#xff0c;str [“abc”, 3] “abcabcabc” 。 如果可以从 s2 中删除某些字符使其变为 s1&#xff0c;则称字符串…

HTTP的Content-type 和 responseType

场景 后端返回字节流&#xff0c;前端进行图片下载时遇到了问题&#xff0c;定位花了不少时间&#xff0c;本文再次记录梳理下 XMLHttpRequest XMLHttpRequest本身支持responseType 允许我们手动的设置返回数据的类型 responseType取值范围 responseType 为空字符串时&…

边缘计算挑战和机遇

方向一&#xff1a;数据安全与隐私保护 1.背景介绍 随着数据的产生和收集量日益增加&#xff0c;大数据技术在各个领域的应用也不断拓展。然而&#xff0c;这也带来了数据安全和隐私保护的问题。在大数据环境下&#xff0c;数据安全和隐私保护的重要性得到了广泛认识。本文将…

多模态大模型Clip

一、经典分类模型的问题: 类别固定当前的模型只能胜任一个任务&#xff0c;迁移到新任务上非常困难类别互斥当前的CV数据集标注劳动密集&#xff0c;成本较高&#xff0c;当前模型泛化能力较差 负样本的组成(Batchsize有N个文本-图像对) Batchsize太小&#xff0c;负样本太少…