华为诺亚发布无限上下文大模型,超越SoTA 4.3%

news2024/11/16 23:41:09

你的大语言模型是不是也患上了"长文健忘症"?当使用大模型遇到长上下文时总是会出现词不达意?别担心,LLM界的"记忆大师"来啦!华为诺亚方舟实验室最新推出的EM-LLM模型,就像是给大模型装上了"超级记忆芯片",让它们轻松应对天文数字般的超长文本。这个创新模型巧妙地将人类认知科学中的事件分割和情景记忆原理融入到了LLM中,让大模型也能像人脑一样高效处理超长文本。

EM-LLM的核心秘诀在于它模仿了人类大脑处理信息的方式。它能够自动将长文本切分成有意义的"事件",并建立类似人类情景记忆的存储结构。这种设计不仅让模型能够更好地理解和记忆长文本的内容,还能在需要时快速检索相关信息。

在LongBench长文本基准测试中,EM-LLM的整体性能超越了此前的最佳模型,平均提升4.3%。特别是在段落检索任务上,EM-LLM表现依旧非常出色,性能提升高达33%,充分展示了其在长文本理解和信息检索方面的卓越能力。

图片

论文标题:
HUMAN-LIKE EPISODIC MEMORY FOR INFINITE CONTEXT LLMS

论文链接:
https://arxiv.org/pdf/2407.09450

LLM的"长上下文记忆"挑战

在人工智能快速发展的今天,大语言模型(LLM)已经成为了各行各业的得力助手。然而,这些AI"助手"却面临着一个棘手的问题:一旦遇到长文本,它们的表现就会大打折扣,仿佛患上了"长文健忘症"。这个问题严重制约了LLM在实际应用中的表现,特别是在需要处理长篇文档、复杂报告或大量上下文信息的场景中。

为什么会出现这个问题呢?主要是因为现有的LLM在处理长文本时面临着三大挑战:

  • 计算复杂度问题:Transformer架构中的自注意力机制的计算复杂度随文本长度呈平方增长。这意味着当处理长文本时,计算资源的消耗会急剧增加,导致处理效率大幅下降。

    图片

  • 位置编码的局限性:现有的位置编码方法(如RoPE)难以有效地扩展到超出训练长度的文本,这使得模型在处理超长文本时难以准确捕捉词语之间的位置关系。

    图片

  • 注意力分散问题:在长文本中,关键信息容易被大量不相关的内容"淹没"。模型难以在庞大的token序列中准确定位和提取重要信息。

面对这些挑战,研究人员提出了各种解决方案。其中,检索增强生成(RAG)和基于KV缓存的方法是两个主要方向。RAG方法通过外部知识库来增强模型的性能,而KV缓存方法则尝试在模型内部保存和检索历史信息。然而,这些方法仍然存在一些局限性,无法完全解决长文本处理的问题。

为解决这些问题,华为诺亚方舟实验室提出了创新的EM-LLM模型。EM-LLM的核心思想是模仿人类大脑的情景记忆机制,通过将长文本分割成离散的"事件"来组织和检索信息。

EM-LLM处理长文本可以分为三个步骤:

  1. 事件分割:模型首先识别文本中的"surprise"点,这些点可能是不同"事件"的分界。

  2. 记忆形成:识别出的事件被存储为离散的记忆单元,每个单元包含事件的关键信息。

  3. 记忆检索:当需要处理新输入时,模型会检索相关的历史事件。这个过程包括基于相似度的检索和考虑时间连续性的检索。

这种设计使EM-LLM能够有效处理超长文本,同时保持较低的计算复杂度。它不仅提高了LLM处理长文本的能力,同时还展示了将认知科学原理应用于人工智能的可行性。

给LLM装上"人脑芯片"

EM-LLM的核心思想是模仿人类大脑处理长期记忆的方式,主要包括三个关键步骤:基于惊奇度的事件分割、边界优化和两阶段记忆检索。让我们详细探讨每个步骤:

基于惊奇度的事件分割

EM-LLM首先对输入的长文本进行"事件分割"。这个过程通过计算每个词的"惊奇度"来判断是否应该在此处进行分割。具体来说,对于每个token ,模型计算其条件概率:

然后,通过计算负对数似然,得到惊奇度:

当惊奇度超过阈值  时,就认为在此处出现了一个事件边界:

其中,阈值  是动态计算的:

这里, 和  分别是前  个token的惊奇度均值和标准差, 是一个可调节的参数。

边界优化

初步的事件分割后,EM-LLM引入了边界优化步骤。这个过程使用图论中的概念,将token之间的相似度视为图的邻接矩阵。对于注意力头 ,邻接矩阵  定义为:

其中  和  是对应token的key向量,sim是相似度函数(这里使用点积相似度)。

优化过程使用两个指标:模块化(Modularity)和导电率(Conductance)。模块化  定义为:

其中  是图中总边权重, 是节点  所属的事件, 是克罗内克函数。

导电率  定义为:

其中  是图的一个子集, 是  内部的总边权重,其由以下的公式进行计算:

边界优化的目标是最大化模块化或最小化导电率,从而使事件内部的token更相关,事件之间更分离。

两阶段记忆检索

当模型需要处理新的输入时,它采用两阶段方法来检索相关的历史信息:

  1. 相似度检索:使用k近邻()搜索,找出与当前查询最相似的  个历史事件。这些事件形成"相似度缓冲区"。

  2. 连续性检索:为了模拟人类记忆的连续性特征,模型还会检索出上述事件在原文中的相邻事件,形成大小为  的"连续性缓冲区"。

最终,模型将  个事件添加到上下文窗口中。这种方法既考虑了信息的相关性,又保留了原始文本的时序特征。

下图直观地展示了这个过程:

图片

  1. 输入序列根据惊奇度进行初步分割。

  2. 形成离散的事件记忆,每个事件保留初始token和局部上下文。

  3. 通过  搜索选择相关事件。

  4. 最终的上下文窗口包括初始token、连续性缓冲区、相似度缓冲区和局部上下文。

这种设计使EM-LLM能够高效处理超长文本,同时保持了对重要信息的准确检索和利用。通过模仿人类记忆机制,EM-LLM在提高长文本处理能力的同时,也为我们理解人类认知过程提供了新的视角。

EM-LLM的"过目不忘"大考验

华为诺亚方舟实验室的研究人员设计了一系列全面的实验来测试EM-LLM的性能。这些实验不仅展示了EM-LLM在长文本处理方面的卓越表现,还深入探讨了其工作原理与人类认知的相似性。

LongBench测试

研究人员首先在LongBench长文本基准测试上对EM-LLM进行了评估。这个测试就像是AI界的"马拉松",考验模型的"长跑"能力。

下表展示了EM-LLM在LongBench上的表现,EM-LLM在15个任务中的14个上都超越了此前的最佳模型——InfLLM。

图片

特别需要注意的是:

  • 在PassageRetrieval(段落检索)任务上,EM-LLM实现了惊人的33.47%性能提升;

  • 在HotpotQA任务上,EM-LLM比InfLLM高出了9.38%;

  • 在2WikiMQA任务上,EM-LLM的表现比InfLLM好6.41%。

总体而言,EM-LLM在所有任务上的平均得分比InfLLM高出了4.3%,展现了其在各种长文本任务中的全面优势。

与人类事件感知的"心灵感应"

研究人员还比较了EM-LLM的事件分割结果与人类的事件感知。这个实验就像是测试LLM和人类之间的"心灵感应"能力。

下图展示了不同分割方法在LLaMA2注意力头的KV缓存中的表现。

图片

从上图中可以看出:

  • 人类感知的事件分割在三个指标(模块化、导电率和内部/外部相似度比)上都表现优异;

  • EM-LLM的基于惊奇度的分割方法(S)和加入边界优化的方法(SM, SC)与人类感知非常接近,甚至在某些方面表现得更好;

  • 相比之下,固定大小的分割方法(F, FM, FC)表现较差,特别是InfLLM使用的固定分割方法(F)甚至不如随机分割。

下图进一步比较了不同方法与人类报告的事件边界之间的距离。结果显示,EM-LLM的方法(S, SM, SC)与人类感知的一致性最高。

图片

不同分割方法的"擂台赛"

研究人员还在PG-19数据集上比较了不同的事件分割方法。下表展示了在不同LLM(Mistral-7B, LLaMA2-7B, LLaMA3-8B)上的实验结果。

图片

从实验结果中可以看出:

  • 基于惊奇度的分割方法(S)和加入边界优化的方法(SM, SC)在各项指标上都表现优异;

  • 边界优化(SM, SC)进一步提升了性能,特别是在模块度和内部/外部相似度比上;

  • 相比之下,固定大小的分割方法(F, FM, FC)表现较差,尤其是在没有优化的情况下(F)。

相似性、连续性与时序的"平衡艺术"

研究人员还探讨了不同组件权重对模型性能的影响。研究人员测试了不同参数设置下EM-LLM在LongBench各任务上的表现。

图片

图片

  • 结合相似性搜索和连续性检索的方法(SM+C)在大多数任务中表现最佳;

  • 连续性缓冲区的大小对性能有显著影响,最佳比例通常在30%到50%之间;

  • 不同任务对连续性和相似性的需求不同,如MultiNews任务在70%连续性比例时表现最佳。

EM-LLM不仅在各种长文本任务中表现出色,超越了现有最佳模型,其事件分割和记忆检索机制还展现出与人类认知相似的特征,在保持高效处理能力的同时,实现了更接近人类的文本理解和信息组织方式。

总结与展望

华为诺亚方舟实验室这次真给大模型界来了个大招!他们的EM-LLM模型不仅实现了"无限"上下文长度,还在LongBench测试中超越了此前的最佳成绩,平均提升4.3%。这就像给AI装上了记忆芯片。EM-LLM的成功展示了跨学科研究的威力,仿佛让LLM上了一个"人类大脑速成班"。

这一突破可能带来众多有趣应用,从能轻松解读《战争与和平》的大模型文学评论家,到记住你上月所有对话的超级客服,再到能处理繁琐合同的法律专家和分析全面病史的医疗助手。虽然距离真正的"通用人工智能"还有距离,但EM-LLM无疑是AI进化路上的重大进步,不仅突破了LLM在长文本理解上的瓶颈,还为大模型的应用领域带来了新的可能性。

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1956234.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

光伏混合储能直流微网直流母线电压下垂控制MATLAB仿真

微❤关注“电气仔推送”获得资料(专享优惠) 模型简介 此模型以混合储能系统为研究对象,采用基于关联参数SOC的改进下垂控制策略,将初始下垂系数与储能单元SOC的n次幂的比值作为现行下垂系数,通过改变n值,…

2.5 C#视觉程序开发实例2----图片内存管理

2.5 C#视觉程序开发实例2----图片内存管理 1 目标效果视频 mat-buffer 2 Mat 数组的定义 3 图片内存使用场合说明 3.1 程序加载或者切换程序时 3.2 设定时,注册图片 例如注册一个线速的图片 注册流程说明 3.3 外部触发时采集最新图片或者按钮点击时触发拍照 …

计算机毕业设计碾压导师Python+Django农产品推荐系统 农产品爬虫 农产品商城 农产品大数据 农产品数据分析可视化 PySpark Hadoop

基于Spark的农产品个性推荐系统 相关技术介绍: 1. Python Python是一种高级编程语言,具有简洁、易读、易学的特点,被广泛应用于Web开发、数据分析、人工智能等领域。 在此系统中,我们使用Python进行后端开发,利用其强大的语法…

图形引擎实战:Unity性能分析工具原理介绍

最近在维护一个Unity性能分析工具,类似UPR,客户端采集信息,WEB端显示数据。下面简单介绍下原理。 数据来源 Profiler数据 熟悉Unity的同学对Profiler一定不会陌生,我们的性能数据主要来源于它,主要包含函数耗时&…

Linux基础操作(下)

软件安装,CentOS系统和Ubuntu是使用不同的包管理器 CentOS使用yum管理器,Ubuntu使用apt管理器 在CentOS系统中,使用yum命令联网管理软件安装 yum语法: yum [-y] [install | remove | search ] 软件名称 在Ubuntu系统中,使用apt命…

如何跨越 LangChain 应用研发的最后一公里

说 [LangChain] 是现在最流行的 AI 应用开发框架,应该没有人出来反对吧。LangChain 的出现极大地简化了基于大型语言模型(LLM)的 AI 应用构建难度,如果把 AI 应用比作一个人的话,那么 LLM 相当于这个人的“大脑”&…

FRP配置内网穿透52版本以上适用

简述 适用frp配置内网穿透来说我们需要进行简单的区分,具有公网IP的服务器我们简称为服务端,内网的服务器我们可以简称为客户端,frp需要针对不同的服务器配置不同的文件 下载安装包 Linux下载地址 https://github.com/fatedier/frp/relea…

数据丢失不用愁!这四款数据恢复大师免费版助你找回珍贵回忆

我们在办公或者是生活中常常会遇到不小心将手机设备或者计算机当中的重要数据误删除/格式化/或其他不小心丢失的情况,但是不用紧张,这篇文章就是给大家分享如何恢复他们,以下带来除易我数据恢复外的其他好用的数据恢复软件: 第一…

后端笔记(2)--JDBC

1.JDBC简介 *JDBC(Java DataBase Connectivity)就是使用java语言操作关系型数据库的一套API *JDBC本质:(可以使用同一套代码,操作不同的关系型数据库) ​ *官方定义的一套操作所有关系型数据库的规则,即接口 ​ *各…

2024年巴黎奥运会奖牌榜数据源:各国选手为荣誉而战!

奥运会是全球瞩目的盛会,每四年举办一次,汇集了来自超过200个国家的优秀运动员参与夏季和冬季的400多场比赛。这是一项真正的全球综合性运动会,各个国家选手为了荣誉和国家的面子而激烈竞争。2024年的巴黎奥运会将是一场令人期待的盛宴&#…

C语言——选择结构

C语言——选择结构 关系运算符及关系表达式关系运算符关系表达式 逻辑运算符和逻辑表达式逻辑运算符逻辑表达式 选择语句if语句条件运算符switch case语句 关系运算符及关系表达式 关系运算符 关系运算实际上是比较运算,C语言提供了六种关系运算符分别为&#xff…

Go语言教程(一看就会)

全篇文章 7000 字左右, 建议阅读时长 1h 以上。 Go语言是一门开源的编程语言,目的在于降低构建简单、可靠、高效软件的门槛。Go平衡了底层系统语言的能力,以及在现代语言中所见到的高级特性。它是快速的、静态类型编译语言。 第一个GO程序…

一篇文章带你入门爬虫并编写自己的第一个爬虫程序

一、引言 目前我们处在一个信息快速迭代更新的时代,海量的数据以大爆炸的形式出现在网络之中,相比起过去那个通过广播无线电、书籍报刊等传统媒介获取信息的方式,我们现在通过网络使用搜索引擎几乎可以获得任何我们需要的信息资源。 但与此同…

Python3网络爬虫开发实战(7)JavaScript 动态渲染页面爬取

文章目录 一、Selenium1. 基本安装2. 基本使用3. 声明浏览器对象4. 访问页面5. 查找节点6. 节点交互7. 动作链8. 执行 JavaScript9. 获取节点信息10. 切换 Frame11. 延时等待12. 前进后退13. Cookies14. 选项卡管理15. 异常处理16. 反屏蔽17. 无头模式18. Pyppeteer&#xff0c…

《遥远的救世主》读后感

未完待续。。。。 未完待续。。。。 未完待续。。。。 【经典语录】 01. 我们这个民族总是以有文化自居,却忘了问一句:是有什么文化?是真理真相的文化还是弱势文化?是符合事物规律的文化还是违背事物规律的文化?任何…

shell脚本与sed基本语法

Day11 一、shell 基础 1、shell 概念 shell 英文翻译过来是外壳的意思,作为计算机语言来理解可以认为它是 操作系统的外壳。可以通过shell 命令来操作和控制操作系统,比如 Linux中的shell命令就包括 ls、cd、pwd 等等。 2、shell 在内核的基础上编写的…

第一个设计模式——单例模式

目录 一、特点: 二、实现单例模式步骤 三、饿汉式 四、懒汉式 五、双重检查锁 六、静态内部类 七、枚举 八、可能被反序列化和反射破坏什么意思? 九、如何解决呢? 一、特点: 唯一性,单例模式确保程序中只有一…

甘肃粉条:一口爽滑,满心欢喜

在甘肃的美食世界里,粉条是一道独具特色的存在,它以其爽滑的口感和多样的烹饪方式,赢得了无数人的喜爱。甘肃食家巷粉条,选用当地优质的土豆或红薯为原料,经过一系列精细的加工工艺,最终成就了这一根根晶莹…

SSRF (服务端请求伪造)

🎼个人主页:金灰 😎作者简介:一名简单的大一学生;易编橙终身成长社群的嘉宾.✨ 专注网络空间安全服务,期待与您的交流分享~ 感谢您的点赞、关注、评论、收藏、是对我最大的认可和支持!❤️ 🍊易编橙终身成长社群&#…

2-48 基于matlab的EM算法聚类可视化程序

基于matlab的EM算法聚类可视化程序,通过期望最大化算法(EM)优化类别间距,使得类别间距最大、类内间距最小。输出聚类前后结果及收敛曲线。程序已调通,可直接运行。 2-48 期望最大化算法(EM) 聚类…