论文略读：Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

论文略读：Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

news2025/1/13 19:55:04

202406 arxiv

1 intro

传统上，复杂的AI任务需要多个专门系统协作完成。
- 这类系统通常需要独立的模块来进行信息检索、问答和数据库查询等任务
大模型时代，尤其是上下文语言模型（LCLM）时代，上述问题可以“一体化”完成
- LCLM可以直接接收包含文本、图像、音频等多模态信息的整个语料库作为输入。
- 通过"语料库中的上下文"（CiC）提示方法，模型能够在统一的框架内执行各种任务，包括检索、推理和答案生成
- ——>大大简化了流程
- ——>避免了多个独立系统可能带来的错误累积问题

然而，评估这些模型的性能并不容易。现有的方法往往局限于特定任务，难以全面测试长上下文模型的能力
- ——>论文提出了LOFT（Long-Context Frontiers）基准测试
  - 包含6种任务类型，涵盖35个数据集，横跨文本、视觉和音频多个模态
    - 文本检索：从大量文档中找出相关内容
    - 视觉检索：根据文本描述找出相关图像或视频
    - 音频检索：匹配文本与相应音频
    - RAG：基于检索信息生成答案
    - SQL：理解自然语言查询并从数据库中提取信息
    - 多示例上下文学习：从大量示例中学习并完成任务
  - LOFT的一个关键特性是其可扩展性
    - 支持从32k到128k，再到1M个标记的上下文长度
    - ——>能够系统地评估模型性能随上下文长度增加的变化

2 Corpus-in-Context prompt

为了充分发挥长上下文模型的潜力，研究团队提出了"上下文中的语料库"（Corpus-in-Context，CiC）提示方法
- 这种方法允许模型直接在给定的大规模语料库中进行检索和推理

3 实验结果

3.1 评估的模型

评估了三个最先进的长上下文模型：
- Google的Gemini 1.5 Pro
- OpenAI的GPT-4o
- Anthropic的Claude 3 Opus

3.2文本检索任务

在文本检索任务中，Gemini 1.5 Pro的表现尤为出色。
在128k上下文长度的测试中，Gemini 1.5 Pro在多个数据集上达到了与专门训练的检索系统Gecko相当的性能。
- 例如，在NQ数据集上，Gemini 1.5 Pro和Gecko都达到了0.99的Recall@1分数，而Gemini 1.5 Pro并没有经过专门的检索训练。

然而，随着上下文长度增加到1M标记，模型性能出现了一定程度的下降。这表明在处理超长上下文时，模型仍面临着挑战。

3.3 视觉检索 &音频检索

在视觉检索任务中，Gemini 1.5 Pro同样表现出优异的性能表现。
- 其在多个数据集上超越了专门的视觉-文本检索模型CLIP。
- 例如，在OVEN数据集上，Gemini 1.5 Pro达到了0.93的分数，而CLIP只有0.79。
在音频检索任务上，Gemini 1.5 Pro在所有五种语言的FLEURS数据集上都达到了完美或接近完美的表现，超过了专门的音频检索模型。

3.4 RAG

在RAG任务中，长上下文模型展现出了强大的推理能力。
- 在需要多跳推理的数据集（如HotpotQA和MusiQue）上，Gemini 1.5 Pro的表现超过了传统的RAG pipeline。
- 例如，在HotpotQA上，Gemini 1.5 Pro得分为0.75，而专业的RAG系统得分为0.70。

3.5 SQL任务

在SQL类任务中，长上下文模型的表现相对较弱。
在Spider和SparC数据集上，专门的SQL系统的性能显著优于长上下文模型。
- 这表明在处理需要复杂结构化推理的任务时，这些模型还有很大的改进空间。

3.6多示例上下文学习

在多示例上下文学习任务中，长上下文模型展现出了良好的表现。
- 在某些任务中（如LIB-dialog），模型的性能随着示例数量的增加而稳步提升。
- 然而，在一些推理密集型任务中（如BBH-tracking7），增加示例数量并未带来显著改善，这表明模型在复杂推理任务上仍有局限性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1904482.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

MybatisX插件的简单使用教程

MybatisX插件的简单使用教程

搜索mybatis 开始生成 module path：当前项目 base package:生成的包名，建议先独立生成一个，和你原本的项目分开 encoding：编码，建议UTF-8 class name strategy：命名选择推荐选择camel：驼峰命…

阅读更多...

ROS——多个海龟追踪一个海龟实验

ROS——多个海龟追踪一个海龟实验

目标通过键盘控制一个海龟（领航龟）的移动，其余生成的海龟通过监听实现追踪定期获取领航龟和其余龟的坐标信息，通过广播告知其余龟，进行相应移动其余龟负责监听疑惑点（已解决） int main(int…

阅读更多...

【网络安全】实验四（网络扫描工具的使用）

【网络安全】实验四（网络扫描工具的使用）

一、本次实验的实验目的 （1）掌握使用端口扫描器的技术，了解端口扫描器的原理 （2）会用Wireshark捕获数据包，并对捕获的数据包进行简单的分析二、搭配环境打开两台虚拟机，并参照下图&#xff…

阅读更多...

k8s+docker集群整合搭建（完整版）

k8s+docker集群整合搭建（完整版）

一、Kubernetes系列之介绍篇 1、背景介绍云计算飞速发展 IaaS PaaS SaaS Docker技术突飞猛进一次构建，到处运行容器的快速轻量完整的生态环境 2、什么是kubernetes 首先，他是一个全新的基于容器技术的分布式架构领先方案。Kubernetes(k8s)是Goog…

阅读更多...

磐维2.0数据库日常维护

磐维2.0数据库日常维护

磐维数据库简介 “中国移动磐维数据库”（ChinaMobileDB），简称“磐维数据库”（PanWeiDB）。是中国移动信息技术中心首个基于中国本土开源数据库打造的面向ICT基础设施的自研数据库产品。其产品内核能力基于华为 OpenG…

阅读更多...

001uboot体验

001uboot体验

1.uboot的作用： 上电->uboot启动->关闭看门狗、初始化时钟、sdram、uart等外设->把内核文件从flash读取到SDRAM->引导内核启动->挂载根文件系统->启动根文件系统的应用程序 2.uboot编译 uboot是一个通用的裸机程序，为了适应各种芯片&…

阅读更多...

注意力机制 attention Transformer 笔记

注意力机制 attention Transformer 笔记

动手学深度学习这里写自定义目录标题注意力加性注意力缩放点积注意力多头注意力自注意力自注意力缩放点积注意力：案例Transformer 注意力注意力汇聚的输出为值的加权和查询的长度为q，键的长度为k，值的长度为v。 q ∈ 1 q , k ∈ 1 k …

阅读更多...

现场Live震撼！OmAgent框架强势开源！行业应用已全面开花

现场Live震撼！OmAgent框架强势开源！行业应用已全面开花

第一个提出自动驾驶并进行研发的公司是Google，巧的是，它发布的Transformer模型也为今天的大模型发展奠定了基础。自动驾驶已经完成从概念到现实的华丽转变，彻底重塑了传统驾车方式，而大模型行业正在经历的，恰如自动驾…

阅读更多...

Mac安装AndroidStudio连接手机客户端测试

Mac安装AndroidStudio连接手机客户端测试

参考文档：https://www.cnblogs.com/andy0816/p/17097760.html 环境依赖需要java 1.8 java安装略下载Android Studio 地址下载 Android Studio 和应用工具 - Android 开发者 | Android Developers 本机对应的包进行下载安装过程 https://www.cnblogs.c…

阅读更多...

STM32实现硬件IIC通信（HAL库）

STM32实现硬件IIC通信（HAL库）

文章目录一. 前言二. 关于IIC通信三. IIC通信过程四. STM32实现硬件IIC通信五. 关于硬件IIC的Bug 一. 前言最近正在DIY一款智能电池，需要使用STM32F030F4P6和TI的电池管理芯片BQ40Z50进行SMBUS通信。SMBUS本质上就是IIC通信，项目用到STM32CubeMXHAL库…

阅读更多...

2025中国郑州门窗业博览会暨整屋定制家居展

2025中国郑州门窗业博览会暨整屋定制家居展

2025中国郑州门窗业博览会 2025中国郑州整屋定制家居及家具产业博览会 2025中国家居行业开年第1展邀请函展览时间：第一期 2025年2月15日-17日第二期 2025年2月22日-24日展览地址：郑州国际会展中心组委会：【I 3 3】【937O】【7897】…

阅读更多...

软件工程（上）

软件工程（上）

目录软件过程模型（软件开发模型） 瀑布模型原型模型 V模型构件组装模型螺旋模型（原型瀑布） 基于构件的软件工程（CBSE） 快速应用开发模型（RAD） 统一过程（UP&a…

阅读更多...

java开发报错

java开发报错

查了一下啊。

阅读更多...

HTTP模块（一）

HTTP模块（一）

HTTP服务本小节主要讲解HTTP服务如何创建服务，查看HTTP请求&响应报文，还有注意事项说明，另外讲解本地环境&Node环境&浏览器之间的链路图示，如何提取HTTP报文字符串，及报错信息查询。创建HTTP服务端 c…

阅读更多...

【TB作品】51单片机 Proteus仿真00016 乒乓球游戏机

【TB作品】51单片机 Proteus仿真00016 乒乓球游戏机

课题任务本课题任务 (联机乒乓球游戏)如下图所示: 同步显示 oo 8个LED ooooo oo ooooo 8个LED 单片机单片机按键主机从机按键设计题目:两机联机乒乓球游戏图1课题任务示意图具体说明: 共有两个单片机,每个单片机接8个LED和1 个按键,两个单片机使用串口连接。 (2)单片机…

阅读更多...

【高阶数据结构】B-数、B+树、B*树的原理

【高阶数据结构】B-数、B+树、B*树的原理

文章目录 B树的概念及其特点解析B树的基本操作插入数据插入数据模拟分析分裂如何维护平衡性分析B树的性能 B树和B*树B树B树的分裂B树的优势 B*B*树的分裂总结 B树的概念及其特点 B树是一颗多叉的平衡搜索树，广泛应用于数据库和文件系统中，以保持数据…

阅读更多...

第2集《修习止观坐禅法要》

第2集《修习止观坐禅法要》

请打开补充讲表第一面，附表一、念佛摄心方便法。我们前面讲到修止，就是善取所缘境的相貌，然后心于所缘，专一安住；心于所缘，相续安住；达到心一境性的目的。站在修学净土的角度，他…

阅读更多...

基于Python API的机械臂UDP上报设置及读取

基于Python API的机械臂UDP上报设置及读取

睿尔曼机械臂提供了1个可持续读取机械臂状态的接口，UDP通信状态反馈接口。该接口提供了json协议、API的读取，设置通信开启之后无需再进行设置即可以固定频率读取。 Python程序源码可从以下网盘地址获取（地址永久有效）&#xff1…

阅读更多...

C# WinForm —— 38 SplitContainer介绍

C# WinForm —— 38 SplitContainer介绍

1. 简介将页面拆分成两个大小可以调整的区域，中间有一个拆分条，可以拖动拆分条来调整左右区域的大小 2. 属性属性解释(Name)控件ID，在代码里引用的时候会用到BoderStyle边框样式：None、FixedSingle、Fixed3DAutoScroll当控件…

阅读更多...

PyFluent入门之旅（4）算例求解

PyFluent入门之旅（4）算例求解

在网格划分完成或已有网格的情况下，可以进行算例的求解。 1. 切换/打开求解器一般启动求解器前有两种情况： 已启动FluentMeshing并生成了网格，需要在不退出FluentMeshing的情况下直接切换至Fluent求解器。已经有现成的网格文件&#xff0…

阅读更多...

推荐文章

最新文章