文档QA综述:关于多页文档,多模态,检索增强最新的进展

news2024/11/27 5:29:57

关于Document,Multimodal,RAG最新的进展

    • 一:PDFTriage

一:PDFTriage

题目: PDFTriage: Question Answering over Long, Structured Documents
机构:斯坦福大学,Adobe Research
论文: https://arxiv.org/pdf/2309.08872.pdf
任务: 结构化文档QA
Motivation:解决ChatGPT等大语言模型在处理长篇、结构复杂的文档(如PDF、网页、演示文稿等)回答不准的问题,之前的方法会存在如下的一些问题:

  1. 上下文窗口限制,一次只能处理有限tokens数目,因此需要先进行文档预处理以及分割;
  2. 文档结构化信息利用不足,比如页面,标题,表格等;查询不准确;信息获取不全;

方法:PDFTriage通过允许模型基于结构内容检索上下文来缓解上述问题。它首先将PDF转化为结构化文档元数据,为模型提供了关于文档结构的信息,然后通过使用一系列基于模型的可调用检索函数文档结构元数据,对提示进行增强,使模型能够从文档中检索上下文。通过提供结构和能够查询该结构的能力,PDFTriage增强模型能够可靠地回答一些常规的检索增强LLMs不能回答的问题。参考: PDFTriage:长篇结构化文件的问答系统

BLIP model
  1. 结构化元数据提取:使用Adobe Extract API来解析PDF文档,提取出章节、章节标题、页码信息、表格和图像等结构元素。然后用json格式进行结构化组织,并且作为prompts。
  2. 文档内容检索: 定义了五个不同的函数:fetch_pages,fetch_sections,fetch_table,fetch_figure和retrieve。fetch_pages函数允许模型获取一组页面,fetch_sections函数允许模型获取一组章节,fetch_table函数允许模型获取表格,fetch_figure函数允许模型获取图像,retrieve函数则提供其他类型的检索功能。模型通过调用这些函数来查询文档,以获取回答问题所需的信息。
  3. 基于检索内容进行QA

一些结论:

  • 在作者自建的评测集上,PDFTriage生成的答案在多页任务(如结构问题和表格推理)中排名更高,而在一般文本任务(如分类和文本问题)中排名较低。然而,在所有问题类别中,PDFTriage都优于页面检索和块检索方法。
  • PDFTriage能够处理不同长度的文档,并且在处理不同长度的文档时表现一致。因为能根据结构信息和内容信息,选择相关的上下文,并最小化无关信息,更好地利用了有限的上下文窗口,从而发挥了更好的性能。
  • PDFTriage的答案质量与文档长度之间几乎没有相关性。
  • 未来,PDFTriage在处理多模态问题(如表格和图像)时还可以进一步改进其性能

一些坑:
并没有对LLM提出一些建设性的意见,直接用的是GPT强大的能力;
用了adobe的PDF结构化解析能力,但是官方是未完全开源的,可能如下评论所言,kosmos2.5以及nougat是一种可能的替代方案。
BLIP model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1175544.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MAC苹果电脑系统清理垃圾软件CleanMyMac4.15

如今电脑成为大多数人工作的工具,使用得越久就越需要清理垃圾软件。系统垃圾、废纸娄垃圾、大型和旧文件这些通常都占用了我们的电脑几G的空间。 想要清除不必要的垃圾文件,可以使用mac卸载软件CleanMyMac X,这款清理垃圾软件可以智能扫描Ma…

探索Kosmos-2模型的神奇功能

Kosmos-2是一个多模态大语言模型,它可以理解和生成包含图像和文本的内容。它的特点是能够将文本中的指代表达式(如“这个”、“那个”等)与图像中的物体对应起来,实现局部理解和交互。如果你想使用Kosmos-2模型,你可以…

《人工智能算法图解》书籍推荐

书籍介绍 今天,人工智能在我们的生活中随处可见。它能推送我们喜欢的电视节目,帮助我们诊断疑难杂症,还能向我们推荐商品。因此,让我们掌握人工智能的核心算法,拥抱日新月异的智能世界吧。 与那些充斥着公式和术语的教…

超详细的wheel轮子下载和.whl安装

wheel安装 pip安装失败问题 基于Anaconda进行 pip install ,报如下 但基于此路径下安装.whl文件时候,会报如下 通过在可借鉴的博客上查找相关原因,发现原来是因为版本没有匹配的问题,基于此问题以及博客中的解决方案,进行亲测…

CDR2024免费版服装设计工具

cdr是CorelDRAW的简称,一款专注排版和矢量图形编辑的平面设计软件。这款软件的设计界面精微细致、简洁易懂。功能尤其强大,图标设计,印刷排版,服装设计等都可以胜任。还有多种模板使得设计相当的轻松,今天简单介绍一下…

ACTIVE_MQ学习

ActiveMq学习①___入门概述https://blog.csdn.net/qq_45905724/article/details/131796502 ActiveMq学习②__安装与控制台https://blog.csdn.net/qq_45905724/article/details/133893214 ActiveMq学习③___Java编码实现ActiveMQ通讯https://blog.csdn.net/qq_45905724/articl…

【漏洞复现】weblogic-CVE-2018-2894-任意文件上传漏洞复现

感谢互联网提供分享知识与智慧,在法治的社会里,请遵守有关法律法规 文章目录 漏洞复现WebShell 复现环境:Vulhub 访问 http://192.168.80.141:7001/console/,即可看到后台登录页面 执行sudo docker-compose logs | grep password可…

基于nodejs+vue贝佳月子会所服务平台系统- 计算机毕业设计

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

CleanMyMac软件4.15免费苹果电脑文件清理工具

mac系统进行文件清理,一般是直接将文件拖动入“废纸篓”回收站中,然后通过清理回收站,就完成了一次文件清理的操作,但是这么做并无法保证文件被彻底删除了,有些文件通过一些安全恢复手段依旧是可以恢复的,那…

wandb 安装本地部署使用教程

1、官网注册 wandb.ai是一个为机器学习开发者提供的开发工具平台,可以帮助用户跟踪实验,管理和版本数据,以及与团队协作,从而更专注于构建最佳模型。 wandb官网: https://wandb.ai 首先我们打开官网注册号自己的账号并…

Quartz介绍

一、前言 几乎所有系统都需要定时任务,如果系统中定时任务比较少并且是单机环境的直接使用SpringTask即可,如果定时任务比较多且需要经常维护或者要部署在分布式环境中就要考虑使用Quartz或者xxl-job等开源框架,今天我们来了解一下Quartz的基…

Linux的常见指令(二)

目录 一、mv 二、cat 三、more 四、less 五、head 六、tail 七、date 八、cal 一、mv 可以用来移动文件或者将文件改名(move (rename) files),是Linux系统下常用的命令,经常用来备份文件或者目录。 功能: 1…

Java21-虚拟线程小试牛刀-meethigher

其他语言,如Go早期就支持了叫做协程的东西,它是轻量化后的线程,而Java异步编程却只有线程的概念。JDK8以后的升级带来的改变总体感觉不大,不过这次JDK21带来的Virtual Thread还是值得体验一把的,可以说是YYDS&#xff…

Linux学习笔记之三(vim编辑器)

目录 1、vim的四种工作模式2、正常模式下的操作指令2.1、进入编辑模式2.2、进入命令行模式2.3、进入视觉模式2.4、光标跳转2.5、复制、粘贴、删除2.6、重复、撤回操作 3、命令行模式下的操作指令 1、vim的四种工作模式 vim的四种工作模式分别是编辑模式(insert mode)、命令行模…

蓝桥杯官网填空题(方格计数)

题目描述 本题为填空题,只需要算出结果后,在代码中使用输出语句将所填结果输出即可。 如下图所示,在二维平面上有无数个 11 的小方格。 我们以某个小方格的一个顶点为圆心画一个半径为 50000 的圆。 你能计算出这个圆里有多少个完整的小方…

java入门-JDK下载与安装

1、下载jdk Java 的产品叫JDK(Java Development Kit: Java开发者工具包),必须安装JDK才能使用java 1、官网地址 https://www.oracle.com/java/ https://www.oracle.com/java/technologies/downloads/ 目前比较稳定的版本为 JDK17. 我们就安…

python 之 lamda 函数

文章目录 示例1. 基本使用2. 与内置函数结合使用 注意事项: 当谈到Python的lambda函数,它代表一种匿名函数的能力。与普通函数不同,lambda函数是一种单行函数,通常用于代码更简洁的场景,不需要对函数进行命名。其语法如…

康耐视深度学习ViDi-Plugins菜单介绍

Manage Plugins ----------- 插件管理 能够在此窗口界面看到一些关于插件的信息,也能够在此窗口界面添加或移除(*.dll)文件。 注意: 在没有专业人员指导的情况下禁止操作添加和移除(*.dll)文件,错误的操作有可能会造成软件的功能丧失更严重…

python 之enumerate 函数

文章目录 enumerate() 函数的语法返回值使用示例:示例 1:基本使用示例 2:指定起始索引值 注意事项: enumerate() 是 Python 中一个非常有用的内置函数,用于在迭代迭代器(例如列表、元组、字符串或其他可迭代…

前沿重器[37] | 大模型对任务型对话的作用研究

前沿重器 栏目主要给大家分享各种大厂、顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。(算起来,专项启动已经…