AAAI 2025论文分享┆一种接近全监督的无训练文档信息抽取方法:SAIL(文中附代码链接)

news2025/1/6 20:50:17

本推文详细介绍了一篇上海交通大学乐心怡老师课题组被人工智能顶级会议AAAI 2025录用的的最新论文《SAIL: Sample-Centric In-Context Learning for Document Information Extraction》。论文的第一作者为张金钰。该论文提出了一种无需训练的、以样本为中心的、基于上下文学习的文档信息抽取方法 (SAmple-Centric In-Context Learning for Document Information Extraction,简称SAIL)。该方法为每个测试样本定制个性化提示词,同时引入布局相似性和实体级文本相似性来增加搜索多样化。SAIL的性能优于之前的无训练方法,并且性能接近全监督学习的方法。更为重要的是,SAIL具有良好的泛化性。

本推文由张金钰撰写,审核为乐心怡老师。

原文链接https://arxiv.org/abs/2412.17092

代码链接https://github.com/sky-goldfish/SAIL

1. 会议介绍

第39届AAAI (Annual AAAI Conference on Artificial Intelligence)将于2025年2月25日至3月4日在美国费城隆重举行。AAAI会议起始于 1980 年,是人工智能领域久负盛名且极具影响力的国际顶级学术会议之一,由美国人工智能协会主办。该会议全面覆盖机器学习、自然语言处理、计算机视觉、机器人技术、多智能体系统、知识表示与推理等多项人工智能核心研究领域。AAAI是人工智能领域的顶级会议之一,也是中国计算机学会(CCF)A类会议。

原文链接:https://arxiv.org/abs/2412.17092

代码链接:https://github.com/sky-goldfish/SAIL

2. 研究背景及主要贡献

(1)什么是文档信息抽取?

文档信息抽取旨在从文档中(如收据、表格、发票等)中提取结构化信息。如图1,对一个小票文档,通常需要识别出小票号、各类商品单价、各类商品数量、各类商品价格、总价等信息。

图1 文档信息取任务

解决文档信息抽取的传统方法往往基于全训练学习(如 LayoutLMv3 等)。这些方法在训练数据上表现良好,但在处理未见过的数据时泛化能力有限。因此,研发无需训练的文档信息抽取方法,且使其具备良好的泛化能力,这非常关键。一种可行的思路是利用强大的预训练模型(如大语言模型 LLMs),仅需少量示例即可泛化到不同类型的文档。

(2)挑战与困难

无训练的文档信息抽取方法主要面临两个挑战:

(1)文档内容十分复杂,需要很好地理解文本与布局之间的关系。但是,仅通过少量的示例建立文本与布局之间的关系并提取隐含布局信息非常困难。

(2)预训练模型需要合适的提示词才能发挥最佳性能。之前工作的提示词是针对特定预训练模型特殊设计的,导致在不同模型间转换时性能会显著下降。

(3)本文的解决办法

本文提出了一种以样本为中心的基于上下文学习的文档信息抽取方法SAIL。其贡献可以概括为:

(1)提出了一种以样本为中心的提示词方法,针对每一个测试样本,都会搜索最合适的示例作为上下文学习的提示词。

(2)在搜索最合适的示例时,引入布局相似性(下图中的layout similarity)和实体级文本相似性(下图中的entity-level text similarity),从不同角度对视觉丰富的文档进行全面深入分析,有助于提升大语言模型对文档的理解能力。

(3)构造了规范统一的提示词模板,可以在不同的大语言模型之间实现较好的迁移。


图2 SAIL中使用的三种示例及和GPT-4o结果的对比

3. 方法

图3 SAIL的整体架构

SAIL的整体架构如图3所示。主要包括五个步骤:

(1)通过光学字符识别处理测试文档和训练文档,提取文本和边框(box)信息。

(2)将文本转换为不同类型的嵌入表示,用于选择文档级文本相似性示例、实体级文本相似示例和布局相似示例。

(3)选择示例。

(4)将示例代入提示词模板。

(5)大语言模型根据提示词进行推理,生成预测标签。

其中,选择示例的三种方法如下:

(1)文档级文本相似示例:通过文本语义搜索,使用Sentence - BERT编码文档文本,计算余弦相似度来选择与测试样本最相似的训练文档示例。

(2)实体级文本相似示例:过滤掉仅含数字的文本后,用Sentence - BERT编码实体文本,计算余弦相似度,为每个测试实体选择最相似的实体示例。

(3)布局相似示例:将边框信息绘制在空白图像上,裁剪并调整布局图像大小,通过计算均方误差(MSE)损失来选择布局相似的文档,如图4所示。

图4 布局相似性评估方法

4. 实验

1)实施细节

论文使用开源ChatGLM3(ChatGLM3-6b-32k),闭源GPT-3.5(GPT-3.5-turbo)和GPT-4(GPT-4o)三个大语言模型在FUNSD、CORD、SROIE数据集上评估。采用实体级F1分数、精确率和召回率作为评估指标。

2)实验结果

实验的结果如表1所示。与Baseline的对比,SAIL体现出了更好的性能,具体体现在:

1)首先,SAIL在所有数据集上使用不同大语言模型的表现都稳定优于其他training-free的方法。

2)其次,得益于本文构造的规范统一的提示词模板,SAIL对各种大语言模型具有更好的鲁棒性和适应性。

3)最后,作为training-free的方法,SAIL甚至超越了很多全监督学习的方法。

表1 SAIL与Baseline的对比

在与多模态大语言模型对比方面,本文将SAIL与LLaVA-1.5和GPT-4o进行了对比,实验结果见表2。可以发现,开源的LLaVA的文档信息抽取能力比较有限。其次,闭源的GPT-4o明显优于LLaVA,但与SAIL相比仍然存在很大的不足。

表2 SAIL与多模态LLM的对比

(3)消融实验

表3对比了对所有测试样例都采用固定的examples(Fixed)、对不同的测试样例采用不同的examples(Adaptive)。结果表明,以样本为中心的examples显著超越了固定的examples。

表3 以样本为中心的Adaptive examples显著超越了Fixed examples

表4证明了我们在选择示例时,所采用的三种相似度(结构相似度、文档级别文本相似度、实体级别文本相似度)的有效性。

表4 不同相似度的examples的有效性

5. 总结与展望

论文提出了一种以样本为中心的基于上下文学习的文档信息抽取方法SAIL,用于training-free文档信息抽取任务。SAIL 利用布局相似性和实体级文本相似性与统一的提示词模板相结合,为每个测试样本构建定制化的提示词,使用不同LLM在三个数据集上均展现了优于基线的表现。

6. 更多信息

乐心怡老师本科就读于清华大学,博士毕业于香港中文大学,目前为上海交通大学自动化系副教授,主要研究基于大模型的工业感知方法及系统,个人主页为:https://automation.sjtu.edu.cn/LXY

乐老师课题组计算资源充足,研究方向前沿。目前课题组紧急招收大模型和智能体方向科研实习生。前期工作已中稿NeurIPS 2024希望进一步深化投稿期刊T-PAMIIJCV。具体工作包括协助实现LLM Agent针对复杂任务的评测,包括LLM Agent应用需求调研、数据合成方法设计和主流LLM、VLM、Agent框架评测等。

对于具备如下条件的本科生,也非常欢迎加入:

1.计算机、AI、自动化、软件工程、信息工程等理工科背景本科生;
2.学有余力,能够投入较多时间(请在邮件中注明一周可以投入的时间);
3.熟练掌握python, pytorch等编程语言和编程框架,熟悉基本的软件工程编程规范,能阅读英文论文。
联系方式及方法
请发送邮件至lene90525@gmail.com或lexinyi@sjtu.edu.cn,主题:科研实习_学校+年级+姓名,附上个人简历(学业情况、项目经历、科研经历等)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2271101.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SAP物料主数据界面增加客制化字段、客制化页签的方式

文章目录 前言一、不增加页签,只增加客制化字段二、增加物料主数据页签 前言 【SAP系统MM模块研究】 #SAP #MM #物料 #客制化 #物料主数据 项目上难免会遇到客户要在物料主数据的界面上,增加新字段的需求。 实现方式有: (1&…

ROS2软件架构全面解析-学习如何设计通信中间件框架

前言 ROS(Robot Operating System) 2 是一个用于开发机器人应用的软件平台,也称为机器人软件开发工具包 (SDK)。 ROS2是ROS1的迭代升级版本 ,最主要的升级点是引入DDS(Data Distribution Service)为基础的…

接口自动化测试流程、工具及其实践

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、接口自动化测试简介 接口自动化测试是指通过编写脚本或使用自动化工具,对软件系统的接口进行测试的过程。接口测试是软件测试中的一种重要测试类…

香橙派5plus单独编译并安装linux内核无法启动的原因分析与解决记录

1 说明 我依照官方手册编译单独编译linux内核,安装后重启出现内核启动失败的问题,编译和安装步骤如下:# 1. 克隆源码 git clone --depth1 -b orange-pi-6.1-rk35xx https://github.com/orangepi-xunlong/linux-orangepi# 2 配置源码 make rockchip_linu…

数据库知识汇总1

一. 数据库系统概述 信息需要媒体(文本、图像视频等)表现出来才能被人类所获取,媒体可以转换成比特或者符号,这些称为数据; 数据/信息的特点:爆炸式增长、无限复制、派生; 数据库是指长期长期…

Win32汇编学习笔记03.RadAsm和补丁

Win32汇编学习笔记03.RadAsm和补丁-C/C基础-断点社区-专业的老牌游戏安全技术交流社区 - BpSend.net 扫雷游戏啊下补丁 在扫雷游戏中,点关闭弹出一个确认框,确认之后再关闭,取消就不关闭 首先第一步就是确认关闭按钮响应的位置,一般都是 WM_CLOSE 的消息 ,消息响应一般都在过…

OSPF特殊区域(open shortest path first LSA Type7)

一、区域介绍 1、Stub区域 Stub区域是一种可选的配置属性。通常来说,Stub区域位于自治系统的边界,例如,只有一 个ABR的非骨干区域。在这些区域中,设备的路由表规模以及路由信息传递的数量都会大量减少。 kill 4 5类type 传递1 …

论文解读之Generative Dense Retrieval: Memory Can Be a Burden

本次论文解读,博主带来生成式稠密检索:记忆可能成为一种负担的论文分享 一、简介 生成式检索根据给定的查询,自回归地检索相关的文档标识符,在小规模的文档库中表现不错,通过使用模型参数记忆文档库,生成…

vue,使用unplugin-auto-import避免反复import,按需自动引入

项目库:https://github.com/unplugin/unplugin-auto-import 参考: https://juejin.cn/post/7012446423367024676 https://cloud.tencent.com/developer/article/2236166 背景: vue3项目中,基本所有页面都会引入vue3框架的api&…

[深度学习] 大模型学习1-大语言模型基础知识

大语言模型(Large Language Model,LLM)是一类基于Transformer架构的深度学习模型,主要用于处理与自然语言相关的各种任务。简单来说,当用户输入文本时,模型会生成相应的回复或结果。它能够完成许多任务&…

OCR图片中文字识别(Tess4j)

文章目录 Tess4J下载 tessdataJava 使用Tess4j 的 demo Tess4J Tess4J 是 Tesseract OCR 引擎的 Java 封装库,它让 Java 项目更轻松地实现 OCR(光学字符识别)功能。 下载 tessdata 下载地址:https://github.com/tesseract-ocr/…

Vue2/Vue3使用DataV

Vue2 注意vue2与3安装DataV命令命令是不同的Vue3 DataV - Vue3 官网地址 注意vue2与3安装DataV命令命令是不同的 vue3vite 与 Vue3webpack 对应安装也不同vue3vite npm install kjgl77/datav-vue3全局引入 // main.ts中全局引入 import { createApp } from vue import Da…

【JVM】总结篇-字节码篇

字节码篇 Java虚拟机的生命周期 JVM的组成 Java虚拟机的体系结构 什么是Java虚拟机 虚拟机:指以软件的方式模拟具有完整硬件系统功能、运行在一个完全隔离环境中的完整计算机系统 ,是物理机的软件实现。常用的虚拟机有VMWare,Visual Box&…

国内Ubuntu环境Docker部署Stable Diffusion入坑记录

国内Ubuntu环境Docker部署Stable Diffusion入坑记录 本文旨在记录使用dockerpython进行部署 stable-diffusion-webui 项目时遇到的一些问题,以及解决方案,原项目地址: https://github.com/AUTOMATIC1111/stable-diffusion-webui 问题一览: …

音频进阶学习九——离散时间傅里叶变换DTFT

文章目录 前言一、DTFT的解释1.DTFT公式2.DTFT右边释义1) 复指数 e − j ω n e^{-j\omega n} e−jωn2)序列与复指数相乘 x [ n ] ∗ e − j ω n x[n]*e^{-j\omega n} x[n]∗e−jωn复指数序列复数的共轭正交正交集 3)复指数序列求和 3.DTF…

【Leecode】Leecode刷题之路第99天之恢复二叉搜索树

题目出处 99-恢复二叉搜索树-题目出处 题目描述 个人解法 思路: todo代码示例:(Java) todo复杂度分析 todo官方解法 99-恢复二叉搜索树-官方解法 方法1:显式中序遍历 思路: 代码示例:&…

利用AI优化SEO提升关键词排名的有效策略

内容概要 随着数字化时代的到来,搜索引擎优化(SEO)在各类企业的在线营销战略中占据了越来越重要的位置。而人工智能(AI)技术的迅速发展为SEO带来了新的机遇和挑战。通过智能化的数据分析和智能内容生成,企…

YOLO分割数据集转化(json转TXT)

一、数据集转化 import json import os from tqdm import tqdm import glob import os.path as ospdef json_to_txt(jsonfilePath, resultDirPath):"""jsonfilePath: labelme标注好的*.json文件所在文件夹resultDirPath: 转换好后的*.txt保存文件夹""…

中建海龙:科技助力福城南产业片区绿色建筑发展

在快速发展的城市化进程中,绿色建筑以其环保、节能、可持续的特点日益受到重视。作为建筑工业化领域的领军企业,中建海龙科技有限公司(简称“中建海龙”)凭借其卓越的科技实力和创新举措,在推动绿色建筑发展方面做出了…

基于深度学习算法的AI图像视觉检测

基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展。如今,它被广泛用于图像分类、人脸识别、图像中物体的识别等。那么什么是深度学习?深度学习是如何应用在视觉检测上的呢? 什么是深度学习? 深度学习是…