文档解析效果全维度测评标准

news2024/11/14 20:44:38

TextIn文档解析测评工具,全面评测文档解析产品能力

关注TechLead,复旦AI博士,分享AI领域全维度知识与研究。拥有10+年AI领域研究经验、复旦机器人智能实验室成员,国家级大学生赛事评审专家,发表多篇SCI核心期刊学术论文,上亿营收AI产品研发负责人。

file

今天向大家介绍一款全面展示文档解析产品能力的工具——TextIn文档解析测评工具,https://github.com/intsig/markdown_tester

这个工具的主要作用是帮助需要解析PDF的用户直观地筛选出最适合自己场景的产品。

用户需求的多样性

TextIn团队在与用户的交流中发现,用户的需求非常多样化,包括年报、财报、论文、政策文件、企业内部文件、教科书、试卷和公式等。尽管所有解析产品的目标都是成为“全能选手”,但在当前阶段,各产品能力的差异仍然存在。因此,提供一个能节省用户选择和测试时间的工具是非常必要的,这也是我们推出TextIn文档解析测评工具的初衷。希望这个工具能够帮助用户更好地聚焦于业务场景。

测评指标介绍

TextIn文档解析测评工具将测评指标分为五个维度:表格、段落、标题、阅读顺序和公式。这些维度通过定量测评来展示各解析产品的具体表现。
file

工具使用方法

测评工具的使用方法非常便捷,支持上传任意样本。以下是具体的操作步骤:

安装软件包

运行以下命令安装必要的软件包:

./install.sh

样本文件组织

将待测评样本按照以下结构放置:

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

运行测评命令

使用以下命令进行测评:

python run_test.py --pred_path path_to_pred_md --gt_path path_to_gt_md

其中:

  • path_to_pred_md:预测值文件所在文件夹。
  • path_to_gt_md:真值文件所在文件夹。

示例与结果展示

TextIn官方提供了一个测试集案例来展示用法。输出结果包括表格数据结果和直观的雷达图。这款工具被称为文档解析效果评估的“瑞士军刀”,无论用户是文档处理的专家,还是有文档解析需求的用户,都能快速、高效地评估各款解析产品在业务场景下的能力。
file
file

工具公开的初衷

TextIn团队决定将这款内部使用的“瑞士军刀”公开,主要是因为近期收到越来越多的测评工具需求。在没有测试工具之前,用户评估各款解析产品效果主要依靠问答效果随机测试,并人工二次检索文档,这种方式不仅耗费人力,而且科学性低、准确度低。

在使用TextIn团队分享的测试工具后,客户不再需要“肉眼观测”解析效果。这主要是因为大语言模型的发展改变了需求和产品形态。传统的OCR技术在处理表格时,可能只输出每个单元格的位置和数值。但当用大模型来回答问题时,更需要的是表格中的数据内容,而且数据越清晰,答案的质量就越高。

评估文档解析产品

如何比较不同文档解析产品在业务场景下的表现?TextIn团队公开测评工具的目的就是将这些问题透明化。因此,在设计和优化这套工具的过程中,TextIn团队关注以下要素:

  1. 确定评测的主要目标和关键指标
  2. 选择能够准确反映性能的评价指标
  3. 减少不必要的复杂性
  4. 确保符合行业标准和最佳实践
  5. 让评价结果易于解读和理解
  6. 保持评价过程的透明度

希望TextIn团队的测评工具能够帮助大家解决评估所需产品的难题。

测评工具入口链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1942829.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AI-10】PPO算法

强化学习中的PPO(Proximal Policy Optimization)是一种流行的策略优化算法,旨在改进和稳定策略梯度方法。PPO由OpenAI提出,因其简单性和良好的性能,在许多强化学习任务中被广泛应用。 PPO框架简介 PPO是一种基于策略…

【算法专题】链表算法题

1. 链表常用操作 相信大家在学习数据结构的过程中已经接触过许多链表相关的题目了,在正式开始刷题之前,我想让大家先回顾一下过去处理链表相关问题时的一些常见操作。 首先肯定就是创建新节点了,如果使用C语言编写代码,我…

MySQL第一阶段:表关系

表关系 表关系分为一对多、多对多、一对一 表关系之一对一 一对一比如用户和用户的详细内容 一对一关系多用于表拆分,将一个实体中经常要用的字段放在一张表,不经常使用的字段放到另一张表,用于提升查询性能。 实现方式:在任…

你了解你的GD32 MCU系统主频是多少吗 ?

系统时钟是GD32 MCU的时基,可以理解为系统的心跳,片上所有的外设以及CPU最原始的时钟都来自于系统时钟,因而明确当前系统时钟是多少非常重要,只有明确了系统时钟,才能够实现准确的定时、准确的采样间隔以及准确的通信速…

【Git】(基础篇七)—— IntelliJIDEA集成Git

InteliJ IDEA集成Git 现在有很多的集成工具帮助我们写代码,使用这些工具可以帮助我们加速写代码,很多工具也可以集成git,使用图形工具管理git,相信了解了底层运行逻辑的你能够很快地上手使用这些工具,本文以InteliJ I…

嘉立创 | 将所有元件属性中间放置

单击元件属性,按鼠标右键,点击查找 点击查找全部,便选中了所有元件属性 点击布局--属性位置 便可以将属性位置改为中间

销量不振,却逆风提价,出尔反尔的宝马在作茧自缚吗?

撰稿|行星 来源|贝多财经 传统豪华汽车品牌宝马,宣布主动退出价格战。 近日,社交平台上有关宝马涨价的传闻不胫而走,引发众多网友关注。相关报道称,有业内人士在社交平台透露,因价格战导致门店亏损严重,…

Python怎样读取URL生成PDF

1. 安装依赖的exe 需要在这个网址,安装一个exe包,地址:https://wkhtmltopdf.org/ 进入网址后,点这个位置: 选择一个你的操作系统的下载链接: 安装后的exe文件: C:\Program Files\wkhtmltopdf…

C++ 栈( stack )学习

目录 1.栈 2.模拟栈 1.1.入栈( push ) 1.2.出栈( pop ) 1.3.获取栈顶元素( top ) 3.直接使用栈( stack ) 3.1.导入头文件并创建栈 3.2.栈的操作 3.2.1.入栈( push ) 3.2.2.出栈( pop ) 3.2.3.获取栈顶元素( top ) 3.2.4.获取栈中元素个数( size ) 3.2.5.判断栈是否…

【第9章】Spring Cloud之Nacos服务配置

文章目录 前言一、改造前二、服务配置1. 添加依赖2. bootstrap.properties3. Data Id 发布配置4. 项目启动 三、改造后四、更多配置项总结 前言 一、改造前 这是我们之前服务注册和发现时使用的两个服务,在application.yml定义了服务注册的一些配置信息 二、服务…

系统架构设计师①:计算机组成与体系结构

系统架构设计师①:计算机组成与体系结构 计算机结构 计算机的组成结构可以概括为以下几个主要部分:中央处理器(CPU)、存储器(包括主存和外存)、输入设备、输出设备,以及控制器、运算器、总线和…

STM32智能机器人控制系统教程

目录 引言环境准备智能机器人控制系统基础代码实现:实现智能机器人控制系统 4.1 数据采集模块 4.2 数据处理与控制模块 4.3 通信与导航系统实现 4.4 用户界面与数据可视化应用场景:机器人控制与优化问题解决方案与优化收尾与总结 1. 引言 智能机器人控…

js中的“?“/“??“以及“||“的详解(值得收藏)

前言 在JavaScript中,问号(?)通常用于三元运算符,而两个问号(??)则是空值合并运算符,用于在左侧操作数为null或undefined时,返回右侧的操作数。 1、?. (可选链运算符…

NCRE3 1-4 宽带接入技术的基本类型

提示,这一部分内容大多数是记的 xDSL数字用户线技术 分类 按照上行和下行的速率是否相同分类分为速率对称性,速率非对称性 相关缩写 ADSL( 非对称数字用户线) 利用普通电话业务(POTS)方式,提供告诉数字业务,允许保留已有的模拟电话业务的…

【c++】C++类和对象详解(下)

目录 思维导图大纲: const成员函数 取地址运算符重载 再探构造函数-初始化列表 隐式类型转换 c语言中我们了解: c中: 单参数 多参数 防止类型转换 static成员 友元 内部类 匿名对象 对象拷贝时的编译器优化 思维导图…

第11讲:变量的基本

变量的数据类型分为基本数据类型、行生数据类型还有POU实例名三种。 此处主要讨论一下基本数据类型。 基本数据类型的种类 基本数据类型的表示方法 1、布尔型、位串型、常数 2、整数型 (1)有符号整数型 SINT型,INT型,DINT型及LINT型,为有符号整数型,二进制表示的最高…

Aigtek:电压放大器的选型方法有哪些

电压放大器是电子电路中常见的元件,用于将输入电压信号放大到所需的水平。在选择适合特定应用的电压放大器时,需要考虑多个因素,包括性能要求、电源电压、带宽、噪声等。下面安泰电子将详细介绍电压放大器的选型方法,以帮助工程师…

【深入理解SpringCloud微服务】深入理解Eureka核心原理

深入理解Eureka核心原理 Eureka整体设计Eureka服务端启动Eureka三级缓存Eureka客户端启动 Eureka整体设计 Eureka是一个经典的注册中心,通过http接收客户端的服务发现和服务注册请求,使用内存注册表保存客户端注册上来的实例信息。 Eureka服务端接收的…

SQLite读取分析指南:新手也能轻松上手的实用教程

SQLite是一个轻量级的关系型数据库,目前已经更新到SQLite3版本。它不仅具有跨平台的特性而且占用的资源非常低,目标是设计来做嵌入式的。本教程将深入浅出地讲解图形化界面和python脚本来读取sqlite数据库这两种方法,从基础概念到实际应用,step by step地…

Windows定时任务实现关闭和开启声音

目录 1. 下载并放置 nircmd.exe1.1 下载 NirCmd:1.2 放置 nircmd.exe: 2. 定时关闭声音2.1 打开任务计划程序:2.2 创建基本任务:2.3 设置任务名称和描述:2.4 触发器:2.5 操作:2.6 设置程序或脚本…