打工人好用的大模型问答,还需要一款可靠的文档解析工具

news2024/9/26 3:29:49

如果说三四年前,我们对AI的展望还停留在科幻片的话,现在,通向AI智能的路径已经初现端倪。各行各业的朋友们不约而同地嗅到了大模型带来的生产方式变革气息。

LLM宣布了AI时代的正式到来。

2022年11月30日,ChatGPT发布,向我们展示了技术的颠覆性潜力,生成式人工智能一夜爆火,ChatGPT月活用户在两月内突破1亿。23年,国内外科技大厂、初创企业纷纷入场,打造“AI”之年。

LLM的落地应用,正在迅速推动各领域工作方式的变革。我们不禁要问:AI会取代我们?还是让我们变得更高效?

埃森哲2023年的研究报告指出,所有行业中 40% 的工作时间都将得到大语言模型的协助。其主要原因在于,语言任务占到了企业人员工作总时长的 62%,让AI成为副手协同作战,将重塑打工人的工作方式,通过自动化技术大幅度提升生产力。

愿景在前,行则将至。当前,在咨询建议、内容创建等常用领域,已经有许多小伙伴开始尝试给自己配备一位“AI助手”了。在常规性知识问答之外,各个细分领域的专业性问答对打工人而言更加实用。合小研在阅读长篇幅论文、报告的时候,就经常需要大模型来完成一些综述、概括、辅助分析的工作,因此,我们非常关心一个问题:如果我提供一系列资料,目前大模型能为我反馈正确、精准的专业信息吗?

1 知识问答,大模型的表现怎么样?

在文档交互中,我们需要大模型实现的功能包括:根据文件完成知识问答,给出关联信息建议,以及提供专业性分析参考等。

多数企业的工作环境中,存在大量电子档、扫描档文件,而全人工阅读分析,往往会造成不必要的时间成本消耗。尤其在面对扫描或图片文档时,常规办公软件无法完成关键词检索,导致信息收集更为不便。

对话AI可以帮助我们解决这个问题吗?

最近,合小研以国内某自然语言大模型为例进行了简单的测试。该模型处于国内第一梯队水平,合小研的小伙伴们平时也经常在工作中使用。

1.1 企业年报

首先,合小研上传了一份长度100页的扫描版企业年报(部分),并提出问题:根据文本内容,该公司在什么时间,在哪里上市,营业期限到什么时候?

大模型给出了正确的回答。

继续追问一个问题:根据报告,企业与客户间的销售商品合同包含什么内容?

大模型同样给出了答案。与原文档进行比对,回答详细且全面。

可见,在年报等长文档信息提取方面,大模型能够为我们提供有效的分析辅助。

1.2 经济报告

我们来尝试一份包含数据与图表的经济报告。上传报告后,合小研提出问题:依据报告,美国CPI食品的1月官方值是多少?

大模型告诉我:根据您提供的文件内容,报告中并没有直接提供美国CPI食品的1月官方值。如果需要1月的具体数值,可能需要查阅其他官方数据发布渠道或等待官方数据的公布。

然而,如果进行人工检索,我们将在报告中获得如下表格,标明了CPI食品的1月官方值。

为什么大模型对这一信息读取失败?

1.3 期刊论文

上传扫描版论文后,我们提出具体问题:根据所给文件,精氨酸在40度的水中,溶解度是多少?

大模型表示:文档中并没有直接提供精氨酸在40℃时的具体溶解度数值。同时,它补充道:如果文档中确实包含了40℃的溶解度数据,但由于文档不完整或扫描不清晰导致无法读取,请提供更详细的信息或完整的文档,以便进行准确回答。

但是,在人工阅读的情况下,我们可以看到清晰的有线表格,提供上述信息。

再一次,大模型无法找到相应的关键信息,并给出准确答案。

在实际工作场景中,我们需要识别的文件是多样、复杂的,其中既有清晰且便于机器读取的纯文字电子文件,也可能包含大量形式的图表,或来源时期不一的纸质扫描档、模糊或扭曲页面。当我们使用大模型作为工作助手,准确且稳定的输出是不可或缺的要素,当前的内容生成,显然需要进一步提升。

2 大模型回答不理想,原因何在?

在简短的测试里,我们考察了大模型对企业年报、经济报告以及期刊论文三份类型文件的问答效果,其中两项回答并不理想,无法为我们提供准确的内容。

发现这个问题后,合小研咨询了合合团队中的产品研发小伙伴们,试图推测可能的问题成因。

产品同学秒回合小研:用我们的文档解析工具把PDF转成Markdown格式了,你再发给大模型试试。

将转化后的经济报告发送给大模型,我们再次提出相同的问题。

这一次,大模型清晰地给出了正确答案。

在期刊论文案例中,有线表格中细节信息同样得到了正确提取。

产品同学表示:这说明就是文档解析环节出的问题,之前大模型没能从你给的文件里识别到需要的信息。我们的解析工具把图片格式、各类表格都精准识别,转化成机器可读格式,大模型就能给出正确答复了。

我们了解到,业界实践中,目前的问答产品落地存在几大挑战:

第一,文档识别失败率高。面对复杂版面,无法正确解析,获取标题、分块文本、图表等。在这种情况下,大模型常表现为细节信息提供答案失败或回答错误。

第二,逻辑结构解析不完整。段落语义划分错误,导致回答不全面或总结性偏差。

第三,召回效果差。可能由于训练数据不平衡,影响模型检索召回能力。

而面对前两种问题,稳定准确的文档解析工具将大大提升大模型的应答能力,优化用户体验。

3 专业文档解析工具,有效增强大模型的问题解决能力

专业的文档解析是如何实现的?为什么它对大模型如此重要呢?

针对这些问题,我们需要理解PDF解析与大模型的阅读方式。

目前,主流专业产品采用的路线结合了PDF提取技术与OCR识别技术。其中,PDF提取技术主要用于处理PDF格式的文档,通过直接解析PDF文件的结构来提取文本和其他内容;其优点是处理速度快,适合于结构简单的PDF文档,但在处理复杂布局或包含大量图表、图片的文档时,准确率可能较低。OCR(Optical Character Recognition)技术通过扫描文档图像,识别其中的文字信息。这种技术适用于各种格式的文档,特别是扫描的纸质文档或图像格式的电子文档。OCR技术可以处理复杂布局的文档,但处理速度相对较慢,且对图像质量有一定要求。

合合信息的文档解析工具在此基础上对文件进行阅读顺序还原,支持多种格式的输出,在信息识别这一环节提供给大模型最“舒适”的序列文字。

文档解析是文档问答类大模型产品不可或缺的底层工具,并对产品质量有着重要的影响。在上文的测试中,大模型读取失败的信息分别来自文档中以图片格式存在的数据,与扫描档有线表格,同样也是文档解析环节中的难点。

由此可知,大模型应用场景下,一款好用的PDF解析工具,至少需要具备三个特性:速度快、精度高、兼容性好。在文档解析这一专精领域,合合信息凭借先发优势,积累了丰富的版式识别能力,能够实现元素检测准确,阅读顺序还原准确与高效的快速识别。

美国管理学家劳伦斯·彼得提出的木桶理论在AI纪元仍然适用。一款用户体验良好的大模型问答产品,需要全面的技术底座,方能成为改革工作模式、推广落地场景的利器。如何打造真正适用、实用,让打工人觉得好用的产品,也是合小研的小伙伴们,以及更多AI从业者不断思考探索的问题。理想产品的打造,要从每一个技术难关的攻克开始,而专业的文档解析工具,正是我们的突破点之一。

4 如何试用文档解析工具

合合信息文档解析产品已经上架到TextIn平台,任何开发者都可以注册账号并开通使用。

访问链接:https://www.textin.com/market/detail/pdf_to_markdown

点击【免费体验】,即可在线试用,如下图所示:

如果想试试用代码调用,也可以访问对应的接口文档内容:

https://www.textin.com/document/pdf_to_markdown

平台提供了一个Playground,帮开发者们预先调试接口。

点击页面中【API调试】按钮,即可进入调试页面。

在这里可以简单配置一些接口参数,发起调用后,右侧就会出现调用结果。

如果想用python调用,既可以参考平台上的通用示例代码,也可添加本文最后的二维码,获取更全面的demo代码。

文档解析产品目前正处于内测阶段。正式产品通常有1000页的免费试用额度,在内测期间,平台给每位开发者提供每周7000页的额度福利,关注公众号《合研社》即可领取。欢迎大家与我们团队多多交流,提出意见或建议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1705742.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

牛客NC362 字典序排列【中等 DFS Java/Go/PHP】

题目 题目链接: https://www.nowcoder.com/practice/de49cf70277048518314fbdcaba9b42c 解题方法 DFS,剪枝Java代码 import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回…

SaltStack

SaltStack 官方文档 1.简介 作用:批量处理状态管理(配置管理)事件驱动(通过事件触发操作)管理私有云/公有云 yum仓库:http://repo.saltstack.com 安装1.master和minionrpm --import https://repo.saltproj…

政府鼓励社会力量建设气膜体育场馆—轻空间

2023年12月1日,国家体育安全总局发布的《关于政协第十四届全国委员会第一次会议第00374号(文体宣传类020号)提案答复的函》中指出,2016年和2020年国务院发布的文件中均涉及推动气膜场馆建设及完善装配式建筑相关政策。下一步&…

Git学习篇

目录 使用命令导入项目 使用命令导入项目 1. 使用git init 命令初始化一个新的Git仓库。 git init 是 Git 命令,用于初始化一个新的 Git 仓库。当您想要开始跟踪一个新项目的版本控制时,可以运行 git init 命令来初始化一个空的 Git 仓库。 如果出现以下…

项目文件上传宝塔后只有一个文件内容不同且没有报错该如解决?

一、遇到此类问题不要慌先检查文件是否上传正确; 二、检查文件是否可以在浏览器中正常运行; 三、检查文件是否存在某些不明显的报错; 四、检查此页面的是否存在代码错误; 五、标签链接是否错误; 我所遇到的错误是…

白酒:不同产地白酒的风格特点与比较

云仓酒庄豪迈白酒,作为中国白酒的一部分,其风格特点深受产区的影响。不同产地的白酒,由于自然环境、酿造工艺等因素的差异,形成了各自与众不同的风味和特点。下面让云仓酒庄豪迈白酒来比较一下不同产地白酒的风格特点。 首先&…

使用Python操作Jenkins

大家好,Python作为一种简洁、灵活且功能丰富的编程语言,可以与各种API轻松集成,Jenkins的API也不例外。借助于Python中的python-jenkins模块,我们可以轻松地编写脚本来连接到Jenkins服务器,并执行各种操作,…

香橙派 AIpro开发板开箱测评(代码开源)

前言:有幸能够收到一块梦寐以求的 AI 边缘计算开发板 OrangePi AIpro,非常感谢官方大大给予的宝贵机会。OrangePi AIpro是香橙派官方跟华为昇腾合作的新一代边缘计算产品,其使用华为昇腾 AI 技术路线,搭配集成图像处理器&#xff…

odoo17 hooks使用

odoo17 hooks函数: 1、pre_init_hook 安装引擎开始前执行的函数 2、post_init_hook 安装引擎开始后执行的函数 3、uninstall_hook 卸载执行的函数 以pre_init_hook为例: 1)hooks.py 定义函数: 2)init.py引用定义的函数 3)manifest…

RabbitMQ不完整的笔记

同步的不足 1、拓展性差,当要添加功能时,需要在原来的功能代码上做修改,高耦合。 2、性能下降,调用者需要等待服务提供者执行完返回结果后,才能继续向下执行 3、级联失败,由于我们是基于OpenFeign调用交易…

江协科技STM32学习-0 购买套件

前言: 本文是根据哔哩哔哩网站上“江协科技STM32”视频的学习笔记,在这里会记录下江协科技STM32开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了江协科技STM32教学视频和链接中的内容。 引用: STM32入门教程-2023版 细致讲…

芋道源码 / yudao-cloud:前端技术架构探索与实践

摘要: 随着企业信息化建设的深入,后台管理系统在企业运营中扮演着至关重要的角色。本文将以芋道源码的yudao-cloud项目为例,深入探讨其前端技术架构的设计思路、关键技术与实现细节,并分享在开发过程中遇到的挑战与解决方案。 一、…

《Python编程从入门到实践》day34

# 昨日知识点回顾 json文件提取数据、绘制图表渐变色显示 # 今日知识点学习 第17章 17.1 使用Web API Web API作为网站的一部分,用于与使用具体URL请求特定信息的程序交互,这种请求称为API调用。 17.1.1 Git 和 GitHub Git:分布式版本控制系…

Java语言ADR药物不良反应系统源码Java+IntelliJ+IDEA+MySQL一款先进的药物警戒系统

Java语言ADR药物不良反应系统源码JavaIntelliJIDEAMySQL一款先进的药物警戒系统源码 ADR药物不良反应监测系统是一个综合性的监测平台,旨在收集、报告、分析和评价药品在使用过程中可能出现的不良反应,以确保药品的安全性和有效性。 以下是对该系统的详细…

【职业教育培训机构小程序】教培机构“招生+教学”有效解决方案

教培机构“招生教学”有效解决方案在数字化转型的浪潮中,职业教育培训机构面临着提升教学效率、拓宽招生渠道、增强学员互动等多重挑战。小程序作为一种新兴的移动应用平台,为解决这些痛点提供了有效途径。 一、职业教育培训机构小程序的核心功能 &…

当传统文化遇上数字化,等级保护测评的必要性

第二十届中国(深圳)国际文化产业博览交易会5月23日在深圳开幕。本届文博会以创办20年为契机,加大创新力度,加快转型升级,着力提升国际化、市场化、专业化和数字化水平,不断强化交易功能,打造富有…

[数据集][目标检测]RSNA肺炎检测数据集VOC+YOLO格式6012张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):6012 标注数量(xml文件个数):6012 标注数量(txt文件个数):6012 标注…

[集群聊天服务器]----(十一) 使用Redis实现发布订阅功能

接着上文,[集群聊天服务器]----(十)Nginx的tcp负载均衡配置–附带截图,我们配置nginx,使用了多台服务端来提高单机的并发量,接下来我们回到项目中,思考一下,各个服务端之间怎么进行通信呢? 配置…

专业145+总410+成电电子科技大学858信号与系统考研经验电子信息与通信工程,抗干扰,空天,资环,真题,大纲,参考书。

今年考研总分410,专业课858信号与系统145,顺利上岸成电,毕设已经搞得七七八八,就等毕业了,抽空整理回顾一下去年的复习,给群里的同学提供一些参加,少走弯路,对于整体复习的把握有个大概得规划。…

Unity 之 Android 【获取设备的序列号 (Serial Number)/Android_ID】功能的简单封装

Unity 之 Android 【获取设备的序列号 (Serial Number)/Android_ID】功能的简单封装 目录 Unity 之 Android 【获取设备的序列号 (Serial Number)/Android_ID】功能的简单封装 一、简单介绍 二、获取设备的序列号 (Serial Number) 实现原理 1、Android 2、 Unity 三、注意…