探索生成式AI在文档处理中的应用:llm Whisperer

news2024/9/23 19:14:53

image.png

在现代科技的快速发展中,生成式人工智能(Generative AI)正逐渐改变我们处理文档的方式。虽然许多生成式AI模型在处理文档时表现出色,但面对复杂文档时,大多数开源模型仍显得力不从心。甚至连GPT-4在某些情况下也会遇到困难,特别是在没有预处理管道的情况下。这种情况下,用户往往会感到十分痛苦,尤其是当文档中包含表格、图像或复杂数据时。

什么是复杂文档?

复杂文档通常指的是包含表格、图像或复杂数据的文档。这些文档不仅仅是简单的文本,而是需要处理和解析更多信息。在这种情况下,普通的生成式AI模型往往无法准确理解和处理这些内容。

介绍llm Whisperer

llm Whisperer是一款专门用来处理复杂文档的工具,它使得与复杂文档的交互变得更加轻松。llm Whisperer不仅能够处理这些复杂文档,而且操作起来非常简单。在本文中,我们将深入探讨这款工具,并了解其强大功能。

为什么选择llm Whisperer?

生成式AI的输出质量取决于输入数据的质量,即所谓的“垃圾进,垃圾出”(Garbage In, Garbage Out)原则。因此,不能简单地将文档丢给生成式AI模型,而是需要一个工具来进行数据清理和预处理。llm Whisperer正是这样一款工具,它不仅可以进行数据清理和预处理,还能够保留文档的布局。

保留布局的重要性

在处理文档时,布局的保留非常重要。如果简单地将文档丢给生成式AI模型,可能会导致布局丢失。此外,如果文档中包含复选框和单选按钮,那么大多数处理管道都无法正确处理这些内容。而llm Whisperer在处理这些方面表现得非常出色,能够正确读取复选框和单选按钮的值,从而准确解析文档内容。

自动模式切换

llm Whisperer还具备自动模式切换功能。这意味着在处理文档时,如果文本模式提取失败,工具会自动切换到OCR模式(光学字符识别模式),无需用户担心提取模式的问题。这大大提高了文档处理的效率和准确性。

自动压缩

使用生成式AI处理文档时,输入的tokens越多,处理时间越长,成本也越高。llm Whisperer可以进行自动压缩,将不必要的tokens压缩,同时保留布局。这不仅节省了时间,还降低了成本。

可控的预处理

为了获得最佳结果,用户可以控制扫描图像的预处理。例如,可以选择中值滤波或高斯模糊,这些参数可以通过API进行调整。llm Whisperer还提供RESTful API,用户可以使用API密钥进行部署,非常便捷。

实际操作演示

LLMWhisperer: Make Complex Document Data Ready for LLMs

让我们实际操作一下llm Whisperer,看看它的强大功能。首先,注册一个免费账户,登录后进入演示操场。在右侧可以上传任何文档,或者使用提供的示例文档。我们先尝试上传一个包含表格的PDF文档。

上传PDF文档

上传表格PDF文档后,点击提交,工具会自动提取文本。我们可以看到,llm Whisperer非常准确地识别了表格内容,尽管表格线条没有显示,但所有数字和符号都非常准确,包括逗号和括号。即使是复杂的表格,llm Whisperer也能处理得非常好。

处理收据图像

我们再试试处理一张收据图像。收据通常很难读取,但llm Whisperer同样表现得非常出色,准确地提取了所有信息,包括GST税率。

image.png

处理手写表单

最后,我们试试处理一张手写表单。手写表单中包含日期和复选框,llm Whisperer准确识别了手写日期和选中的复选框,表现非常令人印象深刻。

image.png

结论

llm Whisperer是一款非常强大的工具,能够处理各种复杂文档,保留布局,自动切换模式,压缩不必要的tokens,提供RESTful API,以及用户可控的预处理功能。无论是处理表格、收据还是手写表单,llm Whisperer都表现得非常出色。

关注我,每天带你开发一个AI应用。每周二四六直播,欢迎多多交流。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2050606.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

性能测试-性能监控分析与调优(三)《实战-CPU瓶颈分析、内存问题分析、gc、tomcat性能调优,数据库监控-redis\mysql》

性能监控 使用命令监控 cpu瓶颈分析 top命令 在进行性能测试时使用top命令,界面如下 上图可以看出 - CPU 概况区: %Cpu(s): - us(用户进程占用CPU的百分比), 和 sy(系统进程占用CPU的百分比) 的数…

【16】暴力递归改dp(上)

目录 一.机器人问题 二.最少硬币问题 一.机器人问题 题目:N表示位置1-N,S表示机器人开始位置,e表示结尾位置,k表示机器人必须走k步,问一共有多少种方法? 情况: 如果第1个位置,下次…

交通感知与车路协同系统-计算机毕设Java|springboot实战项目

🍊作者:计算机毕设残哥 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目、 源…

PHP—MySQL(PHP连接数据库)

目录 【学习目标、重难点知识】 【学习目标】 【重难点知识】 二、PHP 和 MySQL 的合作方式 三、PHP连接数据库 3.1、MySQLi拓展 ​编辑 3.2、建立与数据库的连接 (4)创建SQL语句 (5)获取结果 (6&#xff09…

STM32(二):GPIO

GPIO(General Purpose Input Output)通用输入输出口 1.可配置为8种输入输出模式,引脚电平:0V~3.3V,部分引脚可容忍5V,输出模式下可控制端口输出高低电平,用以驱动LED、控制蜂鸣器、模拟通信协议输出时序等,输入模式下…

在vscode使用markdown格式、自动补齐、以及快捷键

在扩展中搜索markdown all in one,下载使用即可。

人工智能在网络安全中的三大支柱

人工智能 (AI) 席卷了网络安全行业,各种供应商都在努力将 AI 融入其解决方案中。但 AI 与安全之间的关系不仅仅在于实现 AI 功能,还在于攻击者和防御者如何利用该技术改变现代威胁形势。它还涉及如何开发、更新和保护这些 AI 模型。如今,网络…

【qt】基于tcp的服务端编写

实现服务端,连接后拿到客户端ip地址和端口号 ui设计 修改对应行编辑对象名,修改客户端ip为clientip,客户端端口号为clientport 代码实现 1.网络通信需要加network 2.包含头文件 3.定义一个QTcpserver变量,并初始化 4.服务端监听&#…

字符串String概述,遍历字符串

String的注意点 字符串的内容是不会发生改变的,它的对象在创建后不能被更改 string是Java定义好的一个类,定义在java.long包中,所以使用的时候不需要导入包。 Java程序中的所有字符串文字(例如“abcdefg”)&#xf…

【Go语言初探】(二)、项目文件结构和GOPATH设置

一、go语言项目文件结构 由go/bin、go/src和go/pkg三个子文件夹组成,见下图: 实际项目: 二、gopath路径变量设置 在项目中创建main.go文件后,IDE会提示设置GOPATH路径: 点击“configure GOPATH”,设置GOP…

酒项目加密封装步骤;linux查看IP地址,查看MAC地址, 查看CPU序列号

线上酒项目为例 目录 线上酒项目为例 第一步 第二步 linux查看IP地址 查看MAC地址 方法1: 方法2: 方法3: 查看CPU序列号 为什么不用物理机的不同虚拟机的cpu序列号是相同,给我们的各个系统都是相同的 第一步 在maven模块分层上进行加密&#x…

15:【stm32】时钟树

时钟树 1、时钟树1.1:简要的介绍1.2:基本结构1.2.1:stm32的内部结构1.2.2:树的关键节点1.2.3:系统时钟的来源 2、RCC标准库编程2.1:片上外设的复位与释放2.2:时钟系统配置2.3:时钟树…

算法:DFS之记忆化搜索

目录 记忆化搜索 题目一:不同路径 题目二:最长递增子序列 题目三:猜数字大小II 题目四:矩阵中的最长递增路径 记忆化搜索 说到记忆化搜索,首先就需要引入斐波那契数这道题,非常经典,可以很…

第44课 Scratch入门篇:无限画中画

无限画中画 故事背景: 无止境的显示一幅画。 程序原理: 利用多张基本一样的图,不停循环显示,产生视觉上的错觉,原理很简单,只是一种实现方式而已。 开始编程 1、删除预设的猫咪角色,上传以后在那个无限循环的图片,大小为 480*360 2、接下来复制造型,使用选择工具…

.net 8.0 下 Blazor 通过 SignalR 与 Winform 交互

定义一个Hub using Microsoft.AspNetCore.SignalR;namespace Beatrane.Connect.Blazor {public class DeviceHub : Hub{public async Task SendMessage(string user, string message){await Clients.All.SendAsync("ReceiveMessage", user, message);}public async …

静态分析、动态调试与重打包:去除Android APK烦人广告

最近,一直使用的某款APP,广告越来越多,更令人发指的是,广告弹框最后都变成无法关闭的形式,不使用会员压根没法正常使用。应用市场广大用户的评论说出了我们的心声。 虽说充会员可以免广告,这点小钱&#xf…

《python语言程序设计》2018版第7章第7题代数2x2线性方程式设计一个名为LinearEquation

#大家可以看一下 两道题的内容 第n次刷第4章第3题的代码。朝纲用来函数的概念 def judge_num(a, b, c, d):return (a * d) - (b * c)def run_cont(a, b, c, d, e, f):cc judge_num(a, b, c, d)if cc 0:print("The equation has no solution")else:x ((e * d) - (…

苹果手机怎么清理重复照片的解决方案

随着智能手机摄像头技术的飞速发展,我们越来越依赖iPhone来记录生活中的点点滴滴。不可避免地,这也导致了大量重复照片的产生,这些重复照片不仅占用了宝贵的存储空间,还使得照片库显得混乱无序。本文将介绍苹果手机怎么清理重复照…

微信小程序开发的强大助力:HTTP 虚拟专线

​编辑 一、微信小程序开发的热潮与挑战 二、HTTP 虚拟专线的引入 三、HTTP 虚拟专线的关键功能 (一)用于回调 (二)助力运维 四、HTTP 虚拟专线的技术优势 (一)80 和 443 端口的灵活访问 &#xff0…

测试架构师技能修炼---关系化透明

目录 一、该信任时就给别人信任 二、你说的话长久不变 三、道歉表明你的透明化 四、学会在做出反应前倾听 五、允许别人对你透明化 它涉及与别人之间的关系应保持透明化,包括给别人信任;持续给别人传递一致的消息;向别人道歉&#xff1b…