PP-OCR与文心一言强强结合,无须训练,信息抽取精度超80%!

news2024/11/18 6:20:10

fb7579dae46af08a65d1cc322c73eb83.gif

众所周知,文本图像的智能分析面临诸多挑战。首先,文本图像的场景非常多样,比如论文、书籍、说明书、合同等,模型的泛化性难以满足要求。其次,有的场景比较复杂,比如生僻字、表格和多页PDF等,模型难以达到理想的精度。最后,部署繁琐,模型部署涉及诸多技术细节,影响落地效率。

在大模型时代,LLM会带来怎样的帮助呢?

近期,我们发布了一个融合了文心一言和PP-OCRv4的文档图像信息抽取神器——PP-ChatOCRv2。一个SDK,覆盖20+高频应用场景,支持5文本图像智能分析能力和部署,包括通用场景关键信息抽取(快递单、营业执照和机动车行驶证等)、复杂文档场景关键信息抽取(解决生僻字、特殊标点、多页PDF、表格等难点问题)、通用OCR、文档场景专用OCR、通用表格识别。此外针对垂类业务场景,也支持模型训练、微调和Prompt优化。

让我们先看看效果。

81f2070e1dd7d677d4aaa8f32c0747f5.gifPP-ChatOCRv2 效果速览

PP-ChatOCRv2在线体验传送门:

https://aistudio.baidu.com/application/detail/10368

PP-ChatOCRv2有四方面特色:

  • 场景丰富:支持5种智能文本图像分析能力,覆盖20+高频应用场景,尤其针对复杂文档场景进行了专项优化。

  • 精准度高:「PP-OCR」与「文心一言」强强结合,支持 1.5万+大字库,专项优化生僻字、多页PDF、 表格等难题。无需训练即可在20+场景关键息抽取平均准确率达80%以上。

  • 一键部署:一键获取PP-ChatOCRv2离线部署SDK,助力企业快速实现工程落地。

  • 便捷开发:针对垂类业务场景,可灵活替换微调后的OCR模型,支持自定义Prompt优化。

下面我们将详细介绍这款神器的特色。

9a9f64ee6887fb67513c6332a2f86d71.png场景丰富

PP-ChatOCRv2支持的5种智能文本图像分析能力如下表所示:

7c322b675cdecaf7c3d4302d1cda00a9.jpeg

覆盖以下20+高频应用场景:营业执照、机动车行驶证、驾照、车检证、增值税发票、高速发票、商场发票、火车票、航空电子行程单(飞机发票)、快递单号、快车/出租车行程单、身份证、社保卡、银行卡、名片、身份证、社保卡、户口本、结婚证、出生证、房产证、港澳通行证、台湾通行证、保险单、银行电子回单等

此外,PP-ChatOCRv2 针对复杂文档场景进行了专项优化。

d8602091067be946835360dab1dff21b.png精准度高

PP-ChatOCRv2通用文本图像智能分析系统由OCR系统和文心大模型串联完成,OCR系统中集成了文本检测、文本识别、版面分析、表格识别等多个功能,可实现CPU/GPU上的实时预测,在通用场景上达到80%+的平均准确率。文心大语言模型可以将海量数据和知识融合,准确率高且应用广泛。

PP-ChatOCRv2的技术流程如下图所示:首先输入预测图片,送入通用OCR系统,经过版面分析后,预测图像中的文字信息和表格结构。将OCR预测出的文字、表格结构与Query之间进行向量检索,得到与Query相关的文本信息。然后送入Prompt生成器重新组合成Prompt,最终传给大模型获得预测结果。

c7c3eedbd1af76b57a0adaa46006cf76.pngPP-ChatOCRv2 技术流程图

a8687231e1ceff13a0c26db96be27ab8.png一键部署

PP-ChatOCRv2 的部署非常简单,选择好部署环境,一键获取SDK部署包。一个SDK,通过不同配置文件,完成5种智能文本图像分析任务推理。目前支持部署在Linux 操作系统,使用NVIDIA GPU和X86 CPU推理,后续规划适配到更多国产硬件,并且提供服务化部署和端侧部署能力。

8dc73488e39da401e97bfbe35a0eb28d.pngd44d1018575a824c72fb7bc1cf327ef1.png

8f57a68cb0df6473d3fb4bad469e4092.png便捷开发

除上述特色外,这款神器也提供了便捷的二次开发功能,可灵活替换微调后的OCR模型,支持自定义Prompt优化。通过UI界面点击和少量文本内容修改,即可便捷地完成二次开发:

  • Prompt优化:通过配置文件的方式暴露必要接口,开发者可以通过配置文件选择场景模版、修改few-shot指令,通过少量的代码即可完成特定场景的预处理和后处理,减小开发成本。

  • OCR模型优化:PaddleX支持用户基于自有数据进行OCR模型的训练微调,进而替换PP-ChatOCRv2中的OCR模型,获得更优的推理效果。

f0d1a3307b499b842632c19e1e712e7c.pngPrompt优化示意

5e941c2723df2ce6712b3054a0b5e7ab.pngOCR 模型微调示意

PaddleX是面向国内外主流AI硬件的,全流程、高效率的飞桨精选AI模型的一站式AI开发套件,目前覆盖10+主流AI任务下的40+精选模型全流程开发,提供了PP-ChatOCRv2、大模型半监督学习工具和PP-TSv2三大特色工具。PP-ChatOCRv2作为一个通用文本图像智能分析工具,旨在为大家带来LLM加持下的效率提升。

PP-ChatOCRv2 工具首页:

https://aistudio.baidu.com/projectdetail/paddlex/7050167

加入PaddleX官方频道,和大家一起讨论PP-ChatOCRv2开发经验,传送门:

https://aistudio.baidu.com/community/channel/610

75d197ebcc0f1ef1866f61701a2b27bc.png

7e0b43b0c7063bb5460040d2170cc259.jpeg

e054e5ed216dbfd84ed91a354635bcfc.jpeg

0513b3c948d98782793c7cd926ea5476.jpeg

e0bbef41d33052eaf8bfe0d499123ed7.gif

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1253034.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么淘宝取消双12活动?

我是卢松松,点点上面的头像,欢迎关注我哦! 淘宝取消双12活动了,这条消息犹如一颗重磅炸弹,在整个电商圈中引发了轩然大波。 不过呢,淘宝为了过度,把双12改了个名字叫“好价节”。估计是官方都…

自动化测试——自动卸载软件

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

Harmony开发 eTs公共样式抽取

Harmony系统开发使用eTs开发过程中对于样式相同且重复使用的样式可以抽取成公共样式循环利用,类似于android的style样式。 import router from ohos.router import cryptoFramework from ohos.security.cryptoFramework; import prompt from system.prompt class L…

从零开始的RISC-V模拟器开发(一)环境搭建

前言 博主这系列文章是跟随中科院吴伟老师的b站公开课:[完结]从零开始的RISC-V模拟器开发第一季2021春季_哔哩哔哩_bilibili 记录的笔记。仅供学习使用,侵删! 苦逼的博主现在自己毕设也是要设计类似的东西。哎。我需要做的是给一个现成的 R…

【从浅识到熟知Linux】基本指令之man、uname和bc

🎈归属专栏:从浅学到熟知Linux 🚗个人主页:Jammingpro 🐟每日一句:干完饭写篇博客放松一下。 文章前言:本文介绍man、uname和bc指令用法并给出示例和截图。 文章目录 man基本语法功能选项无选项…

Linux网络——网络层

目录 一.IP协议(IPv4) 二.子网划分 三.特殊的IP地址 四.IP地址的数量限制 五.私有IP地址和公网IP地址 六.路由 七.分片 一.IP协议(IPv4) IP协议:提供一种能力使得数据从一个主机发送到另一个主机的能力。 TCP协…

1、windows10系统下Qt5.12.0与卸载

一、安装包下载 1、Qt社区下载 https://download.qt.io/archive/qt/5.12/5.12.10/qt-opensource-windows-x86-5.12.10.exe 2、百度网盘下载 链接:百度网盘 请输入提取码 3、Qt官网下载: Try Qt | 开发应用程序和嵌入式系统 | Qt 二、安装提示 下…

SQL 中的运算符与别名:使用示例和语法详解

SQL中的IN运算符 IN运算符允许您在WHERE子句中指定多个值,它是多个OR条件的简写。 示例:获取您自己的SQL Server 返回所有来自’Germany’、France’或’UK’的客户: SELECT * FROM Customers WHERE Country IN (Germany, France, UK);语…

基于减法平均算法优化概率神经网络PNN的分类预测 - 附代码

基于减法平均算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于减法平均算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于减法平均优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神…

大数据技术之数据安全与网络安全——CMS靶场(文章管理系统)实训

大数据技术之数据安全与网络安全——CMS靶场(文章管理系统)实训 在当今数字化时代,大数据技术的迅猛发展带来了前所未有的数据增长,同时也催生了对数据安全和网络安全的更为迫切的需求。本篇博客将聚焦于大数据技术背景下的数据安全与网络安全&#xff…

多项式求和之十二

题目描述 给定程序中函数 fun 的功能是:计算 sf(-n)f(-n1)…f(0)f(1)f(2)…f(n)的值。 f(x)函数定义如下: 输入格式 输入参数。 输出格式 计算公式返回的结果。 输入输出样例 输入1 5 输出1 10.407143 def fun(n):"""s f(-n) …

Facebook的特点优势

Facebook作为全球最大的社交媒体平台之一,同时也是最受欢迎的社交网站之一,Facebook具有许多独特的特点和优势。本文小编将说一些关于Facebook的特点及优势。 1、全球化 Facebook拥有数十亿的全球用户,覆盖了几乎所有国家和地区。这使得人们…

【Spring配置】properties yml配置文件

前言 SpringBoot的配置文件有三种格式 1.properties 2.yaml 3.yml(yaml的简写) (yml和yaml是同一个) 事实上,springboot只支持3个文件. 1. application.properties 2. application.yaml 3. application.yml 如果项目中同时存在properties和yml配置文件,两个同时生效,但是pr…

Linux关于定时任务crontab相关知识了解配合理解shell反弹远程控制

Linux关于定时任务crontab相关知识了解配合理解shell反弹远程控制 几点需要知道的信息 【1】crontab一般来说服务器都是有的,依赖crond服务,这个服务也是必须安装的服务,并且也是开机自启动的服务,也就是说,他基本上是…

接收网络包的过程——从硬件网卡解析到IP层

当一些网络包到来触发了中断,内核处理完这些网络包之后,我们可以先进入主动轮询 poll 网卡的方式,主动去接收到来的网络包。如果一直有,就一直处理,等处理告一段落,就返回干其他的事情。当再有下一批网络包…

LeetCode Hot100 226.翻转二叉树

题目: 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 递归:深度优先遍历 迭代:广度优先遍历 方法:迭代 class Solution {public TreeNode invertTree(TreeNode root) {if (root null…

vue3 tab切换 动态组件

vue3 tab切换 动态组件 先看一张图 具体代码: 组件实例信息 如果你把组件实例放到Reactive Vue会给你一个警告:Component which was made a reactive object. This can lead to unnecessary performance overhead, and should be avoided by markin…

leetCode 1080.根到叶路径上的不足节点 + 递归

给你二叉树的根节点 root 和一个整数 limit ,请你同时删除树中所有 不足节点 ,并返回最终二叉树的根节点。假如通过节点 node 的每种可能的 “根-叶” 路径上值的总和全都小于给定的 limit,则该节点被称之为 不足节点 ,需要被删除…

【教学类-06-07】20231124 (55格版)X-Y之间“加法+题” (以10-20之间为例)(正序+逆序,题目多)

作品展示 上下两套题目不一样 背景需求 在大四班里,预测试55格“5以内、10以内、20以内的加法题、减法题、加减混合题”的“实用性”。 现场发现,只打印一份20以内加法减法混合题。 “这套20以内的加减法最难,谁会做?”&#x…

Linux基本指令及周边(第二弹)

文章目录 前言echo命令重定向more命令less指令(重要)head指令tail指令时间相关的指令Cal指令find指令:(非常重要) -namegrep指令.zip/unzip指令:tar指令(重要):打包/解包…