数链科技用飞桨和文心大模型打造大宗商品数字供应链系统,提升行业透明度及标准化

news2025/1/12 18:18:27

大宗商品行业市场规模巨大、关系国计民生,它的三个核心类别——能源商品、基础原材料、农副产品均在我国经济发展进程中起着举足轻重的作用。这其中,大宗商品供应链的顺畅运行和稳定发展对整个产业链的运作至关重要。

然而传统大宗商品供应链普遍存在交易环节不透明业务流程不标准两大问题:贸易链条中各个节点的信息互不相通,各自形成了信息孤岛;贸易流程中的合同、发票、货物质量、资金流转、税务等环节往往难以严格按照相关标准和规定执行,且普遍依赖人工处理交易信息。这两大问题导致了各环节信息无法交叉验证、信息流通效率低下,不仅制约了大宗商品供应链升级提效,而且行业造假、欺诈事件频频发生,严重影响行业发展。

数链科技,一家致力于用人工智能等先进科技手段实现大宗商品实时交易数字化的公司,基于飞桨文字识别开发套件 PaddleOCR、自然语言处理模型库 PaddleNLP,开发了大宗商品数字供应链智能识别与管理系统。聚焦线下单据识别场景难题,基于 PaddleNLP 的通用信息抽取模型 UIE-X (以文档智能大模型文心 ERNIE-Layout 为模型底座, ERNIE-Layout 创新性引入布局知识增强,在多个文档问答榜单登顶,为各类上层应用提供了 SOTA 模型底座),通过实现非标单据的识别及关键字段提取,破除大宗商品供应链环节信息壁垒,完善系统数据质量的同时显著提高了交易效率。

025a136b2bdcadbaa1ef49e8452dc5d8.png

以非标单据数字化为切入点

破除“不透明、不标准”信息壁垒

基于对大宗商品行业的深刻认知及对行业供应链的痛点洞察,数链科技团队敏锐地认识到,要让大宗商品交易实现升级提效,首先要让所有交易信息实现高效精准的数字化。

“传统的大宗商品供应链中,比如物流票据、合同之类的交易信息,都以实物形式存在,需要人工拍照、存档,然后人工进行信息录入。一旦出现问题,也需要人工审查、回溯图片信息。”数链科技总裁助理张越介绍,“而各个企业的单据标准常常不一样,也就是存在大量线下非标单据,这就导致人工录入单据和追溯复查的难度极大。于是我们希望能够找到一种方式,先提升非标单据数字化的效率,然后以此为切入点,推动行业的整体数字化升级。人工智能技术,就是我们的最优选。”

结合业务流程,数链科技技术团队将实现非标单据数字化的目光锁定在文字识别与信息抽取领域。然而团队调研后发现,虽然市场上已经存在文字识别技术供应商,但鲜少有针对于大宗商品供应链开发的解决方案。大宗供应链各环节都需要大量的线下表单来记录商品及其运输、交易信息。但是,企业与企业之间的单据样式存在较大差异,没有行业统一标准,而且往往机打单据与手写单据并存。不仅如此,大宗商品与其他普通商品不同,商品记录中存在大量日常生产生活中不常用的特殊字符。市场上的方案模型普遍缺乏针对特殊字符等行业数据的训练,且难以支持多种非标表单的准确识别和信息抽取归类,导致信息识别效率低,无法满足当前业务的需求。

931f47dbd6c7eaf9dddf69bb78a9c1d5.png

9986eb05df1dafe13db816fd6df6df07.png

传统非标单据示例:不同企业的汽运磅单

另一方面,采购外部供应商的产品也缺乏灵活性,系统升级改造需要花费大量时间与供应商对接调校,遇到供应商人力无法支持时,更会严重影响投入使用的进度。因此,自研一种高效灵活的产品,成为团队当务之急。

4a435b22880ed861ffed938ce27b363b.png

飞桨技术+生态

助力非标单据识别效率提升20倍

最终,团队选择基于飞桨文字识别开发套件 PaddleOCR 和自然语言处理模型库 PaddleNLP 和通用信息抽取模型 UIE-X 开展自研项目。通过 PaddleOCR 提供的丰富实用的工具库,训练针对大宗供应链非标单据识别模型,并通过 PaddleNLP 调用 UIE-X 的基础上,使用自己的数据集进行微调,极大降低训练开发成本。整体技术方案可以归纳为如下步骤:

  • 充分调研业务单据的类型,根据已有的海量的样本,明确需要提取的关键信息,设定提取的关键字规则;

  • 基于 PaddleOCR、PaddleNLP、UIE-X 进行模型分析,开发相应的关键字抽取规则;

  • 通过数据标注、模型评估进行模型训练,通过业务反馈进行规则优化。

0c11602fbd87a0a702976a84a0bc8e63.jpeg

研发流程示意图

在文字识别过程中,传统的光学字符识别过程为:图像预处理(彩色图像灰度化、二值化处理、图像变化角度检测、矫正处理等)、版面划分(直线检测、倾斜检测)、字符定位切分、字符识别、版面恢复、后处理、校对等。使用飞桨文字识别开发套件 PaddleOCR ,首先降低了入门门槛,不需要最基础的光学字符识别理论,其次 PaddleOCR 拥有丰富的组件和公开的文字检测、文字识别等一系列基础预训练模型,大大降低了 AI 入门难度。对于开发者来说,只需具备一定的 Python 开发能力即可在开源模型基础上进行测试、调优,最终短时间内完成部署上线。

自然语言处理模型库 PaddleNLP 内的跨模态文档通用信息抽取模型 UIE-X ,以文心大模型为基础,在没有专业标注团队的情况下,使用小样本训练,进行定制化开发,大量节省了标注成本。在此基础上,数链只需准备几十份合同样本,使用飞桨智能标注 PaddleLabel 进行标注、训练,最终关键信息抽取精度达到87.5%。

在部署过程中,PaddleOCR 支持 HubServing 服务,PaddleNLP 支持 SimpleServing 服务,并且支持半精度推理方式,加快推理速度,可进行一键部署。还支持 CPU、GPU 多种服务器部署,在测试过程中降低了调试难度。部署过程使用 Docker 一键安装方式,降低了运维部署负担。

最终,项目团队成功自研出大宗商品数字供应链智能识别与管理系统,在大宗商品供应链线下单据的识别场景下,实现了线下非标单据的识别及关键字段提取,极大提高了人工补录相关单据的效率。原本人工补录线下合同需要5分钟,现在只需人工确认结果及部分纠正即可,时间提升至15秒以内,识别效率达到原先的20倍。

据数链科技介绍,使用该系统的某企业信息录入人员反馈,每月业务最密集的时候,往往会有集中性的大量非标单据需要录入,通常部门中3位同事需要每天全员加班4个小时以上。现在通过使用大宗商品数字供应链智能识别与管理系统,即使是在业务最繁忙的时候,也可以告别加班,释放出了更多的人力完成更具专业性的运营工作。同时,由原先的人工录入改为机器识别,也极大增加了数据准确度。原先每季度平均会遇到10-15次信息录入错误,严重的甚至会造成付款金额错误,现在则再也没有出现过。整体提升了业务水平,让公司发展更健康。

项目在大宗供应链典型的表格识别场景下表现优秀。团队重新训练标注表格识别模型,将单行数据提取以单元格为维度进行矫正输出,最终使表格识别精度从87%上升到98%,大大提升合同中表格识别的准确率,对大宗商品业务场景中大量的表格式单据(如财报、铁路大票、发票、磅单、化验凭证等)的信息提取有重大意义。

张越表示,飞桨生态社区的存在也是团队当初选择飞桨进行开发的一个重要原因:“飞桨社区提供了比较多的产业范例,例如在图片反欺诈、签名比对等场景带给我们很多灵感和技术指导,同时还能帮助我们及时获取技术在产业应用的最新动态。不仅如此,我们在研发过程中遇到技术上的问题,也总能及时得到飞桨专业的研发团队和运营团队的相应支持。”

目前,数链科技大宗商品数字供应链智能识别与管理系统,已经实现线下合同、铁路大票、汽运磅单等非标单据的自动识别与信息提取,为1000余家煤炭、粮食等大宗商品领域不同规模的供应链企业提供商业化服务。

c41126e97f0ed64bcf6945250f6f1107.png

持续提升改进

赋能更多中小企业

谈到发展计划,张越表示,数链科技大宗商品数字供应链智能识别与管理系统将持续在两个主要方面进行升级拓展。

一是不断提升系统本身的产品力和技术力。一方面持续优化用户使用体验,让系统不仅“有用”而且“好用”,让更多客户愿意使用,共同推进行业数字化转型。另一方面扩展系统边界,尽可能多地覆盖不同类目大宗商品、不同场景业务需求,提供通用化服务。

二是结合物联网、区块链等技术,构建智慧仓储物联网平台,为大宗产品贸易中多方参与的交易流程提供防篡改、可溯源、具有公信力的存证记录。从而将供应链数据与金融服务打通,为广泛的中小型大宗商品供应链企业获得银行贷款等金融服务提供必要帮助,解决其“融资难、融资贵”的痛点。

“数链科技由具有资深大宗商品行业背景、金融背景、科技背景的高级管理人员发起成立。我们通过科技应用赋能大宗商品供应链,让大宗商品交易更透明,让中小企业融资更高效、成本更低。”张越介绍,“未来我们也希望能够和百度飞桨、文心大模型产生更多的合作,进一步提升大宗物流供应链流程自动化和智能监控的水平,并通过AI技术构建数据挖掘和风险评估模型,帮助更多中小企业获得金融支持机会。”

b75439c866bbc81c47115a6c6b351d6d.png

引入先进AI技术,为行业带来数字智能化转型,破除大宗商品行业“不透明、不标准”的壁垒已成为行业趋势。飞桨和文心大模型也将携手更多供应链服务企业持续助力行业转型升级,探索人工智能在大宗商品行业的落地路径,创造经济与社会价值。

文章参考

  • PaddleNLP UIE-X

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction/document

  • PaddleOCR

https://github.com/PaddlePaddle/Paddleocr

相关阅读

宝武中南钢铁借助飞桨让钢筋超限监控有了“火眼金睛”

长三角生物医药产业加速跑,飞桨螺旋桨为创新药企、医药技术伙伴装上AI大模型引擎

利用飞桨技术引领废钢判级行业新格局

银行智能案防:以“AI技防”堵住违规漏洞

实时性升至秒级!飞桨PaddleSpeech赋能金融双录业务走向智能化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/558182.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

测试的正向思维和反向思维

测试的正向思维和反向思维 正向思维和反向思维是两种不同的思考方式,它们在决策和问题解决中起着重要的作用。 正向思维指的是以积极、乐观的态度看待事情,从优点出发,寻找解决问题的方法和途径。正向思维的人通常更容易接受挑战,…

Guitar Pro8最新五线谱转六线谱软件

提到吉他谱的编写,有一款软件总是被第一时间想到,那就是Guitar Pro。 Guitar Pro8所开启的音乐未来,不仅仅是一种全新的学习乐器方式。更在于对整个乐队的掌控,将弦乐的悠然和打击乐的劲爆尽收其间! 同时,…

vmware安装debian 11.7.0

vmware安装debian 11.7.0 1、下载镜像2、创建并安装debian 11虚拟机2.1 选择 Graphical install2.2、选择安装过程显示语言和系统语言2.3、选择地区2.4、键盘映射2.5、设置主机名-debian2.6、设置网络-直接跳过2.7、设置root密码2.8、创建普通账户2.9、为普通账户设置密码2.10、…

ClickHouse:(一)安装部署

1.准备工作 1.2关闭防火墙 防火墙的开启、关闭、禁用命令 (1)设置开机启用防火墙:systemctl enable firewalld.service(2)设置开机禁用防火墙:systemctl disable firewalld.service(3&#x…

VIBRO-METER VM600 AMC8 8个温度或过程监控通道

VM600 AMC8模拟监控卡 8个温度或过程监控通道每个通道1个已处理输出,每个多通道1个已处理输出(每个am c8 4个)高度可配置的卡支持使用热电偶和/或RTD进行温度监控,以及使用电流和/或电压输入进行过程监控高度集成的卡对(带IOC8T)包括DC输出、继电器和串行…

麒麟V10-arm安装conan

Conan基于Python编写,故需要在开始前安装好 Python3 一. 安装Python 1. 查看Python版本 python -v 若显示Python版本,则已安装,无需再次安装。若提示没有此命令(No command python found),则表示没有安装Python。若Python版本过…

十五周算法训练营——快慢指针

今天是十五周算法训练营的第八周,主要讲快慢指针专题。(欢迎加入十五周算法训练营,与小伙伴一起卷算法) 移除元素 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数…

UDF提权(linux)

实验环境: RAVEN靶场:链接:百度网盘 请输入提取码 提取码:g6oz 攻击机:kali 2023.3 IP:192.168.126.142 关于UDF提权,需要满足的条件是 1.数据库管理员权限运行 #如果权限过低&#xff…

安装docker compose

1.定义 Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以使用 YML 文件来配置应用程序需要的所有服务,然后使用一个命令来创建并启动所有服务。Compose 有三个主要步骤: - 使用 Dockerfile 定义应用…

简历里项目经历怎么写,没有项目经历怎么办?

在撰写简历时,项目经历是一个非常重要的部分,能够有效地展示个人的能力和经验。但是,如果你没有项目经历怎么办呢?以下是一些关于如何写简历项目经历的建议,以及如何克服没有项目经历的挑战。 一、如何写简历项目经历 …

史上最详细的RACI(责任分配矩阵)使用方法及实例详解

作为PMO和项目经理一定对于RACI责任分配矩阵不陌生,但是很少有人真正用起来,RACI是一个广泛应用于项目管理的模型,用于明确角色和责任。 在项目的不同阶段或任务中,RACI模型有助于划分和理解团队成员的责任。今天咱们就为大家详细…

R语言绘制山脊图(也叫峰峦图、山峦图)

山脊图也叫也叫峰峦图、山峦图,主要是通过展示一个相同的X轴数据,可以是时间序列、基因数据等,对应不同的Y轴数据,清晰的展示不同数据见变量的关系。今天我们通过R语言来演示山脊图。需要使用到ggridges包,需要提前安装…

Hive ---- 查询

Hive ---- 查询 1. 基础语法2. 基本查询(Select…From)1. 数据准备2. 全表和特定列查询3. 列别名4. Limit语句5. Where语句6. 关系运算函数7. 逻辑运算函数8. 聚合函数 3. 分组1. Group By语句2. Having语句 4. Join语句1. 等值Join2. 表的别名3. 内连接…

vue:el-table初始化表格选中项踩坑记录/element-ui表格

问题描述 首先,element-ui表格多选功能可以参考官网示例:表格数据多选;手动在表格中选取数据、通过监听selection-change获取选中项,实现起来非常顺利~ 但在保存了选项、重新加载表格时,希望将已选项“打勾”却完全没…

这篇文章告诉你excel批量翻译有什么方法

在商业或个人领域中,我们有时需要将大量文本翻译成不同语言,例如跨国企业需要在不同的国家和地区之间进行文件传输和协作,在旅行时我们需要阅读当地语言的信息或地图。如果我们手动操作的话,是非常耗时且容易出错的,所…

知识管理、文档管理两手抓,全靠它!

知识管理和文档管理是两个相互关联的概念,两者之间的关系非常密切。知识管理是指对组织内外的知识资源进行收集、整理、存储、共享和应用的过程,旨在提高组织的绩效和创新能力。而文档管理是指对组织内外的文档资源进行收集、整理、存储、共享和应用的过…

chatgpt赋能Python-python_heading__

Python heading()方法:提高网页的SEO效果 介绍 在网页开发过程中,SEO(搜索引擎优化)是一个重要的考虑因素。网页的排名和可见性对于用户的访问和广告收益非常重要。好的SEO可以大大提高网页的可见性和流量。因此,网页…

SolVES模型生态系统服务功能社会价值评估

查看原文>>>SolVES 模型生态系统服务功能社会价值评估(基于多源环境QGIS、PostgreSQL、ArcGIS、Maxent、R语言) 目录 第一章、理论基础与研究热点 第二章、SolVES 4.0 模型运行环境配置 第三章、SolVES 4.0 模型运行 第四章、数据获取与入…

【追梦之旅】— 堆的实际应用--TopK问题

【追梦之旅】— 堆的实际应用--TopK问题😎 前言🙌堆的TopK问题的现实栗子堆的TopK思路的应用场景堆的TopK思路的具体实现fscanf函数fprintf函数堆的TopK具体实现代码:前K个数据的巧妙设置运行结果截图: 总结撒花💞 &am…

chatgpt赋能Python-python_ip地址判断

Python IP地址判断 - 从入门到精通 如果您是一个开发人员并且经常需要处理网络相关的任务,那么您一定知道 IP 地址是什么。 IP 地址(Internet Protocol Address),是网络中用于标识设备的唯一标识符。 在本篇文章中,您…