使用chat-GPT接口提取合同中关键信息

news2025/1/12 16:17:09

1 业务需求

        目前公司有几千份合同,而且还会不断的增长;现在需要将合同中的关键信息提取出来给业务使用,业务现在需要将这些关键字段信息录入存档到档案系统;人工去阅读整个合同去提取这些信息,是很浪费人力的;因此,现在需要将合同给AI去识别提取指定字段信息,按照格式输出excel给业务人员进行简单的审核,然后直接导入档案系统即可;这样极大的减少了人工的浪费;合同文本和每类合同的需要提取的关键字段由业务方提供(合同文本为pdf图片格式的扫描件)

2 需求分析

        由于合同文本信息的格式为扫描件图片格式,那么第一步是需要将图片格式的pdf转换成文本格式pdf 这样程序才能解析;这一步操作只需要用现成的转换工具提前先转换好;在转换时,我发现扫描件中不够清晰的图片,或者有人工书写的文字在转换成文本文字时出现错别字;这些就会导致ai提取原文出现错误;这种情况只能是人工来处理了;所有的操作都是基于文件进行的;所以需要列举出文件列表,包括其中的状态信息;

3 方案设计

        第一步: 在上述处理完成文档转换后,(上传前需要选择合同类型)用户需要将文档上传oss云存储上,上传成功之后,使用程序按照段落分隔文档将文档数据落库;(为什么要这么做?因为调用gpt接口有token 数限制,其次也是为了提高响应速度)可批量操作;上传成功之后展示文件列表信息;

        第二步:将需要识别的合同关键字段导入到数据表中;(通过excel表格形式导入)

        第三步:触发ai识别

        分割完成后,选择需要触发识别的文档;可批量操作文档;触发ai识别按钮,这时会获取分隔好的数据获取到;然后组装PROMPT,组装的信息需要按照不同类型的合同从第二步中的数据表中获取;然后将对应合同的分隔的合同段落数据和组装好的数据拿去循环请求gpt接口,将识别结果一次落入对应的数据表;循环的请求完成后,会将识别的数据表中的数据按照合同分类依次进行数据的重新整理和组装,最后将数据落入到导出结果表中,以供数据直接导出!

        第四步:导出结果

        从解析完成的列表中选择进行导出,直接导出excel识别的结果

4 实现效果

5 总结

        整体识别准确率可以高达80%,由于合同数量比较大;业务方无法准确给出每个合同需要找得关键字段;只能根据合同的类型分类给出;这样就导致了有些字段在合同信息中根本没有提到;或者说给出的字段和合同中描述的有所区别;这样就导致了这些字段识别会不准确;还有一种情况就是,合同中干扰信息的影响导致同一个字段信息的提取出多种不同的结果;以上这种不误差,都需要人工再来一次快速的筛选。虽然不能做到100%识别准确;但是也极大程度减少了人工成本

比如:

        分包类型/维保价格/计算频次 受干扰信息影响,识别出了多个结果,需要人工对照原文进行选择;

        合同中识别不到的信息,结果是空的;(原文中没有项目地址,但需要识别);

        同一个关键字段的提取,干扰信息导致识别错误;

        (对于合同中没有的信息不应该成为识别字段)这样可以提高识别准确率;用户只需要选择多个是识别结果中准确的一个就可以了 ,如果业务做不到那就只能人工再来快速审查最终的结果;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1065695.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据库基础知识

数据库 什么是数据库, 数据库管理系统, 数据库系统, 数据库管理员? 数据库 : 数据库(DataBase 简称 DB)就是信息的集合或者说数据库是由数据库管理系统管理的数据的集合。数据库管理系统 : 数据库管理系统(Database Management System 简称 DBMS)是一种操纵和管理数据库的大…

“逆境中的经济悖论:衰退与通胀之争,解读未来的经济迷局!“

收益率和石油继续上涨,预示着通胀上升,但在经济衰退时这些东西都会下降。 美国十年期国债正在爆炸 更高的收益率意味着政府需要支付更高的利息、经济疲软、通胀更高、印钞更多,甚至收益率更高,该反馈循环的关键要素是更多印钞。 …

第二证券:买基金1w一个月能赚多少?

跟着经济的开展和出资观念的改动,越来越多的人开始出资基金,购买基金已成为普遍且盛行的出资方式之一。在这个商场中,人们最重视的问题莫过于“买基金1w一个月能赚多少?”本文将从多个角度分析这一问题,协助出资者更全…

Elasticsearch:多语言语义搜索

在此示例中,我们将使用多语言嵌入模型 multilingual-e5-base 对混合语言文档的 toy 数据集执行搜索。 使用这个模型,我们可以通过两种方式进行搜索: 跨语言,例如使用德语查询来查找英语文档在非英语语言中,例如使用德…

基于风驱动优化的BP神经网络(分类应用) - 附代码

基于风驱动优化的BP神经网络(分类应用) - 附代码 文章目录 基于风驱动优化的BP神经网络(分类应用) - 附代码1.鸢尾花iris数据介绍2.数据集整理3.风驱动优化BP神经网络3.1 BP神经网络参数设置3.2 风驱动算法应用 4.测试结果&#x…

每日一题 901. 股票价格跨度(中等,单调栈)

理解题目,对于第 i 天,要求的是前 i - 1 天所满足条件的跨度 思路: 暴力搜索的方式是,对于每一个第 i 天都遍历搜索 i - 1, i - 2,…,直到第 j 天大于当前价格优化,考虑哪里进行了…

1500*B. Zero Array(贪心数学找规律)

Problem - 1201B - Codeforces 解析&#xff1a; 因为每次减少2&#xff0c;如果总和为奇数肯定无法实现。 特例&#xff0c;如果某个数大于其他所有数的总和&#xff0c;同样无法实现。 其他均可实现。 #include<bits/stdc.h> using namespace std; #define int long l…

数学王国找寻另一半:求一个整数的真因子总和

数学王国找寻另一半&#xff0c;求一个整数的真因子总和。 (本笔记适合python字符串、列表list熟悉的 coder 翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免费“圣经”教程《 python 完全自学教程》&#xff0c;不…

基于水循环优化的BP神经网络(分类应用) - 附代码

基于水循环优化的BP神经网络&#xff08;分类应用&#xff09; - 附代码 文章目录 基于水循环优化的BP神经网络&#xff08;分类应用&#xff09; - 附代码1.鸢尾花iris数据介绍2.数据集整理3.水循环优化BP神经网络3.1 BP神经网络参数设置3.2 水循环算法应用 4.测试结果&#x…

10月7日星期六今日早报简报微语报早读

10月7日&#xff0c;星期六&#xff0c;早报简报微语早读分享。 1、中秋国庆假期国内旅游8.26亿人次&#xff0c;旅游收入7534.3亿&#xff1b; 2、2023国庆档新片票房破27亿&#xff1b; 3、石宇奇、李诗沣会师决赛&#xff0c;国羽提前包揽男单金银牌&#xff1b; 4、德国大…

前端vue 自定义组件

Vue组件的使用之props 为了提高组件的复用性&#xff0c;在封装vue组件时需要遵守如下原则&#xff1a; ① 组件的DOM结构、Style样式要尽量复用 ② 组件中要显示的数据&#xff0c;尽量由组件的使用者提供 为了方便使用者为组件提供要展示的数据&#xff0c;vue组件提供了…

【C++面向对象侯捷下】4. pointer-like classes,关于智能指针 | 5. function-like classes,所谓仿函数

文章目录 4. pointer-like classes,关于智能指针pointer-like classes,关于智能指针 shared_ptrpointer-like classes,关于迭代器5. function-like classes&#xff0c;所谓仿函数【不懂&#xff0c;跳过】 4. pointer-like classes,关于智能指针 pointer-like classes,关于智…

Postgresql中的C/C++混编(JIT)

1 Postgresql编译JIT 整体上看使用了GCC、G编译文件&#xff0c;最后用G汇总&#xff1a; GCC编译的三个.o文件llvmjit、llvmjit_deform、llvmjit_expr llvmjit.c -> llvmjit.o gcc -Wall -Wmissing-prototypes -Wpointer-arith -Wdeclaration-after-statement -…

VF11MR8M 冲销原因 小结

VF11&MR8M 冲销原因 小结 1.后台设置路径&#xff1a; SPRO->财务会计->总账会计->业务交易->调整过账/冲销->定义冲销原因 反记账&#xff1a; 2.前台操作使用01–当前期间回转 不会反记账&#xff0c;冲销凭证 过账日期 按 原凭证过账日期&#xff0…

CCF CSP认证 历年题目自练Day23

CCF CSP认证 历年题目自练Day23 题目一 试题编号&#xff1a; 202006-1 试题名称&#xff1a; 线性分类器 时间限制&#xff1a; 1.0s 内存限制&#xff1a; 512.0MB 题目分析&#xff08;个人理解&#xff09; 题目很长&#xff0c;专门吓唬人的&#xff0c;第一行输入…

安卓‘进度条ProgressBar’中‘setIndeterminate()’方法

在进度条的设置中&#xff0c;setIndeterminate()方法是用来设置进度条是否采用‘模糊模式’&#xff08;Indeterminate的意思就是‘不确定的&#xff0c;模糊的&#xff0c;不明确的’ 也就是进度是否是确定的&#xff09; 当设置setIndeterminate(true)参数为真时&#xff0c…

Compose中的Text组件

纵向布局为&#xff1a;Column 横向布局为&#xff1a;Row 设置内容 text属性设置内容。 设置权重 Modifier.weight(1.0f, true)权重设置&#xff0c;第一个参数 Float类型设置占比权重&#xff0c;第二个参数当为true时&#xff0c;元素将占据分配的整个宽度。 fontSize…

李沐深度学习记录3:11模型选择、欠拟合和过拟合

通过多项式拟合探索欠拟合与过拟合 import math import numpy as np import torch from torch import nn from d2l import torch as d2l#生成数据集 max_degree 20 # 多项式的最大阶数 n_train, n_test 100, 100 # 训练和测试数据集大小 true_w np.zeros(max_degree) # …

VMware 17pro安装流程附带密钥手把手教

VMware 17pro centos-8.5.2111-isos-x86_64安装包下载_开源镜像站-阿里云 安装VMware 17pro 下一步 勾选我接营许可协议中的条款点击下一步 更改路径后点击下一步 注意两个都要取消勾选不然会自动更新 下一步即可 最后一步为安装就行&#xff08;我电脑上有VMware 16pro所以我的…

3.绘制一个点(鼠标点击)

愿你出走半生,归来仍是少年&#xff01; 通过鼠标点击交互&#xff0c;实现在gl中绘制点。 1.知识点 1.1.点击坐标转换为Gl坐标 通过canvas的点击事件将会获得鼠标在浏览器客户区中的坐标。通过移除canvas自身位置后可获取鼠标在canvas中的点击位置。同时通过canvas的长宽将坐…