python实现发票信息识别和处理

news2025/1/27 19:38:29

公司需要发票报销,一定周期的发票攒在一起,处理报销单特别繁琐,遂萌生用python简化报销流程。

明确需求

公司报销单需要发票代码(短码),金额,总计金额,如下图
在这里插入图片描述

开始编码

首先需要一个读取pdf的类库
pdfplumber

pip install pdfplumber

这个类库可以把pdf的文件读出来,然后需要正则库re,找到指定字段,再把处理好的数据写入到Excel,需要pandas类库,详细代码如下

def extract_invoice_data(pdf_path):
    # 定义正则表达式模式
    amount_pattern1 = r'¥\s*(\d+\.\d{2})'
    amount_pattern = r'(小写)¥(\d+\.\d{2})'

    with pdfplumber.open(pdf_path) as pdf:
        # 通常情况下,这些信息都在第一页,但可以遍历所有页面以确保正确提取
        for page in pdf.pages:
            text = page.extract_text()
            if text:
                # 匹配发票号码
                invoice_number_pattern = re.compile(r'发票号码\s*[::]\s*(\d+)')
                invoice_number_match = invoice_number_pattern.search(text)
                invoice_code_match = invoice_number_match.group(1) if invoice_number_match else None
                # 如果找不到发票号码,尝试匹配一串20位或12位的数字
                if not invoice_code_match:
                    backup_invoice_number_pattern = re.compile(r'\b\d{20}\b')
                    backup_invoice_number_match = backup_invoice_number_pattern.search(text)
                    invoice_code_match = backup_invoice_number_match.group(0) if backup_invoice_number_match else None
                if not invoice_code_match:
                    backup_invoice_number_pattern = re.compile(r'\b\d{12}\b')
                    backup_invoice_number_match = backup_invoice_number_pattern.search(text)
                    invoice_code_match = backup_invoice_number_match.group(0) if backup_invoice_number_match else None

                if invoice_code_match is None:
                    print(pdf_path + '::发票代码未找到')
                    continue

                # 匹配金额
                amount_match = re.search(amount_pattern, text)
                if amount_match is None:
                    amount_match = re.search(amount_pattern1, text)
                if amount_match is None:
                    print(pdf_path + '::金额未找到')
                    continue

                if invoice_code_match and amount_match:
                    invoice_code = invoice_code_match
                    amount = amount_match.group(1)
                    return invoice_code, float(amount)  # 注意这里将金额转换为浮点数

    return None, None
def process_pdf_files(directory_path):
    # 获取目录中的所有文件
    files = [f for f in os.listdir(directory_path) if f.endswith('.pdf')]

    data = []

    # 更新进度条的最大值
    progress_bar["maximum"] = len(files)

    # 遍历文件列表
    for i, file_name in enumerate(files):
        pdf_path = os.path.join(directory_path, file_name)
        invoice_code, amount = extract_invoice_data(pdf_path)
        if invoice_code and amount:
            data.append({
                '文件名': file_name,
                '发票号码': invoice_code,
                '金额合计': amount
            })
        else:
            print(f"未从文件 {file_name} 中找到有效的发票号码或金额")

        # 更新进度条
        progress_bar["value"] = i + 1
        root.update_idletasks()

    # 将数据转换为DataFrame
    df = pd.DataFrame(data)

    # 计算金额合计的总和
    total_amount = df['金额合计'].sum()

    # 创建一个包含总计行的新DataFrame
    summary_row = pd.DataFrame({
        '文件名': ['总计'],
        '发票号码': [''],
        '金额合计': [total_amount]
    })

    # 使用concat函数合并原始DataFrame和总计行
    df = pd.concat([df, summary_row], ignore_index=True)

    # 写入Excel文件
    output_file = os.path.join(directory_path, 'output.xlsx')
    df.to_excel(output_file, index=False, engine='openpyxl')

    # 提示完成
    messagebox.showinfo("完成", f"处理完成!文件已保存为: {output_file}")

为了使用起来更方便,我直接打包成exe,并加入了输入框和进度条

成品展示

在这里插入图片描述
完成的进度条
在这里插入图片描述
生成的文件
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/189b23f688054e2db1de7b22a8b75288.png
在这里插入图片描述

效果
在这里插入图片描述
成品的工具在这。
提取码 Eb5K

附 virustotal查毒报告
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1968054.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AEAD:AES-CCM简介

目录 1. CCM模式 2.认证加密过程 3.校验解密过程 1. CCM模式 CCM(Counter with CBC-MAC) 首先使用 CBC-MAC 来保证数据完整性和真实性,然后使用 CTR 模式来保证数据机密性。 在CCM中,受保护的数据被称为payload,简…

虚拟机(CentOS7)安装gitlab

GitLab官方安装教程 链接:https://gitlab.cn/install/ 1、关闭虚拟机防火墙 # 关闭防火墙命令 systemctl stop firewalld # 查看当前防火墙的状态信息 systemctl status firewalld成功关闭 2、GitLab安装包下载 # windows下载地址: https://mirrors.t…

JVM—对象已死?

在堆里面存放着 Java 世界中几乎所有的对象实例,垃圾收集器在对堆进行回收前,第一件事情就是要确定这些对象之中哪些还“存活”着,哪些已经“死去”。 1、如何判断对象存活 1.1 引用计数法 给对象增加一个引用计数器,当对象被引用一次计数器加一、当引用失效时计数…

深入源码P3C-PMD:使用流程(1)

PMD开源组件启动流程介绍 在软件开发领域,代码质量是项目成功的关键因素之一。为了提升代码质量,开发者们常常借助各种工具进行代码分析和检查。PMD作为一款开源的静态代码分析工具,在Java、JavaScript、PLSQL等语言项目中得到了广泛应用。本…

虚拟主机与vue项目、samba磁盘映射、nfs共享

1、复习 (1)tomcat服务器需要jdk环境 版本对应 tomcat9》jdk1.8 tomcat10》jdk17 配置系统变量JAVA_HOME sed -i $a export JAVA_HOME/usr/local/jdk22/ /etc/profile sed -i $a export PATHJAVA_HOME/bin:$PATH /etc/profile source /etc/profile…

基于FPGA的出租车计费系统设计---第一版--郝旭帅电子设计团队

欢迎各位朋友关注“郝旭帅电子设计团队”,本篇为各位朋友介绍基于FPGA的出租车计费系统设计—第一版 功能说明: 收费标准(里程):起步价5元,包括三公里;三公里之后,每公里2元&#x…

JVM: 堆上的数据存储

文章目录 一、对象在堆中的内存布局1、对象在堆中的内存布局 - 标记字段2、JOL打印内存布局 二、元数据指针 一、对象在堆中的内存布局 对象在堆中的内存布局,指的是对象在堆中存放时的各个组成部分,主要分为以下几个部分: 1、对象在堆中的…

Java SpringTask定时自动化处理

目录 一、自动化处理 1.1 什么是自动化处理 1.2 SpringTask介绍 二、SpringTask的基本使用 2.1 引入依赖 2.2 通过控制台加入注解启用SpringTask 2.3 使用Cron表达式规定时间 2.4 通过Schedule(Cron表达式) 实现定时任务(每两秒执行一次) 三、实…

【完美解决】 TypeError: ‘str’ object does not support item assignment

【完美解决】 TypeError: ‘str’ object does not support item assignment 在Python编程中,遇到TypeError: str object does not support item assignment这样的错误通常意味着你试图修改字符串中的某个字符,但字符串是不可变类型,不支持这…

【每日一题 | 组成原理】补码溢出判断

题目 题型总结 带符号的定点数表示方式有4种,分别是原码、反码、补码和移码,他们都由两部分组成,分别是符号位和数值位,这四种编码方式非常重要,要熟练掌握他们之间的转换和与真值间的转换。这里我们重点看一下补码&a…

408-部分知识点笔记(自用)

一、操作系统部分 1.内中断(异常)和外中断(中断) 1.1 异常(内中断) 异常就是指CPU内部发生的中断,与当前正在执行的程序有关。类似的内中断有:缺页中断、算法溢出、除以0错误、存…

可视化目标检测算法推理部署(三)YOLOv8模型视频推理

在上一章节中博主利用Gradio完成了YOLOv8模型的图像推理,那么在本章节中将进行视频推理,其代码十分简单,只需要将原本的视频切分为一帧帧图像再去检测即可,代码如下: def detectio_video(input_path):output_path&quo…

[C++]多态与虚函数

一、多态的概念 顾名思义,多态的意思就是一个事物有多种形态,在完成某个行为的时候,当不同的对象去完成时会产生不同的状态。在面向对象方法中一般是这样表示多态的:向不同的对象发送同一条消息,不同的对象在接收时会产…

记录|Stock编程

目录 前言一、Stock编程?二、聊天工具开发1. 目的2. 服务器端开启对端口的监听3. VS创建服务器端ServiceStep1. 创建Step2. Listener对象监听事件Step1~2效果展示 4. 创建客户端,与服务器端链接5. VS创建客户端ClientStep1. 创建Step2. Client对象Step1~…

二维码门楼牌管理应用平台建设:实有人口采集管理

文章目录 前言一、移动快采,精准定位,高效管理二、新增与注销,灵活管理人口信息三、多维度查询,精准锁定目标人群四、信息核实,确保数据准确无误 前言 在智慧城市建设的大潮中,二维码门楼牌管理应用平台以…

POI 快速入门 Excel导入导出

Excel导入导出 1 什么是POI POI简介(Apache POI),Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能。 Apache POI官网http://poi.apache.org/ HSSF - 提…

Ubuntu22.04 Docker更换阿里云镜像

由于运营商网络原因,会导致您拉取Docker Hub镜像变慢,甚至下载失败。那么可以更换阿里云镜像加速器,从而加速官方镜像的下载。 1.获取镜像加速器地址 登录容器镜像服务控制台,在左侧导航栏选择镜像工具 > 镜像加速器&#xf…

课题项目结题测试的作用

课题项目结题测试是课题项目研究过程中的一个重要环节,它对于确保课题项目的质量和成果具有重要的作用。本文将详细介绍课题项目结题测试的作用。 一、确保课题项目质量 课题项目结题测试是对课题项目研究成果的全面评估和检测。通过结题测试,可以对课…

使用Echarts来实现数据可视化

目录 一.什么是ECharts? 二.如何使用Springboot来从后端给Echarts返回响应的数据? eg:折线图: ①Controller层: ②service层: 一.什么是ECharts? ECharts是一款基于JavaScript的数据可视化图标库,提供直观&…