智能 Uber 发票 PDF 合并工具

news2024/11/23 13:07:08

在现代商务出行中,尤其是在跨国出差中,处理和整合大量 Uber 发票已成为一项不小的挑战。手动整理和合并这些发票不仅耗时,还容易出错。作为开发者,为什么不开发一个自动化工具,将这些任务交给代码来完成呢?在这篇博客中,我将带你一步步构建一个结合 PyQt5pdfplumberPyPDF2 的智能 Uber 发票合并工具,不仅能自动提取数据,还能动态显示进度条,给用户带来极佳的使用体验。

项目亮点:

  • PyQt5 GUI 界面:基于 PyQt5 实现的可视化界面,简洁大方。
  • 自动提取发票数据:利用 pdfplumber 自动提取 Uber 发票中的日期、金额、地点等信息,支持多语言(中文、英文、西班牙语)。
  • PDF 合并功能:通过 PyPDF2 实现多份 PDF 发票的自动合并,并且生成一份总结页,显示所有行程的详细信息。
  • 动态进度条:实时显示合并进度,让用户一目了然处理状态。

1. 项目简介

本项目的主要目的是通过图形化用户界面(GUI)和后端的 PDF 处理技术,自动处理 Uber 发票,自动从 PDF 中提取关键信息,并合并成一个包含详细摘要的 PDF 文件。这样的工具对于经常出差、需要整理大量发票的用户来说,是一个非常实用的助手。

2. 使用技术栈

在开发过程中,我们使用了以下的技术栈:

  • PyQt5:用于创建用户界面,让用户可以轻松选择文件夹、选择语言以及合并 PDF 文件。
  • pdfplumber:用于从 Uber 发票 PDF 中提取文本和行程信息,支持多语言。
  • PyPDF2:用于将多个 PDF 文件合并成一个,同时在合并前生成一份包含所有行程数据的总结页。
  • ReportLab:用于生成总结页的 PDF 文件,方便将表格数据导出。

3. 代码实现

3.1 主窗口的设计与初始化

我们通过 QMainWindow 创建了主窗口,并初始化了必要的组件,比如上传文件按钮、合并按钮、进度条等。我们还为窗口添加了一个版权信息,并通过 setWindowIcon 方法设置了应用的图标。

class MainWindow(QMainWindow):
    def __init__(self):
        super(MainWindow, self).__init__()
        self.ui = Ui_MainWindow()  # 创建UI对象
        self.ui.setupUi(self)  # 调用setupUi方法,构建界面

        # 初始化进度条
        self.ui.progressBar.setValue(0)  # 初始化进度条值为 0

        # 设置窗口的图标(logo)
        self.setWindowIcon(QIcon('logo.png'))  # 替换为你的 logo 文件路径

        # 设置窗口标题
        self.setWindowTitle("Uber Pdf Merge")  # 设置自定义窗口标题

        # 添加版权信息
        self.add_copyright_label()

        # 其他初始化代码...
3.2 自动提取 Uber 发票中的行程数据

在这一部分中,pdfplumber 被用于提取每一张发票中的行程信息,包括日期、金额、起始地点和目的地。我们通过不同的正则表达式来处理不同语言的发票数据(支持中文、英文和西班牙语)。

    def merge_pdfs(self):
        if self.selected_folder:
            pdf_files = [os.path.join(self.selected_folder, f) for f in os.listdir(self.selected_folder) if f.endswith('.pdf')]

            total_files = len(pdf_files)
            if total_files:
                all_trips = []
                self.ui.progressBar.setValue(0)

                for i, pdf_file in enumerate(pdf_files):
                    # 提取PDF中的行程数据
                    trips = self.extract_trip_data_from_pdf(pdf_file)
                    all_trips.extend(trips)

                    # 更新进度条
                    progress = int(((i + 1) / total_files) * 100)
                    self.ui.progressBar.setValue(progress)

                # 生成总结页PDF
                summary_pdf_path = "summary.pdf"
                self.generate_summary_page(summary_pdf_path, all_trips)

                # 合并PDF
                save_path, _ = QFileDialog.getSaveFileName(self, "Save Merged PDF", "", "PDF Files (*.pdf)")
                if save_path:
                    merger = PdfMerger()
                    merger.append(summary_pdf_path)
                    for pdf in pdf_files:
                        merger.append(pdf)
                    merger.write(save_path)
                    merger.close()
3.4 生成包含行程信息的总结页

为了方便整理行程信息,我们在合并多个发票之前,生成了一份总结页,并将其合并到最终的 PDF 文件中。总结页显示了所有行程的详细信息,并通过 ReportLab 将其以表格形式展示。

def generate_summary_page(self, output_path, trips_data):
    pdfmetrics.registerFont(UnicodeCIDFont('STSong-Light'))  # 使用 STSong-Light 字体
    doc = SimpleDocTemplate(output_path, pagesize=A4)

    table_data = [["日期", "起始时间", "启程地", "结束时间", "目的地", "金额", "单位"]]
    # 循环将行程数据添加到表格
    for trip in trips_data:
        table_data.append([trip["日期"], trip["起始时间"], trip["启程地"], trip["结束时间"], trip["目的地"], trip["金额"], trip["单位"]])

    table = Table(table_data, colWidths=[3 * cm, 2 * cm, 5 * cm, 2 * cm, 5 * cm, 2 * cm, 2 * cm])
    style = TableStyle([...])
    table.setStyle(style)
    elements = [table]
    doc.build(elements)

4. 运行效果展示

当用户运行该程序时,可以选择一个包含多个 Uber 发票的文件夹,点击 "Merge PDF NOW" 按钮后,程序会自动提取每一张发票中的行程数据,并动态更新进度条。处理完成后,用户可以保存最终合并的 PDF 文件,并查看生成的总结页。


5. 总结

通过这篇博客,你学会了如何使用 PyQt5 构建一个图形化的发票合并工具,并结合 pdfplumberPyPDF2ReportLab 实现发票的自动处理、数据提取以及文件合并。这种工具能够极大地提高发票处理的效率,并为用户带来便捷的体验。

如果你对 PDF 处理有需求或希望进一步优化用户界面,这将是一个非常好的入门项目。希望这篇文章对你有所帮助!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2143142.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AI学习笔记】初学机器学习西瓜书概要记录(一)机器学习基础知识篇

初学机器学习西瓜书的概要记录(一)机器学习基础知识篇(已完结) 初学机器学习西瓜书的概要记录(二)常用的机器学习方法篇(待更) 初学机器学习西瓜书的概要记录(三)进阶知识篇(待更) 文字公式撰写不易&#x…

基于代理的分布式身份管理方案

目的是使用分布式的联合计算分发去替换掉区块链中原有的类第三方可信中心的证书机制,更加去中心化。 GS-TBK Group Signatures with Time-bound Keys. CS-TBK 算法 Complete subtree With Time-bound Keys,该算法是用来辅助检测用户的签名是否有效&…

新手学习Python第十天-新手笔记(速学)

一、特殊方法和特殊属性 1.1 特殊属性 __dict__:获得类对象或实例对象所绑定的所有属性和方法的字典 1.2 特殊方法: 1.2.1 .__len__:通过重写__len__()方法,让内置函数len()的参数可以是自定义类型 长度 1.2.2 __add__():通过重写__add__()方法&…

ICMP

目录 1. 帧格式2. ICMPv4消息类型(Type = 0,Code = 0)回送应答 /(Type = 8,Code = 0)回送请求(Type = 3)目标不可达(Type = 5,Code = 1)重定向(Type = 11)ICMP超时(Type = 12)参数3. ICMPv6消息类型回见TCP/IP 对ICMP协议作介绍 ICMP(Internet Control Messag…

HTTP中的Cookie与Session

一、背景 HTTP协议是无状态无连接的。 无状态:服务器不会保存客户端历史请求记录,每一次请求都是全新的。 无连接:服务器应答后关闭连接,每次请求都是独立的。 无状态就导致服务器不认识每一个请求的客户端是否登陆过。 这时…

TCP并发服务器的实现

一请求一线程 问题 当客户端数量较多时,使用单独线程为每个客户端处理请求可能导致系统资源的消耗过大和性能瓶颈。 资源消耗: 线程创建和管理开销:每个线程都有其创建和销毁的开销,特别是在高并发环境中,这种开销…

计算机三级网络技术总结(一)

RPR环中每一个节点都执行SRP公平算法IEEE 802.11a和g将传输速率提高到54Mbps一个BGP发言人与其他自治系统中的BGP发言人要交换路由信息就要先建立TCP连接在一个区域内的路由器数一般不超过200个进入接口配置模式&#xff1a;Router(config)#interface <接口名> 封装ppp协…

CentOS上使用Mosquitto实现Mqtt主题消息发布和订阅mqtt主题消息连同时间戳记录到文件

场景 CentOS上使用rpm离线安装Mosquitto(Linux上Mqtt协议调试工具)附资源下载&#xff1a; CentOS上使用rpm离线安装Mosquitto(Linux上Mqtt协议调试工具)附资源下载-CSDN博客 上面介绍了mosquitto的离线安装。 如果业务场景中需要订阅某mqtt主题的消息并将收到消息的时间以…

婚礼弹幕上墙阳光正好,爱意正浓,打造一场出圈的唯美婚礼!

原文地址 婚礼现场的弹幕功能可以给整个场景增添温暖和喜庆的氛围。通过手机发送祝福&#xff0c;让亲友可以即时将祝福传达给新人&#xff0c;同时这些祝福以弹幕的形式在大屏幕上滚动展示&#xff0c;增加了现场互动的乐趣。墙上新闻搭配的功能则更加抢眼&#xff0c;不仅可…

idea插件推荐之Cool Request

Cool Request是一款基于IDEA的HTTP调试工具&#xff0c;可以看成是轻量版的postman&#xff0c;它会自动扫描项目代码中所有API路径&#xff0c;按项目分组管理。一个类被定义为Controller且其中的方法被RequestMapping或者XXXMapping注解标注以后就会被扫描到。 对应方法左侧会…

【C++二叉树】102.二叉树的层序遍历

107. 二叉树的层序遍历 II - 力扣&#xff08;LeetCode&#xff09; 思路分析&#xff1a; 层序遍历&#xff0c;但是要注意输出的结果是一个二维数组&#xff0c;不是一层一个值一个值的输出&#xff0c;而是要一层一层的输出。可以通过一个循环控制每一层的数据个数&#xff…

FastAdmin CMS 操作手册

FastAdmin CMS 操作手册 概述&#xff1a; 安装&#xff1a; 配置&#xff1a; 模板&#xff1a; 模板目录&#xff1a; 标签&#xff1a; 全局&#xff1a; 文章&#xff1a; 专题&#xff1a; 栏目&#xff1a; 公共参数&#xff1a; 单页&#xff1a; 特殊标签&#xff1a;…

python正则表达式如何不区分大小写

使用python的re模块做模式匹配时&#xff0c;有时需要忽略大小写&#xff0c;只需要在re.search()函数中添加参数re.IGNORECASE即可。 mystring some string pattern some pattern match re.search(pattern, mystring, re.IGNORECASE)

95、k8s之rancher可视化

一、ranker 图形化界面 图形化界面进行k8s集群的管理 rancher自带监控----普罗米修斯 [rootmaster01 opt]# docker load -i rancher.tar ##所有节点 [rootmaster01 opt]# docker pull rancher/rancher:v2.5.7 ##主节点[rootmaster01 opt]# vim /etc/docker/daemon.jso…

1.数据结构-双链表

一.双链表与单链表的对比&#xff1a; 二.双链表的初始化(带头结点)&#xff1a; 1.图解&#xff1a; 2.代码演示&#xff1a; #include<stdio.h> #include<stdlib.h> ​ //定义双链表结构体 typedef struct DNode {int data;struct DNode *prior;//前驱指针即指…

【Windows】使用 WMI 获取系统版本信息

目录 获取系统版本信息代码 获取系统版本信息 通过 RtlGetNtVersionNumbers 获取系统版本的方法可能不适用于所有情况&#xff0c;而且将要过时&#xff08;被废弃&#xff09;。下面介绍一种通过 WMI 查询并根据版本号进行划分的系统版本解析工具&#xff0c;其他方法还有通过…

学成在线练习(HTML+CSS)

准备工作 项目目录 内部包含当前网站的所有素材&#xff0c;包含 HTML、CSS、图片、JavaScript等等 1.由于元素具有一些默认样式&#xff0c;可能是我们写网页过程中根本不需要的&#xff0c;所有我们可以在写代码之前就将其清除 base.css /* 基础公共样式&#xff1a;清除…

如何用MATLAB计算多边形的几何中心

在MATLAB中&#xff0c;计算多边形的几何中心&#xff08;又称质心或重心&#xff09;可以通过以下步骤实现。假设你有一个多边形&#xff0c;其顶点按照顺时针或逆时针顺序排列在一个矩阵中。具体步骤如下&#xff1a; 定义多边形顶点&#xff1a;首先&#xff0c;你需要将多边…

FPGA随记——状态机

1. 概念 状态机&#xff08;State Machine&#xff09;&#xff1a; 有限状态机&#xff08;Finite State Machine&#xff0c;简称FSM&#xff09; 在有限个状态之间按一定规律转换的时序电路。 2 状态机模型 组成元素&#xff1a;输入、状态、状态转移条件、输出&#xff…

BSN六周年:迈向下一代互联网

当前&#xff0c;分布式技术作为现代计算机科学和信息技术的重要组成部分&#xff0c;在云计算、区块链等技术的推动下&#xff0c;正以多样化的形式蓬勃发展。 ​而区块链作为一种特殊的分布式系统&#xff0c;近年来也在各个领域得到了广泛关注。通过在区块链上运行智能合约…