Python为Word文档添加书签并打包成exe

news2025/3/25 13:20:37

背景简述

由于一些工作场景,需要从多个Word文档中找到出现的关键词,并阅读关键词的上下文内容。文件可能几十个,手动操作太要命了。所以python尝试处理。

目录

  • 背景简述
  • 思路
  • 第一步、功能实现
    • 结果验证
  • 第二步、打包成exe
    • 2-1、基础准备
    • 2-2、打包

思路

第一步、功能实现
把这些Word文档都放在一个文件夹中。

  1. Python读取指定目录下的文件,然后找到包含了关键词的文档名称
  2. 把这些关键词都打上书签,这样使用书签就可以快速定位了
  3. 可以选择要不要打开含有关键词的文件,不用自己打开了

第二步、打包成exe
因为想把这个给别人用,但是他们电脑上不一定有Python环境,一个个安装太麻烦,所以打包,做成exe,会便捷些。

第一步、功能实现

import os
import re
import platform
import subprocess
from docx import Document
from docx.oxml.shared import OxmlElement, qn

# --------------------- 核心功能函数 ---------------------
def find_keyword_files(folder_path, keyword):
    """查找包含关键词的文档"""
    matched_files = []
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(".docx"):
                full_path = os.path.join(root, file)
                if check_docx_contains_keyword(full_path, keyword):
                    matched_files.append(full_path)
    return matched_files

def check_docx_contains_keyword(file_path, keyword):
    """检查单个文档是否包含关键词"""
    try:
        doc = Document(file_path)
        for para in doc.paragraphs:
            if keyword in para.text:
                return True
        for table in doc.tables:
            for row in table.rows:
                for cell in row.cells:
                    if keyword in cell.text:
                        return True
        return False
    except Exception as e:
        print(f"检测失败:{file_path} - {str(e)}")
        return False

def add_bookmarks_to_file(file_path, keyword):
    """为文件添加书签并保存"""
    doc = Document(file_path)
    bookmark_counter = 0

    def process_paragraph(para):
        nonlocal bookmark_counter
        if keyword in para.text:
            parts = re.split(f'({re.escape(keyword)})', para.text)
            para.clear()
            for part in parts:
                if part == keyword:
                    bookmark_counter += 1
                    # 添加书签开始
                    start = OxmlElement("w:bookmarkStart")
                    start.set(qn("w:id"), str(bookmark_counter))
                    start.set(qn("w:name"), f"关键词标记_{bookmark_counter}")
                    para._p.append(start)
                    # 添加文本
                    run = para.add_run(part)
                    run.bold = True
                    # 添加书签结束
                    end = OxmlElement("w:bookmarkEnd")
                    end.set(qn("w:id"), str(bookmark_counter))
                    end.set(qn("w:name"), f"关键词标记_{bookmark_counter}")
                    para._p.append(end)
                else:
                    para.add_run(part)

    # 处理段落
    for para in doc.paragraphs:
        process_paragraph(para)
    
    # 处理表格
    for table in doc.tables:
        for row in table.rows:
            for cell in row.cells:
                for para in cell.paragraphs:
                    process_paragraph(para)

    new_path = os.path.splitext(file_path)[0] + "_已标记.docx"
    doc.save(new_path)
    return new_path

def open_file(file_path):
    """跨平台打开文件"""
    if platform.system() == 'Windows':
        os.startfile(file_path)
    elif platform.system() == 'Darwin':
        subprocess.run(['open', file_path])
    else:
        subprocess.run(['xdg-open', file_path])

# --------------------- 用户交互流程 ---------------------
def main():
    default_keyword = "作弊"  # 默认关键词
    user_input = input(f"请输入要查找的关键词(直接回车将使用默认值'{default_keyword}'):").strip()
    keyword = user_input if user_input else default_keyword
    
    folder_path = input("请输入要扫描的文件夹路径:")
    
    # 第一步:查找文件
    print("\n正在扫描文档...")
    target_files = find_keyword_files(folder_path, keyword)
    
    if not target_files:
        print("未找到包含关键词的文档")
        return
    
    print("\n找到以下包含关键词的文档:")
    for idx, path in enumerate(target_files, 1):
        print(f"{idx}. {os.path.basename(path)}")

    # 第二步:询问是否添加书签
    q1 = input(f"\n是否要为这些文档中的所有'{keyword}'字样添加书签?(y/n): ").strip().lower()
    if q1 not in ['y', 'yes', '是']:
        print("已取消操作")
        return

    # 处理文件
    processed_files = []
    for file in target_files:
        try:
            new_path = add_bookmarks_to_file(file, keyword)
            processed_files.append(new_path)
            print(f"✓ 已完成:{os.path.basename(new_path)}")
        except Exception as e:
            print(f"✗ 处理失败:{os.path.basename(file)} - {str(e)}")

    # 第三步:询问是否打开文件
    q2 = input("\n是否要打开处理后的文档?(y/n): ").strip().lower()
    if q2 in ['y', 'yes', '是']:
        for path in processed_files:
            try:
                open_file(path)
                print(f"已打开:{os.path.basename(path)}")
            except Exception as e:
                print(f"打开失败:{os.path.basename(path)} - {str(e)}")

    print("\n操作完成!")

if __name__ == "__main__":
    main()

结果验证

在jupyter上看的话
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

第二步、打包成exe

2-1、基础准备

  1. 将上述代码保存成.py文件,比如我的是find_str_to_bookmark.py
  2. 准备一个程序图标
    Windows:使用在线工具将图片转为 .ico 格式(推荐 icoconvert.com)
  3. 创建Shell脚本,把下面这段保存成一个.bat文件。
    ( 此步骤要确保安装了PyInstaller库。另外,参数有讲究,之前我加了 --noconsole,有因为使用了input函数造成报错。)
@echo off
rem 打包为单个exe文件,隐藏控制台窗口,自定义图标
pyinstaller --onefile  --name "文档标记助手" --icon=app.ico find_str_to_bookmark.py
pause

2-2、打包

把.py文件、.ico文件、.bat文件放在一个文件夹中。
然后双击执行.bat文件,会在dist文件夹中生成打包好的exe。
在这里插入图片描述
试一试,双击这个exe文件:
在这里插入图片描述
看着是可以的,我需要找个没有安装Python的电脑再试一下。


好久不写,最近AI火热,这个是借助AI来实现,然后自己微调。
效率上确实翻番,但是也遇到一些问题。
1、遇到报错时,AI提供的思路很多,有时候反倒不容易验证:
当按照它第一个方案来又出现一个错误的话,就需要自己判断是继续解决这个错误,还是马上转到方案二了。
2、思路调整时,AI新给的代码可能和上一次差异大,有时会缺失上一次中的一些东西。那对于编程语言不够熟悉情况下,就有点麻烦。比如我按照它给的shell脚本执行报错,给到它相关信息后,它再给我的代码变化那个ico的设置没有了,只能再要求它加上。
再后来怎么改都不对,要不打包失败,要么exe不能运行。后来也蒙了,干脆回到了它给我的第一个方案,然后和他说“之前的报错都忘记,从生成exe开始说”,最后居然成功了,就在原来基础上修改了一点点。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2320730.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ROS导航工具包Navigation

一,安装 Navigation工具包包含在 navigation 元功能包中。你可以通过以下命令安装: sudo apt-get install ros-noetic-navigation 如果你使用的是其他ROS版本(如Melodic),将 noetic 替换为对应的版本名称&#xff08…

资金管理策略思路

详细描述了完整交易策略的实现细节,主要包括输入参数、变量定义、趋势判断、入场与出场条件、止损与止盈设置等多个方面。 输入参数(Input): EntryFrL (.6):多头入场的前一日波动范围的倍数。 EntryFrS (.3)&#xff1…

工业软件的破局与重构:从技术依赖到自主创新的未来路径

工业软件作为现代工业的“神经与大脑”,不仅是制造业数字化转型的核心工具,更是国家工业竞争力的战略制高点。近年来,中国工业软件市场在政策驱动与技术迭代中迅猛发展,但核心技术受制于人的困境仍待突破。如何实现从“跟跑”到“…

常见中间件漏洞攻略-Tomcat篇

一、 CVE-2017-12615-Tomcat put方法任意文件写入漏洞 第一步:开启靶场 第二步:在首页抓取数据包,并发送到重放器 第三步:先上传尝试一个1.txt进行测试 第四步:上传后门程序 第五步:使用哥斯拉连接 二、后…

【Dive Into Stable Diffusion v3.5】2:Stable Diffusion v3.5原理介绍

【Dive Into Stable Diffusion v3.5】系列博文: 第1篇:开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练第2篇:Stable Diffusion v3.5原理介绍 目录 1 前言1.1 扩散模型的原理1.2 损失函数1.3 加噪流程1.4 推理流程1.5 negative pr…

英伟达黄仁勋2025GTC演讲深度解析:液冷GPU、AI工厂、机器人AI…...

目录 一、技术产品与架构升级:从芯片到算力工厂1. 新一代GPU与计算架构2. AI工厂与算力操作系统 二、AI技术演进:从生成式到物理AI1. AI发展的三大阶段2. 推理算力需求爆炸式增长 三、生态合作与行业落地1. CUDA生态与开源工具2. 跨行业合作案例 四、未来…

嵌入式项目:利用心知天气获取天气数据实验方案

【实验目的】 1、利用心知天气服务器获取指定位置天气数据 2、将天气数据解析并可视化显示到OLED屏幕 【实验原理】 【实验步骤】 官网注册

Ubuntu下用QEMU模拟运行OpenBMC

1、前言 在调试过程中,安装了很多依赖库,具体没有记录。关于kvm,也没理清具体有什么作用。本文仅记录,用QEMU成功的将OpenBMC跑起来的过程,做备忘,也供大家参考。 2、环境信息 VMware Workstation 15 Pro…

专题|Python贝叶斯网络BN动态推理因果建模:MLE/Bayes、有向无环图DAG可视化分析呼吸疾病、汽车效能数据2实例合集

原文链接:https://tecdat.cn/?p41199 作为数据科学家,我们始终在探索能够有效处理复杂系统不确定性的建模工具。本专题合集系统性地解构了贝叶斯网络(BN)这一概率图模型在当代数据分析中的创新应用,通过开源工具bnlea…

Java单例模式中的饿汉模式和懒汉模式

Java单例模式中的饿汉模式和懒汉模式 一、单例模式的显著特点单一实例全局访问 二、饿汉模式:急切的实例创建者三、懒汉模式:延迟的实例构建者1. 不考虑线程安全的初始版本2. 引入同步机制解决线程安全问题3. 优化性能:避免重复进入同步块4. …

理解操作系统(一)冯诺依曼结构和什么是操作系统

认识冯诺依曼系统 操作系统概念与定位 深⼊理解进程概念,了解PCB 学习进程状态,学会创建进程,掌握僵⼫进程和孤⼉进程,及其形成原因和危害 1. 冯诺依曼体系结构 我们常⻅的计算机,如笔记本。我们不常⻅的计算机&am…

Git的认识安装及创建配置本地仓库

目录 Git的作用安装Git创建Git仓库配置本地仓库git config user.name/email(添加配置)以及git config --unset.name/email(删除配置)git config --global user.name/email以及git config --global --unset user.name/email(name和email适用于当前机器的所有Git仓库中) 感谢各位…

【el-upload】el-upload组件 - list-type=“picture“ 时,文件预览展示优化

目录 问题图el-upload预览组件 PicturePreview效果展示 问题图 el-upload <el-uploadref"upload"multipledragaction"#":auto-upload"false":file-list"fileList"name"files":accept".png,.jpg,.jpeg,.JGP,.JPEG,.…

Uthana,AI 3D角色动画生成平台

Uthana是什么 Uthana 是专注于3D角色动画生成的AI平台。平台基于简单的文字描述、参考视频或动作库搜索&#xff0c;快速为用户生成逼真的动画&#xff0c;支持适配任何骨骼结构的模型。Uthana 提供风格迁移、API集成和定制模型训练等功能&#xff0c;满足不同用户需求。平台提…

面试常问系列(二)-神经网络参数初始化之自注意力机制

目录 &#xff08;一&#xff09;、transformer中的自注意力机制为什么要除以根号d&#xff1f; 1. 点积的方差问题 2. 缩放的作用 3. 类比初始化方法 4. 实验验证 5.总结 &#xff08;一&#xff09;、transformer中的自注意力机制为什么要除以根号d&#xff1f; 在Tra…

Linux冯诺依曼体系与计算机系统架构认知(8)

文章目录 前言一、冯诺依曼体系冯•诺依曼体系结构推导内存提高冯•诺依曼体系结构效率的方法你用QQ和朋友聊天时数据的流动过程与冯•诺依曼体系结构相关的一些知识 二、计算机层次结构分析操作系统(Operator System)驱动层的作用与意义系统调用接口(system call)用户操作接口…

LLM之RAG理论(十四)| RAG 最佳实践

RAG 的过程很复杂&#xff0c;包含许多组成部分。我们如何确定现有的 RAG 方法及其最佳组合&#xff0c;以确定最佳 RAG 实践&#xff1f; 论文 《Searching for Best Practices in Retrieval-Augmented Generation》给出了回答。 本文将从以下三方面进行介绍&#xff1a; 首先…

[RoarCTF 2019]Easy Calc-3.23BUUCTF练习day5(2)

[RoarCTF 2019]Easy Calc-3.23BUUCTF练习day5(2) 解题过程 查看源码 发现calc.php页面&#xff0c;访问一下 分析代码 首先获取$_GET[num]的值并赋给变量$str。然后定义了一个黑名单数组$blacklist&#xff0c;包含了一系列被禁止的字符或转义字符&#xff0c;如空格、制表…

hadoop集群配置-ssh无密登录

1.ssh-keygen -t rsa 2.ssh-copy-id hadoop1 3.ssh roothadoop1 退出 exit

MinGW与使用VScode写C语言适配

压缩包 通过网盘分享的文件&#xff1a;MinGW.zip 链接: https://pan.baidu.com/s/1QB-Zkuk2lCIZuVSHc-5T6A 提取码: 2c2q 需要下载的插件 1.翻译 找到VScode页面&#xff0c;从上数第4个&#xff0c;点击扩展&#xff08;以下通此&#xff09; 搜索---Chinese--点击---安装--o…