Python 自动化之处理docx文件(一)

news2024/10/6 15:08:33

批量筛选docx文档中关键词


文章目录

  • 批量筛选docx文档中关键词
  • 前言
  • 一、做成什么样子
  • 二、基本架构
  • 三、前期输入模块
    • 1.引入库
    • 2.路径输入
    • 3.关键词输入
  • 三、数据处理模块
    • 1.基本架构
    • 2.如果是docx文档
      • 2.1.读取当前文档内容
      • 2.2.遍历匹配关键字
      • 2.3.触发匹配并记录日志
    • 3.如果目录下还有一个目录
      • 3.1.判断并生成新目录
      • 3.2.获取子目录里的东西并遍历它
      • 3.3.接着判断如果是docx文档
      • 3.4.遍历匹配关键字
      • 3.5.触发匹配并记录日志
  • 总结


前言

在工作中经常会遇到,需要检查文档千万不能出现某个关键词,一个文档那还好说。但如果有成千上百个需要检查呢?
下面来给大家介绍一个批量检查的教程。

在这里插入图片描述


一、做成什么样子

  1. 支持当前目录下所有docx文档内容的检查。
  2. 支持当前目录下的子目录里面所有的docx文档内容的检查。
  3. 当前目录出现的问题会在当前目录生成日志文件记录下来。
  4. 日志格式为:<<文件绝对路径>> 文档中出现了关键词:《关键词》。
  5. 支持批量输入关键词,所有关键词都会进行逐一对比。

下面给大家展示一下效果图。
在这里插入图片描述

二、基本架构

主要包括以下几部分:

  1. 库输入模块
  2. 路径输入模块
  3. 关键词输入模块
  4. 数据处理模块

三、前期输入模块

库、路径、关键词比较简单。我就把它们全部写到这一节。

1.引入库

代码如下:

import docx
import os
import re

docx:用来读取文档内容的。
os:用来搞定一系列路径问题。
re:正则表达式模块,用来给关键词搞精确匹配的。


2.路径输入

代码如下:

print(r'请输入文档完整路径(例子:E:\vtest):', end='')
file_path = input()

# 获取目录下的所有条目
entries = os.listdir(file_path)
print(entries)

输入路径后,程序会先获取一下当前路径下的东西,形成一个列表并打印出来。


3.关键词输入

代码如下:

# 获取关键词列表
Prohibited_lists = []
while True:
    print('请输入要查询的关键字(例子:奥利给),按q退出输入:', end='')
    Prohibited_words = input()
    if Prohibited_words == 'q':
        break
    Prohibited_lists.append(Prohibited_words)

print("退出循环,禁止词汇列表:", Prohibited_lists)

首先,创建一个空列表,用来存储用户输入的关键词。
其次,一个while循环,用来保持用户可以一直输入关键词。
然后,关键词触发,当用户输入q可以退出输入关键程序。
最后,打印一条信息,告诉用户都有哪些关键词会进行匹配。


三、数据处理模块

这里我先写一下处理逻辑。

1.基本架构

代码如下:

for entry in entries:
    if entry.endswith('.docx'):    # 如果是docx文档
    	...........       
    elif os.path.isdir(os.path.join(file_path, entry)):    # 如果目录里的东西还是个目录
       ...........
       

首先,搞个循环结构,遍历一下用户输入的路径下的东西。
其次,对这些东西进行判断,进行两中不同的操作。
下面我将会按照这个结构顺序来写。


2.如果是docx文档

2.1.读取当前文档内容

代码如下:

for entry in entries:
    if entry.endswith('.docx'):    # 如果是docx文档
    
        # 使用os.path.join()构造完整文件路径
        full_entry_path = os.path.join(file_path, entry)

        # 使用 python-docx 打开文档
        doc = docx.Document(full_entry_path)

        # 将每一个段落的文本合并为一个字符串
        text = " ".join([para.text for para in doc.paragraphs])
       

首先,根据当前遍历的文件和用户输入的路径来共同构成完整文件路径。
其次,根据完整文件路径,读取文件内容。
最后,将每一个段落的文本合并为一个字符串,便于后面的关键字匹配。


2.2.遍历匹配关键字

代码如下:

        # 遍历关键字列表
        for Prohibited_list in Prohibited_lists:
            # 正则表达式匹配关键字
            ProhibitedRegex = re.compile(rf'.*{Prohibited_list}+.*')
            mo = ProhibitedRegex.search(text)

这里我们用的是正则表达式匹配关键字。看不懂的同学要去看下正则表达式的知识点喽。

ProhibitedRegex = re.compile(rf’.{Prohibited_list}+.') 这行代码创建了一个正则表达式对象,用于查找包含在 Prohibited_list 关键词。

mo = ProhibitedRegex.search(text) 这行代码使用了上面创建的正则表达式对象来搜索 text 中是否存在匹配的禁止词汇。如果找到匹配项,则返回一个匹配对象(MatchObject),否则返回 None。


2.3.触发匹配并记录日志

代码如下:

            # 如果匹配到了关键字
            if mo is not None:
                # 使用os.path.join()构造完整文件路径
                full_text_path = os.path.join(file_path, 'problems.txt')
                # 将问题写入text文档,并保存到当前目录
                with open(full_text_path, 'a') as f:
                    f.write(f'<<{full_entry_path}>> 文档中出现了关键词:{Prohibited_list}\n')
                    
            # 如果没有匹配到关键字
            else:
                print(f'<<{full_entry_path}>> 文档没有出现关键词:{Prohibited_list}。')

一目了然,共分成两部分:一是匹配到了关键字;二是没有匹配到关键字。

匹配到了:第一步先构建日志文件的路径;第二步将问题写入到text文档,并保存到当前目录(如果当前目录没有该文件,会自动创建。)

没匹配到:就简单提示一下啦。


3.如果目录下还有一个目录

3.1.判断并生成新目录

代码如下:

    # 判断目录下是否还有目录
    elif os.path.isdir(os.path.join(file_path, entry)):

        # 使用字符串拼接一下路径,生成新路径(给子目录下的文档使用)
        file_path = file_path + '\\' + entry      

一般我们保存文件不会一股脑的都保存到一个目录中。最起码目录中再搞一个子目录分一下类。
这个代码就是处理这个问题的。


3.2.获取子目录里的东西并遍历它

代码如下:

        # 获取目录下的所有条目
        entries = os.listdir(file_path)
        print(entries)
        # 遍历当前所有条目
        for entry_1 in entries:

接下来就是获取一下子录下的所有东西啦。
然后再搞一个遍历结构,一个一个的处理它们。


3.3.接着判断如果是docx文档

代码如下:

            if entry_1.endswith('.docx'):
                
                # 使用os.path.join()构造完整文件路径
                full_entry_path = os.path.join(file_path, entry_1)

                # 使用 python-docx 打开文档
                doc = docx.Document(full_entry_path)

                # 将每一个段落的文本合并为一个字符串
                text = " ".join([para.text for para in doc.paragraphs])

请参考 《2.1.读取当前文档内容》


3.4.遍历匹配关键字

代码如下:

                # 正则表达式匹配关键字
                for Prohibited_list in Prohibited_lists:
                    ProhibitedRegex = re.compile(rf'.*{Prohibited_list}+.*')
                    mo = ProhibitedRegex.search(text)

请参考 《2.2.遍历匹配关键字》


3.5.触发匹配并记录日志

代码如下:

                    if mo is not None:
                        # 使用os.path.join()构造完整文件路径
                        full_text_path = os.path.join(file_path, 'problems.txt')
                        # 将问题写入text文档,并保存到当前目录
                        with open(full_text_path, 'a') as f:
                            f.write(f'<<{full_entry_path}>> 文档中出现了关键词:{Prohibited_list}\n')
                            
                    else:
                        print(f'<<{full_entry_path}>> 文档没有出现关键词:{Prohibited_list}。')

请参考 《2.3.触发匹配并记录日志》


总结

以上的代码,包括我之前写的所有代码,都是在Python 3.11版本下写的,其它版本下运行可能会有问题。并且以上代码可以直接按顺序复制粘贴就可以使用,不用再调格式(可以发现越往后代码前面的空格越多,这个就是格式)。用起来有问题可以私信或者评论给我哦。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1305821.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何利用宝塔面板和docker快速部署网站

当你有了一台服务器&#xff0c;就会折腾往这台服务器上部署各种好玩的网站。市面上有许多开源的网站项目&#xff0c;通过docker技术可以快速部署并使用&#xff0c;本文将以部署filebrowser举例介绍网站部署的基本流程。 1. 安装宝塔面板 宝塔面板是一款开源的网站运维工具…

云服务器部署可视化Docker私有仓库(Ubuntu)

这里测试的机器为ubuntu22.04 一、环境安装 docker安装就不赘述了 先升级&#xff0c;再从官方仓库安装docker compose apt update apt upgrade apt install docker-compose二、部署私有仓库UI Docker提供了一个叫registry的镜像&#xff0c;给大家搭建私有仓库&#xff0c…

如何在nacos中的配置在不同的环境服务下可实现配置共享

其实在微服务启动时&#xff0c;会去nacos读取多个配置文件&#xff0c;例如&#xff1a; [spring.application.name].yaml&#xff0c;例如&#xff1a;nacos-order-service.yaml[spring.application.name]-[spring.profiles.active].yaml&#xff0c;例如&#xff1a;nacos-o…

《地理信息系统原理》笔记/期末复习资料(10. 空间数据挖掘与空间决策支持系统)

目录 10. 空间数据挖掘与空间决策支持系统 10.1. 空间数据挖掘 10.1.1. 空间数据挖掘的概念 10.1.2. 空间数据挖掘的方法与过程 10.1.3. 空间数据挖掘的应用 10.2. 空间决策支持系统 10.2.1. 空间决策支持系统的概念 10.2.2. 空间决策支持系统的结构 10.2.3. 空间决策…

Flink 有状态流式处理

传统批次处理方法 【1】持续收取数据&#xff08;kafka等&#xff09;&#xff0c;以window时间作为划分&#xff0c;划分一个一个的批次档案&#xff08;按照时间或者大小等&#xff09;&#xff1b; 【2】周期性执行批次运算&#xff08;Spark/Stom等&#xff09;&#xff1b…

Vue3-04-reactive() 响应式失效的三种情况

1.替换对象后导致失效 简单理解 &#xff1a; 变量指向的对象换了&#xff0c;对原来的对象&#xff0c;当然没有了响应式的效果了。// 声明 变量let obj1 reactive({name:"第一个对象"})// 改变 变量的指向obj1 reactive({name:"第二个对象的属性"})co…

三天精通Selenium Web 自动化 - Selenium(Java)环境搭建 (new)

0 背景 开发工具idea代码管理mavenjdk1.8webdriver chrome 1 chromedriver & chrome chromedriver和chrome要对应上&#xff1a; chomedriver下载地址&#xff1a;淘宝镜像 这里用的是 chromedriver88-0-4324-96.zipchrome下载地址&#xff1a;如何降级和安装旧版本的C…

【计算机网络基础3】ARP/RARP协议、路由选择协议和TCP/IP协议

1、ARP/RARP协议 地址解析协议&#xff0c;即ARP&#xff08;Address Resolution Protocol&#xff09;&#xff0c;是根据IP地址获取物理地址的一个TCP/IP协议。主机发送信息时将包含目标IP地址的ARP请求广播到网络上的所有主机&#xff0c;并接收返回消息&#xff0c;以此确…

HTTP深度解析:构建高效与安全网络的关键知识

1. HTTP基础及其组件 我首先想和大家分享的是HTTP的基础知识。HTTP&#xff0c;即超文本传输协议&#xff0c;是互联网上最常用的协议之一。它定义了浏览器和服务器之间数据交换的规则&#xff0c;使得网页内容可以从服务器传输到我们的浏览器上。想象一下&#xff0c;每当你点…

kafka配置多个消费者groupid kafka多个消费者消费同一个partition(java)

目录 1- 单播模式&#xff0c;只有一个消费者组2- 广播模式&#xff0c;多个消费者组3- Java实践 kafka是由Apache软件基金会开发的一个开源流处理平台。kafka是一种高吞吐量的分布式发布订阅消息系统&#xff0c;它可以处理消费者在网站中的所有动作流数据。 kafka中partition…

Linux实用操作(超级实用)

Linux实用操作篇-上篇&#xff1a;Linux实用操作-上篇-CSDN博客 Linux实用操作篇-下篇&#xff1a;Linux实用操作篇-下篇-CSDN博客 一、各类小技巧&#xff08;快捷键&#xff09; 1.1 ctrl c 强制停止 Linux某些程序的运行&#xff0c;如果想要强制停止它&#xff0c;可以…

Redis缓存异常问题,常用解决方案总结

前言 Redis缓存异常问题分别是&#xff1a;1.缓存雪崩。2.缓存预热。3.缓存穿透。4.缓存降级。5.缓存击穿&#xff0c;以 及对应Redis缓存异常问题解决方案。 1.缓存雪崩 1.1、什么是缓存雪崩 如果缓存集中在一段时间内失效&#xff0c;发生大量的缓存穿透&#xff0c;所有…

【MySQL】MySQL数据库基础--什么是数据库/基本使用/MySQL架构/存储引擎

文章目录 1.什么是数据库2.主流数据库3.基本使用3.1MySQL安装3.2连接服务器3.3服务器管理3.4服务器&#xff0c;数据库&#xff0c;表关系3.5使用案例3.6数据逻辑存储 4.MySQL架构5.SQL分类6.存储引擎6.1什么是存储引擎6.2查看存储引擎6.3存储引擎对比 1.什么是数据库 对于回答…

MySQL笔记-第18章_MySQL8其它新特性

视频链接&#xff1a;【MySQL数据库入门到大牛&#xff0c;mysql安装到优化&#xff0c;百科全书级&#xff0c;全网天花板】 文章目录 第18章_MySQL8其它新特性1. MySQL8新特性概述1.1 MySQL8.0 新增特性1.2 MySQL8.0移除的旧特性 2. 新特性1&#xff1a;窗口函数2.1 使用窗口…

【LeetCode刷题-树】--144.二叉树的前序遍历

144.二叉树的前序遍历 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeNode left, TreeNode right) …

『npm』一条命令快速配置npm淘宝国内镜像

&#x1f4e3;读完这篇文章里你能收获到 一条命令快速切换至淘宝镜像恢复官方镜像 文章目录 一、设置淘宝镜像源二、恢复官方镜像源三、查看当前使用的镜像 一、设置淘宝镜像源 npm config set registry https://registry.npm.taobao.org服务器建议全局设置 sudo npm config…

HarmonyOS使用Tabs组件实现页面切换

Tabs组件的使用 概述 在我们常用的应用中&#xff0c;经常会有视图内容切换的场景&#xff0c;来展示更加丰富的内容。比如下面这个页面&#xff0c;点击底部的页签的选项&#xff0c;可以实现“首页”和“我的” 两个内容视图的切换。 ArkUI开发框架提供了一种页签容器组件…

Pytorch中Group Normalization的具体实现

Group Normalization (GN) 是一种用于深度神经网络中的归一化方法&#xff0c;它将每个样本划分为小组&#xff0c;并在每个小组内进行标准化。与批归一化&#xff08;Batch Normalization&#xff09;不同&#xff0c;Group Normalization 不依赖于小批量数据&#xff0c;因此…

【Hadoop_04】HDFS的API操作与读写流程

1、HDFS的API操作1.1 客户端环境准备1.2 API创建文件夹1.3 API上传1.4 API参数的优先级1.5 API文件夹下载1.6 API文件删除1.7 API文件更名和移动1.8 API文件详情和查看1.9 API文件和文件夹判断 2、HDFS的读写流程&#xff08;面试重点&#xff09;2.1 HDFS写数据流程2.2 网络拓…

[Angular] 笔记1:开发设置 , 双向绑定

1 设置开发环境 1.1 安装 node 下载 node&#xff0c;因为要使用 npm 工具&#xff0c;教程中使用 Angualr 14, 最新版 node 20 用不了&#xff0c;安装 node 16 就可以。 1.2 安装 Angular CLI Angular CLI 是用于创建 Angular 工程的工具集&#xff0c;使用如下命令&…