前言
本文是该专栏的第7篇,后面会持续分享Python办公自动化干货知识,记得关注。
在处理word文档内容的时候,有时候我们需要一个干净整洁的文本内容。比如说,如下图所示的情况:
在处理上述word文档内容的时候,我们希望将文本底部的“下载链接”以及“附件信息”两个段落,进行删除。
如果目标文件是成百上千份这样的word,通过人工筛选肯定是不现实的,太耗费精力和时间。这个时候,“如果我们换成使用python程序代码,进行自动删除处理”,那这样就会大大节约我们的时间以及精力。
而本文,笔者将针对上述需求,将结合实际代码案例,进行详细说明。具体的细节部分以及知识点讲解,笔者将在正文结合实战案例以及完整代码进行详细说明。(附完整代码)
正文
需求:通过python,自动删除word文档中带有“指定内容”的段落文本
1. 依赖库安装
通过python读取docx文档内容,首先要安装python-docx库。值得一提的是