Python办公自动化 获取文本数据 支持多种类型文件

news2024/9/22 7:05:58

学好办公自动化,走遍天下都不怕!!

        前面我们已经学习了,如何用python的下载安装以及入门基础知识,并且也知道如何使用python自动处理Excel文件数据、如何批量生成Word文件、如何对数据分析后生成洞察报告、如何用python实现自动发送包含附件的邮件等。

        今天我们主要学习python如何获取文本数据,比如获取word文件以及pdf文件的文本转换成txt类型的文件,为了方便使用,对代码进行封装,支持多种文件类型的工具。有问题请在评论区留言交流,谢谢。

目录

1. 安装下载以及导入

2.代码实现

3.运行结果

3.1 遇到一个问题

4.总结


1. 安装下载以及导入

需要的包文件都在下面了

# 导入需要的包和文件
import os,fnmatch
from win32com import client as wc
from win32com.client import Dispatch

2.代码实现

目前程序支持 doc | docx | pdf 文件类型。

1.根据文件的地址切分后得到文件的路径和文件名称

2.根据文件的后缀名生成新的txt后缀的文件名

3.设置新的保存路径 4.加载文本提取的处理程序 5.保存文件

#定义方法
#文件转换成txt文件,该方法两个参数:
#1.文件路径 需要转换的文件地址 2.保存路径 转换成txt文件之后保存的地址
def FilesToText(filePath,savePath=''):
    # 1.切分文件路径为文件目录和文件名
    dirs,filename = os.path.split(filePath)
    # print(dirs,'\n',filename)
    # return

    # 2.修改切分后文件的后缀
    typename= os.path.splitext(filename)[-1].lower() #获取文件后缀
    new_name = TranType(filename,typename)

    # print(typename,new_name)

    # 3.设置新的文件保存路径
    if savePath == '':
        savePath = dirs
    else:
        savePath = savePath
    newtxtPath = os.path.join(savePath,new_name)
    # print('!!!!',newtxtPath)   


    # 4.加载文本提取的处理程序,word 转换 txt
    wordapp = wc.Dispatch('Word.Application')
    mytxt = wordapp.Documents.Open(filePath) 
    print(filePath)  
    print(wordapp,'\n',mytxt)

    # 5.保存文本信息
    mytxt.SaveAs(newtxtPath,4) # 参数4代表抽取文本
    mytxt.Close()

def TranType(filename,typename):
    new_name = ''
    if typename == '.pdf':
        if fnmatch.fnmatch(filename,'*.pdf'):
            new_name = filename[:-4]+'.txt'
        else:return
    elif typename == '.doc' or '.docx':
        if fnmatch.fnmatch(filename,'*.doc'):
            new_name = filename[:-4]+'.txt'
        elif fnmatch.fnmatch(filename,'*.docx'):
            new_name = filename[:-5]+'.txt'            
        else:return
    else:
        print('转换失败 格式不正确无法转换')
        return
    return new_name

if __name__=='__main__':
    filePath1 = os.path.abspath(r'../demo/file/年终总结模板.doc') 
    filePath2 = os.path.abspath(r'../demo/file/2024年终总结模板.docx') 
    filePath3 = os.path.abspath(r'2023项目汇报.pdf') 
    FilesToText(filePath2)  

3.运行结果

现在我们运行项目,我们分别拿doc和docx文件、pdf文件做测试,看是否能转换成txt文件。

D:\CODE\VSCODE\python\demo> python wordtotxt.py

 

 可以看到docx和doc文件分别生成了对应的txt文件。

3.1 遇到一个问题

但是在执行pdf文件的时候出现了一个问题,Documents.Open()返回结果为none,代码以及报错截图如下图所示,经过查找filePath也是有数据的,wordapp也是有数据的,就是执行结果mytxt是none,但是执行的时候pdf文件是自动打开的,文件路径也没有问题。

 

如果小伙伴有遇到相同的问题以及解决方案,麻烦评论区留言分享一下,感谢。 

4.总结

本篇文章主要介绍了,后缀doc和docx结尾的word文件、pdf文件如何通过python转换成txt文件。

首先需要安装下载导入包、代码实现文件类型转换、最终实现文件类型的转换。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2086315.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【自由能系列(初级)】自由能原理——神经科学的“能量守恒”方程

【通俗理解】自由能原理——神经科学的“能量守恒”方程 关键词提炼 #自由能原理 #KL散度 #生成模型 #识别密度 #观测数据 #神经科学 第一节:自由能原理的类比与核心概念 1.1 自由能原理的类比 自由能原理在神经科学中的应用,可以类比为一个“大脑的…

Java 面试题:HTTP版本演变--xunznux

文章目录 HTTP版本演变HTTP/0.9HTTP/1.0HTTP/1.1新引入:问题:长连接是什么:管道网络传输:队头阻塞是什么?解决http队头阻塞的方法:HTTP1.1常见性能问题为解决HTTP1.1性能问题而提出的常见优化手段 HTTP/21、…

数据库(专业存储数据)

数组、链表、变量----->内存:程序运行结束,数据丢失 文件-------------->硬盘 数据库:专业存储数据,大量数据----------->硬盘 一、数据库文件与普通文件区别: 1.普通文件对数据管理(增刪改查)效率低 2.数据库对数据…

UNI-APP 打包构建 APK

UNI-APP 打包构建 APK 前言一、WINDOWS(在线 - 纯命令版)依赖其他前置准备实现原理操作步骤 二、WINDOWS(离线 - Android Studio 版)依赖(首次构建需要联网安装依赖)其他前置准备实现原理操作步骤 三、WIND…

【QT】学习笔记:处理数据库 SQLite

在 Qt 中使用 SQLite 数据库非常简单,Qt 提供了 QSqlDatabase 和 QSqlQuery 类来处理数据库的连接、查询、插入、更新和删除等操作。下面是一个示例程序,展示如何在 Qt 中使用 SQLite 数据库。 示例代码 1. 项目配置 首先,确保在项目的 .p…

李宏毅 机器学习与深度学习【2022版】 03

文章目录 一、卷积神经网络CNN二、使用验证集,模型还过拟合的原因三、深度学习的优点四、Spatial Transformer Layer 一、卷积神经网络CNN CNN在影像识别中,表现比较好。 每个感受野 receptive field 都有一个神经元去探测鸟嘴,是没有没要的…

Vue(三)内置指令v-text、html、cloak、once、pre;自定义指令的三种方式、Vue生命周期

文章目录 1. 内置指令1.1 v-text、v-html指令1.2 v-cloak指令1.3 v-once指令1.4 v-pre指令 2. 自定义指令(directives)2.1 函数式2.2 对象式2.3 注意点 3. 生命周期3.1 挂载流程3.2 更新流程3.3 销毁流程 1. 内置指令 1.1 v-text、v-html指令 v-text与v-html都是向所在的节点…

0. Spring 的 控制反转和依赖注入

提起Spring,很多人第一反应就是IOC和AOP。那IOC到底是什么东东? IOC(Inversion of Control) 翻译过来叫控制反转。DI(Dependency Injection)翻译过来叫依赖注入。这时候就应该掏出我们的人生三问了。 控制反转用人话说…

【数据结构】线性表的链式表示(单链表)

计算机考研408-数据结构笔记本之——第二章 线性表 2.3 线性表的链式表示(单链表的定义、基本操作:初始化/插入/删除/查找与建立)

苹果 iOS / iPadOS 18 beta8和iOS / iPadOS 18.1 beta3版本更新

苹果今日向iPhone和iPad用户推送了 iOS / iPadOS 18 开发者预览版 Beta 8 更新(内部版本号:22A5350a)和iOS / iPadOS 18.1 开发者预览版 Beta 3 更新(内部版本号:22B5034e),本次更新距离上次发布…

Linux系统使用Docker compose搭建开源文档系统Paperless-ngx

文章目录 前言1. 部署Paperless-ngx2. 本地访问Paperless-ngx3. Linux安装Cpolar4. 配置公网地址5. 远程访问6. 固定Cpolar公网地址7. 固定地址访问 前言 本文主要介绍如何在Linux系统本地部署Paperless-ngx开源文档管理系统,并结合cpolar内网穿透工具解决本地部署…

Oracle SYSAUX表空间使用率过高进行清理

巡检的时候发现SYSAUX表空间使用率超过了80%,将近达到了60G: TABLESPACE_NAME Allocated (MB) Free (MB) Used (MB) PERCENTFREE -------------------- -------------- ---------- ---------- ----------- SYSAUX 60440 7907 …

Java框架第三课(Spring)超级全

目录 一.关于Spring (1)什么是Spring (2)IOC解释 (3)Aop解释 (4)"一站式"解释 二.Spring框架的搭建(以Hello World为例) ​编辑 三.Spring框架的IOC (1)IOC基于xml配置 (2)基于注解配置 (3)xml文件配置和注解配置的优缺点 四.Spring集成Mybatis (1)Spring集…

【亲测有效】icmp,tcpping工具源码

icmp,tcpping工具源码 import socket import subprocess import platform import time import sysdef icmp_ping(host, count4):param -n if platform.system().lower() windows else -ctry:# 执行 ping 命令result subprocess.run([ping, param, str(count), h…

给自己复盘的随想录笔记-哈希表

哈希表理论基础 哈希表 那么哈希表能解决什么问题呢,一般哈希表都是用来快速判断一个元素是否出现集合里。 将学生姓名映射到哈希表上就涉及到了hash function ,也就是哈希函数。 哈希函数 如果hashCode得到的数值大于 哈希表的大小了,也就…

【Qt】QLCDNumber | QProgressBar | QCalendarWidget

文章目录 QLCDNumber —— 显示数字QLCDNumber 的属性QLCDNumber 的使用 QProgressBar —— 进度条QProgressBar 的属性创建一个进度条修改为 红色的进度条 QCalendarWidget —— 日历QCalendarWidget 的属性QCalendarWidget 的使用 QLCDNumber —— 显示数字 QLCDNumber 的属…

Nuxt3入门:介绍、项目安装和了解视图(第一节)

你好同学,我是沐爸,欢迎点赞、收藏、评论和关注。 有对 Nuxt3.0 感兴趣的小伙伴吗?一起来了解下 一、介绍 Nuxt is an open source framework that makes web development intuitive and powerful. Create performant and production-grad…

通过 pnpm 安装依赖包会发生什么

通过 pnpm 安装依赖包会发生什么 通过 pnpm 下载的包都是放在一个全局目录(.pnpm-store)下,默认是在 ${os.homedir}/v3/.pnpm-store,如果我们不确定在哪里,可以输入下面的命令手动配置: pnpm set store-d…

数据库文件(嵌入式)

一、数据库文件与普通文件区别 1、普通文件对数据管理(增删改查)效率低 2、数据库对数据管理效率高,使用方便 二、常用数据库 1、关系型数据库: 将复杂的数据结构简化为二维表格形式 大型:Oracle、DB2 中型&#x…

Java 入门指南:Java NIO —— Channel(通道)

NIO 的引入 在传统的 Java I/O 模型(BIO)中,I/O 操作是以阻塞的方式进行的。当一个线程执行一个 I/O 操作时,它会被阻塞直到操作完成。这种阻塞模型在处理多个并发连接时可能会导致性能瓶颈,因为需要为每个连接创建一…