20230809在WIN10下使用python3将DOCX文件转换为TXT文件

news2025/1/11 21:07:17

20230809在WIN10下使用python3将DOCX文件转换为TXT文件
2023/8/9 11:38


python docx txt

 

 


https://blog.51cto.com/u_16175446/6620474
如何实现Python读取word内容转为TXT的具体操作步骤


如何实现Python读取word内容转为TXT的具体操作步骤 原创
mob649e81576de12023-07-04 14:08:13
文章标签PythonWordtxt文件文章分类Python后端开发阅读数234

Python读取word内容转为TXT
作为一名经验丰富的开发者,我很乐意教会你如何使用Python读取word内容并将其转换为txt格式。下面是整个流程的步骤和需要使用的代码。

步骤
步骤    描述
步骤 1    安装Python-docx库
步骤 2    打开Word文档
步骤 3    读取文档内容
步骤 4    将内容保存为txt文件
代码解释
步骤 1: 安装Python-docx库
Python-docx是一个Python库,可以用于读取、查询和修改Microsoft Word 2007以上版本的docx文件。在开始之前,首先需要安装Python-docx库。在命令行中运行以下命令:

pip install python-docx
1.
步骤 2: 打开Word文档
要打开Word文档,我们需要使用Python-docx库中的Document类。以下是打开Word文档的代码:

from docx import Document

doc_path = "path_to_your_word_file.docx"
doc = Document(doc_path)

 


请将path_to_your_word_file.docx替换为你要读取的Word文档的完整路径。

步骤 3: 读取文档内容
在这一步中,我们将使用Document对象的paragraphs属性来访问文档的每个段落,然后使用text属性来获取段落的文本内容。以下是读取文档内容的代码:

text_content = ""
for paragraph in doc.paragraphs:
    text_content += paragraph.text


在上述代码中,我们创建了一个空字符串变量text_content,然后使用for循环遍历文档中的每个段落。通过访问paragraph.text属性,我们可以获取每个段落的文本内容,并将其添加到text_content字符串中。

 

步骤 4: 将内容保存为txt文件
最后一步是将读取的内容保存为txt文件。以下是将内容保存为txt文件的代码:

txt_file_path = "path_to_save_txt_file.txt"
with open(txt_file_path, "w") as txt_file:
    txt_file.write(text_content)

 


请将path_to_save_txt_file.txt替换为你希望保存txt文件的完整路径。

在上述代码中,我们使用open函数打开一个txt文件,并将其赋值给txt_file变量。然后,我们使用write方法将之前读取的内容text_content写入txt文件中。

至此,你已经完成了将Word内容转换为txt的整个过程。

希望这篇文章能帮助到你,让你能够轻松地使用Python读取Word文档并将其内容转换为txt格式。如果还有其他问题,请随时提问。

 


txt2docx1.py【删除了全部的换行符号!】

from docx import Document

doc_path = "path_to_your_word_file.docx"
doc = Document(doc_path)


text_content = ""
for paragraph in doc.paragraphs:
    text_content += paragraph.text


txt_file_path = "path_to_save_txt_file.txt"
with open(txt_file_path, "w") as txt_file:
    txt_file.write(text_content)

 

 


txt2docx2.py【处理完成换行了】

from docx import Document

doc_path = "path_to_your_word_file.docx"
doc = Document(doc_path)


text_content = ""
for paragraph in doc.paragraphs:
    text_content += paragraph.text
    text_content += '\n'


txt_file_path = "path_to_save_txt_file.txt"
with open(txt_file_path, "w") as txt_file:
    txt_file.write(text_content)

 

 

 

 

 


txt2docx3utf8.py【处理UTF8编码】

from docx import Document

doc_path = "path_to_your_word_file.docx"
doc = Document(doc_path)


text_content = ""
for paragraph in doc.paragraphs:
    text_content += paragraph.text
    text_content += '\n'


#with open("path_to_save_utf8_file.txt", "w", encoding="UTF-8") as utf8_file:
#txt_file_path = "path_to_save_txt_file.txt"
#with open(txt_file_path, "w") as txt_file:
txt_file_path = "path_to_save_txt+utf8_file.txt"
with open(txt_file_path, "w", encoding="UTF-8") as txt_file:
    txt_file.write(text_content)

转存为TXT文件,以ANSI编码和以UTF-8编码的,内容比对相同!

 


docx2txt2all.py/docx2txt+ansi3all.py【处理当前目录的DOCX为ANSI编码的TXT】

# coding=utf-8
import os

import docx


# 获取当前目录
path = os.getcwd()
# 查看当前目录下所有文件
files = os.listdir(path)

# 遍历所有文件
for file in files:
    # 判断文件是否为 txt 文件
    #if file.endswith('.txt'):
    if file.endswith('.docx'):
        # 构建新的文件名
        #new_file = file.replace('.txt', '.json')
        #new_file = file.replace('.docx', '.srt')
        new_file = file.replace('.docx', '.txt')
        # 重命名文件
        #os.rename(os.path.join(path, file), os.path.join(path, new_file))


        from docx import Document
        
        #doc_path = "path_to_your_word_file.docx"
        #doc = Document(doc_path)
        doc = Document(file)
        
        
        text_content = ""
        for paragraph in doc.paragraphs:
            text_content += paragraph.text
            text_content += '\n'
        
        
        #txt_file_path = "path_to_save_txt_file.txt"
        #with open(txt_file_path, "w") as txt_file:
        with open(new_file, "w") as txt_file:
            txt_file.write(text_content)


utf8docx2tx4all.py【处理当前目录的DOCX为UTF8编码的TXT】

# coding=utf-8
import os

import docx


# 获取当前目录
path = os.getcwd()
# 查看当前目录下所有文件
files = os.listdir(path)

# 遍历所有文件
for file in files:
    # 判断文件是否为 txt 文件
    #if file.endswith('.txt'):
    if file.endswith('.docx'):
        # 构建新的文件名
        #new_file = file.replace('.txt', '.json')
        #new_file = file.replace('.docx', '.srt')
        new_file = file.replace('.docx', '.txt')
        # 重命名文件
        #os.rename(os.path.join(path, file), os.path.join(path, new_file))


        from docx import Document
        
        #doc_path = "path_to_your_word_file.docx"
        #doc = Document(doc_path)
        doc = Document(file)
        
        
        text_content = ""
        for paragraph in doc.paragraphs:
            text_content += paragraph.text
            text_content += '\n'
        
        
        #txt_file_path = "path_to_save_txt_file.txt"
        #with open(txt_file_path, "w") as txt_file:
        #with open(new_file, "w") as txt_file:
        #txt_file_path = "path_to_save_txt+utf8_file.txt"
        #with open(txt_file_path, "w", encoding="UTF-8") as txt_file:
        with open(new_file, "w", encoding="UTF-8") as txt_file:
            txt_file.write(text_content)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/852523.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

伪原创文章生成器软件【php源码】

这篇文章主要介绍了python怎么做gui界面,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获,下面让小编带着大家一起了解一下。 火车头采集ai伪原创插件截图: Author:Runsen 现在极少有人会用…

Python入门【串行、并行与并发的区别、 进程、线程、协程的区别、线程是什么? 、协程是什么?、同步和异步介绍、线程Thread 、守护线程】(二十三)

👏作者简介:大家好,我是爱敲代码的小王,CSDN博客博主,Python小白 📕系列专栏:python入门到实战、Python爬虫开发、Python办公自动化、Python数据分析、Python前后端开发 📧如果文章知识点有错误…

小红书运营 从入门到精通

大家好,我是网媒智星,今天跟大家分享一下小红书运营的经验,从入门到精通,一文读懂,全篇干货输出,非常实用。 一、注册账号 首先要说明一点,小红书与其他平台有所不同,因此具有特殊性…

mysql二进制方式升级8.0.34

一、概述 mysql8.0.33 存在如下高危漏洞&#xff0c;需要通过升级版本修复漏洞 Oracle MySQL Cluster 安全漏洞(CVE-2023-0361) mysql/8.0.33 Apache Skywalking <8.3 SQL注入漏洞 二、查看mysql版本及安装包信息 [rootlocalhost mysql]# mysql -V mysql Ver 8.0.33 fo…

做外贸受伤的并不总是你

外贸群里的小伙伴们经常吐槽&#xff1a; 小伙伴A 说&#xff1a;我前两天做一个PI&#xff0c;是新开发成功的一个客户。客户让我再次降价&#xff0c;我也同意了&#xff0c;刚刚客户反过来说&#xff0c;一再同意降价&#xff0c;是不是品质同时也变差了&#xff0c;应该怎…

ORACLE19.8 RAC搭建ADG-主备都在原主机上 静态监听

ORACLE19.8 RAC搭建ADG-主备都在原主机上配置关于PDB连接 标签&#xff1a; oracle19c 我们知道多租户环境下&#xff0c;pdb中建立的普通用户连接pdb需要通过tnsnames.ora或ezconnect的方式连接。而pdb的连接需要通过IP、端口和PDB服务名来连接&#xff0c;那么相同主机adg的…

轻辙视觉引擎以多种AI算法工具,助力纺织行业断线检测智能识别

近年来&#xff0c;人工智能技术在各行各业的应用愈发广泛&#xff0c;机器视觉作为人工智能的重要分支&#xff0c;成为当下的研究热点。机器视觉技术的发展&#xff0c;大幅提升了工业、农业、医疗等领域的效率和精度。尤其在工业领域&#xff0c;随着智能制造的进一步发展&a…

如何更改或伪装浏览器指纹?

跨境出海经常会出现被某些网站“禁止访问”的情况&#xff0c;为什么呢&#xff1f;其中一部分原因就是因为你的浏览器制备被网站和在线平台识别到&#xff0c;从而得出设备和网络详细信息&#xff0c;从而禁止你的访问。这种独特的配置文件称为“浏览器指纹”&#xff0c;使网…

艺术创作的新纪元:如何训练Lora模型打造令人惊叹的AI绘画

目录 前言一、&#x1f981; 选择合适的云端平台1-1、云端平台的优势1-2、选择适合的云端平台 二、&#x1f981; 账号注册三、&#x1f981; 开始炼丹3-1、购买算力并创建工作空间3-2、启动工作空间3-3、应用市场一键安装 四、&#x1f981; 使用Stable-Diffusion作图4-1、国风…

软考高项(八)项目整合管理 ★重点集萃★

&#x1f451; 个人主页 &#x1f451; &#xff1a;&#x1f61c;&#x1f61c;&#x1f61c;Fish_Vast&#x1f61c;&#x1f61c;&#x1f61c; &#x1f41d; 个人格言 &#x1f41d; &#xff1a;&#x1f9d0;&#x1f9d0;&#x1f9d0;说到做到&#xff0c;言出必行&am…

循环结构进阶

二重循环 import java.util.Scanner;public class Demo01 {public static void main(String[] args) {Scanner scanner new Scanner(System.in);// 二重循环 外循环班级 内循环学生for (int i1; i<3; i) { // 外循环班级System.out.println("请输入第" i "…

WebDAV之π-Disk派盘+麻雀记

麻雀记是一款专注个人记录的优秀软件。正所谓麻雀虽小五脏俱全,麻雀记app亦是如此,虽然这款软件非常的小巧,但是它的功能却非常的丰富强大。全新的Focus页面功能,可以将你置顶的笔记整合在一个页面中,然后结合番茄钟功能来实现专注功能,提高你的专注力与效率。同时还提供…

原型设计工具大盘点:Figma VS 蓝湖 VS Axure VS 摹客

从事互联网行业以来&#xff0c;我在很多平台都可以看到这样的问题&#xff1a;原型设计工具推荐有哪些&#xff1f;产品经理有什么好用的原型设计工具&#xff1f; 的确&#xff0c;原型设计工具在产品设计领域扮演着至关重要的角色&#xff0c;一款高效简单的原型工具对于产…

基于低代码和数字孪生技术的电力运维平台设计

电力能源服务商在为用能企业提供线上服务的时候&#xff0c;不可避免要面对用能企业的各种个性化需求。如果这些需求和想法都要靠平台厂家研发人员来实现&#xff0c;那在周期、成本、效果上都将是无法满足服务运营需要的&#xff0c;这也是目前很多线上能源云平台应用效果不理…

仓储13代拣货标签操作指导

服务器使用 V1.4基站已经内置服务程序&#xff0c;无需搭建服务&#xff1b;可跳至第1.4部分 服务器搭建 安装mysql5.7, 创建db_wms数据库并导入原始数据库文件 安装jdk1.8, 配置java环境变量 下载tomca8.0, 部署wms.war到tomcat, 并启动tomcat 下载资源 Windows 64bit:…

汽车上的电源模式详解

① 一般根据钥匙孔开关的位置来确定整车用电类别&#xff0c;汽车上电源可以分为常电&#xff0c;IG电&#xff0c;ACC电 1&#xff09;常电。常电表示蓄电池和发电机输出直接供电&#xff0c;即使点火开关在OFF档时&#xff0c;也有电量供应。一般来讲模块的记忆电源及需要在车…

spss--因子分析案例介绍

这篇文章向大家介绍一个因子分析的实践操作案例。 这篇文章使用的数据集来自于一份问卷&#xff0c;数据集包括31个题目&#xff0c;178个观测&#xff08;因子分析对观测数有规定&#xff0c;一般要求观测的记录数为题目数量的5到10倍&#xff0c;至少5倍&#xff0c;此数据集…

微服务学习笔记-基本概念

微服务是一种经过良好架构设计的分布式架构方案。根据业务功能对系统做拆分&#xff0c;每个业务功能模块作为独立项目开发&#xff0c;称为一个服务。 微服务的架构特征&#xff1a; 单一职责&#xff1a;微服务拆分粒度更小&#xff0c;每一个服务都对应唯一的业务能力&…

回调函数和一般函数的区别

回调函数&#xff1a;不是我能控制的&#xff0c;通过外界信号触发调用&#xff0c;例如下面是chatter 一般函数&#xff1a;我能控制的&#xff0c;顺序调用

微信开发调试有哪些技巧?快解析开发调试方案

由于小程序的火爆,很多程序员自己学习微信小程序开发文档,下载微信开发者工具,试着开发小程序&#xff0c;但是开发过程中需要使用电脑进行一定的调试。调试在程序编程中是非常重要的&#xff0c;调试可以帮助我们解决很多技术性的问题&#xff0c;但是还有很多小伙伴们不知道如…