用python提取word中的所有图片

news2024/12/24 10:23:26

        使用word中提取的方式图片会丢失清晰度,使用python写一个脚本,程序运行将弹出对话框选择一个word文件,然后在弹出一个对话框选择一个文件夹保存word中的文件。将该word中的所有图片都保存成png格式,并命名成image_i的样式。

程序运行步骤如下图所示:

代码:

其中,save_images_from_word函数介绍如下:

  • docx_file:一个字符串,表示要处理的Word文档的路径。
  • output_folder:一个字符串,表示要将图片保存到的文件夹路径。
  1. 使用python-docx库打开给定的Word文档,并将其内容存储在doc对象中。
  2. for i, rel in enumerate(doc.part.rels.values())::遍历文档中的所有关系。每一个关系rel都代表文档中的一个链接或嵌入的对象。通过enumerate函数,我们可以同时获得关系的索引i和关系对象本身。
  3. if "image" in rel.reltype:
    检查当前的关系是否是一个图片。rel.reltype是一个字符串,表示关系的类型。如果这个字符串中包含"image",则表示这是一个图片关系。
  4. image_bytes = rel.target_part.blob
    从图片关系中获取图片的原始字节数据。这里,rel.target_part.blob表示图片的原始二进制数据。
  5. with open(os.path.join(output_folder, f"image_{i}.png"), "wb") as f:
    使用os.path.join函数构造保存图片的完整路径。这里使用了格式化字符串(f-string),将关系索引转换为"image_{i}.png"这样的文件名。例如,如果索引是0,则文件名为"image_0.png"。
  6. f.write(image_bytes)
    将图片的原始字节数据写入到刚刚打开的文件中。这样,图片就被保存为PNG格式的文件了。
##########################################
#选择一个word文件,在选择一个路径
#程序将所有word中的图片保存成png格式,
#并且命名为image_i

from tkinter import Tk, filedialog  
from docx import Document  
import os  
import io
#from docx.shapes.picture import Picture
from PIL import Image  
  
def save_images_from_word(docx_file, output_folder):
    doc = Document(docx_file)
    for i, rel in enumerate(doc.part.rels.values()):
        if "image" in rel.reltype:
            image_bytes = rel.target_part.blob
            with open(os.path.join(output_folder, f"image_{i}.png"), "wb") as f:
                f.write(image_bytes)  
def select_file():  
    root = Tk()  
    root.withdraw()  
    file_path = filedialog.askopenfilename(filetypes=[("Word files", "*.docx")])  
    return file_path  
  
def select_output_folder():  
    root = Tk()  
    root.withdraw()  
    output_folder = filedialog.askdirectory()  
    return output_folder  
  
# 选择Word文件  
file_path = select_file()  
if file_path:  
    # 选择输出文件夹  
    output_folder = select_output_folder()  
    if output_folder:  
        # 保存图片到输出文件夹  
        save_images_from_word(file_path, output_folder)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1370055.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

模型容器与AlexNet构建

一、模型容器——Containers nn.Sequential 是 nn.module的容器,用于按顺序包装一组网络层 Sequential 容器 nn.Sequential 是 nn.module的容器,用于按顺序包装一组网络层 • 顺序性:各网络层之间严格按照顺序构建 • 自带forward()&#xf…

nodejs版本管理工具nvm的安装与使用

提示:nodejs版本管理工具nvm的安装与使用 文章目录 前言一、安装二、淘宝镜像配置三、安装所需版本的nodejs四、切换nodejs版本五、参考文档总结 前言 需求:新建一个vue3项目,,提示写法错误 查原因为node版本过低 随着技术更新迭…

6个提升Python编程能力的PyCharm插件

大家好,PyCharm作为一款强大的集成开发环境,本身已经提供了许多功能,但一些插件将进一步扩展和增强PyCharm的能力。通过使用这些插件,大家能够更快速地编写代码、提高代码质量、进行调试和优化,并将开发体验提升到一个…

Python 面向对象之元类

Python 面向对象之元类 【一】一切皆对象 【1】元类 元类(metaclass)是Python中用于创建类的类。在Python中,类是对象,而元类就是类的类它们控制类的创建过程,允许你定制类的行为Python中内置的默认元类是type我们用…

SpringMVC概述、SpringMVC 的入门

1.MVC介绍 MVC是一种设计模式,将软件按照模型、视图、控制器来划分: M:Model,模型层,指工程中的JavaBean,作用是处理数据 JavaBean分为两类: 一类称为数据承载Bean:专门存储业务数据…

12、DolphinScheduler

1、DolphinScheduler简介 1.1、 DolphinScheduler概述 Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 1.2、 DolphinScheduler核心架构 Dolph…

Unity 踩坑记录 AnyState 切换动画执行两次

AnySate 切换动画 Can Transition To Self 将这个勾选去掉!!!

九州金榜如何让孩子在家庭教育中更优秀

​ 每个人在出生时就有上天恩赐的两份礼物,一份是血脉相连的亲情,一份是家庭的关爱与教育。 最早接触的人就是父母,最早接触的教育就是家庭教育,这对孩子的影响极为深远。 这种家庭教育相比较学校教育,不仅有言传教…

springCould中的Config-从小白开始【10 】

目录 🌭1.spring cloud Config是什么😶‍🌫️😶‍🌫️😶‍🌫️ 🥓2.能干什么😶‍🌫️😶‍🌫️😶‍🌫️ &am…

借用GitHub将typora图片文件快速上传CSDN

前情概要 众所周知,程序员大佬们喜欢用typora软件写代码笔记,写了很多笔记想要放到CSDN上给其他大佬分享,但是在往csdn上搬运的时候,图片总是上传出错,一张一张搞有很麻烦,咋如何搞? 废话不多…

conda新建、配置python3.8虚拟环境,torch-cuda1.8,torchtext0.9.0,huggingface安装transformers库

起因是我在用bert的时候,导包报错 Python 环境缺少 importlib.metadata 模块。importlib.metadata 是 Python 3.8 引入的模块,而我的环境中使用的 Python 版本为 3.7。所以我得重新配置一个python3.8的环境 准备工作 在开始菜单找到anaconda prompt(an…

唠一唠Java线程池

第1章:引言 大家好,我是小黑,咱们今天来聊聊Java线程池,如果没有线程池,每个线程都需要手动创建和销毁线程,那将是多么低效和耗资源啊! 线程池的核心作用就是复用已创建的线程,减少…

什么是MOM,与MES系统的差异是什么

MOM基本概念介绍 由于绝大多数MES只关注生产执行的核心作用, 对维护管理、质量管理和库存管理的重视程度有限,有时甚至缺少这部分功能, 并且未提高到与生产运营相类似的复杂程度, 难以充分满足现代制造企业对其制造运营区域的业务管理需求, 进而直接影响对企业的运营管理效果。…

自带恒压恒流环路的降压型单片车充专用芯片

一、基本概述 XL2009是一款高效降压型DC-DC转换器,固定180KHz开关频率,可以提供最高2.5A输出电流能力,具有低纹波,出色的线性调整率与负载调整率特点。XL2009内置固定频率振荡器与频率补偿电路,简化了电路设计。 PWM …

AArch64 memory management学习(二)

提示 该博客主要为个人学习,通过阅读官网手册整理而来(个人觉得阅读官网的英文文档非常有助于理解各个IP特性)。若有不对之处请参考参考文档,以官网文档为准。AArch64 memory management学习一共分为两章,这是第二章。…

Transformer从菜鸟到新手(五)

引言 上篇文章我们在单卡上完成了完整的训练过程。 从本文开始介绍模型训练/推理上的一些优化技巧,本文主要介绍多卡并行训练。 下篇文章将介绍大模型推理常用的缓存技术。 多卡训练 第一个要介绍的是利用多GPU优化,因为在单卡上训练实在是太慢。这…

ORACLE索引失效和sql优化

全部都是在开发中碰到的真实问题,后续会一直更新本条帖子: 场景一: 使用了函数,导致索引失效 交易日期过滤数据时使用了to_date写法,导致日期字段查询未走索引 将控制台输出的sql 粘贴到plsql 按F5打开解释计划执行窗口…

【Android】 ConstraintLayout实操

由于最近比较悠闲,重新学习了constraintlayout,看着官网学的,官网网站如下:https://developer.android.com/training/constraint-layout?hlzh-cn#alignment 其实之前也小小的学过一波constraintlayout,不过因为用线性…

C#,入门教程(13)——字符(char)及字符串(string)的基础知识

上一篇: C#,入门教程(12)——数组及数组使用的基础知识https://blog.csdn.net/beijinghorn/article/details/123918227 字符串的使用与操作是必需掌握得滚瓜烂熟的编程技能之一!!!!! C#语言实…

Copilot 插件的使用介绍:如何快速上手

GitHub Copilot 本文主要介绍如何通过脚本工具激活 GitHub Copilot 插件,提供安装及激活图文教程,大家按下面操作即可激活GitHub Copilot插件,免费使用Ai编码工具 一、GitHub Copilot 介绍 GitHub Copilot 是由 GitHub 和 OpenAI 共同开发的…