Python读取Word文档中的Excel嵌入文件

news2025/1/10 10:38:49

今天群友提出一个问题:

image-20221213213219504

给出Word示例如下:

image-20221213213301889

对于这种嵌入文件在Word中都属于ole文件。

下面我们假设需要读取每个嵌入的Excel文件中的python工作表中的A1单元格。

python调用宏实现

首先我们看看如何调用com接口的宏代码实现这个效果,最终完整代码如下:

from win32com import client as win32
import os

word = win32.Dispatch("Word.Application")
word.Visible = True
wdDoc = word.Documents.Open(os.path.abspath("test.docx"))
try:
    for shape in wdDoc.InlineShapes:
        if shape.Type != 1 or not shape.OLEFormat.ProgID.startswith("Excel.Sheet"):
            # 要求形状类型为wdInlineShapeEmbeddedOLEObject,是Excel类型的OLE对象
            continue
        shape.OLEFormat.Open()
        xlApp = win32.GetActiveObject('Excel.Application')
        book = xlApp.Workbooks(1)
        print([sht.Name for sht in book.Sheets])
        print(book.Sheets("python").Range("A1").Value)
        book.Close()
finally:
    wdDoc.Close()
    xlApp.Quit()
    word.Quit()

执行结果:

['java', 'forever', 'python']
python
['java', 'forever', 'python']
python hello world
['java', 'forever', 'python']
python

注意:此方法仅支持在已安装办公软件(office或WPS)的windows环境下使用。

python解析ole文件实现

我通过压缩软件看到三个Excel文件其实是以ole的bin文件形式存储:

image-20221213214345006

我们也只需要理解并解析这些文件就可以得到对应的Excel文件,然后直接使用openpyxl或pandas解析。

HY.Li大佬提供了对应的代码:

image-20221213214721063

思路与我的想法不谋而合,不过我不知道用olefile这个现成的库可以解析这些文件,原本还打算自己实现一下。

参考上面的代码,最终我的实现如下:

import olefile
from zipfile import ZipFile
from openpyxl import load_workbook

filename = "test.docx"
with ZipFile(filename, "r") as zip_file:
    for name in zip_file.namelist():
        if not name.startswith("word/embeddings/"):
            continue
        with zip_file.open(name) as f:
            if not olefile.isOleFile(f):
                continue
            ole = olefile.OleFileIO(f)
            try:
                book = load_workbook(ole.openstream("package"))
                print(book.sheetnames)
                print(book["python"]["A1"].value)
            except Exception as e:
                print(name, "当前ole对象不是Excel文件:", e)

结果:

['java', 'forever', 'python']
python
['java', 'forever', 'python']
python hello world
['java', 'forever', 'python']
python

相对来说,此方法跨平台,速度快。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/86599.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot多模块项目初始化搭建

🎶 文章简介:SpringBoot多模块项目初始化搭建 💡 创作目的:详细介绍SpringBoot多模块项目的搭建 ☀️ 今日天气:阳光明媚 📝 每日一言:不求事事圆满,但求事事甘心。 文章目录1、新建…

数据结构与算法——Java实现单链表、双向链表、环型链表、约瑟夫

目录 一、单链表 1.1 单链表基本介绍 1.2 分析与实现带head头结点的单向链表 1.2.1第一种方式: 尾部添加元素示意图 1.2.2 尾部添加元素的代码实现以及遍历链表的实现 1.2.3 第二种方式: 根据排名将节点插入到指定位置的示意图 1.2.4 根据排名将节…

MySQL入门到精通经典50题,看这一篇就够了

MySQL入门到精通经典50题学习笔记 pdf获取方式,公众号:每天都要努力coding回复:mysql经典50题 文章目录MySQL入门到精通经典50题学习笔记[toc]MySQL安装教程详解数据预览sql建表语句1.查询" 01 “课程比” 02 "课程成绩高的学生的…

基于鸽群算法优化的lssvm回归预测-附代码

基于鸽群算法优化的lssvm回归预测 - 附代码 文章目录基于鸽群算法优化的lssvm回归预测 - 附代码1.数据集2.lssvm模型3.基于鸽群算法优化的LSSVM4.测试结果5.Matlab代码摘要:为了提高最小二乘支持向量机(lssvm)的回归预测准确率,对…

你的项目需要自动化测试吗?看看这篇文章再说吧

什么是自动化测试? 通过代码的方式,实现测试用例的自动运行,评估运行结果,并对测试结果及异常情况进行记录。 为什么进行自动化测试? 纯手工测试会有好多重复性的操作,浪费时间,而且频繁的回…

央企招聘:中国大唐集团2023年度公开招聘公告

中国大唐集团科学技术研究总院有限公司(以下简称科研总院)是世界500强企业——中国大唐集团有限公司(以下简称集团公司)的全资子公司,是集团公司的科技创新中心、战略参谋本部、成果孵化中心、技术服务保障基地和科技人…

Qt+VS+VTK综合开发环境配置

说明 本文旨在介绍一种个人常用的开发环境,主要解决在VS中开发Qt项目的部分问题,以及解决使用基于Qt的VTK库开发时可能遇到的部分问题,并通过合理的配置提升新项目搭建时间 该教程使用版本为VS2017,Qt5.14.2以及VTK8.2&#xff…

git_No.1_版本管控的全流程

文章目录1.获取Git仓库1.1 已存在目录中初始化仓库1.2 克隆一个仓库2. 将变更提交到仓库2.1 查看当前文件状态2.2 跟踪新文件2.3 暂存已修改的文件2.4 忽略文件2.5 查看已暂存和未暂存的修改2.6 提交更新2.7 跳过使用暂存区2.8 移除文件3. 查看提交历史4.远程仓库4.1 查看远程仓…

HTTP介绍

目录 1.什么是HTTP? 2.HTTP的特点 3.HTTP的优点和缺点 4.HTTP请求数据格式 5.HTTP响应数据格式 6.GET请求和POST请求的区别 7.状态码分类说明 8.查看发送的请求数据包方式 1.什么是HTTP? Hyper Text Transfer Protocol,超文本传输协议&#xff…

[036]基于Vue+Nodejs的网上作业批改系统(含源码、数据库、万字课设报告)

文章目录一、项目介绍二、源码获取一、项目介绍 网络作业提交与批改系统:超强的作业批改项目,技术栈是VueNodeMysql,最重要的是有超详细的万字报告,一劳永逸,可冲~ 主要功能介绍: 1.管理员功能模块 管理员…

分享几个宝藏微信小程序

1.有数鸟:了解会员在各平台的消费明细 平时我们看视频听音乐,我们用的很多vip,你还记得你注册了哪些应用吗?有了这个小程序,就可以帮你记录每个平台的付款详情,以及总支出。 当我们添加会员项目时&#xff…

基于java+springboot+mybatis+vue+mysql的乒乓球预约管理系统

项目介绍 随着信息化时代的到来,管理系统都趋向于智能化、系统化,乒乓球馆预约管理系统 也不例外,但目前国内仍都使用人工管理,市场规模越来越大,同时信息量也越来越庞大,人工管理显然已无法应对时代的变…

基于C+++FLTK实现(WinForm)超市收银系统【100010032】

超市收银系统 Supermarket POS system 本次大作业是利用 C语言,基于 FLTK 图形库来设计超市收银系统。首先介绍程序的设计思想: 这套程序完全是基于题目所给的要求逐条逐步设计的。我把程序实现大致分为数据层面和图形层面。 数据层面: 程…

抖音视频怎么拼接?分享一款功能强大的软件

抖音视频怎么拼接?利用软件就很方便,所以抖音视频拼接可以通过操作简单的视频软件来辅助比较简单。就比如万兴喵影,就是一款操作简单、功能齐全的视频编辑器,很适合新手小白和半专业人士。 用万兴喵影做视频拼接,只需要…

扩散模型类似的方式训练text_to_text可不可以

🍿*★,*:.☆欢迎您/$:*.★* 🍿 正文 # 使用 64*64 图 写入 16号字体 16个字 # 每组数据 的 文字 是连续的 # 三张图组成一个训练 # 至少48 个字符训练一次 # 选择好自己的文本数据集

Springboot整合Netty,自定义协议实现

Springboot整合Netty&#xff0c;自定义协议实现 Springboot整合Netty 新建springboot项目&#xff0c;并在项目以来中导入netty包&#xff0c;用fastjson包处理jsonStr。 <!-- netty --><dependency><groupId>io.netty</groupId><artifactId>…

Unity物理系统-物理材质-Collider碰撞体的弹力不够大如何处理

物理材质Physic Material&#xff1b; 当碰撞器发生碰撞的时候&#xff0c;具有该材质的游戏物体就会具有该材质的属性&#xff1b; Step1&#xff1a;在Project窗口下新建Physic Material&#xff08;命名为mat&#xff09;&#xff0c;并更改其弹力参数为1 Step2&#xff1a…

408 考研《操作系统》第二章第七节:死锁和死锁的三种处理策略(预防死锁、避免死锁、检测和解除)

文章目录1.死锁1.1 什么是死锁&#xff1f;1.2 死锁、饥饿、死循环的区别1.3 死锁产生的必要条件1.4 什么时候会发生死锁&#xff1f;1.6 总结2. 死锁的处理策略——预防死锁2.1 破坏互斥条件2.2 破坏不剥夺条件2.3 破坏请求和保持条件2.4 破坏循环等待条件2.5 总结3. 死锁的处…

chatgpt+mirai实现QQ机器人

chatGPTbot 配合mirai机器使用 安装 Java &#xff08;版本必须 > 11&#xff09; 下载Mirai 控制台 https://github.com/iTXTech/mirai-console-loader/releases 手动安装插件mirai-api-http 1.双击mcl.cmd 或./mcl 运行 Mirai Console 生成 plugins 文件夹 2.从 ht…

Android基于开源项目搭建自己的技术堆栈

一、app的整体架构 从较高的层次讲&#xff0c;一个APP的整体架构可以分为两层&#xff0c;即应用层和基础框架层。 1、应用层专注于行业领域的实现&#xff0c;如金融、支付、地图、社交等&#xff0c;它直接面向用户&#xff0c;是用户对产品的第一层感知。 2、基础框架层…