Python读取Word文档中的Excel嵌入文件

news2025/4/18 11:17:30

今天群友提出一个问题：

给出Word示例如下：

对于这种嵌入文件在Word中都属于ole文件。

下面我们假设需要读取每个嵌入的Excel文件中的python工作表中的A1单元格。

python调用宏实现

首先我们看看如何调用com接口的宏代码实现这个效果，最终完整代码如下：

from win32com import client as win32
import os

word = win32.Dispatch("Word.Application")
word.Visible = True
wdDoc = word.Documents.Open(os.path.abspath("test.docx"))
try:
    for shape in wdDoc.InlineShapes:
        if shape.Type != 1 or not shape.OLEFormat.ProgID.startswith("Excel.Sheet"):
            # 要求形状类型为wdInlineShapeEmbeddedOLEObject，是Excel类型的OLE对象
            continue
        shape.OLEFormat.Open()
        xlApp = win32.GetActiveObject('Excel.Application')
        book = xlApp.Workbooks(1)
        print([sht.Name for sht in book.Sheets])
        print(book.Sheets("python").Range("A1").Value)
        book.Close()
finally:
    wdDoc.Close()
    xlApp.Quit()
    word.Quit()

执行结果：

['java', 'forever', 'python']
python
['java', 'forever', 'python']
python hello world
['java', 'forever', 'python']
python

注意：此方法仅支持在已安装办公软件(office或WPS)的windows环境下使用。

python解析ole文件实现

我通过压缩软件看到三个Excel文件其实是以ole的bin文件形式存储：

我们也只需要理解并解析这些文件就可以得到对应的Excel文件，然后直接使用openpyxl或pandas解析。

HY.Li大佬提供了对应的代码：

思路与我的想法不谋而合，不过我不知道用olefile这个现成的库可以解析这些文件，原本还打算自己实现一下。

参考上面的代码，最终我的实现如下：

import olefile
from zipfile import ZipFile
from openpyxl import load_workbook

filename = "test.docx"
with ZipFile(filename, "r") as zip_file:
    for name in zip_file.namelist():
        if not name.startswith("word/embeddings/"):
            continue
        with zip_file.open(name) as f:
            if not olefile.isOleFile(f):
                continue
            ole = olefile.OleFileIO(f)
            try:
                book = load_workbook(ole.openstream("package"))
                print(book.sheetnames)
                print(book["python"]["A1"].value)
            except Exception as e:
                print(name, "当前ole对象不是Excel文件:", e)

结果：

['java', 'forever', 'python']
python
['java', 'forever', 'python']
python hello world
['java', 'forever', 'python']
python

相对来说，此方法跨平台，速度快。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/86599.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Python读取Word文档中的Excel嵌入文件

python调用宏实现

python解析ole文件实现

相关文章

SpringBoot多模块项目初始化搭建

数据结构与算法——Java实现单链表、双向链表、环型链表、约瑟夫

MySQL入门到精通经典50题，看这一篇就够了

基于鸽群算法优化的lssvm回归预测-附代码

你的项目需要自动化测试吗？看看这篇文章再说吧

央企招聘：中国大唐集团2023年度公开招聘公告

Qt+VS+VTK综合开发环境配置

git_No.1_版本管控的全流程

HTTP介绍

[036]基于Vue+Nodejs的网上作业批改系统(含源码、数据库、万字课设报告)

分享几个宝藏微信小程序

基于java+springboot+mybatis+vue+mysql的乒乓球预约管理系统

基于C+++FLTK实现（WinForm）超市收银系统【100010032】

抖音视频怎么拼接？分享一款功能强大的软件

扩散模型类似的方式训练text_to_text可不可以

Springboot整合Netty，自定义协议实现

Unity物理系统-物理材质-Collider碰撞体的弹力不够大如何处理

408 考研《操作系统》第二章第七节：死锁和死锁的三种处理策略（预防死锁、避免死锁、检测和解除）

chatgpt+mirai实现QQ机器人

Android基于开源项目搭建自己的技术堆栈