从微软 Word 中提取数据

news2024/10/2 8:31:13

从 Microsoft Word 文档中提取数据可以通过编程来实现,有几种常见的方法,其中之一是使用 Python 和 python-docx 库。python-docx 是一个处理 .docx 文件(Microsoft Word 文档)的 Python 库,可以读取和操作 Word 文档的内容。以下就是我如何使用 python-docx 库从 Word 文档中提取数据的步骤和示例代码:

在这里插入图片描述

1、问题背景

我们需要从微软 Word 文件中提取数据到数据库中,以便可以从网络界面中查看这些数据。当前公司的情况是在 Word 文件中记录了大量会议纪要,由于过去的操作习惯和延续性,这种做法一直保留了下来。

但是,这种做法给我们带来了许多不便,需要将会议纪要中的任务提取出来,将任务变成数据库中的记录,并且当任务完成时需要在数据库中更新其状态。我们希望找到一种最佳的方法来完成这一任务。

2、解决方案

我们提出了几种可能的解决方案来完成这一任务:

  • 使用 Word 中的 VBA 宏来创建 CSV 文件,然后将 CSV 文件上传到数据库中。
  • 使用 Word 中的 VBA 宏连接到数据库,然后将数据直接插入到数据库中。
  • 使用 Python 脚本通过 win32com 来提取数据,然后将数据上传到数据库中。

对于最后一种方法,由于需要使用 Django 来开发网络界面,因此我们倾向于采用这种方法。但是,这需要我们在 Python 中使用 win32com 来操作 Word 文件,这是我们从未使用过的。我们希望找到一种方法来解决这个问题。

此外,我们还在提取数据的过程中遇到了一个小问题,当我们从 Word 表格中提取字符串时,在每个字符串的末尾都会出现一个奇怪的小方框字符。我们希望找到一种方法来解决这个问题。

根据以上所述,我们可以选择下面这些方案:

  1. 使用 OpenOffice 来打开 Word 文件,然后使用 Python 宏来提取数据。
  2. 使用 VBA 宏从 Word 中提取数据,并使用 Left() 函数来去除字符串末尾的小方框字符。
  3. 使用 win32com 从 Word 中提取数据,并使用 Left() 函数来去除字符串末尾的小方框字符。

对于第一种方案,使用 OpenOffice 来打开 Word 文件,然后使用 Python 宏来提取数据。这种方案的好处是,OpenOffice 可以直接打开 Word 文件,并且可以使用 Python 宏来提取数据,这对于我们来说比较简单。

对于第二种方案,使用 VBA 宏从 Word 中提取数据,并使用 Left() 函数来去除字符串末尾的小方框字符。这种方案的好处是,我们可以直接在 Word 中运行 VBA 宏,并且使用 Left() 函数来去除字符串末尾的小方框字符,这对于我们来说也比较简单。

对于第三种方案,使用 win32com 从 Word 中提取数据,并使用 Left() 函数来去除字符串末尾的小方框字符。这种方案的好处是,我们可以使用 Python 脚本来提取数据,并且使用 Left() 函数来去除字符串末尾的小方框字符,这对于我们来说也比较简单。

我们最终选择第三种方案,使用 win32com 从 Word 中提取数据,并使用 Left() 函数来去除字符串末尾的小方框字符。这种方案的好处是,我们可以使用 Python 脚本来提取数据,并且使用 Left() 函数来去除字符串末尾的小方框字符,这对于我们来说也比较简单。

以下是一个使用 Python 脚本从 Word 中提取数据的示例代码:

import win32com.client

word = win32com.client.Dispatch('Word.Application')
doc = word.Open('d:\\stuff\\myfile.doc')
doc.SaveAs(FileName='d:\\stuff\\text\\myfile.txt', FileFormat=?)  # not sure what to use for ?

这段代码的功能是,使用 win32com 打开 Word 文件并将其另存为纯文本文件。然后,我们可以使用 Python 来读取纯文本文件并提取数据。

全部代码:

1、安装库
确保你已经安装了 python-docx 库。如果没有安装,可以使用以下命令进行安装:

pip install python-docx

2、编写代码
使用 python-docx 库打开并读取 Word 文档中的文本。以下是一个基本示例:

from docx import Document

def extract_text_from_docx(file_path):
    # 打开文档
    doc = Document(file_path)
    # 存储所有文本的列表
    full_text = []

    # 遍历文档中的每一个段落
    for paragraph in doc.paragraphs:
        full_text.append(paragraph.text)

    # 合并所有段落文本
    return '\n'.join(full_text)

# 指定 Word 文件的路径
file_path = 'example.docx'
text = extract_text_from_docx(file_path)
print(text)

在这个示例中,我们定义了一个函数 extract_text_from_docx,该函数接受 Word 文档的文件路径作为参数,使用 Document 类打开文档,并遍历文档中的每个段落,将段落文本提取并存储到一个列表中,最后合并所有段落文本并返回。

如果你需要提取特定的内容,例如表格数据、特定样式的段落或带有特定格式的文本,可以在遍历文档时添加更多的逻辑处理。例如,下面是一个提取表格数据的示例:

def extract_tables_from_docx(file_path):
    # 打开文档
    doc = Document(file_path)
    tables_data = []

    # 遍历文档中的每一个表格
    for table in doc.tables:
        table_data = []
        for row in table.rows:
            row_data = [cell.text for cell in row.cells]
            table_data.append(row_data)
        tables_data.append(table_data)

    return tables_data

# 指定 Word 文件的路径
file_path = 'example.docx'
tables = extract_tables_from_docx(file_path)
for table in tables:
    for row in table:
        print('\t'.join(row))

在这个示例中,extract_tables_from_docx 函数提取了文档中的所有表格数据,并将其存储为列表的列表(每个表格是一个列表,每个表格的每一行是一个子列表)。最后,打印表格内容。

我们可以根据需要扩展这些示例代码,以提取和处理更多类型的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1912700.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

泛微开发修炼之旅--36通过js控制明细表中同一列中多个浏览框的显示控制逻辑(明细表列中多字段显示逻辑控制)

文章链接:36通过js控制明细表中同一列中多个浏览框的显示控制逻辑(明细表列中多字段显示逻辑控制)

谷粒商城学习笔记-22-分布式组件-SpringCloud-OpenFeign测试远程调用

文章目录 一,OpenFeign的简介二,OpenFeign的使用步骤1,场景说明2,引入依赖2,开启OpenFeign3,编写Feign接口4,使用feign调用远程接口5,验证 错误记录 上一节学习了注册中心&#xff0…

变长输入神经网络设计

我对使用 PyTorch 可以轻松构建动态神经网络的想法很感兴趣,因此我决定尝试一下。 我脑海中的应用程序具有可变数量的相同类型的输入。对于可变数量的输入,已经使用了循环或递归神经网络。但是,这些结构在给定行的输入之间施加了一些顺序或层…

前端面试题31(TCP与UDP区别)

TCP (Transmission Control Protocol) 和 UDP (User Datagram Protocol) 是两种在网络通信中常用的传输层协议,它们在多个方面存在显著差异,主要体现在以下几个方面: 连接方式: TCP 是面向连接的协议。在数据传输开始之前&#xf…

STM32学习历程(day6)

EXTI外部中断使用教程 首先先看下EXTI的框图 看这个框图就能知道要先初始化GPIO外设 那么和前面一样 1、先RCC使能时钟 2、配置GPIO 选择端口为输入模式, 3、配置AFIO,选择我们用的GPIO连接到后面的EXTI 4、配置EXTI,选择边沿触发方式…

前端javascript中的排序算法之选择排序

选择排序(Selection Sort)基本思想: 是一种原址排序法; 将数组分为两个区间:左侧为已排序区间,右侧为未排序区间。每趟从未排序区间中选择一个值最小的元素,放到已排序区间的末尾,从…

从Helm到 Operator:Kubernetes应用管理的进化

🧰Helm 的作用 在开始前需要先对 kubernetes Operator 有个简单的认识。 以为我们在编写部署一些简单 Deployment 的时候只需要自己编写一个 yaml 文件然后 kubectl apply 即可。 apiVersion: apps/v1 kind: Deployment metadata: labels: app: k8s-combat …

Camera Raw:常规工具

在 Camera Raw 窗口右下角提供了四个常用的工具,它们分别是:缩放工具、抓手工具、切换取样器叠加以及切换网格叠加工具。 ◆ ◆ ◆ 缩放工具 Zoom Tool 用于放大或缩小预览图像,便于查看和编辑细节。 快捷键:Z 1、双击“缩放工具…

jvm 06 对象内存结构,指针压缩,调优

01 内存布局 mark word 32bit 4B 64bit 8B 类型指针 klass pointer 开启指针压缩 4B 关闭指针压缩 8B 数组长度 4B 没有这个区域 实例数据 bool 1B 1 true,0 false #define TRUE 1 byte 1B char 2B 1B int 4B float 4B long 8B double 8B 引用类型 开启指针压缩 4B …

部署前端项目

常见部署方式有:静态托管服务、服务器部署 1. 静态托管服务 使用平台部署代码,比如 GitHub。 | 创建一个仓库,仓库名一般是 yourGithubName.github.io。 | 将打包后的静态文件文件上传到仓库。 | 在“Settings”(选项&#xff0…

一文入门云上StarRocks | EMR Serverless StarRocks

一文入门云上StarRocks | EMR Serverless StarRocks 什么是EMR Serverless StarRocksEMR Serverless StarRocks 操作免费开通创建实例连接StarRocks实例临时查询新建连接元数据管理诊断与分析 写在最后 什么是EMR Serverless StarRocks 在使用一个云产品之前,我们首…

C语言 结构体和共用体——结构体类型与结构体变量

目录 问题的提出 数组的解决方法 我们希望的内存分配图 如何声明一个结构体类型? 如何定义一个结构体变量? 用typedef给数据类型定义一个别名 如何定义一个结构体变量? 结构体变量的初始化 问题的提出 数组的解决方法 我们希望的内存…

解决树形表格 第一列中文字没有对齐

二级分类与一级分类的文字没有对齐 <el-table:data"templateStore.hangyeList"style"width: 100%"row-key"id":tree-props"{ children: subData, hasChildren: hasChildren }" ><el-table-column prop"industryCode&quo…

【Unity2D 2022:Audio】添加游戏音乐和音效

一、添加背景音乐 1. 创建空的游戏物体&#xff0c;名为BackgroundMusic 2. 为音频播放器添加音频源&#xff08;Audio Source&#xff09;组件 3. 将背景音乐音频赋值到AudioClip&#xff08;红色&#xff09; 4. 设置循环播放&#xff08;蓝色&#xff09; 二、添加草莓拾取…

AI赋能,全面筑牢防线:重点非煤矿山重大灾害风险防控系统探析

一、背景需求 随着工业化和现代化的快速发展&#xff0c;非煤矿山作为重要的资源开采基地&#xff0c;其安全生产问题日益受到社会各界的广泛关注。非煤矿山在开采过程中&#xff0c;面临着诸多重大灾害风险&#xff0c;如滑坡、坍塌、水害、火灾等&#xff0c;这些灾害一旦发…

Start LoongArch64 Alpine Linux VM on x86_64

一、Build from source(build on x86_64) Obtain the latest libvirt, virt manager, and QEMU source code, compile and install them 1.1 Build libvirt from source sudo apt-get update sudo apt-get install augeas-tools bash-completion debhelper-compat dh-apparmo…

【音视频 | RTSP】SDP(会话描述协议)详解 及 抓包例子分析

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; &#x1f923;本文内容&#x1f923;&a…

机器视觉理论入门

文章目录 前言一、马尔视觉理论二、图形与图像三、图像基础名词总结 前言 Marr的视觉计算理论立足于计算机科学&#xff0c;系统地概括了心理物理学、神经生理学、临床神经病理学等方面已取得的所有重要成果&#xff0c;是迄今为止最为系统的视觉理论。Marr 的视觉计算理论虽然…

Linux学习——Linux中无法使用ifconfg命令

Linux学习——Linux中无法使用ifconfg命令&#xff1f; &#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅…

内网对抗-基石框架篇单域架构域内应用控制成员组成用户策略信息收集环境搭建

知识点&#xff1a; 1、基石框架篇-单域架构-权限控制-用户和网络 2、基石框架篇-单域架构-环境搭建-准备和加入 3、基石框架篇-单域架构-信息收集-手工和工具1、工作组(局域网) 将不同的计算机按照功能分别列入不同的工作组。想要访问某个部门的资源&#xff0c;只要在“网络…