【Word自动化办公】使用python-docx对Word进行操作

【Word自动化办公】使用python-docx对Word进行操作

news2025/4/13 2:45:55

目录

一、环境安装

二、文档各组成结构获取

2.1 组成结构讲解

2.2 段落run对象的切分标准

三、获取整篇文档内容

四、写入指定样式的数据

4.1 通过add_paragraph与add_run参数添加样式

4.2 单独设置文本样式

五、添加标题

六、换行符&换页符

七、添加图片数据

7.1 向新文档任意位置添加图片

7.2 向已有文档添加图片

八、添加表格

8.1 添加单个单元格

8.2 批量填充表格

8.3 添加行列

8.4 合并单元格

一、环境安装

pip install -U python-docx==0.7.4

二、文档各组成结构获取

2.1 组成结构讲解

Word文档的组成结构：

.docx文档
段落
内容

python-docx使用说明：和纯文本相比，.docx文件有很多结构。这些结构在python-docx中有三种不同的类型来表示。在最高一层，Document对象表示整个文档。Document对象包含一个Paragraph对象的列表，表示文档中的段落（用户在Word文档中输入时，如果按下回车，新的段落就开始了）。每个Paragraph对象都包含一个Run对象的列表。

import docx

# 基于Document方法读取word文档
doc = docx.Document('./demo.docx')
# 获取指定段落
print(doc.paragraphs[0].text) # 我正在学习Python数据分析。
print(doc.paragraphs[0].runs[0].text) # 我正在学习Python数据分析。

2.2 段落run对象的切分标准

import docx

# 基于Document方法读取word文档
doc = docx.Document('./demo.docx')
# 获取指定段落
print(doc.paragraphs[0].text) # 我正在学习Python数据分析。
print(doc.paragraphs[2].runs[0].text) # Python是世界上最好的语言,
print(doc.paragraphs[2].runs[1].text) # 你觉得呢？
print(doc.paragraphs[4].runs[0].text) # A plain paragraph with some
print(doc.paragraphs[4].runs[1].text) # bold
print(doc.paragraphs[4].runs[2].text) # and some
print(doc.paragraphs[4].runs[3].text) # italic

总结：

中文段落中，是以标点符号进行run的构建/切分
英文段落中，是以单词样式不同进行构建/切分，如这个例子，bold是加粗了，italic是斜体了。

三、获取整篇文档内容

如果你只关心Word文档中的文本，不关心样式信息，就可以利用getText()函数。它接受一个.docx文件名，返回其中文本的字符串，当然getText()函数需要自己实现。

import docx

def getText(filename):
    doc = docx.Document(filename)
    fullText = []
    for para in doc.paragraphs:
        fullText.append(para.text)
    return '\n'.join(fullText)

print(getText('./demo.docx'))

四、写入指定样式的数据

4.1 通过add_paragraph与add_run参数添加样式

import docx

# 创建一个全新的文档对象
dc = docx.Document()
# 添加段落内容
p1 = dc.add_paragraph(text='i am a student!i love reading!', style='Heading1')
p2 = dc.add_paragraph(text='i am a worker!i love Python!', style='Heading5')
# 添加内容
p2.add_run(text='我是内容1')
p2.add_run(text='我是内容2', style='QuoteChar')
dc.save('./new_word.docx')

4.2 单独设置文本样式

from docx import Document
from docx.shared import Pt
from docx.enum.text import WD_ALIGN_PARAGRAPH

# 创建一个全新的文档对象
document = Document()
# 添加段落
p = document.add_paragraph()
# 添加内容
run = p.add_run('个人简历')
run.font.size = Pt(26) # 设置字体大小
p.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER # 居中
document.save('./new_word.docx')

五、添加标题

添加标题
- 调用add_heading()将添加一个段落，并使用一种标题样式
- add_heading()的参数，是一个标题文本的字符串，以及一个从0到4的整数。整数0表示标题是Title样式，这用于文档的顶部。整数1到4是不同的标题层次，1是主要的标题，4是最低层的子标题。add_heading()返回一个paragraph对象，让你不必多花一步从Document对象中提取它。

import docx

# 创建一个全新的文档对象
dc = docx.Document()
dc.add_heading('我是标题', 0)
dc.save('./new_word.docx')

六、换行符&换页符

import docx

# 创建一个全新的文档对象
dc = docx.Document()
dc.add_paragraph('i am a teacher!')
dc.paragraphs[0].runs[0].add_break() # 添加一个换行符
dc.paragraphs[0].add_run('hello!!!')
dc.add_paragraph('i am a student!')
dc.save('./new_word.docx')

import docx

# 创建一个全新的文档对象
dc = docx.Document()
dc.add_paragraph('i am a teacher!')
dc.paragraphs[0].runs[0].add_break(docx.text.WD_BREAK.PAGE) # 添加一个换页符
dc.paragraphs[0].add_run('hello!!!')
dc.add_paragraph('i am a student!')
dc.save('./new_word.docx')

七、添加图片数据

7.1 向新文档任意位置添加图片

7.2 向已有文档添加图片

注意：向已有文档添加图片不能放在任意位置，只能追加到最后。

import docx

# 创建一个全新的文档对象
dc = docx.Document('./new_word.docx')
dc.add_paragraph('i am a teacher!')
dc.add_picture('./python.jpg', width=docx.shared.Inches(3), height=docx.shared.Cm(5))
dc.add_paragraph('i am a student!')
dc.save('./new_word.docx')

八、添加表格

8.1 添加单个单元格

import docx

# 创建一个全新的文档对象
dc = docx.Document()
# 创建三行三列的表格
tb = dc.add_table(rows=3, cols=3, style='Light List Accent 3')
# 返回所有行
print(list(tb.rows))
# 返回所有列
print(list(tb.columns))
# 向单元格中添加数据 第一行的第一个单元格
tb.rows[0].cells[0].add_paragraph('hello')
dc.save('./new_word.docx')

8.2 批量填充表格

import docx

# 创建一个全新的文档对象
dc = docx.Document()
# 创建三行三列的表格
tb = dc.add_table(rows=3, cols=3, style='Light List Accent 3')
# 批量填充表格
alist = ['泰勒斯', '毕达哥拉斯', '赫拉克利特', '苏格拉底', '柏拉图', '亚里士多德', '伏尔泰', '卢梭', '康德']
i = 0
for row in tb.rows:
    for cell in row.cells:
        cell.add_paragraph(text=alist[i])
        i += 1
dc.save('./new_word.docx')

8.3 添加行列

import docx

# 创建一个全新的文档对象
dc = docx.Document()
# 创建三行三列的表格
tb = dc.add_table(rows=3, cols=3, style='Light List Accent 3')
# 添加单个行
tb.add_row()
# 添加单个列
tb.add_column()
dc.save('./new_word.docx')

8.4 合并单元格

import docx

# 创建一个全新的文档对象
dc = docx.Document()
# 创建三行三列的表格
tb = dc.add_table(rows=3, cols=3, style='Light List Accent 3')

# 获取第一行第二列的单元格
c1 = tb.cell(0, 1)
# 获取第二行第二列的单元格
c2 = tb.cell(1, 1)

# 合并单元格
c1.merge(c2)
dc.save('./new_word.docx')

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1540000.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

pytest之yaml格式测试用例读写封装

pytest之yaml格式测试用例读写封装

pytest之yaml格式测试用例读写封装 pytest之parametrize（）实现数据驱动YAML格式测试用例读/写/清除/封装结构类型Maps类型数组类型 pytestparametrizeyamltest_api.pyget_token.yaml pytest之parametrize（）实现数据驱动 pytest.ma…

阅读更多...

文件上传二—WEB攻防-PHP应用文件上传中间件CVE解析第三方编辑器已知CMS漏洞

文件上传二—WEB攻防-PHP应用文件上传中间件CVE解析第三方编辑器已知CMS漏洞

演示案例： PHP-中间件-上传相关-Apache&NginxPHP-编辑器-上传相关-第三方处理引用PHP-CMS源码-上传相关-已知识别到利用 #PHP-中间件-上传相关-Apache&Nginx 复现漏洞环境：vulhub （部署搭建看打包视频） 由于PHP搭建常用中…

阅读更多...

【机器学习300问】46、什么是ROC曲线？

【机器学习300问】46、什么是ROC曲线？

一、二分类器的常用评估指标有哪些？ 二分类器是机器学习领域中最常见的也是应用最广泛的分类器。评价二分类器的指标也很多，下面列出几个我之前重点写文章介绍过的指标。 （1）准确率（Accuracy） 定义为分类正…

阅读更多...

Centos上安装Harbor并使用

Centos上安装Harbor并使用

harbor的安装与使用 Harbor介绍安装前的准备工作为Harbor自签发证书安装Harbor安装docker开启包转发功能和修改内核参数安装harbor扩展 Harbor 图像化界面使用说明测试使用harbor私有镜像仓库从harbor仓库下载镜像 Harbor介绍容器应用的开发和运行离不开可靠的镜像管理&…

阅读更多...

STM32 CAN的工作模式

STM32 CAN的工作模式

STM32 CAN的工作模式正常模式正常模式下就是一个正常的CAN节点，可以向总线发送数据和接收数据。静默模式静默模式下，它自己的输出端的逻辑0数据会直接传输到它自己的输入端，逻辑1可以被发送到总线，所以它不能向总线发送显性…

阅读更多...

linux centos 安装jenkins，并构建spring boot项目

linux centos 安装jenkins，并构建spring boot项目

首先安装jenkins，使用war包安装，比较简单，注意看下载的版本需要的JDK版本，官网下载https://www.jenkins.io/download/ 把下载好的war包放到服务器上，然后运行，注意8080端口的放行 # 前台运行并指定端口 ja…

阅读更多...

智能优化算法 | Matlab实现PID搜索算法(PSA)（内含完整源码）

智能优化算法 | Matlab实现PID搜索算法(PSA)（内含完整源码）

文章目录效果一览文章概述源码设计参考资料效果一览文章概述智能优化算法 | Matlab实现PID搜索算法(PSA)（内含完整源码）源码设计 %%%% clc clear close all %%%% Fun_name=F12; % Fun_name of

阅读更多...

后端Jwt实现Token编码、解码以及axios的request请求头的Token传输方式

后端Jwt实现Token编码、解码以及axios的request请求头的Token传输方式

目录一、什么是JWT： 二、Jwt的使用： 第一步：引入依赖： 第二步：配置拦截器：JwtInterceptor.java： 其中异常文件ServiceException配置如下： 全局异常文件GlobalException.java文…

阅读更多...

海康威视-AIOT的业务转型

海康威视-AIOT的业务转型

海康威视的转型和定位为智能物联网（AIoT）解决方案和大数据服务的提供商。公司不仅仅聚焦于其核心的视频监控业务，而且正在积极拓展到新的技术领域和市场。通过专注于物联感知、人工智能、大数据等技术的创新，对未来技术发展方向的…

阅读更多...

增强现实（AR）在广告中的力量

The Power of AR in Advertising 写在前面增强现实（AR -Augmented Reality）是指借助软件、应用程序和智能手机、平板电脑或耳机等设备，为日常生活添加视觉和音频元素的技术。如今，品牌和广告商可以在营销活动中使用AR&#xff0…

阅读更多...

车道线检测论文:《Ultra Fast Structure-aware Deep Lane Detection》

车道线检测论文:《Ultra Fast Structure-aware Deep Lane Detection》

该论文标题为《Ultra Fast Structure-aware Deep Lane Detection》，作者是浙江大学计算机科学与技术学院的Zequn Qin、Huanyu Wang和Xi Li。论文提出了一种新颖的、简单而有效的车道检测方法，旨在解决具有挑战性场景下的车道检测问题，并实现极…

阅读更多...

CentOS系统部署YesPlayMusic播放器并实现公网访问本地音乐资源

CentOS系统部署YesPlayMusic播放器并实现公网访问本地音乐资源

文章目录 1. 安装Docker2. 本地安装部署YesPlayMusic3. 安装cpolar内网穿透4. 固定YesPlayMusic公网地址本篇文章讲解如何使用Docker搭建YesPlayMusic网易云音乐播放器，并且结合cpolar内网穿透实现公网访问音乐播放器。 YesPlayMusic是一款优秀的个人音乐播放器&am…

阅读更多...

idea使用token方式登录GitHub

idea使用token方式登录GitHub

总体上分为两大步：1.GitHub生成token。2.idea配置token登录GitHub。注：idea配置GitHub的前提是本地已经安装了git程序。一、GitHub生成token 1.登录GitHub 2.进入token创建页面（右上角点击头像–>settings–>页面向下滚动左侧菜单栏…

阅读更多...

网络上常见的环路指的是什么

网络上常见的环路指的是什么

人类的创造力与破坏力同样强大"。网路互通，同样也衍生出纷繁复杂的路由协议和各种因特网服务，以及"网络安全"这个庞大的领域。这也是为什么说当今所有的网络通讯流量中，80%的资源都被浪费，只有20%被用以有效数…

阅读更多...

网络安全实训Day8

网络安全实训Day8

写在前面网络工程终于讲完了。这星期到了网络安全技术部分。网络安全实训-网络安全技术网络安全概述信息安全：所有保障计算机硬件、系统、软件、数据不因有意或无意的行为导致的服务中断、数据损坏或丢失等安全事件的保障技术网络安全：基于计算机…

阅读更多...

CSS的特殊技巧

CSS的特殊技巧

1.精灵图使用精灵图核心总结： 1. 精灵图主要针对于小的背景图片使用。 2. 主要借助于背景位置来实现--- background-position 。 3. 一般情况下精灵图都是负值。（千万注意网页中的坐标： x轴右边走是正值，左边走是负值&#xf…

阅读更多...

Unity 中苹果眼镜开发入口

1. 文档介绍了Unity对Apple新操作系统visionOS的支持。 2. Unity提供了完善的文档、模板和支持,帮助开发者快速为visionOS开发应用。 3. Unity的跨平台框架AR Foundation和XR Interaction Toolkit可以帮助现有移动和XR应用无缝迁移到visionOS。 4. 在visionOS上,可以利用Uni…

阅读更多...

Python 从0开始一步步基于Django创建项目（3）使用Admin site管理数据模型

Python 从0开始一步步基于Django创建项目（3）使用Admin site管理数据模型

本文内容建立在《Python 从0开始一步步基于Django创建项目（2）创建应用程序&数据模型》的基础上。 Django提供的admin site，使得网站管理员，能够轻松管理网站的数据模型。本文首先创建‘管理员账户’，即超级用户…

阅读更多...

超快的 AI 实时语音转文字，比 OpenAI 的 Whisper 快4倍 -- 开源项目 Faster Whisper

超快的 AI 实时语音转文字，比 OpenAI 的 Whisper 快4倍 -- 开源项目 Faster Whisper

faster-whisper 这个项目是基于 OpenAI whisper 的模型，在上面的一个重写。使用的是 CTranslate2 的这样的一个库，CTranslate2 是用于 Transformer 模型的一个快速推理引擎。在相同精度的情况下，faster-whisper 的速度比 OpenAI whisper …

阅读更多...

【2024第十二届“泰迪杯”数据挖掘挑战赛】B题基于多模态特征融合的图像文本检索—解题全流程（持续更新）

【2024第十二届“泰迪杯”数据挖掘挑战赛】B题基于多模态特征融合的图像文本检索—解题全流程（持续更新）

2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛B题解题全流程（持续更新） -----基于多模态特征融合的图像文本检索一、写在前面： 本题的全部资料打包为“全家桶”， “全家桶”包含：数据、代码、模型、结果csv、教程…

阅读更多...

推荐文章

最新文章