【技术类-02】python实现docx段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)”

news2025/3/13 0:13:52

作品展示

背景需求:

制作周计划时,需要将周计划docx内所有的表格里的手动换行符(软回车)”变成“段落标记(硬回车)”,

全部改成段落标记(硬回车)

但是19份docx每份都要打开,把软回车变成硬回车,就需要Python了

一开始,用替换“转义符”的思路,反复找了两天的代码,都没有成功。只能从头开始研究。

研究过程:

一、在Python里,手动换行符(^l)和段落标记(^p)是什么符号

如果某个符号等于3,等于2,说明它们就是手动换行符和段落标记的代码。

AI写了很多编码、16进制、转义符,最终推算获得正确代码,能够计算手动换行符和段落标记的出现的数量。


'''
了解在Python里,docx的手动换行符,段落标记用什么符号表示
作者:AI 对话大师、百度AI
时间:2024年3月15日
'''

from docx import Document

# 读取Word文档
doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')

# 初始化换行符计数器
newline_count = 0

# 遍历文档中的每个段落,统计换行符数量
for paragraph in doc.paragraphs:
    for run in paragraph.runs:
        # 统计每个文本运行中换行符的数量
        newline_count += run.text.count("\n")
        # 只读取段落里面的软回车符号
        # \u000D   =0
        # \u000A    =3
        # \n=3  
        # \r=0
        # "^l" =0
        # \u0085  =0
        # "\u2029" =0
        # \r\n  =0
        # "\x0a"


print(f"Word 文档中共有 {newline_count} 个 '\ n' 手动换行符(软回车)。")


from docx import Document

# 打开 Word 文档
doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')

# 初始化计数器
p_count = 0

# 遍历文档中的所有段落
for paragraph in doc.paragraphs:
    if paragraph._element is not None and paragraph._element.tag.endswith('p'):
        p_count += 1

print(f"Word 文档中共有 {p_count} 个 <w:p> 段落标记(硬回车)。")

结论:正好3个软回车,2个硬回车

因此说明:

1、'\n'代表docx里面的手动换行符(软回车)——转义符

2、‘段落元素’代表docx里面的段落标记(硬回车)——添加段落增加回车

在以上结论基础上,我用AI对话大师和百度AI生成并测试了无数次,终于将样板的四行段落文字(三行手动换行符+一行硬回车)替换成过了四行硬回车。

替换前

替换后:

代码展示:

'''
word段落文字里的手动换行符变成段落标记
作者:AI对话大师、百度AI对话
时间:2024年3月15日
'''


from docx import Document
from docx.shared import Pt

# 打开 Word 文档
doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')

# 用于保存要删除的段落
paragraphs_to_delete = []

# 遍历文档中的所有段落
for paragraph in list(doc.paragraphs):  
    # 查找段落中的软回车(\n)
    if '\n' in paragraph.text:
        # 分割段落文本,找到软回车的位置
        texts = paragraph.text.split('\n')
        
        # 首先处理第一个文本块
        paragraph.text = texts[0]
        
        # 在软回车的位置插入新的段落
        for text in texts[0:]:
            new_paragraph = paragraph.insert_paragraph_before(text)
            new_paragraph.style = paragraph.style  # 保留原始样式
        
        # 将原始段落添加到待删除列表中
        paragraphs_to_delete.append(paragraph)
        

# 删除原来的段落
for paragraph in paragraphs_to_delete:
    paragraph._element.getparent().remove(paragraph._element)

doc.save(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\234.docx')

通过代码观察:

Python对docx段落文字的替换的原理

1、将手动换行符左侧的内容复制到新列表,然后在原有位置重新段落写入,就会有硬回车
2、将包含手动换行符的原始段落进行删除。

思考:

Python的替换与word直接批量查找替换不同,

1、word可以对全文中段落和表格中的手动换行符全部替换

2、以上Python代码(只涉及paragraphs)只能对word段落文字中的手动换行符进行删除和重新写入段落,从而获得段落标记回车符。

其他测试

把手动换行符与段落标记的位置换一下,看看结果是否有误差。

测试1:

测试2

全部代码(计算回车数量+批量删添段落实现回车符)


'''
了解在Python里,docx的手动换行符,段落标记用什么符号表示
作者:AI 对话大师、百度AI对话
时间:2024年3月15日
'''

from docx import Document

# 读取Word文档
doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')

# 初始化换行符计数器
newline_count = 0

# 遍历文档中的每个段落,统计换行符数量
for paragraph in doc.paragraphs:
    for run in paragraph.runs:
        # 统计每个文本运行中换行符的数量
        newline_count += run.text.count("\n")
        # 只读取段落里面的软回车符号
        # \u000D   =0
        # \u000A    =3
        # \n=3  
        # \r=0
        # "^l" =0
        # \u0085  =0
        # "\u2029" =0
        # \r\n  =0
        # "\x0a"


print(f"Word 文档中共有 {newline_count} 个 '\ n' 手动换行符(软回车)。")


from docx import Document

# 打开 Word 文档
doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')

# 初始化计数器
p_count = 0

# 遍历文档中的所有段落
for paragraph in doc.paragraphs:
    if paragraph._element is not None and paragraph._element.tag.endswith('p'):
        p_count += 1

print(f"Word 文档中共有 {p_count} 个 <w:p> 段落标记(硬回车)。")



'''
word段落文字里的手动换行符变成段落标记
作者:AI对话大师、百度AI对话
时间:2024年3月15日
'''


from docx import Document
from docx.shared import Pt

# 打开 Word 文档
doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')

# 用于保存要删除的段落
paragraphs_to_delete = []

# 遍历文档中的所有段落
for paragraph in list(doc.paragraphs):  
    # 查找段落中的软回车(\n)
    if '\n' in paragraph.text:
        # 分割段落文本,找到软回车的位置
        texts = paragraph.text.split('\n')
        
        # 首先处理第一个文本块
        paragraph.text = texts[0]
        
        # 在软回车的位置插入新的段落
        for text in texts[0:]:
            new_paragraph = paragraph.insert_paragraph_before(text)
            new_paragraph.style = paragraph.style  # 保留原始样式
        
        # 将原始段落添加到待删除列表中
        paragraphs_to_delete.append(paragraph)
        

# 删除原来的段落
for paragraph in paragraphs_to_delete:
    paragraph._element.getparent().remove(paragraph._element)

doc.save(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\234.docx')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1519338.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

人工智能入门学习笔记1:什么是人工智能

一、什么是人工智能 人工智能(Artificial Intelligence)&#xff0c;是一个以计算机科学&#xff08;Computer Science&#xff09;为基础&#xff0c;由计算机、心理学、哲学等多学科交叉融合的交叉学科、新兴学科&#xff0c;研究、开发用于模拟、延伸和扩展人的智能的理论、…

day06、07-MySQL

文章目录 一、MySQL概述1.1 安装1.2 数据模型1.3 SQL简介1.3.1 SQL通用语法1.3.2 分类 二. 数据库设计-DDL2.1 项目开发流程2.2 数据库操作2.2.1 查询数据库2.2.2 创建数据库2.2.3 使用数据库2.2.4 删除数据库 2.3 图形化工具2.3.1 介绍2.3.2 安装2.3.3 使用2.2.3.1 连接数据库…

Docker 容器化技术:构建高效、可移植的开发环境和部署流程|Docker 网络

为了支持网络协议栈的多个实例&#xff0c;Linux 在网络协议栈中引入了网络命名空间。这些独立的协议栈被隔离到不同的命名空间中&#xff0c;处于不同命名空间中的网络协议栈是完全隔离的&#xff0c;彼此无法通信。通过对网络资源的隔离&#xff0c;就能在一台宿主机上虚拟多…

【ACW 服务端】页面操作Java增删改查代码生成

版本: 1.2.2-JDK17-SNAPSHOT 项目地址&#xff1a;wu-smart-acw 演示地址&#xff1a;演示地址 admin/admin Java增删改查代码生成 找到对应菜单 选择你需要的数据实例 选择数据库 选择数据库表 选择客户端&#xff08;如果是本地ACW服务代码启动默认注册上的客户端ID是…

错误:npm ERR! code CERT_HAS_EXPIRED 解决

问题&#xff1a; 在打开项目用npm install安装依赖时报错&#xff1a;npm ERR! code CERT_HAS_EXPIRED如下图&#xff1a; 原因&#xff1a; 说明正在尝试访问的npm registry 淘宝npm镜像源 的SSL证书已经过期&#xff0c;导致无法建立安全连接。 解决&#xff1a; 配置不…

深度学习基础知识之Atrous卷积(空洞卷积)

太久不看代码确实生疏了&#xff0c;盯着一堆不同的dilation&#xff0c;不知道有什么作用&#xff0c;论文中说是Atrous卷积&#xff0c;原来就是空洞卷积的意思。 Dilated/Atrous Convolution 空洞卷积&#xff08;膨胀卷积/扩张卷积&#xff09; 空洞卷积是一种不增加参数量…

2024 Meetup地区组织者招募ing!| 共赴IvorySQL城市行

IvorySQL每一次线下活动&#xff0c;都离不开背后默默付出及用心策划的地区组织者。是他们&#xff0c;让我们的相聚变得更加有意义&#xff0c;让我们的交流更加深入。每次看到大家在活动现场热情洋溢的面孔&#xff0c;听到大家对IvorySQL的喜欢和期待&#xff0c;我们都感到…

CSS:过渡动画 (Transition)与关键帧动画(Keyfram)

一、过渡动画 (Transition) 1.简单介绍 Transition能为样式的变化提供过渡效果&#xff0c;例如在下面的代码中&#xff1a; .main {width: 300px;height: 100px;background-color: #d26f6f;}.main:hover {width: 300px;height: 200px;background-color: #5e3e3e;transition:…

vscode 将已修改代码提交推送git时一直转圈也没有反馈

新安装的vscode 将已修改代码提交推送git时一直转圈也没有反馈 第一步 打开设置 第二步 搜索use Editor点击下面得git 第三步 将use Editor As commit input取消勾选 再次进行提交即可

【消息队列开发】 实现内存加载

文章目录 &#x1f343;前言&#x1f333;实现思路&#x1f6a9;读取消息长度&#x1f6a9;读取相应长度的消息&#x1f6a9;进行反序列化&#x1f6a9;判定是否有效&#x1f6a9;加入有效消息&#x1f6a9;收尾工作&#x1f6a9;代码实现 ⭕总结 &#x1f343;前言 本次开发目…

Ansible非标记语言YAML与任务剧本Playbook

前言 上篇介绍了 Ansible 单模块&#xff08;AD-Hoc&#xff09;的相关内容Ansible自动化运维Inventory与Ad-Hoc-CSDN博客&#xff0c;Ad-Hoc 命令是一次性的、即时执行的命令&#xff0c;用于在远程主机上执行特定任务&#xff0c;这些命令通常用于快速执行简单的任务。当需要…

二分查找注意事项

目录 1解题思路:首先二分查找分为左闭右闭和左闭右开两种情况&#xff0c;二种情况在细节处理上有所不同 2左闭右闭情况 3左闭右开 4总结&#xff1a; 1解题思路:首先二分查找分为左闭右闭和左闭右开两种情况&#xff0c;二种情况在细…

Go-知识sync map

Go-知识sync map 1. 用法1.1 声明1.2 增删改查1.3 增强操作 2. sync map 使用注意2.1 多读少写2.2 类型安全风险2.3 不能拷贝和传递 3. 实现原理3.1 数据结构3.2 read表数据结构3.3 entry 的数据结构3.4 sync map 的结构图3.5 插入数据3.6 查找数据3.7 再次插入3.8 删除数据 4.…

Unity基础学习

目录 基础知识点3D数学——基础Mathf三角函数坐标系 3D数学——向量向量模长和单位向量向量的加减乘除向量点乘向量叉乘向量插值运算 3D数学——四元数为何使用四元数四元数是什么四元数常用方法四元数计算 MonoBehavior中的重要内容延迟函数协同程序协同程序原理 Resources资源…

谁用过腾讯云轻量应用服务器2核2G3M配置,支持多少人在线?

腾讯云轻量应用服务器2核4G5M配置一年优惠价165元、252元15个月、三年756元&#xff0c;100%CPU性能&#xff0c;5M带宽下载速度640KB/秒&#xff0c;60GB SSD系统盘&#xff0c;月流量500GB&#xff0c;折合每天16.6GB流量&#xff0c;超出月流量包的流量按照0.8元每GB的价格支…

uniapp实现点击标签文本域中显示标签内容

先上一个效果图 实现的效果有&#xff1a; ①.点击标签时&#xff0c;标签改变颜色并处于可删除状态 ②.切换标签&#xff0c;文本域中出现标签的内容 ③.点击标签右上角的删除可删掉标签&#xff0c;同时清除文本域中标签的内容 ④.可输入内容&#xff0c;切换时不影响输入…

系统设计学习(三)限流与零拷贝

七、有哪些常用限流算法&#xff1f; Leaky Bucket 漏桶 漏桶可理解为是一个限定容量的请求队列。想象有一个桶&#xff0c;有水&#xff08;指请求或数据&#xff09;从上面流进来&#xff0c;水从桶下面的一个孔流出来。水流进桶的速度可以是随机的&#xff0c;但是水流出桶…

蓝桥杯小白赛第 7 场 3.奇偶排序(sort排序 + 双数组)

思路&#xff1a;在第一次看到这道题的时候我第一想法是用冒泡&#xff0c;但好像我的水平还不允许我写出来。我又读了遍题目发现它的数据很小&#xff0c;我就寻思着把它分成奇偶两部分。应该怎么分呢&#xff1f; 当然在读入的时候把这个问题解决就最好了。正好它的数据范围…

前端项目(vue3)自动化部署(Gitlab CI/CD)

天行健&#xff0c;君子以自强不息&#xff1b;地势坤&#xff0c;君子以厚德载物。 每个人都有惰性&#xff0c;但不断学习是好好生活的根本&#xff0c;共勉&#xff01; 文章均为学习整理笔记&#xff0c;分享记录为主&#xff0c;如有错误请指正&#xff0c;共同学习进步。…

C语言练习题【复试准备】

1、BoBo教KiKi字符常量或字符变量表示的字符在内存中以ASCII码形式存储。BoBo出了一个问题给KiKi&#xff0c;转换以下ASCII码为对应字符并输出他们。 //73,32,99,97,110,32,100,111,32,105,116,33 int main() {int arr[] {73,32,99,97,110,32,100,111,32,105,116,33};int i …