【技术类-04】python实现docx表格文字和段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)”

news2025/1/12 13:23:49

作品展示:

背景需求:

把python实现docx表格文字和段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)合并在一起统计数量

【技术类-02】python实现docx段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)”-CSDN博客文章浏览阅读226次,点赞4次,收藏6次。【技术类-02】python实现docx段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)”https://blog.csdn.net/reasonsummer/article/details/136750032

【技术类-03】python实现docx表格文字的“手动换行符(软回车)”变成“段落标记(硬回车)”-CSDN博客文章浏览阅读396次,点赞10次,收藏4次。【技术类-03】python实现docx表格文字的“手动换行符(软回车)”变成“段落标记(硬回车)”https://blog.csdn.net/reasonsummer/article/details/136751324

素材准备——包含段落文字和表格文字

目测有

Word 文档中表格内共有 3 个 '\n' 手动换行符(软回车)。
Word 文档中表格内共有 1 个 <w:p> 段落标记(硬回车)。
Word 文档中段落内共有 3 个 '\ n' 手动换行符(软回车)。
Word 文档中段落内共有 2 个 <w:p> 段落标记(硬回车)。


 

结果验证数量正确

然后把word段落里的手动换行符和word表格里的手动换行符都变成段落标记符号(合并)

全部代码


'''
了解在Python里docx表格里、段落里分别有几个手动换行符(软回车),有几个段落标记符号(硬回车)
作者:AI 对话大师、百度AI对话
时间:2024年3月16日
'''

from docx import Document

# 表格里的

doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')

# 初始化换行符计数器
soft_newline_count_in_tables = 0
hard_newline_count_in_tables = 0

# 遍历文档中的所有表格
for table in doc.tables:
    for row in table.rows:
        for cell in row.cells:
            # 遍历单元格中的每个段落
            for paragraph in cell.paragraphs:
                # 遍历段落中的每个文本运行
                for run in paragraph.runs:
                    # 统计文本运行中软回车(换行符)的数量
                    soft_newline_count_in_tables += run.text.count("\n")
                
                # 段落结束,增加一个硬回车的计数(包括表格单元格中的段落)
                hard_newline_count_in_tables += 1

# 打印统计结果
print(f"Word 文档中表格内共有 {soft_newline_count_in_tables} 个 '\\n' 手动换行符(软回车)。")
print(f"Word 文档中表格内共有 {hard_newline_count_in_tables} 个 <w:p> 段落标记(硬回车)。")


# 段落里的
# 初始化换行符计数器
newline_count = 0
p_count = 0

# 遍历文档中的每个段落,统计换行符数量
for paragraph in doc.paragraphs:
    for run in paragraph.runs:
        # 统计每个文本运行中换行符的数量
        newline_count += run.text.count("\n")
    if paragraph._element is not None and paragraph._element.tag.endswith('p'):
        p_count += 1
  
print(f"Word 文档中段落内共有 {newline_count} 个 '\ n' 手动换行符(软回车)。")
print(f"Word 文档中段落内共有 {p_count} 个 <w:p> 段落标记(硬回车)。")


'''
word表格文字和段落里里的手动换行符变成段落标记 (docx表格)
作者:AI对话大师、百度AI对话
时间:2024年3月15日
'''
from docx import Document
from docx.shared import Pt

# 打开 Word 文档
doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')

# 用于保存要删除的单元格
cells_to_delete = []
# 用于保存要删除的段落
paragraphs_to_delete = []

# 遍历文档中的所有表格
for table in doc.tables:
    for row in table.rows:
        for cell in row.cells:
            # 查找单元格中的软回车(\n)
            if '\n' in cell.text:
                # 分割单元格文本,找到软回车的位置
                texts = cell.text.split('\n')

                # 清空原始单元格文本
                cell.text = texts[0]

                # 在软回车的位置插入新的段落
                for text in texts[1:]:
                    new_paragraph = cell.add_paragraph(text)
                    new_paragraph.style = cell.paragraphs[0].style  # 保留原始样式

# 删除原来的单元格文本中的软回车
for cell in cells_to_delete:
    cell.text = cell.text.replace('\n', '')


# 遍历文档中的所有段落
for paragraph in list(doc.paragraphs):  
    # 查找段落中的软回车(\n)
    if '\n' in paragraph.text:
        # 分割段落文本,找到软回车的位置
        texts = paragraph.text.split('\n')
        
        # 首先处理第一个文本块
        paragraph.text = texts[0]
        
        # 在软回车的位置插入新的段落
        for text in texts[0:]:
            new_paragraph = paragraph.insert_paragraph_before(text)
            new_paragraph.style = paragraph.style  # 保留原始样式
        
        # 将原始段落添加到待删除列表中
        paragraphs_to_delete.append(paragraph)
        

# 删除原来的段落
for paragraph in paragraphs_to_delete:
    paragraph._element.getparent().remove(paragraph._element)

doc.save(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\234.docx')


替换前——段落和表格里都有手动换行福

替换后——无论段落还是表格里的手动换行符都变成了回车符

存在问题:

加粗的“中国人”在替换后没有加粗(格式消失)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1524150.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言 数据在内存中的存储

目录 前言 一、整数在内存中的存储 二、大小端字节序和字节序判断 2.1.练习一 2.2 练习二 2.3 练习三 2.4 练习四 2.5 练习五 2.6 练习六 三、浮点数在内存中的存储 3.1 浮点数存的过程 3.2 浮点数取的过程 总结 前言 数据在内存中根据数据类型有不同的存储方式&#xff0c;今…

ElasticSearch常见用法,看这一篇就够了(文末送书)

2024送书福利正式起航 关注「哪吒编程」&#xff0c;提升Java技能 文末送3本《一本书讲透Elasticsearch&#xff1a;原理、进阶与工程实践》 大家好&#xff0c;我是哪吒。 ElasticSearch是一款由Java开发的开源搜索引擎&#xff0c;它以其出色的实时搜索、稳定可靠、快速安…

PCIE问题定位000:PCIe需要的定位手段

1、PCIe debug环境说明 本文将以PCIe EP用户逻辑举例&#xff0c;描述PCIe可以添加哪些定位手段。 如图所示&#xff0c;PCIe IP作为endpoint与RC对接&#xff0c;用户实现了应用逻辑&#xff0c;与PCIe IP进行交互&#xff0c;交互信号中data格式为TLP报文格式&#xff0c;且…

单链表-合并两个集合的数

bb都在代码里哈哈哈哈 对了这里有个要求&#xff0c;不能破坏原来的链表 #include<iostream> #include<cstring> using namespace std;typedef struct LNode {int data;struct LNode* next; }LinkNode; void Create(LinkNode*& L, int a[], int l)//首先建链…

mongodb查询大全mongo语句-MongoDB语句与MySQL语句对比

mongodb查询大全mongo语句 以前版本官网:https://www.mongodb.com/ 现在版本2021年12月7日官网:https://www.mongodb.com 直通车:https://docs.mongodb.com 一、前言 虽然这些语句在开发当中不会使用,因为springdataMongoDB封装的非常完美了。但是这里的语句思想和关系型…

惯导系统静止初始化方法与代码实现并在gazebo中测试

惯导系统静止初始化方法与代码实现并在gazebo中测试 前言静止初始化方法惯导静止初始化实现代码在gazebo中进行测试 前言 在进行GPS加IMU的组合导航或者Lidar加IMU的组合导航时&#xff0c;用EKF或者ESKF的滤波方法时&#xff0c;需要提前知道惯导的测量噪声、初始零偏、重力方…

Mysql 索引、锁与MVCC等相关知识点

文章目录 Mysql锁的类型锁使用MVCC快照读和当前读读视图【Read View】串行化的解决 索引类型存储方式区分逻辑区分实际使用区分索引失效情况 索引建立规范SQL编写规范exlpain字段解析ACID的原理日志引擎慢SQL整合SpringBoot博客记录 Mysql锁的类型 MySQL中有哪些锁&#xff1a…

机器学习——压缩网络作业

文章目录 任务描述介绍知识蒸馏网络设计 Baseline实践 任务描述 网络压缩&#xff1a;使用小模型模拟大模型的预测/准确性。在这个任务中&#xff0c;需要训练一个非常小的模型来完成HW3&#xff0c;即在food-11数据集上进行分类。 介绍 有许多种网络/模型压缩的类型&#xff0…

如何写好Stable Diffusion的prompt

Stable Diffusion是一种强大的文本到图像生成模型&#xff0c;其效果在很大程度上取决于输入的提示词&#xff08;Prompt&#xff09;。以下是一些关于如何编写有效的Stable Diffusion Prompt的秘诀&#xff1a; 明确描述&#xff1a;尽量清晰地描述你想要的图像内容。使用具体…

3.4 bp,si,di寄存器,寻址方式,寄存器总结

汇编语言 1. [bxidata] 我们可以用[bx]来指明一个内存单元我们也可以用[bxidata]来表示一个内存单元&#xff0c;它的偏移地址为bx中的数值加上idata mount c d:masm c: debug r d 2000:1000 e 2000:1000 12 34 56 78 a mov ax,2000 mov ds,ax mov bx,1000 mov ax,[bx] mov c…

训练YOLOv8m时AMP显示v8n

在训练Yolov8模型时&#xff0c;使用AMP&#xff08;Automatic Mixed Precision&#xff09;可以加速训练过程并减少显存的使用。AMP是一种混合精度训练技术&#xff0c;它通过将模型参数的计算转换为低精度&#xff08;如半精度&#xff09;来提高训练速度&#xff0c;同时保持…

llama笔记:官方示例解析 example_chat_completion.py

1 导入库 from typing import List, Optional从typing模块中导入List和Optional。typing模块用于提供类型注解的支持&#xff0c;以帮助明确函数预期接收和返回的数据类型。List用于指定列表类型Optional用于指定一个变量可能是某个类型&#xff0c;也可能是None。 import fir…

Visual Studio 2022下配置 OpenMP 多线程编程环境与运行

目录 一创建项目时选择“创建新项目 -> 空项目 -> 下一步 -> 创建” 二右键“源文件 -> 添加 -> 新建项 -> 添加” 三配置 1. 测试程序&#xff1a; 最开始的时候错误很多&#xff1a; 2.将 “ include "stdafx.h" ” 删掉&#xff0c;添加 “…

4.1_6 文件的基本操作

文章目录 4.1_6 文件的基本操作&#xff08;一&#xff09;创建文件&#xff08;二&#xff09;删除文件&#xff08;三&#xff09;打开文件&#xff08;四&#xff09;关闭文件&#xff08;五&#xff09;读文件&#xff08;六&#xff09;写文件 总结 4.1_6 文件的基本操作 …

uni-app开发特点和开发流程

uni-app是一个基于Vue.js框架的跨平台应用开发框架&#xff0c;通过一套代码可以同时运行在多个平台上&#xff0c;包括iOS、Android、H5等。它采用了基于流布局的页面渲染机制&#xff0c;可以自动适配不同平台的屏幕尺寸和分辨率。uniapp官网&#xff1a;https://uniapp.dclo…

2024-03-17悠然-思源茶社申时茶会有感

悠悠白云里&#xff0c;独住青山客&#xff1b; 然灯松林静&#xff0c;煮茗柴门香&#xff1b; 思归若汾水&#xff0c;无日不悠悠&#xff1b; 源上花初发&#xff0c;公应日日来&#xff1b; 申章写深谊&#xff0c;唯愿长相聚&#xff1b; 时时思己过&#xff0c;刻刻…

图鸟UI发布免费开源、高颜值小程序UI框架

大家好&#xff0c;今天分享的主题是图表统计。图表统计是使用图表和图形来可视化和呈现数据的方法。它通过将数据转化为柱状图、折线图、饼图等形式来展示各种统计指标和趋势。 图表统计可以帮助我们更好地理解和分析数据&#xff0c;发现数据之间的关联和规律&#xff0c;并…

四、自然语言中的生成式任务

目录 4.0 机器翻译 4.1 文本摘要 4.1.1 抽取式摘要 4.2.2 生成式摘要 NLP学习笔记系列&#xff0c;欢迎收藏交流&#xff1a; 零、自然语言处理开篇-CSDN博客 一、NLP中的文本分类-CSDN博客 二、NLP中的序列标注&#xff08;分词、主体识别&#xff09;-CSDN博客 三、NL…

基于单片机的IC 卡门禁系统设计

摘要:针对传统门锁钥匙易丢失、配置不便和忘记携带等问题,提出了一种基于STC89C52 的IC 卡门禁系统设计。该系统以STC89C52 单片机为核心来控制电子锁模块的开关。主要过程是由RFID 模块读取IC卡ID 并通过串口发送至STC89C52 单片机模块,STC89C52 单片机模块可以实现在线对I…

使用广度优先搜索算法找到最短路径,然后绘制路径图

使用广度优先搜索算法找到最短路径&#xff0c;然后绘制路径图 from collections import deque import matplotlib.pyplot as plt# 定义网格环境的参数 GRID_SIZE 5 GRID_WIDTH 4 AGENT_SPEED 2 START_STATE (0, 0) GOAL_STATE (GRID_SIZE - 1, GRID_SIZE - 1)# 定义动作…