作品展示:
背景需求:
把python实现docx表格文字和段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)合并在一起统计数量
【技术类-02】python实现docx段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)”-CSDN博客文章浏览阅读226次,点赞4次,收藏6次。【技术类-02】python实现docx段落文字的“手动换行符(软回车)”变成“段落标记(硬回车)”https://blog.csdn.net/reasonsummer/article/details/136750032
【技术类-03】python实现docx表格文字的“手动换行符(软回车)”变成“段落标记(硬回车)”-CSDN博客文章浏览阅读396次,点赞10次,收藏4次。【技术类-03】python实现docx表格文字的“手动换行符(软回车)”变成“段落标记(硬回车)”https://blog.csdn.net/reasonsummer/article/details/136751324
素材准备——包含段落文字和表格文字
目测有
Word 文档中表格内共有 3 个 '\n' 手动换行符(软回车)。
Word 文档中表格内共有 1 个 <w:p> 段落标记(硬回车)。
Word 文档中段落内共有 3 个 '\ n' 手动换行符(软回车)。
Word 文档中段落内共有 2 个 <w:p> 段落标记(硬回车)。
结果验证数量正确
然后把word段落里的手动换行符和word表格里的手动换行符都变成段落标记符号(合并)
全部代码
'''
了解在Python里docx表格里、段落里分别有几个手动换行符(软回车),有几个段落标记符号(硬回车)
作者:AI 对话大师、百度AI对话
时间:2024年3月16日
'''
from docx import Document
# 表格里的
doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')
# 初始化换行符计数器
soft_newline_count_in_tables = 0
hard_newline_count_in_tables = 0
# 遍历文档中的所有表格
for table in doc.tables:
for row in table.rows:
for cell in row.cells:
# 遍历单元格中的每个段落
for paragraph in cell.paragraphs:
# 遍历段落中的每个文本运行
for run in paragraph.runs:
# 统计文本运行中软回车(换行符)的数量
soft_newline_count_in_tables += run.text.count("\n")
# 段落结束,增加一个硬回车的计数(包括表格单元格中的段落)
hard_newline_count_in_tables += 1
# 打印统计结果
print(f"Word 文档中表格内共有 {soft_newline_count_in_tables} 个 '\\n' 手动换行符(软回车)。")
print(f"Word 文档中表格内共有 {hard_newline_count_in_tables} 个 <w:p> 段落标记(硬回车)。")
# 段落里的
# 初始化换行符计数器
newline_count = 0
p_count = 0
# 遍历文档中的每个段落,统计换行符数量
for paragraph in doc.paragraphs:
for run in paragraph.runs:
# 统计每个文本运行中换行符的数量
newline_count += run.text.count("\n")
if paragraph._element is not None and paragraph._element.tag.endswith('p'):
p_count += 1
print(f"Word 文档中段落内共有 {newline_count} 个 '\ n' 手动换行符(软回车)。")
print(f"Word 文档中段落内共有 {p_count} 个 <w:p> 段落标记(硬回车)。")
'''
word表格文字和段落里里的手动换行符变成段落标记 (docx表格)
作者:AI对话大师、百度AI对话
时间:2024年3月15日
'''
from docx import Document
from docx.shared import Pt
# 打开 Word 文档
doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\123.docx')
# 用于保存要删除的单元格
cells_to_delete = []
# 用于保存要删除的段落
paragraphs_to_delete = []
# 遍历文档中的所有表格
for table in doc.tables:
for row in table.rows:
for cell in row.cells:
# 查找单元格中的软回车(\n)
if '\n' in cell.text:
# 分割单元格文本,找到软回车的位置
texts = cell.text.split('\n')
# 清空原始单元格文本
cell.text = texts[0]
# 在软回车的位置插入新的段落
for text in texts[1:]:
new_paragraph = cell.add_paragraph(text)
new_paragraph.style = cell.paragraphs[0].style # 保留原始样式
# 删除原来的单元格文本中的软回车
for cell in cells_to_delete:
cell.text = cell.text.replace('\n', '')
# 遍历文档中的所有段落
for paragraph in list(doc.paragraphs):
# 查找段落中的软回车(\n)
if '\n' in paragraph.text:
# 分割段落文本,找到软回车的位置
texts = paragraph.text.split('\n')
# 首先处理第一个文本块
paragraph.text = texts[0]
# 在软回车的位置插入新的段落
for text in texts[0:]:
new_paragraph = paragraph.insert_paragraph_before(text)
new_paragraph.style = paragraph.style # 保留原始样式
# 将原始段落添加到待删除列表中
paragraphs_to_delete.append(paragraph)
# 删除原来的段落
for paragraph in paragraphs_to_delete:
paragraph._element.getparent().remove(paragraph._element)
doc.save(r'C:\Users\jg2yXRZ\OneDrive\桌面\测试word换行符\234.docx')