【办公类-21-05】20240227单个word按“段落数”拆分多个Word(成果汇编 只有段落文字 1拆5)

news2024/9/24 7:25:27

作品展示

背景需求

前文对一套带有段落文字和表格的word进行13份拆分

【办公类-21-04】20240227单个word按“段落数”拆分多个Word(三级育婴师操作参考题目1拆13份)-CSDN博客文章浏览阅读293次,点赞8次,收藏3次。【办公类-21-04】20240227单个word按“段落数”拆分多个Word(三级育婴师操作参考题目1拆13份)https://blog.csdn.net/reasonsummer/article/details/136331041现在我随便找一份docx文件(全部都是段落文字,没有表格),

试试没表格干扰,是否直接读取段落就可以将加粗部分的文字另存多份

素材准备:

有几个加粗标题(不能是一级标题这种,一定清除格式,加粗)

错误的

# https://blog.csdn.net/lau_jw/article/details/114383781

'''成果汇编word题目拆分成多个表格(根据标题(加粗)所在行数拆分-没有表格,只有段落文字)
作者:阿夏
时间:2024年2月27日
'''

from docx import Document
from openpyxl import load_workbook
import glob
import re,os
 
print('----1、word数据清洗------')
a='成果汇编'

path = r"C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题"
file=path + r'\{}.docx'.format(a)  # 必须是docx
print(file)
# C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题\电子屏安全管理制度(样本)2.docx


 # 提取四个加粗标题所在的行数    # 参考https://www.shouxicto.com/article/96876.html
doc= Document(file)
  
# 遍历每个段落并判断是否为空白行,如果有空白行,就删除
for paragraph in doc.paragraphs:
    if not paragraph.text.strip():
        # 如果是空白行则将其从文档中移除
        p = paragraph._element
        p.getparent().remove(p)     


doc.save(path + r'\{}(去掉回车).docx'.format(a))



print('----2、读取word里面标题加粗段落的行数------')

filename=path + r'\{}(去掉回车).docx'.format(a)

    # 打开Word文档
doc = Document(filename)

d=len(doc.paragraphs)
print(d)
# docx没有去掉空行前,一共有258段文字
# docx去掉空行后,一共有244段文字


h=[]
s=[]
# 遍历文档中的段落
for i, paragraph in enumerate(doc.paragraphs):
    if paragraph.runs:
        # 检查段落中的所有运行对象
        for run in paragraph.runs:
            if run.bold:
                # 如果运行对象的文字为加粗,则打印段落索引
                # print("段落", i, "的文字被加粗了")
                h.append(i)
                # 提取每一份的加粗标题
                t=doc.paragraphs[i].text                
                # print(t)
                s.append(t)
s=list(set(s))
s.sort()
# print(s)
# ['3.1.1 运用发育诊断法对2岁婴儿的以不同步子行走能力进行测试', '3.1.2 为2岁婴儿编制规范、适宜的个别化游戏活动计划(5分钟)', '3.1.3 设计生活中婴儿动手自理的活动(5分钟)', '3.1.4 六个月以内
# 的婴儿的精细动作的日常练习活动设计(5分钟)', '3.1.5 列举两种感统练习器械,并简述其活动功能(5分钟)', '3.2.1 请阐述对婴儿语言发展水平的观察与记录方法(5分钟)', '3.2.2 如何制定婴幼儿个别化
# 语言培养计划(5分钟)', '3.2.3 设计一份记录表格,观察一个6个月左右的宝宝寻找不同声源的感知练习过程(5分钟)', '3.2.4 设计一个观察表,观察并调整婴儿在视动协调方面的练习(5分钟)', '3.2.5 设 
# 计一个观察表,记录孩子可能发生的行为(5分钟)', '3.3.1 如何对待任性的孩子(5分钟)', '3.3.2 如何对待爱哭的孩子(5
# print(len(s))
# 13

h=list(set(h))
h.sort()
j=h[1:]
j.append(d)

print(h)
print(len(h))
print(j)
print(len(j))
# # 去掉空行前
# # [1, 25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238]
# # 13
# # [25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238, 258]
# # 13
# # 去掉空行后
# # [1, 23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224]
# # 13
# # [23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224, 244]


print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

# bg=[2,1,0,1,1,1,1,1,1,1,0,0,0]

# # 第一张表是原来的段落数,所以就是0
# bg.insert(0,0)
# # print(bg)

# # 数字累加
# o = []
# sum = 0
# for num in bg:
#     sum += num
#     o.append(sum)
# print(o)
# # [0, 2, 3, 3, 4, 5, 6, 7, 8, 9, 10, 10, 10, 10]
# # # # 没有空行的内容


print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

imagePath1=path+r'\{}拆分'.format(a)
if not os.path.exists(imagePath1):  # 判断存放图片的文件夹是否存在
    os.makedirs(imagePath1)  # 若图片文件夹不存在就创建



# for  x in range(len(s)):
    # 获取第一页的段落和表格
# a=int(j[x]+o[x])
for x in range(len(s)):
    doc = Document(filename)
    first_page_paragraphs = []
    first_page_tables = []
    for element in doc.element.body:
        if element.tag.endswith(('}p', '}tbl')):
            
            if element.getparent().index(element) >int(j[x]) :
            # if element.getparent().index(element) >int(j[x]+o[x]) :
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
            if element.getparent().index(element)<int(h[x]):
            # if element.getparent().index(element)<int(h[x]+o[x]):
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
        # print(int(j[x]+o[x]))
        # print(int(h[x]+o[x]))
        

    # 删除第一页的段落和表格
    for paragraph in first_page_paragraphs:
        p = paragraph.getparent()
        p.remove(paragraph)
        

    for table in first_page_tables:
        t = table.getparent()
        t.remove(table)

    # # 保存修改后的文档为新文件
    # doc.save(path+r'01.docx')
    doc.save(imagePath1+r'\{} {}.docx'.format('%02d'%x,s[x]))






结果显示及调整

1、结果显示题目与数字顺序不符合

1、解决思路

2、内容多一行

2、解决思路

正确代码全部

# https://blog.csdn.net/lau_jw/article/details/114383781

'''成果汇编word题目拆分成多个表格(根据标题(加粗)所在行数拆分-没有表格,只有段落文字)
作者:阿夏
时间:2024年2月27日
'''

from docx import Document
from openpyxl import load_workbook
import glob
import re,os
 
print('----1、word数据清洗------')
a='成果汇编'

path = r"C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题"
file=path + r'\{}.docx'.format(a)  # 必须是docx
print(file)
# C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题\电子屏安全管理制度(样本)2.docx


 # 提取四个加粗标题所在的行数    # 参考https://www.shouxicto.com/article/96876.html
doc= Document(file)
  
# 遍历每个段落并判断是否为空白行,如果有空白行,就删除
for paragraph in doc.paragraphs:
    if not paragraph.text.strip():
        # 如果是空白行则将其从文档中移除
        p = paragraph._element
        p.getparent().remove(p)     


doc.save(path + r'\{}(去掉回车).docx'.format(a))



print('----2、读取word里面标题加粗段落的行数------')

filename=path + r'\{}(去掉回车).docx'.format(a)

    # 打开Word文档
doc = Document(filename)

d=len(doc.paragraphs)
print(d)
# docx没有去掉空行前,一共有258段文字
# docx去掉空行后,一共有244段文字


h=[]
s=[]
n=1
# 遍历文档中的段落
for i, paragraph in enumerate(doc.paragraphs):
    if paragraph.runs:
        # 检查段落中的所有运行对象
        for run in paragraph.runs:
            if run.bold:
                # 如果运行对象的文字为加粗,则打印段落索引
                # print("段落", i, "的文字被加粗了")
                h.append(i)
                # 提取每一份的加粗标题
                t=doc.paragraphs[i].text                
                print(t)
                b=str('%02d'%n)+t
                s.append(b)
                # 没有按照顺序排列
                # ['一、案例汇编对象', '三、案例提炼流程', '二、案例提炼要求', '四、相关事宜', '活动背景']
                # 所以加了一个数字序号
                # ['01活动背景', '02一、案例汇编对象', '03二、案例提炼要求', '04三、案例提炼流程', '05四、相关事宜']
                n+=1
s=list(set(s))
s.sort()
print(s)
# ['3.1.1 运用发育诊断法对2岁婴儿的以不同步子行走能力进行测试', '3.1.2 为2岁婴儿编制规范、适宜的个别化游戏活动计划(5分钟)', '3.1.3 设计生活中婴儿动手自理的活动(5分钟)', '3.1.4 六个月以内
# 的婴儿的精细动作的日常练习活动设计(5分钟)', '3.1.5 列举两种感统练习器械,并简述其活动功能(5分钟)', '3.2.1 请阐述对婴儿语言发展水平的观察与记录方法(5分钟)', '3.2.2 如何制定婴幼儿个别化
# 语言培养计划(5分钟)', '3.2.3 设计一份记录表格,观察一个6个月左右的宝宝寻找不同声源的感知练习过程(5分钟)', '3.2.4 设计一个观察表,观察并调整婴儿在视动协调方面的练习(5分钟)', '3.2.5 设 
# 计一个观察表,记录孩子可能发生的行为(5分钟)', '3.3.1 如何对待任性的孩子(5分钟)', '3.3.2 如何对待爱哭的孩子(5
# print(len(s))
# 13

h=list(set(h))
h.sort()
j=h[1:]
j.append(d)

print(h)
print(len(h))
print(j)
print(len(j))
# # 去掉空行前
# # [1, 25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238]
# # 13
# # [25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238, 258]
# # 13
# # 去掉空行后
# # [1, 23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224]
# # 13
# # [23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224, 244]


print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

# bg=[2,1,0,1,1,1,1,1,1,1,0,0,0]

# # 第一张表是原来的段落数,所以就是0
# bg.insert(0,0)
# # print(bg)

# # 数字累加
# o = []
# sum = 0
# for num in bg:
#     sum += num
#     o.append(sum)
# print(o)
# # [0, 2, 3, 3, 4, 5, 6, 7, 8, 9, 10, 10, 10, 10]
# # # # 没有空行的内容


print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

imagePath1=path+r'\{}拆分'.format(a)
if not os.path.exists(imagePath1):  # 判断存放图片的文件夹是否存在
    os.makedirs(imagePath1)  # 若图片文件夹不存在就创建



# for  x in range(len(s)):
    # 获取第一页的段落和表格
# a=int(j[x]+o[x])
for x in range(len(s)):
    doc = Document(filename)
    first_page_paragraphs = []
    first_page_tables = []
    for element in doc.element.body:
        if element.tag.endswith(('}p', '}tbl')):
            
            if element.getparent().index(element) >=int(j[x]) :
            # if element.getparent().index(element) >int(j[x]+o[x]) :
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
            if element.getparent().index(element)<int(h[x]):
            # if element.getparent().index(element)<int(h[x]+o[x]):
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
        # print(int(j[x]+o[x]))
        # print(int(h[x]+o[x]))
        

    # 删除第一页的段落和表格
    for paragraph in first_page_paragraphs:
        p = paragraph.getparent()
        p.remove(paragraph)
        

    for table in first_page_tables:
        t = table.getparent()
        t.remove(table)

    # # 保存修改后的文档为新文件
    # doc.save(path+r'01.docx')
    doc.save(imagePath1+r'\{}.docx'.format(s[x]))






本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1483611.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多余图片人物有什么办法可以去掉?一分钟教你搞定

在我们的快节奏生活中&#xff0c;旅游已经成为了一种宝贵的放松方式&#xff0c;它让我们有机会暂时逃离日常的喧嚣&#xff0c;感受大自然的宁静与美丽。每一次踏足新的土地&#xff0c;我们都会被各种独特的风景所吸引&#xff0c;从雄伟的山川到细腻的街景&#xff0c;每一…

市场占比不足1.5%,折叠屏手机为何香不起来?

2007年&#xff0c;取消了实体按键键盘的iPhone诞生&#xff0c;不到四年的时间&#xff0c;就将诺基亚变成了历史。依靠率先发起的触屏技术&#xff0c;苹果快速抢占了全球智能手机市场&#xff0c;并掀起了智能机迭代的潮流。 但折叠屏手机显然没那么幸运。2018年&#xff0…

AcWing 788. 逆序对的数量 解题思路及代码

先贴个题目&#xff1a; 以及原题链接&#xff1a; 788. 逆序对的数量 - AcWing题库https://www.acwing.com/problem/content/790/ 这题也是板子题&#xff0c;就是对归并排序的衍生&#xff0c;我们先分析下如果用归并排序对排序区间进行二分的话&#xff0c;逆序对可能出现的…

【DAY07 软考中级备考笔记】数据结构:线性结构,数组矩阵和广义表

数据结构&#xff1a;线性结构&#xff0c;数组矩阵和广义表 3月2日 – 天气&#xff1a;晴 1. 线性表的定义和存储方式 > 这一部分只需要掌握下面的两点即可&#xff1a; > > * 采用顺序存储和链式存储的特点 > * 单链表的插入和删除操作 2. 栈和队列 > 这里需…

antvX6 - Vue自定义节点,并实现多种画布操作,拖拽、缩放、连线、双击、检索等等

一、 首先 antv x6 分为两个版本 低版本和高版本 我这里是使用的2.0版本 并且搭配了相关插件 例如&#xff1a;画布的图形变换、地图等 个人推荐 2.0版本&#xff0c;高版本配置多&#xff0c;可使用相关插件多&#xff0c;但是文档描述小&#xff0c;仍在更新&#xff0c; 低…

【书生·浦语大模型实战营】第三节 课后作业

基于 InternLM 和 LangChain 搭建你的知识库 0.课程链接1.课后作业1.1基础作业&#xff1a;1.2 进阶作业&#xff1a; 0.课程链接 课程标题&#xff1a;基于 InternLM 和 LangChain 搭建你的知识库 课程链接&#xff1a;https://github.com/InternLM/tutorial/blob/main/langch…

【体育】体育锻炼之体能耐力、户外运动、中华武术(附大学生体质健康标准)

程序员养生指南之 【体育】体育锻炼之体能耐力、户外运动、中华武术&#xff08;附大学生体质健康标准&#xff09; 文章目录 一、如何增强耐力与体能&#xff1f;1、耐力训练的原理2、如何进行耐力训练3、如何提高长跑成绩 二、户外运动之绳结与下降1、绳结2、下降 三、中华武…

C语言 for 循环语句的基本格式是什么?

一、问题 for 循环语句在C语⾔中是最为常见的循环语句&#xff0c;其功能强⼤&#xff0c;⽽且⽤法灵活&#xff0c;那么它的基本格式是什么呢&#xff1f; 二、解答 for 语句的⼀般形式为&#xff1a; for(表达式1;表达式2;表达3&#xff09;语句; 每条 for 语句包含三个⽤分…

2023国赛样题路由部分【RIP RIPNG ACLRIP ACLRIPNG ISIS NAT64】

RT1串行链路、RT2串行链路、FW1、AC1之间分别运行RIP和RIPng协议&#xff0c;FW1、RT1、RT2的RIP和RIPng发布loopback2地址路由&#xff0c;AC1 RIP发布loopback2地址路由&#xff0c;AC1 RIPng采用route-map匹配prefix-list重发布loopback2地址路由。RT1配置offset值为3的路由…

ES6 | (二)ES6 新特性(下) | 尚硅谷Web前端ES6教程

文章目录 &#x1f4da;迭代器&#x1f407;定义&#x1f407;工作原理&#x1f407;自定义遍历数据 &#x1f4da;生成器函数&#x1f407;声明和调用&#x1f407;生成器函数的参数传递&#x1f407;生成器函数案例 &#x1f4da;Promise&#x1f4da;Set&#x1f407;Set的定…

输入一个整数,输出其最长连续因子。

输入一个整数&#xff0c;输出其最长连续因子。 例如 输入&#xff1a;60 输出&#xff1a;2 3 4 5 6 注意&#xff1a;1不算因子 输入输出格式 输入描述: 输入一个整数N&#xff0c;N<10000。 输出描述: 输出其最长连续因子&#xff0c;如果有多个最长&#xff0c;输出…

vcruntime140.dll为什么都是?解决vcruntime140.dll丢失的七种办法

计算机中一个常见的错误提示是“无法继续执行代码&#xff0c;因为找不到vcruntime140.dll”。这个问题的出现可能是由于vcruntime140.dll文件丢失或损坏导致的。本文将介绍解决这个问题的7个方法&#xff0c;并详细解释vcruntime140.dll丢失的原因以及其属性介绍。 一、vcrun…

解决在 Mac 上安装 Adobe 软件弹出提示:安装包已经被损坏并且不能被打开。

问题&#xff1a; “INSTALLER” is damaged and can’t be opened. You should eject the disk image. 解决方法和步骤&#xff1a; 打开安装包&#xff1b;将安装包 “INSTALLER” 拖动复制到某个文件夹&#xff0c;复制后的文件路径例如像这样&#xff1a;/Users/michael…

Pake 轻松构建轻量级多端桌面应用

Pake 利用 Rust 轻松构建轻量级多端桌面应用&#xff0c;支持 Mac / Windows / Linux。 小白用户&#xff1a;可以使用 「常用包下载」 方式来体验 Pake 的能力&#xff0c;也可试试 Action 方式。 开发用户&#xff1a;可以使用 「命令行一键打包」&#xff0c;对 Mac 比较友…

二维码门楼牌管理系统技术服务:构建智慧城市新标准

文章目录 前言一、二维码门楼牌管理系统的诞生背景二、标准地址编码的定义与作用三、二维码门楼牌管理系统的核心技术四、二维码门楼牌管理系统的应用优势五、二维码门楼牌管理系统在智慧城市建设中的作用六、结论与展望 前言 随着城市化的快速发展&#xff0c;传统的门楼牌管…

波奇学Linux:进程通信之消息队列,操作系统管理ipc资源,信号量

进程通信的前提&#xff1a;必须让不同进程看到同一份资源。 管道&#xff1a;文件缓冲区 共享内存&#xff1a;内存块 消息队列&#xff1a;队列 消息队列 让不同的进程看到同一个队列&#xff0c;允许不同的进程向内核发送带类型的数据块 带类型是为了区分数据块是由哪个…

Linux——匿名管道

Linux——匿名管道 什么是管道匿名管道的底层原理观察匿名管道现象读写端的几种情况写端慢&#xff0c;读端快写端快&#xff0c;读端慢 管道的大小写端关闭&#xff0c;读端一直读写端一直写&#xff0c;读端关闭 我们之前一直用的是vim来编写代码&#xff0c;现在有了vscode这…

Vue路由(黑马程序员)

路由介绍 将资代码/vue-project(路由)/vue-project/src/views/tlias/DeptView.vue拷贝到我们当前EmpView.vue同级&#xff0c;其结构如下&#xff1a; 此时我们希望&#xff0c;实现点击侧边栏的部门管理&#xff0c;显示部门管理的信息&#xff0c;点击员工管理&#xff0c;显…

CK98-数学家键盘配置

官方驱动和说明书下载地址 https://www.coolkiller.cn/download/lists_6.html 介绍&#xff1a;https://new.qq.com/rain/a/20221229A09B1M00 官方CK-98数学家驱动版本&#xff08;谨慎更新&#xff09; 如果升级驱动出现问题&#xff0c;重启驱动软件后会默认让你恢复的。 …

vue ts html 中如何遍历 Enum 类型构建页面结构

vue ts html 中如何遍历 Enum 类型构建页面结构 Enum 被用在一些有明确有限数量的值的时候&#xff0c;比如定义菜单的类型 一、需求 定义了一个 Enum 用来标记菜单类型&#xff1a; enum EnumMenuType {目录 1,菜单,按钮,外链 }你需要知道 Enum 它的序号是随第一个定义的值…