使用OpenXML库替换docx文档(Word文档)中的特定字段

news2024/10/7 10:18:19

在批量生成Word文档的应用中,最常见的需求莫过于替换掉文档中的特定字段以生成新的文档。利用OpenXML库可轻松实现这一需求。

不完善版本

首先放出最简单然而有bug的版本:

using DocumentFormat.OpenXml.Packaging;
using DocumentFormat.OpenXml.Wordprocessing;

//使用OpenXml SDK 2.5打开Word文档,并将里面的目标字段替换成指定的值
WordprocessingDocument wordDoc = WordprocessingDocument.Open("word.docx", true);
var body = wordDoc.MainDocumentPart!.Document.Body;
var paras = body!.Elements<Paragraph>();
foreach (var para in paras)
{
    var runs = para.Elements<Run>();
    foreach (var run in runs)
    {
        var texts = run.Elements<Text>();
        foreach (var text in texts)
        {
            if (text.Text.Contains("首席针头"))
            {
                text.Text = text.Text.Replace("首席针头", "吃席针头");
            }
        }
    }
}
//保存文档
wordDoc.Save();
//释放资源
wordDoc.Dispose();

该版本的原理是遍历word文档中的每个段落,搜索段落中的每个文字字段对象,如果找到匹配的值就将其替换成目标值。

该操作存在问题在于有时候看起来连在一起的文字对象是存储在不同的文字字段对象(run)中的(分开的原因大概率是格式不统一,但有时看着格式完全一样也会被分开,魔性),比如下面的文档:

请添加图片描述

“首席针头”这个词组就被分开成“首席”和“针头”两个不同的文字字段对象进行存储。在这种情况下遍历对象时就无法实现特定字段的匹配。

完善版本

要解决这个问题也不难,特定字段可能被分开,我们就将段落里面的所有字段记录下来,然后合并起来看看是否包含该字段。如果是,则检测特定字段在哪几个run中,然后将这几个run合并起来,最后再进行特定字段的替换即可。代码如下:

using DocumentFormat.OpenXml.Packaging;
using DocumentFormat.OpenXml.Wordprocessing;
using System;

WordprocessingDocument wordDoc = WordprocessingDocument.Open("word.docx", true);
var body = wordDoc.MainDocumentPart!.Document.Body;
var paras = body!.Elements<Paragraph>();
foreach (var para in paras)
{
    var runs = para.Elements<Run>();
    string[] copy_text = new string[runs.Count()];
    int pt = 0;
    foreach (var run in runs)
    {
        var texts = run.Elements<Text>();
        //第一遍先遍历,把run内部的目标字段替换掉,并构建数组记录下所有的run
        //创建长度和texts一样的数组,用于记录每个text的长度
        foreach (var text in texts)
        {
            if (text.Text.Contains("首席针头"))
            {
                text.Text = text.Text.Replace("首席针头", "吃席针头");
            }
            copy_text[pt] += text.Text;
        }
        pt++;
    }
    //将字符串拼接在一块,看看是否存在目标字段
    string str = string.Join("", copy_text);
    //如果存在目标字段,则将范围内的run合并在一起
    if (str.Contains("首席针头"))
    {
        //找到特定字段所在的第一个run的位置
        int start = 0;
        while (true)
        {
            string sub_str = "";
            for (int i = start; i < runs.Count(); i++)
            {
                sub_str += copy_text[i];
            }
            if (!sub_str.Contains("首席针头"))
            {
                start--;
                break;
            }
            else
            {
                start++;
            }
        }
        //找到特定字段所在的最后一个run的位置
        string inner_str = "";//范围内的字符串
        int end = runs.Count();
        while (true)
        {
            string sub_str = "";
            for (int i = start; i < end; i++)
            {
                sub_str += copy_text[i];
            }
            if (!sub_str.Contains("首席针头"))
            {
                end++;
                break;
            }
            else
            {
                inner_str = sub_str;
                end--;
            }
        }
        //将范围内的run合并在一起
        int sel_pt = 0;
        foreach (var run in runs)
        {
            if (sel_pt == start)
            {
                var texts = run.Elements<Text>();
                //将run里面的文字改为inner_str的内容
                int num = 0;
                foreach (var mytext in texts)
                {
                    if (num == 0)
                    {
                        mytext.Text = inner_str;
                    }
                    else 
                    {
                        mytext.Text = "";
                    }
                    num++;
                }
            }
            else if (sel_pt > start && sel_pt < end)
            {
                var texts = run.Elements<Text>();
                foreach (var mytext in texts)
                {
                    mytext.Text = "";
                }
            }
            sel_pt++;
        }
        //重新遍历一遍,替换目标字段
        foreach (var run in runs)
        {
            var texts = run.Elements<Text>();
            //第一遍先遍历,把run内部的目标字段替换掉,并构建数组记录下所有的run
            //创建长度和texts一样的数组,用于记录每个text的长度
            foreach (var text in texts)
            {
                if (text.Text.Contains("首席针头"))
                {
                    text.Text = text.Text.Replace("首席针头", "吃席针头");
                }
            }
        }
    }
}
//保存文档
wordDoc.Save();
//释放资源
wordDoc.Dispose();

到此,我们就完美解决了docx文档(Word文档)中特定字段的替换问题啦。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/694703.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第6讲:使用ajax技术实现模拟百度搜索功能(xml数据)

使用ajax技术实现模拟百度搜索功能&#xff0c;本案例使用原生态xmlhttprequest对象&#xff0c;GET方法通讯&#xff0c;后台使用map保存搜索数据&#xff0c;查询到对应数据后&#xff0c;返回xml格式数据&#xff0c;前端使用responseXML属性返回xml格式数据&#xff0c;结合…

6.安卓移动端开发

开发概览 Android官网 提供了开发环境&#xff0c;也就是android平台&#xff0c;即android SDK&#xff0c;即android版本 SDK版本和API版本的关系&#xff08;安卓的版本是个位数和小数形式增长&#xff0c;API版本是以个位数正则&#xff0c;所以API版本号和android版本号不…

图像梯度——Sobel、Scharr、Laplacian

图像梯度-Sobel算子 dst cv2.Sobel(src, ddepth, dx, dy, ksize) src: 图像数组变量ddepth: 图像的深度&#xff0c;一般填-1&#xff0c;表示与原始图像深度一致&#xff1b; cv2.CV_64F表示每一个像素点值为64位浮点数&#xff0c;是OpenCV定义的数据类型dx和dy分别表示水平…

车端服务器架构「升级」

过去几年&#xff0c;随着整车电子架构从分布式向集中式升级&#xff0c;域控制器&#xff08;通常分为五大域&#xff1a;动力域、底盘域、座舱域、智驾域、车身域&#xff09;带动供应链进入增值周期&#xff0c;背后隐藏的则是供应商的洗牌。 以座舱为例&#xff0c;从传统的…

远程桌面发生身份验证错误,要求的函数不受支持

windows10专业版&#xff1a; 解决方法&#xff1a; 使用微软官方建议修改本地组策略&#xff1a; winr弹出运行窗口&#xff0c;输入gpedit.msc,打开本地组策略 计算机配置>管理模板>系统>凭据分配>加密Oracle修正 选择启用并选择易受攻击。 windows10家庭版&a…

Bug - 为什么不能打开Tmocat官网

今天在敲代码的时候碰到一个bug&#xff0c;登录不上Tmocat官网&#xff0c;后来查了查是不能使用代理模式进行连接网站&#xff1a; 解决方法&#xff0c;换成手机WIFE热点&#xff1a; 登录成功&#xff1a; 小开心^_^

445端口是啥?445端口怎么关闭?

445端口是Windows系统中的SMB协议&#xff0c;用于文件共享和网络打印功能。然而&#xff0c;这个端口也是黑客攻击的重要入口之一。那么&#xff0c;如何关闭445端口&#xff0c;保护自己的计算机安全呢&#xff1f; 关闭445端口的方法 1.在“控制面板”中打开“管理员工具”…

用华为云低代码Astro Zero10分钟搭建 “图书馆数据可视化大屏” 应用

作者&#xff1a;福州司马懿 原文链接&#xff1a;使用Astro Zero带你从零开始&#xff0c;10分钟搭建一套 “图书馆数据可视化大屏” 应用【华为云Astro低代码体验季】-云社区-华为云 产品介绍 点击下方链接进入工具页&#xff1a;https://auth.huaweicloud.com/authui/logi…

移远通信定位定向GNSS模组LC02H正式发布,提供可靠的航向、姿态、位置等信息

6月26日&#xff0c;全球领先的物联网整体解决方案供应商移远通信宣布&#xff0c;正式推出其自主研发的双天线定位定向GNSS模组LC02H&#xff0c;进一步丰富其GNSS产品线。 LC02H具有高性能、高稳定性、低功耗的特点&#xff0c;可为基站通信天线、工程机械姿态控制、舰船定位…

【方法】想把PDF文档转换成PPT,如何操作?

很多小伙伴在工作中&#xff0c;会使用PDF或者PPT来展示内容。那如果需要把PDF转换成PPT&#xff0c;要如何操作呢&#xff1f; 我们知道&#xff0c;PPT转换成PDF很容易操作&#xff0c;只需通过PPT的【导出】选项&#xff0c;就可以直接转换成PDF&#xff1b;还可以通过“另…

【UE Cesium】01-在虚幻5中使用Cesium

UE版本&#xff1a;5.1 步骤 1. 首先我们新建一个空白的工程 2. 在虚幻商城中搜索“Cesium for Unreal”&#xff0c;然后点击“安装到引擎” 3. 在虚幻编辑器中搜索插件“cesium”&#xff0c;勾选如下插件&#xff0c;然后重启编辑器 4. 重启后我们新建一个空白关卡 保存关卡…

DAY31——贪心

1.分发饼干 class Solution {public int findContentChildren(int[] g, int[] s) {Arrays.sort(g);Arrays.sort(s);int start 0;int count 0;for (int i 0; i < s.length && start < g.length; i) {if (s[i] > g[start]) {start;count;}}return count;} } …

软测实验室质量手册中结构要求部分如何满足

根据cnas官方指定的文件中要求&#xff0c;cnas软件检测机构应是一个能够承担法律责任的实体。 实验室所从事检测和校准工作应符合本准则的要求&#xff0c;并能满足客户、法定管理机构或对其提供承认的组织的需求。管理体系应覆盖实验室固定设施、离开固定设施的场所或相关的临…

谷歌浏览器(chrome)安装crx插件

1、下载crx插件 2、插件扩展名改名为zip 3、解压zip文件 4、打开谷歌浏览器扩展程序 chrome://extensions/ 5、打开开发者模式&#xff0c;加载已解压的扩展程序&#xff0c;安装成功即如图展示

jsp—MacOS下配置Tomcat和JSTL

一、配置Tomcat 首先去官网下载Tomcat&#xff0c;最好是8版本 https://tomcat.apache.org/download-80.cgi 然后打开idea 二、配置jstl 首先去官网下载 http://archive.apache.org/dist/jakarta/taglibs/standard/binaries/ 下载之后&#xff0c;在idea的项目工程下&#…

Linux文件中的特殊换行符

Linux文件中的特殊换行符 大数据项目做数据etl工作时&#xff0c;无可避免的会遇到Linux文件中的一些特殊换行符。在做这些特殊符号的处理的时候往往就相当麻烦&#xff0c;这里详细记录一下怎么这些特殊字符&#xff0c;并转换成能识别的普通字符或者是符合项目数据规范的分隔…

多元回归预测 | Matlab遗传算法(GA)优化极限学习机ELM回归预测,GA-ELM回归预测,多变量输入模型

文章目录 效果一览文章概述部分源码参考资料效果一览 文章概述 多元回归预测 | Matlab遗传算法(GA)优化极限学习机ELM回归预测,GA-ELM回归预测,多变量输入模型 评价指标包括:MAE、RMSE和R2等,代码质量极高,方便学习和替换数据。要求2018版本及以上。 部分源码 %% 清空环境…

途乐证券|股票为什么冲高回落?冲高回落怎么办?

在股票市场上&#xff0c;我们经常会看到个股早上涨得好好的&#xff0c;突然间就出现跳水的走势&#xff0c;那么&#xff0c;股票为什么冲高回落&#xff1f;冲高回落怎么办&#xff1f;下面途乐证券为大家准备了相关内容&#xff0c;以供参考。 股票冲高回落的原因如下&…

Selenium教程__使用switch_to.frame处理网页框架切换(13)

与在新窗口打开一个网页后需要切换窗口才能定位元素一样&#xff0c;在iframe标签中的元素也不能直接定位&#xff0c;需要切换到对应的iframe框架中才能进行元素定位。 完成网页框架切换操作需要用selenium中的两个方法 driver.switch_to.frame(frame_reference)&#xff1a…

多元回归预测 | Matlab粒子群算法(PSO)优化极限学习机ELM回归预测,PSO-ELM回归预测,多变量输入模型

文章目录 效果一览文章概述部分源码参考资料效果一览 文章概述 多元回归预测 | Matlab粒子群算法(PSO)优化极限学习机ELM回归预测,PSO-ELM回归预测,多变量输入模型 评价指标包括:MAE、RMSE和R2等,代码质量极高,方便学习和替换数据。要求2018版本及以上。 部分源码 %% 清空…