java通过poi解析word入门

news2025/1/15 7:13:32

文章目录

  • 介绍
  • 一、了解word docx文档的结构
  • 二、引入POI的依赖
  • 三、解析Word文档常用API
    • 加载Word文档
    • 获取文档整体结构
    • 获取文档中的段落
    • 获取文档中的表格
    • 获取文档中的脚注
  • 四、解析Word中的段落示例
  • 五、读取Word文档并遍历图片
  • 六、解析Word中的图片示例


介绍

Apache POI 是一个处理Miscrosoft Office各种文件格式的开源项目。可以使用POI在Java程序中对Miscrosoft Office各种文件进行读写操作。


一、了解word docx文档的结构

将word文档另存为xml文档
在这里插入图片描述

打开xml文档,可以查看到xml的结构
在这里插入图片描述

二、引入POI的依赖

   <dependency>
       <groupId>org.apache.poi</groupId>
       <artifactId>poi</artifactId>
       <version>5.2.3</version>
   </dependency>

   <dependency>
       <groupId>org.apache.poi</groupId>
       <artifactId>poi-ooxml</artifactId>
       <version>5.2.3</version>
   </dependency>

三、解析Word文档常用API

加载Word文档

读取docx文件,获取XWPFDocument 实例

FileInputStream fis = new FileInputStream("C:\\test.docx");
XWPFDocument document = new XWPFDocument(fis);

获取文档整体结构

document.getBodyElements获取了docx文档所有的元素,可以根据类型判断段落、表格、还是引注。段落(XWPFParagraph)、表格(XWPFTable)、引注(XWPFSDT)

List<IBodyElement> bodyElements = document.getBodyElements();
for(int i=0;i<size;i++) {
    IBodyElement iBodyElement = bodyElements.get(i);
    if(iBodyElement instanceof XWPFParagraph){
        XWPFParagraph xwpParagraph=(XWPFParagraph)iBodyElement;
    }
    if(iBodyElement instanceof XWPFTable){
        XWPFTable xwpfTable=(XWPFTable)iBodyElement;
    }
    if(iBodyElement instanceof XWPFSDT){
        XWPFSDT xwpfSdt=(XWPFSDT)iBodyElement;
    }
}

获取文档中的段落

// 获取所有段落
 List<XWPFParagraph> paragraphs = document.getParagraphs();

获取文档中的表格

// 获取所有表格
 List<XWPFTable> xwpfTableList = xwpfDocument.getTables();

获取文档中的脚注

// 获取所有脚注
List<XWPFFootnote> footnotes = document.getFootnotes();

四、解析Word中的段落示例


import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;

import java.io.FileInputStream;
import java.io.IOException;
import java.util.List;

public class WordReader {

    public static void main(String[] args) {
        try {
            // 加载Word文档
            FileInputStream fis = new FileInputStream("C:\\Users\\Administrator\\Desktop\\test.docx");
            XWPFDocument document = new XWPFDocument(fis);

            // 获取所有段落
            List<XWPFParagraph> paragraphs = document.getParagraphs();
            int index=0;
            for (XWPFParagraph paragraph : paragraphs) {
                // 获取段落样式
                String style = paragraph.getStyle();
                System.out.println(index++);

                System.out.println("style "+style);
                System.out.println("getStyleID "+paragraph.getStyleID());
                System.out.println(paragraph.getText());

                if (paragraph.getStyleID() != null && paragraph.getStyleID().startsWith("Heading")) {
                    System.out.println("title:"+paragraph.getText());
                }
            }

            // 关闭文档
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

五、读取Word文档并遍历图片

使用POI读取Word文档并遍历其中的图片,通常涉及以下几个步骤:

  1. 创建XWPFDocument对象:使用XWPFDocument类来表示Word文档,并通过OPCPackage.open()方法加载文档。

  2. 遍历文档内容:Word文档中的图片通常包含在段落(XWPFParagraph)的运行(XWPFRun)中。你需要遍历文档中的每个段落,再遍历每个段落中的每个运行。

  3. 获取图片数据:在每个运行中,你可以通过调用getEmbeddedPictures()方法来获取嵌入的图片列表(注意,这个方法可能在新版本的POI中有所不同,具体请参考官方文档)。然后,通过XWPFPictureData对象获取图片的二进制数据和类型。

  4. 处理图片数据:一旦你获得了图片的二进制数据,就可以将其保存到文件系统中,或进行其他处理。

六、解析Word中的图片示例

下面的示例是获取图片 环绕方式,此外,我们还可以使用其他方法来获取图片的相关信息,例如获取图片的宽度、高度等。Java POI库提供了丰富的API,可以满足各种图片处理需求。

import org.apache.poi.xwpf.usermodel.*;
import org.openxmlformats.schemas.drawingml.x2006.wordprocessingDrawing.CTAnchor;
import org.openxmlformats.schemas.drawingml.x2006.wordprocessingDrawing.CTInline;
import org.openxmlformats.schemas.wordprocessingml.x2006.main.CTDrawing;

import java.io.FileInputStream;
import java.io.IOException;
import java.util.List;

public class WordPictureTest {

    public static void main(String[] args) {
        try {
            // 加载Word文档

            FileInputStream fis = new FileInputStream("C:\\Users\\Administrator\\Desktop\\pic.docx");
            XWPFDocument document = new XWPFDocument(fis);

            // 获取所有段落
            List<XWPFParagraph> paragraphs = document.getParagraphs();

            int index=0;
            for (XWPFParagraph paragraph : paragraphs) {
                parsePicture(paragraph);

            }
            // 关闭文档
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    private static void parsePicture(XWPFParagraph paragraph){
        List<XWPFRun> runs = paragraph.getRuns();
        for (XWPFRun run:runs){
            List<XWPFPicture> embeddedPictures = run.getEmbeddedPictures();
            for(XWPFPicture picture:embeddedPictures){
                String fileName = picture.getPictureData().getFileName();
                System.out.println(fileName);
                CTDrawing drawing = run.getCTR().getDrawingArray(0);
                List<CTAnchor> anchorList = drawing.getAnchorList();
                List<CTInline> inlineList = drawing.getInlineList();
                System.out.println("anchorList "+anchorList.size());
                //inlineList.size>0 说明时嵌入式的布局
                System.out.println("inlineList "+inlineList.size());
                for (CTAnchor anchor :anchorList){
                    //文字环绕
                    boolean behindDoc = anchor.getBehindDoc();
                    boolean setWrapSquare = anchor.isSetWrapSquare();
                    boolean setWrapThrough = anchor.isSetWrapThrough();
                    boolean setWrapTight = anchor.isSetWrapTight();
                    boolean setWrapTopAndBottom = anchor.isSetWrapTopAndBottom();
                    boolean setWrapNone = anchor.isSetWrapNone();

                    System.out.println("setWrapNone "+setWrapNone +" behindDoc "+behindDoc);
                }

        }
    }


}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1959122.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

6. 运行时数据区-程序计数器和栈帧

运行时数据区分类 Java虚拟机在运行Java程序过程中管理的内存区域&#xff0c;称之为运行时数据区。运行时数据区分为两大类&#xff0c;线程共享和线程不共享&#xff0c;线程共享的有&#xff1a; 方法区堆 线程不共享的有&#xff1a; 程序计数器Java虚拟机栈本地方法栈…

收银系统源码-会员营销

系统概况 专门为零售行业的连锁店量身打造的收银系统&#xff0c;适用于常规超市、生鲜超市、水果店、便利店、零食专卖店、服装店、母婴用品、农贸市场等类型的门店使用。同时线上线下数据打通&#xff0c;线下收银的数据与小程序私域商城中的数据完全同步&#xff0c;如商品…

Luma AI发布文生视频大模型Dream Machine——可免费在线试玩

Sora模型的文生视频能力&#xff0c;想必一定惊艳过你。虽然Sora模型很惊艳&#xff0c;但是并没有开放给普通大众。Luma AI发布文生视频大模型Dream Machine模型&#xff0c;可以免费供大家使用&#xff0c;任何人只要到Luma AI的官方网站&#xff0c;就可体验Luma AI的文生视…

vue3前端开发-小兔鲜项目-sku的实现

vue3前端开发-小兔鲜项目-sku的实现&#xff01;这是一个会计学的特殊专业名词&#xff0c;可以理解为产品的型号&#xff0c;规格的货品计量单位。 它是一组数据的混合体。比如&#xff1a;尺寸&#xff0c;材料&#xff0c;品质&#xff0c;等等。组合在一起形成的一个混合数…

Java——多态(Polymorphism)

一、多态 1、什么是多态 多态&#xff08;Polymorphism&#xff09;是面向对象编程的三大核心特性之一&#xff08;另外两个是封装和继承&#xff09;。多态性允许一个接口或基类的不同实现或子类以统一的方式处理。 二、方法多态 方法的多态性主要通过方法重载&#xff08…

Git原理与用法系统总结

目录 Reference前言版本控制系统Git的诞生配置Git配置用户名和邮件配置颜色配置.gitignore文件 Git的基础用法初始化仓库克隆现有的仓库添加暂存文件提交变动到仓库比较变动查看日志Git回退Git重置暂存区 Git版本管理重新提交取消暂存撤销对文件的修改 Git分支Git分支的优势Git…

2024年中小企业为何更需要找百度竞价托管代运营公司

企业间的竞争日益激烈&#xff0c;网络营销已成为企业获取市场份额、提升品牌知名度的关键途径。而在众多网络营销手段中&#xff0c;百度竞价推广因其高效、精准的特点&#xff0c;成为众多企业的首选。然而&#xff0c;随着市场竞争的加剧和百度竞价规则的不断调整&#xff0…

值得细读的8个视觉大模型生成式预训练方法

大语言模型的进展催生出了ChatGPT这样的应用&#xff0c;让大家对“第四次工业革命”和“AGI”的来临有了一些期待&#xff0c;也作为部分原因共同造就了美股2023年的繁荣。LLM和视觉的结合也越来越多&#xff1a;比如把LLM作为一种通用的接口&#xff0c;把视觉特征序列作为文…

年化27.9%,最大回撤-13.6%的可转债因子策略,结合机器学习特征筛选(附python代码)

原创文章第603篇&#xff0c;专注“AI量化投资、世界运行的规律、个人成长与财富自由"。 我们重新更新了可转债的全量数据&#xff0c;包含全量已经退市的转债。 ——这是与股票市场不一样的地方&#xff0c;股票退市相对少&#xff0c;而转债本身就有退出周期。 因此&…

喝奶 (全脂 抵脂肪 脱脂 )

鲜牛奶就是全脂的. 婴儿配方奶粉, 脂肪含量就高 全脂牛奶通常口感更浓郁&#xff0c;适合许多人的口味偏好, 全脂牛奶含有较高的脂肪含量&#xff0c;这有助于提供能量和饱腹感,从而减少总体热量的摄入, 有研究指出&#xff0c;喝全脂牛奶的儿童超重或肥胖的风险可能比喝低脂…

80端口被system占用 ,system进程是4!!!亲测-----解决

最近需要使用nginx&#xff0c;发现80端口北占用 正常情况下&#xff0c;查看那个进程占用&#xff0c;然后找到对应的程序&#xff0c;关闭对应的就可了。 使用 netstat 命令&#xff1a; 打开命令提示符&#xff08;以管理员身份&#xff09;。输入命令 netstat -ano | fi…

昇思25天学习打卡营第18天|ResNet50 迁移学习实战:从数据准备到模型构建

目录 环境配置 加载数据集 数据集可视化 构建Resnet50网络 固定特征进行训练 训练和评估 可视化模型预测 环境配置 MindSpore 库的版本管理和数据集的下载操作。首先&#xff0c;它卸载了已安装的 MindSpore 版本&#xff0c;并重新安装指定版本&#xff08;2.3.0rc1&…

帆软BI 模仿一个可视化护理软件大屏 (三百六十行 行行fine BI)

帆软BI 模仿一个可视化护理软件大屏 &#xff08;三百六十行 行行fine BI&#xff09; 文章目录 帆软BI 模仿一个可视化护理软件大屏 &#xff08;三百六十行 行行fine BI&#xff09;前言一、怎么做&#xff1f;二、导入数据三、编辑数据制作联合饼图四、编辑数据风险管理五、…

微短剧出海CPS分销推广影视平台系统搭建思维逻辑介绍

随着国内短剧市场的蓬勃发展&#xff0c;其独特的魅力与影响力已跨越国界&#xff0c;成为海外观众的新宠。这一趋势不仅推动了短剧内容的全球化传播&#xff0c;也为海外市场的CPS&#xff08;按销售分润&#xff09;分销模式提供了广阔舞台。连接内容创作者、平台运营者、系统…

数据结构与算法-关于堆的基本排序介绍

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; 文章目录 引言一、堆排序…

职场中的六条建议

在职场的征途中&#xff0c;我们每个人都是独一无二的行者&#xff0c;面对挑战与机遇并存的每一天。我们在职场中工作要弄清楚工作的本质&#xff0c;一定要牢记几点&#xff1a; 工作的本质与态度 我们工作的目的就是为了挣钱&#xff0c;我们不是来义务劳动也不是来参加快乐…

【Redis 初阶】Redis 常见数据类型(预备知识、String、哈希、List)

Redis 提供了 5 种数据结构&#xff0c;理解每种数据结构的特点对于 Redis 开发运维非常重要&#xff0c;同时掌握每种数据结构的常见命令&#xff0c;会在使用 Redis 的时候做到游刃有余。 一、预备知识 官方文档&#xff1a;Commands | Docs (redis.io) 1、最核心的两个命令…

npm提示 certificate has expired 证书已过期 已解决

在用npm新建项目时&#xff0c;突然发现报错提示 : certificate has expired 证书已过期 了解一下&#xff0c;在网络通信中&#xff0c;HTTPS 是一种通过 SSL/TLS 加密的安全 HTTP 通信协议。证书在 HTTPS 中扮演着至关重要的角色&#xff0c;用于验证服务器身份并加密数据传输…

python——joblib进行缓存记忆化-对计算结果缓存

问题场景 在前端多选框需要选取多个数据进行后端计算。 传入后端是多个数据包的对应路径。 这些数据包需要按一定顺序运行&#xff0c;通过一个Bag(path).get_start_time() 可以获得一个float时间值进行排序&#xff0c;但由于数据包的特性&#xff0c;这一操作很占用性能和时…

动手学深度学习V2每日笔记(模型初始化和激活函数)

本文主要参考沐神的视频教程 https://www.bilibili.com/video/BV1u64y1i75ap2&vd_sourcec7bfc6ce0ea0cbe43aa288ba2713e56d 文档教程 https://zh-v2.d2l.ai/ 本文的主要内容对沐神提供的代码中个人不太理解的内容进行笔记记录&#xff0c;内容不会特别严谨仅供参考。 1. 模…