【加强版】SAX解析XML返回对应格式的Map对象(解决元素递归嵌套)

news2024/9/24 9:27:10

SAX解析XML返回对应格式的Map对象_辛丑年正月十五的博客-CSDN博客

前言

       上篇文章实现了xml元素节点的解析并返回了对应格式的Map对象,但是遗留了一个问题,就是当xml中的元素存在递归嵌套时就解析不了,因为qname属性会重复,导致后一个元素会覆盖前一个元素。

        问题明了了,解决问题的思路也就浮出水面了,要解决这种存在递归嵌套元素的xml只需找到该元素中的唯一属性值即可

简介

        本文依旧使用了上一篇文章的思路和代码,只是在上一篇文章的基础上增加了一个存储元素唯一标记的Map对象,该Map对象的作用就是用以区分,待解析XML递归嵌套元素的不同之处的。缺点就是,如果你待解析的xml中没有这种唯一属性的标记,那么你则需要赋予唯一属性值,并且替换使用的"KeyId"属性后(详见#图1.0)才能有效解析

# 图1.0

阅读必读

比较难理解的是xml节点复杂关系的呈现,设计思路是定义四个Map对象和一个int类型的下标值(详见图#1.1)四个Map对象的作用分别是

1、resultMap 存储结果集。

2、indexKeyId 存储元素的唯一标识,用于区分嵌套元素中元素之间的不同之处。

3、indexKeyMap 存储通过下标位置记录元素节点名称。

4、indexKeyMapObj 该对象以元素节点名称存储了元素对象本身。

5、index 元素的下标,每开始解析一个元素+1,每解析结束一个元素-1。

描述:当startElement开始读取节点元素时,通过下标记录元素的唯一标识和名称,并通过名称记录元素对象本身,每次开始解析一个元素时index下标进行累加,执行解析结束(endElement)时-1,解析思路是通过元素节点名称+唯一标识找到目标节点。组装格式也是通过index下标来找对应关系的,下面是代码呈现

# 图1.1

代码呈现

package com.syasuo.xml;

import com.alibaba.fastjson.JSON;
import lombok.SneakyThrows;
import lombok.extern.slf4j.Slf4j;
import org.springframework.util.CollectionUtils;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import java.io.BufferedOutputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.OutputStream;
import java.util.*;

/**
 * @author SYASUO
 * @date 2023/6/19 13:46
 */
@Slf4j
public class MyDefaultHandler extends DefaultHandler {

    //存储结果集
    private Map<String,Object> resultMap = new HashMap<>();

    //存储xml元素唯一的标识,主要用于区分元素节点的嵌套
    private Map<Integer,String> indexKeyId = new HashMap<>();
    
    //用下标标记key
    private Map<Integer,String> indexKeyMap = new HashMap<>();

    //下标标记的所属key的对象
    private Map<String,Map<String,Object>> indexKeyMapObj = new HashMap<>();

    //记录元素节点对应的下标,初始给0
    private int index = 0;

    @Override
    public void startDocument() throws SAXException {
        log.info("------------------------------XML读取开始------------------------------");
    }

    /**
     * 开始读取XML元素,每次记录下标对应的key和该key对应的对象
     */
    @SneakyThrows
    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        Map<String,Object> node = new HashMap<>();
        String keyId = null;
        for (int i = 0; i < attributes.getLength(); i++) {
            String eleName = attributes.getQName(i);
            if(null != eleName && eleName.equals("KeyId")){
                keyId = attributes.getValue(i);
            }
            node.put(attributes.getQName(i),attributes.getValue(i));
        }
        indexKeyId.put(index,keyId);
        indexKeyMap.put(index,qName);
        indexKeyMapObj.put(qName+keyId,node);
        index++;

    }

    /**
     * 元素节点读取结束时,由于index在startElement中执行了+1操作,
     * 因此获取对应节点的父级节点时需要先执行index-1操作得到当前节点下标,在当前节点下标位再次执行-1操作得到父级节点
     * 取到父级节点时需要判断父级包不包含该节点,如果包含就说明该节点是一个List集合,否则就作为一个单独的对象放入父级对象中
     * 最后给resultMap结果集对象赋值即可
     */
    @SneakyThrows
    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
        //找当前节点
        int j = --index;
        String keyId = indexKeyId.get(j);
        //通过组合key找到当前元素对象
        String curKey = qName+keyId;
        Map<String,Object> curObj = indexKeyMapObj.get(curKey);
        if(j > 0){
            //找父节点
            j--;
            String parentQName = indexKeyMap.get(j);
            String parentKeyId = indexKeyId.get(j);
            //通过组合key找当前元素对象的父对象
            String parentKey = parentQName + parentKeyId;
            Map<String,Object> parent = indexKeyMapObj.get(parentKey);
            if(parent.containsKey(qName)){
                List<Map<String,Object>> list = new ArrayList<>();
                //System.out.println(parent.get(qName).getClass().getTypeName());
                if(parent.get(qName).getClass().getSimpleName().equals("HashMap")){
                    list.add((Map<String, Object>) parent.get(qName));
                }else{
                    list.addAll((Collection<? extends Map<String, Object>>) parent.get(qName));
                }
                //将当前节点对象加入当前对象集合
                list.add(curObj);
                parent.put(qName,list);
            }else{
                parent.put(qName,curObj);
            }
            resultMap = parent;
        }
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
      /*
        String element = new String(ch,start,length);
        log.info("该方法只有在【<ele>标签值</ele>】这种类型的标签下才能有效获取");
        */
    }

    @SneakyThrows
    @Override
    public void endDocument() throws SAXException {
        log.info("------------------------------XML读取结束------------------------------");
    }

    public Map<String,Object> getResultMap(){
        return resultMap;
    }
}

测试运行

注意:CprjInfoDTO是xml对应格式的JavaBean,需要替换成自己的。

XML如何转JavaBean,可以看我这一篇

使用XJC将XML转换成JavaBean遇到的坑_辛丑年正月十五的博客-CSDN博客

package com.syasuo.xml;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.syasuo.dto.CprjInfoDTO;
import com.syasuo.entity.CprjInfo;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.io.*;
import java.util.Map;

/**
 * @author SYASUO
 * @date 2023/6/19 13:41
 */
public class Test {

    public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException {
        Long startTime = System.currentTimeMillis();
        SAXParser parser = SAXParserFactory.newInstance().newSAXParser();
        MyDefaultHandler myDefaultHandler = new MyDefaultHandler();
        parser.parse(new File("D://root.xml"), myDefaultHandler);
        Map<String,Object> resultMap =  myDefaultHandler.getResultMap();
        OutputStream outputStream = new BufferedOutputStream(new FileOutputStream("D://OutMap.json"));
        //System.out.println(JSON.toJSONString(resultMap));
        outputStream.write(JSON.toJSONString(resultMap,true).getBytes());
        outputStream.close();
        CprjInfoDTO cprjInfo = JSONObject.parseObject(JSON.toJSONString(resultMap),CprjInfoDTO.class);
        OutputStream os = new BufferedOutputStream(new FileOutputStream("D://DefaultHandler.json"));
        os.write(JSON.toJSONString(cprjInfo,true).getBytes());
        os.close();
        //System.out.println(JSON.toJSONString(cprjInfo));
        System.out.println(System.currentTimeMillis()-startTime);
    }
}

 由于输出太大了,控制台打印不全也不容易看,所以输出了两个文件(详见#图1.2),分别是

1、OutMap.json 存储解析的原生Map对象

2、DefaultHandler.json 存储转换后的java对象

# 图1.2

成功

疑点解惑

问:为什么 j-- 就能找到父级对象?

解:因为sax解析元素是一层一层解析的,当解析嵌套元素时,内部元素没有解析完成时,外部元素是不会进入endElement方法的,所以每次内部元素解析完成通过我记录的下标-1就能找到父级元素 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/672724.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DDD软件架构领域驱动设计

目录 1. DDD概述1.1 软件开发的困境1.2 DDD的来源及简介1.2.1 DDD设计方法 1.3 DDD解决了什么问题1.3.1 沟通问题1.3.2 代码质量问题 1.4 模型和建模1.4.1 什么是模型 1.5 统一语言&#xff08;UBIQUITOUS LANGUAGE&#xff09;1.6 什么是DDD 2. 传统开发模式2.1 基础知识回顾2…

Debian12.0.0更换系统语言中文到英文

6月10号&#xff0c;Debian12.0.0更新&#xff0c;想尝尝鲜&#xff0c;在虚拟机里安装好&#xff0c;想将中文改为英文&#xff0c;因为Terminal下输入命令&#xff0c;中文切换麻烦。 一、步骤如下 #1、查看当前语言环境 env | grep LANG #2、en表示语言&#xff0c;US表示…

欧科云链在GEF论坛发起圆桌:监管科技与Web3合规发展图景与展望

6月15日&#xff0c;欧科云链在格林威治经济论坛发起了一场题为“监管科技与Web3合规发展图景与展望”的圆桌会议&#xff0c;此次会议由中国香港贸易发展局副执行董事PatrickLau博士主持。Stratford Finance首席执行官Angelina Kwan&#xff0c;BC科技集团有限公司董事会副主席…

[Web前端] Servlet及应用

文章目录 前言1、简介1.1、Servlet 架构1.1.1、Servlet 任务1.1.2、Servlet 包 1.2、Servlet 环境设置1.2.1、设置 Web 应用服务器&#xff1a;Tomcat 1.3、Servlet 生命周期1.3.1、init() 方法1.3.2、service() 方法1.3.3、doGet() 方法1.3.4、doPost() 方法1.3.5、destroy() …

采集发布到WordPress 特色图片(缩略图)无法显示

采集的数据发布到wordpress系统网站&#xff0c;文章内容是正常的&#xff0c;但是在列表页的缩略图&#xff08;特色图片&#xff09;却是显示失败。 这种情况有多种问题都可以造成的&#xff0c;可按照以下步骤逐一排查&#xff1a; 目录 1. 发布映射值是否正确 2. 与主题…

【Python 基础篇】Python 字符串以及字符串常用函数

文章目录 导言一、字符串基础二、字符串操作1、字符串拼接2、字符串格式化3、字符串常用函数len()lower()upper()strip()split()join()replace()find()count() 三、条件控制与字符串总结 导言 字符串是计算机编程中常用的数据类型之一。在 Python 中&#xff0c;字符串是由字符…

切换SVN登录的账号

更换SVN的账号 1、找到已登录的用户信息2、删除已登录的用户信息3、获取重输用户信息弹窗4、使用新的用户信息登录 1、找到已登录的用户信息 &#xff08;1&#xff09;在任何文件夹里面右键&#xff0c;找到TortoiseSVN&#xff0c;然后选择里面的Settings &#xff08;2&am…

【Python 基础篇】Python 条件与循环控制

文章目录 导言一、条件语句1、if-elif-else 结构2、嵌套条件语句3、单行 if 语句 二、循环语句1、while 循环while 循环的高级用法 2、for 循环for 循环的高级用法 示例一&#xff1a;输出 1 到 10 的偶数示例二&#xff1a;获取 100 以内的质数结论 导言 Python 是一种简单而…

【Leetcode -2236.判断根节点是否等于子节点之和 -2331.计算布尔二叉树的值】

Leetcode Leetcode -2236.判断根节点是否等于子节点之和Leetcode -2331.计算布尔二叉树的值 Leetcode -2236.判断根节点是否等于子节点之和 题目&#xff1a;给你一个 二叉树 的根结点 root&#xff0c;该二叉树由恰好 3 个结点组成&#xff1a;根结点、左子结点和右子结点。 …

shell脚本自动化部署tomcat

前言 在一个月黑风高的晚上&#xff0c;在公司把程序打包好后&#xff0c;发给现场&#xff0c;结果又被告知不能登录命令行界面部署程序&#xff08;tomcat部署&#xff09;&#xff0c;只能提供一个shell脚本实现自动化部署&#xff0c;于是拿出我0.5年的开发经验&#xff0…

Spring MVC获取参数和自定义参数类型转换器及编码过滤器

目录 一、使用Servlet原生对象获取参数 1.1 控制器方法 1.2 测试结果 二、自定义参数类型转换器 2.1 编写类型转换器类 2.2 注册类型转换器对象 2.3 测试结果 三、编码过滤器 3.1 JSP表单 3.2 控制器方法 3.3 配置过滤器 3.4 测试结果 往期专栏&文章相关导读…

MySQL数据库学习笔记二

数据库存储引擎 数据库存储引擎是数据库底层软件组织&#xff0c;数据库管理系统&#xff08;DBMS&#xff09;通过数据引擎&#xff0c;对数据进行创建、查询、修改和删除的操作。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能&#xff0c;使用不同的存储引擎…

Kubios HRV心率变异性分析软件

Kubios HRV是由东芬兰大学研究团队开发的一款心率变异性分析软件&#xff0c;目前在全球128个国家被1200所大学的科研人员使用。 PC端的Kubios HRV主要分免费版&#xff08;Standard&#xff09;和收费版&#xff08;Premium&#xff09;两个版本。 免费版仅支持RR间期时间序…

Git添加与提交文件与查看

目录 一、Git添加 二、Git提交文件 三、查看Git仓库的提交历史和当前状态 一、Git添加 1、在终端或命令提示符中&#xff0c;导航到你的Git项目所在的目录&#xff0c;使用 cd 命令切换目录。 2、在目标目录中&#xff0c;运行以下命令来初始化一个新的Git仓库&#xff0c;…

【跟小嘉学 Rust 编程】一、Rust 编程基础

系列文章目录 【跟小嘉学 Rust 编程】一、Rust 编程基础 文章目录 系列文章目录前言一、Rust是什么&#xff1f;二、Rust 开发环境搭建2.1、下载地址2.2、Windows 环境安装 可以参考2.3、Mac 环境安装2.3.1、安装步骤2.3.2、执行完上述命令之后&#xff0c;有如下提示 2.4、安…

深度学习----第J1周:ResNet50算法实战

深度学习----第J1周&#xff1a;ResNet50算法实战 &#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客** 参考文章&#xff1a;Pytorch实战 | 第P5周&#xff1a;运动鞋识别**&#x1f356; 原作者&#xff1a;K同学啊|接辅导、项目定制 文章目录 深度学习…

Elasticsearch 分词器

前奏 es的chinese、english、standard等分词器对中文分词十分不友好&#xff0c;几乎都是逐字分词&#xff0c;对英文分词比较友好。 在kibana的dev tools中测试分词&#xff1a; POST /_analyze {"analyzer": "standard","text": "你太…

chatgpt赋能python:Python文件导出方法详解

Python文件导出方法详解 Python是一种高级编程语言&#xff0c;广泛应用于各种数据科学、人工智能、Web开发等领域。在Python开发中&#xff0c;我们需要将处理好的数据与结果输出为合适的格式&#xff0c;文件导出是常见的输出方式之一。在本文中&#xff0c;我们将详细介绍P…

【C++篇】C++的输入和输出

友情链接&#xff1a;C/C系列系统学习目录 知识总结顺序参考C Primer Plus&#xff08;第六版&#xff09;和谭浩强老师的C程序设计&#xff08;第五版&#xff09;等&#xff0c;内容以书中为标准&#xff0c;同时参考其它各类书籍以及优质文章&#xff0c;以至减少知识点上的…

chatgpt赋能python:Python整人代码大全

Python整人代码大全 作为一名有10年Python编程经验的工程师&#xff0c;我深知Python这门编程语言广泛应用于各种领域&#xff0c;包括网络编程、数据分析、人工智能等等。然而&#xff0c;Python同样也有着一些有趣的应用&#xff0c;比如用来整人。 在这篇文章中&#xff0…