使用 Ruby 语言来解析开放文档格式 OOXML 文件

news2025/1/9 14:38:53

在这篇文章中,我们将了解一个开发团队如何解决他们在应用程序中解析数据时遇到的问题。

为了测试 ONLYOFFICE 文档编辑器,我们用Ruby语言开发编写了个docx、xlsx、pptx文件解析器程序,它是免费开源的,被我们放在GitHubRubyGems.org上面了,采用AGPL V3开源协议。

本文我们将告诉你这是如何开发的以及这是如何工作的。

没有现成的工具集

我们本可以从很多已有的工具中选择一个来用,但是有不少原因阻止了我们采用现有的工具集:

  • 他们大多数都被自己的开发者抛弃了。
  • 他们被分为三个独立的库来提供,也就是文档、表格、幻灯片演示这三大类办公文件,三个库的界面接口不同,这使得它们使用起来非常不方便。
  • 他们只支持基本的功能。

译者注:很多软件如果被废弃就会因为久不升级而逐渐不支持不断更新升级的工作对象文件,过两三年就会彻底无用,GitHub上各个项目我最关注的就是the latest release的时间,死了好几年的项目一大把,每每看见都会扼腕叹息

给ONLYOFFICE质保QA团队开发的解析器

我们需要一个更强大的工具,测试我们的ONLYOFFICE编辑器,因为ONLYOFFICE编辑器:

  • 一直处于活跃开发的状态中
  • 允许文档、表格、幻灯片文件使用各种复杂的格式、风格、等功能
  • 尽可能的最大化的支持开放文档格式OOXML,即docx、xlsx、pptx文件

解析复杂的功能

ONLYOFFICE编辑器对微软Office格式有最大的支持力度,所以这个测试用解析器也要有同样的支持力度。我们按照ECMA-376 standard标准来开发,该标准实际上分为上下四大册书,总共七千多页。

所以,你可能会理解,我们实际上无法实现该标准所有的细节,但为了测试ONLYOFFICE编辑器高级功能,我们必须涵盖这些功能点。

因此,除了解析基本的功能特征,比如段落、表格、形状等,我们的解析器还要支持:

  • 配色主题
  • 段落和表格的风格
  • 图表
  • 分列
  • 自动图形的属性
  • 列表

为什么我们需要一个解析器

开始启动对ONLYOFFICE的自动测试之后,我们采取了一个功能测试的简单概念。

比如:

  1. 创建一个新文档
  2. 随意输入文字并加粗它
  3. 检查文字是否被加粗

ONLYOFFICE编辑器是由HTML5 Canvas来开发实现的,因此文档里面的文字被作为图像显示出来。从图像里面确认文字的字体是否加粗了,这种事并不容易。比如下图所示,Arial Black字体,你能辨识出这个字体是否加粗了呢?

 

这就是在这个软件测试的场景下,为什么我们要添加一套额外的确认步骤的原因了:

4. 下载为docx文件,检查确认这个文字就是被赋予了Bold加粗的属性配置。

细节上有数百个类似的属性参数,然而现有的解析器工具没有一个能够支持所有这些参数,有的不过是解析文字、表格以及其它一些简单内容,这就是为什么我们开发自己的测试库的原因了。

这个解析器是如何工作的

如果你曾经把.docx作为zip文件来解压缩,你就会注意到压缩率非常高,那是因为一个OOXML开放文档格式文件实际上就是一套压缩的XML文件。

例如,我们在ONLYOFFICE编辑器中创建一个文件简单输入一些自负然后保存下载为docx文件:

现在我们把它当作一个zip文件来解压缩,就会看到类似如下的文件夹结构:

#tree
.       
├── [Content_Types].xml     
├── docProps                
│   ├── app.xml            
│   └── core.xml            
├── _rels                   
└── word
    ├── document.xml        
    ├── fontTable.xml       
    ├── _rels               
    │   └── document.xml.rels                  
    ├── settings.xml        
    ├── styles.xml          
    ├── theme               
    │   ├── _rels           
    │   │   └── theme1.xml.rels                
    │   └── theme1.xml      
    └── webSettings.xml 

仔细看看这些文件:

[Content_Types].xml —— 文档的MIME类型列表

app.xml —— 文档元数据、应用程序元数据以及统计数据

core.xml  —— 最新修改的元数据

document.xml  —— 这就是我们要重点查看的文档内容的文件

fontTable.xml   —— 文档的字体列表,可能有用

document.xml.rels  —— 压缩包中的所有文件的列表,对于复杂文档例如包含有插图、绘图的来说会有用

settings.xml  —— 顾名思义,包含文档各种设置,例如默认缩放、数字的分隔符等等

styles.xmltheme1.xmltheme1.xml.rels  —— 非常详细的文件,设置风格和主题等信息,识别这些设置的能力就是Office类软件的关键优势之一了

webSettings.xml   —— 文档的web版式版本设置,对于docx类文件并不常用的功能 |

译者注:docx类文件在文档编辑器软件中切换为web版式显示画面,可以让文档编辑器软件不去自动计算分页,这对于长达数百页上千页的超大docx文档来说,是在编写过程和只读阅览过程中防止死机提高效率的非常实用的技巧,当然,在排版过程中还是需要切换回常用的页面视图,这个时候就需要办公电脑拥有具备顶级游戏电脑的硬件配置。

所以,如果我们处理上面这个举例的非常简单的文档,我们只需要解析document.xml文件。

这是非常简单的一个XML。幸运的是,这可以用Ruby来轻松解析,我们使用了Nokogiri这个工具,获取DOM树,然后查看OOXML标准,或者是反向工程技术,来看我们所需的参数在哪里。

这个解析器是如何编写出来的

我们开始开发这个工具的时候遇上了两个错误,好在后来我们发现了并改正了。希望我们的经验能够对后来的你们有用,避免发生同样的问题。

大文件

所以,我们需要测试三种不同的编辑器,编辑文档、表格和幻灯片文件,我们如何为此目的而组织代码呢?这就很有趣了,但是,最初我们有四个文件,第四个是为了测试三种编辑器共有的那些通用特性而准备的,这四个文件每个都长达4000多行。调试这些文件花费了很多时间,我们就精心地重新架构了这些代码,结果是分解成为200多个文件,代替先前的四个大文件,这样,现在就很容易定位bug解决bug了。

没有测试

我们:对这个解析器没有测试!因为我们编写这个解析器是用来测试编辑器的,而不是再多开发一个东西来测试这个解析器。

所有事情:我们纠正一处拼写错误来解决一个bug,结果却全部崩溃

所以,我们不得不创建一个特别的文件夹,把这两百多个文件放进来,检查一堆参数,确保知道我们下班之前所做的commit不会crash第三层菜单中某个选项的确认操作,开发团队没有人会详细记得所写代码的所有细节。

我们也有些好主意,例如

使用RuboCop

RuboCop是一个Ruby静态代码分析器和格式化工具,基于Ruby社区风格指南的。我们喜欢这个工具,它帮助我们避免了很多错误,让代码保持干净,确保我们最后的提交没有让代码变坏,感谢经过overcommit进行集成。

例如,如果,在经历了艰难的一天开发滞后,你不小心忘记了Ruby中的变量是小写的,然后就尝试提交类似如下这样的代码:

— path_to_zip_file = copy_file_and_rename_to_zip(path_to_file)
+ ZIP_file = copy_file_and_rename_to_zip(path_to_file)

就会报错:

Analyze with RuboCop........................................[RuboCop] FAILED

Errors on modified lines:

ooxml_parser/lib/ooxml_parser/common_parser/parser.rb:8:7: E: dynamic constant assignment

如果没有额外的操作,您将无法提交代码。 这是一个极好措施来预防傻瓜式错误的出现。

使用我们的文档库

实际上到我们开发出来这个解析器的时候,我们就已经收集了很多的,实际上,各种奇奇怪怪的docx、xlsx、pptx文件了。我们在ONLYOFFICE编辑器开发的早期阶段,收集了这些文件,用它们来检查复杂文档的渲染功能,几年之后,我们用它们来测试我们的解析器。我们检测到了不少的错误,然后花费了数周的时间来修复它们,但这些工作物有所值。

现在我们就有了解析OOXML文件的强大的工具OOXML Parser,我们用它来测试:

  • ONLYOFFICE文档社区版:开源版本由开源社区维护支持;
  • ONLYOFFICE文档企业版:2B面向企业端用户的商业销售版本;
  • ONLYOFFICE文档开发者版:面向开发商的可以进行开发的版本。

希望这一篇文章可以对你的项目有所帮助,就如ONLYOFFICE一样。

另:解析器怎么用

按照OOXML Parser的说明,安装后,编写测试脚本:

#!/usr/bin/env ruby
  
 require 'ooxml_parser'
 docx = OoxmlParser::Parser.parse('/home/WangXiaoShen/Documents/HelloWorld.docx')
 p docx.document_properties.pages
 p docx.file_path

执行,可以看到解析结果:


英文原文:Parsing OOXML Files With Ruby - DZone

译者:天哥

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1040625.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python运算函数

简 python输入输出函数input() :用户用于读取键盘输入的函数,返回值为“string”类型 运算函数abs(x) :x的绝对值int(x) :将x转换成整型(截掉小数部分)float(x):浮点数divmod(x,y):返回(x//y,x%y)complex(re,im):返回一…

A股风格因子看板 (2023.09 第08期)

要点预告:10月,天软课堂将添加新主题--天软超高频行情数据。针对市场上高频行情数据处理业务的相关痛点,直观的在线演示如何通过天软高频数仓及高性能计算能力,将其逐个击破,期待各位老师的参会。请持续关注天软课堂动态&#xff…

企业架构LNMP学习笔记60

Tomcat企业常见使用方法&#xff1b; 1&#xff09;简单代码测试&#xff1a; 将两个jsp文件上传到ROOT目录下。 查看下这个jsp代码&#xff1a; test.jsp <html> <head><title>Hello World</title> <% page language"java" contentT…

短视频矩阵系统,短视频矩阵源码技术

1、抖音开放平台申请账号&#xff0c;快手平台申请账号&#xff1b;阿里云混剪接口。 2、系统总台支持OEM代理&#xff0c;可以按点数管理。 3、代理功能。包括是否允许再次开二级代理、是否允许OEM等。 4、可支持一条龙搭建服务&#xff0c;抖音平台开放平台代申请等 开发…

《学术小白学习之路》论文常见方法:Doc2vec-句向量模型实现

1. 数据 用于文献的摘要的相似度的计算 ## 导包 import pandas as pd import jieba import gensim from gensim.models import Doc2Vec from gensim.models.doc2vec import TaggedDocument再定义停用词典,用于分词,还可以自己定义一个分词词典 ## 读入数据 papers = pd.&l…

JVS规则引擎,打造智能自动化决策的利器

在日常的项目中&#xff0c;实时数据处理和自动化决策是智能化业务、灵活化配置的关键能力。为了满足这一需求&#xff0c;JVS规则引擎应运而生&#xff0c;它是一种高效的低代码/零代码平台&#xff0c;能够帮助企业快速构建各种应用场景&#xff0c;实现自动化、智能化决策的…

iOS 17隐私设置指南

最近把手机升级到iOS 17了&#xff0c;升级后的设置里多了很多以前没注意到的指南&#xff0c;我发现特别是有关隐私相关配置的很多我没有启用。 那么&#xff0c;我就来扒一扒iOS中和隐私相关的配置&#xff0c;这些配置可能是iOS 17以后加入的&#xff0c;也可能是以前就有&a…

spring一个项目多个模块聚合打包问题解决方案

文章目录 1.问题描述&#xff1a;2.解决方案一、创建聚合父工程二、创建子模块&#xff08;module&#xff09;三、编写子模块代码1.模块1&#xff08;demo-one&#xff09;2.模块2&#xff08;demo-tow&#xff09; 四、创建聚合模块 &#xff08;demo-starter&#xff09;1. …

Servlet开发-通过代码案例熟悉HttpServletRequest类

关于Servlet开发的流程推荐看servlet开发-通过Tomcat部署一个简单的webapp Servlet开发与idea集成的插件安装推荐看idea集成tomcat&#xff08;Smart Tomcate插件安装&#xff09; postman&#xff08;第三方创建HTTP请求工具&#xff09;的安装推荐看创建HTTP请求的几种方式…

AcWing算法提高课-4.3.1最大数

宣传一下 算法提高课整理 CSDN个人主页&#xff1a;更好的阅读体验 原题链接 题目描述 给定一个正整数数列 a 1 , a 2 , … , a n a_1,a_2,…,a_n a1​,a2​,…,an​&#xff0c;每一个数都在 0 ∼ p − 1 0 \sim p-1 0∼p−1 之间。 可以对这列数进行两种操作&#xff1…

若依系统的小程序调试时,不出现验证码

一、&#xff08;这里我用的是夜神模拟器&#xff09;调试网络 1.如果是网线、需要进行ipconfig 查看IP 然后在 点击修改网络 将你的本机的ip地址写到代理服务器主机名和对以下网址不适用代理&#xff0c;代理服务器端口 自己写个就行 &#xff08;连接无线网络&#xff0c;…

苹果电脑Git客户端 SourceTree for Mac中文

SourceTree是一款图形化Git和Mercurial版本控制工具&#xff0c;旨在为开发人员提供简单且直观的界面来管理代码库和版本控制操作。下面是SourceTree的主要特点和功能&#xff1a; 图形化界面&#xff1a;SourceTree提供了直观的用户界面&#xff0c;使用户能够轻松地查看和管理…

旅行季《乡村振兴战略下传统村落文化旅游设计》许少辉八一新书想象和世界一样宽广

旅行季《乡村振兴战略下传统村落文化旅游设计》许少辉八一新书想象和世界一样宽广

Redis 集群搭建教程

一、介绍 Redis 集群有着高可用、易扩展、更好的性能等优势&#xff0c;本文主要是实战搭建一个三主三从的 Redis 集群。 正常来说&#xff0c;搭建 Redis 集群需要 6 台服务器。为了简单一点&#xff0c;本文通过一台服务器&#xff0c;6 个端口&#xff0c;搭建一个 Redis …

在微信公众平台 设置小程序域名白名单

首先 我们打开微信公众平台 微信公众平台 然后扫描二维码 登录自己需要操作的小程序 这里特别声明一下此操作必须是企业账号创建的小程序 然后 在左侧菜单中选择开发下的 开发管理 然后在这里选择 开发设置 然后 下拉找到 服务器域名 点击 修改 按钮 然后会需要你扫个二维…

软考中级哪一门比较好过?

如果你不确定要备考中级考试中的哪一科目&#xff0c;那么我建议你备考系统集成项目管理工程师。因为系统集成相对于其他中级考试更容易一些&#xff0c;它更偏文科&#xff0c;需要多背记多刷题。这也意味着你可以通过自学来备考&#xff0c;而且难度并不大。只要你愿意下功夫…

大学宿舍IP一键视频对讲

大学宿舍ip一键视频对讲 大学宿舍一键视频对讲是指在大学宿舍内安装一套视频对讲系统&#xff0c;通过一键操作&#xff0c;实现与宿舍内其他人进行视频通话的功能。 该系统通常包括以下组成部分&#xff1a; 1. 室内终端&#xff1a;每个宿舍内安装一个室内终端&#xff0c;…

C语言结构体的一些鲜为人知的小秘密

目录 一、结构体内存对齐规则&#xff1a; 1.1范例 1.2结构体内存对齐规则 1.3自定义默认对齐数 二、位段 2.1什么是位段 2.2位段的内存分配 2.3位段的不足 三、枚举和联合体 3.1枚举 3.1.1枚举类型的定义 3.1.2枚举类型的使用 3.2联合体 3.2.1联合体的定义 3.…

nginx的安装(一)

linux服务器nginx的安装 安装nginx 1.下载nginx安装包&#xff0c;到nginx官网 https://nginx.org/ 2.下载pcre安装包3.安装pcre&#xff0c;进入/usr/src/ 目录下&#xff0c;上传pcre安装包&#xff0c;nginx安装包4.首先安装pcre,在当前的目录解压安装包 tar -zxvf pc…

leetcode:2535. 数组元素和与数字和的绝对差(python3解法)

难度&#xff1a;简单 给你一个正整数数组 nums 。 元素和 是 nums 中的所有元素相加求和。数字和 是 nums 中每一个元素的每一数位&#xff08;重复数位需多次求和&#xff09;相加求和。 返回 元素和 与 数字和 的绝对差。 注意&#xff1a;两个整数 x 和 y 的绝对差定义为 |…