文章目录
- 一、关于 UniMERNet
- 演示视频
- 二、快速入门
- 1、克隆repo并下载模型
- 2、安装
- 3、运行UniMERNet
- 四、评估
- 1、下载UniMER-Test数据集
- 2、运行评估代码
- 3、与SOTA方法的性能比较(BLEU)
- 4、不同方法的可视化结果
- 五、UniMER数据集
- 1、导言
- 2、数据集下载
- 六、其它
- 1、待办事项
- 2、引文
- 3、致谢
一、关于 UniMERNet
UniMERNet 这是一个将数学表达式的图像转换为LaTeX的解决方案,适用于广泛的现实世界场景。
- github : https://github.com/opendatalab/UniMERNet
- Paper : https://arxiv.org/abs/2404.15254
- Dataset (OpenDataLab) : https://opendatalab.com/OpenDataLab/UniMER-Dataset
- Dataset (Hugging Face) : https://huggingface.co/datasets/wanderkid/UniMER_Dataset
- Models (Hugging Face) : https://huggingface.co/wanderkid/unimernet
- 联系:wangbin@pjlab.org.cn
演示视频
- DirectRecognition.mp4
- MunualSelection.mp4
二、快速入门
1、克隆repo并下载模型
git clone https://github.com/opendatalab/UniMERNet.git
cd UniMERNet/models
# Download the model and tokenizer individually or use git-lfs
git lfs install
git clone https://huggingface.co/wanderkid/unimernet
2、安装
conda create -n unimernet python=3.10
conda activate unimernet
pip install --upgrade unimernet
3、运行UniMERNet
- Streamlight应用程序:要获得交互式和用户友好的体验,请使用我们基于Streamlight的GUI。此应用程序允许实时公式识别和渲染。
unimernet_gui
确保为流线型GUI应用程序安装了最新版本的UniMERNet(pip install --upgrade unimernet
)。
- 命令行演示:从图像中预测LaTeX代码。
python demo.py
- Jupyter笔记本演示:从图像中识别和渲染公式。
jupyter-lab ./demo.ipynb
四、评估
1、下载UniMER-Test数据集
下载UniMER-Test数据集并将其解压缩到以下目录:
./data/UniMER-Test
2、运行评估代码
python test.py --cfg configs/demo.yaml
3、与SOTA方法的性能比较(BLEU)
UniMERNet在识别真实世界的数学表达式方面明显优于主流模型,在简单打印表达式(SPE)、复杂打印表达式(CPE)、屏幕捕获表达式(SCE)和手写表达式(HWE)中展示了卓越的性能,BLEU分数比较评估证明了这一点。
4、不同方法的可视化结果
UniMERNet在具有挑战性的样本的视觉识别方面表现出色,优于其他方法。
五、UniMER数据集
1、导言
UniMER数据集是一个专门的集合,旨在推进数学表达式识别(MER)领域。它包含全面的UniMER1M训练集,其中包含100多万个代表各种复杂数学表达式的实例,以及UniMER测试集,该测试集精心设计,用于根据现实世界的场景对MER模型进行基准测试。数据集详情如下:
UniMER-1M训练集:
- 总样品:1,061,791乳胶图像对
- 组成:简洁和复杂的平衡组合,扩展公式表达式
- 目的:训练鲁棒、高精度的MER模型,提高识别精度和泛化能力
UniMER测试集:
- 样本总数:23757,分为四种类型的表达:
- 简单打印表达式(SPE):6,762个样本
- 复杂印刷表达(CPE):5,921个样本
- 屏幕捕获表达式(SCE):4,742个样本
- 手写表达式(HWE):6,332个样本
- 目的:提供对现实世界条件范围内的MER模型的全面评估
2、数据集下载
您可以从OpenDataLab(推荐给中国用户)或HuggingFace下载数据集。
六、其它
1、待办事项
- 发布UniMERNet的推理代码和检查点。
- 发布UniMER-1M和UniMER-测试。
- 开源Streamlight公式识别GUI应用程序。
- 发布UniMERNet的训练代码。
2、引文
如果您发现我们的模型/代码/论文对您的研究有用,请考虑给我们一个⭐并引用我们的工作📝,谢谢:)
@misc{wang2024unimernet,
title={UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition},
author={Bin Wang and Zhuangcheng Gu and Chao Xu and Bo Zhang and Botian Shi and Conghui He},
year={2024},
eprint={2404.15254},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
3、致谢
- VIGC。模型框架依赖于VIGC。
- Texify。一种主流的MER算法,UniMERNet数据处理指的是Texify。
- Latex-OCR。另一种主流MER算法。
- Donut。UniMERNet的变压器编码器-解码器引用自甜甜圈。
- Nougat。标记器使用牛轧糖。
2024-07-21(日)