OCR常用数据集_看数据集区分可识别语言

news2024/11/27 12:30:40

这里写目录标题

    • COCO-TEXT 英文
    • Total-Text 英文+少量中文
      • IIIT5K[50]、IC03[44]、IC13[34]、IC15[33]、CT80[56]
      • MJSynth 英文
      • SynthText
      • 分层文本数据集 (HierText) 英文
      • TextOCR和IntelOCR ???
      • Multi-language dataset (IC19)
      • RCTW17 主要中文
      • MSRA-TD500 dataset 中英混合
      • SCUT-CTW1500

TextZoom是用于英文超分算法的数据集,没有汉字字符。RealSR是为真实世界的自然图像超分辨率而构建。
此处

COCO-TEXT 英文

英文数据集,包括63686幅图像,173589个文本实例,包括手写版和打印版,清晰版和非清晰版。文件大小12.58GB,训练集:43686张,测试集:10000张,验证集:10000张。
下载地址:https://vision.cornell.edu/se3/coco-text-2/

Total-Text 英文+少量中文

Total-Text 是一个数据集, 其中包含各 种形状的文本, 包括水平的,多取向的和弯曲的. 这 3 个数据集包含了中文和英文的数据集共 6 万张, 用于 文字检测和识别
在这里插入图片描述
TotalText下载链接:https://opendatalab.com/TotalText Total-Text是最大弯曲文本数据集之一-ArT(任意形状文本数据集)训练集中的一部分。该数据集共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。其中训练集有1255张图像,测试集有300张图像。

作者:OpenDataLab
链接:https://www.zhihu.com/question/349678421/answer/2620009371

MTWI [11] is a large-scale dataset for Chinese and English web text reading
MSRA-TD500 [47] is a multi-lingual text dataset in Chinese and English.

IIIT5K[50]、IC03[44]、IC13[34]、IC15[33]、CT80[56]

在这里插入图片描述

一方面,现有的文本识别方法主要在英文文本上进行评估,如IIIT5K[50]、IC03[44]、IC13[34]、IC15[33]、CT80[56]等。虽然很少有方法尝试在中文文本数据集上进行实验,但相应的论文中关于数据集构建的细节并不明确,这使得其他人很难将其作为CTR基线(见图1©)。另一方面,复制现有文本识别方法构建CTR基线的结果是一项费力的任务。它不仅耗费大量的时间,而且消耗大量的GPU资源,这确实降低了研究人员对中文文本识别的热情
中文文本识别Benchmarking
在这里插入图片描述

(a) Year 2011 (SVT) and (b) Year 2013 (IIIT, IC13): Most
of images are horizontal texts in the street.
© Year 2015 (IC15): Images captured by Google Glass
under movement of the wearer, and thus many are perspective texts, blurry, or low-resolution images.
(d) Year 2017 (COCO, RCTW, Uber):
COCO-Text (COCO) [49] is created from the MS
COCO dataset [25]. As the MS COCO dataset is not
intended to capture text, COCO contains many occluded or low-resolution texts.
RCTW [42] is created for Reading Chinese Text in
the Wild competition. Thus many are Chinese text.
Uber-Text (Uber) [62] is collected from Bing Maps
Streetside. Many are house number, and some are text
on signboards.
(e) Year 2019 (ArT, LSVT, MLT19, ReCTS):
ArT [6] is created to recognize Arbitrary-shaped Text.
Many are perspective or curved texts. It also includes
Totaltext [7] and CTW1500 [28], which contain many
rotated or curved texts.
LSVT [47, 46] is a Large-scale Street View Text
dataset, collected from streets in China, and thus many
are Chinese text.
MLT19 [34] is created to recognize Multi-Lingual
Text. It consists of seven languages: Arabic, Latin,
Chinese, Japanese, Korean, Bangla, and Hindi.
ReCTS [61] is created for the Reading Chinese Text
on Signboard competition. It contains many irregular
texts arranged in various layouts or written with unique
fonts.
在这里插入图片描述
We use a collection of Chinese text recognition
datasets [10, 28, 36, 38, 50] as the training set and the Japanese subset of MLT [28] as the testing set following
OSOCR [23], and all models are trained for 200k iterations.

MJSynth 英文

在这里插入图片描述
在这里插入图片描述

SynthText

在这里插入图片描述

分层文本数据集 (HierText) 英文

数据采集
HierText 中的图像是从 Open Images v6 数据集 [24] 中收集的。 我们使用公共商业 OCR 引擎 Google Cloud Platform Text Detection API (GCP)1 扫描 Open Images,以搜索带有文本的图像。 我们过滤掉图像:a) 检测到的单词很少,b) 识别置信度低,c) 带有非英语主导文本。 最后,我们从剩余图像中随机抽取一个子集来构建我们的数据集。 获得了 11639 张图像,并进一步分为训练集、验证集和测试集。 HierText 图像具有更高的分辨率,其长边限制为 1600 像素,而之前基于 Open Images [22,48] 的数据集限制为 1024 像素,从而产生更清晰的文本。
————————————————
版权声明:本文为CSDN博主「studyeboy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/studyeboy/article/details/127652354

TextOCR和IntelOCR ???

姑且算作英文
Revisiting Scene Text Recognition: A Data Perspective,ICCV,2023
这篇

Multi-language dataset (IC19)

Evaluation on multiple languages is performed using IC19-MLT dataset. The output channel in the prediction layer
of the recognizer was expanded to 4267 to handle the characters in Arabic,
Latin, Chinese, Japanese, Korean, Bangladesh, and Hindi. However, occurrence
of characters in the dataset is not evenly distributed.

RCTW17 主要中文

《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》
ICDAR2017RCTW-OCR

MSRA-TD500 dataset 中英混合

MSRA-TD500 dataset [45] is a multi-language scene text detection benchmark that contains English and Chinese text, including 300 training images and
200 testing images. Text instances are annotated in the text-line level, thus there
are many text instances of extreme aspect ratios. This dataset does not contain
recognition annotations.

SCUT-CTW1500

描述:针对弯曲文本检测的数据集
语言:mainly Chinese & English

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1259593.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开源语音大语言模型——Qwen-Audio

论文链接:https://arxiv.org/pdf/2311.07919.pdf 开源代码:https://github.com/QwenLM/Qwen-Audio 一、背景 大型语言模型(LLMs)由于其良好的知识保留能力、复杂的推理和解决问题能力,在通用人工智能(AGI…

链表的反转—c++版本

一、迭代反转法 过程分析&#xff1a; 代码实现&#xff1a; #include <iostream>struct LinkNode{ //创建一个结构体做为链表的结点int data; //数据域LinkNode* next; //指针域 };void Print_Link(LinkNode* phead) //打印链表 {while (phead ! nu…

cadence virtuoso simulation文件夹删除

ADE XL仿真结果错误&#xff0c;与预期结果差别太大&#xff0c;与ADE L仿真结果也差别很大。 可能是由于仿真数据过多&#xff0c;卡爆了。 在virtuoso启动路径下&#xff0c;simulation文件夹是仿真过程文件&#xff0c;可以将此文件夹清空。 清空后ADE XL仿真结果正常了。…

P23 C++字符串

目录 前言 01 什么是字符串 02 字符串是怎么工作的呢&#xff1f; 2.1 字符 2.2 字符串 2.3 如何知道指向hello world的这个指针多大 03 使用字符串 04 字符串传参 前言 本期我们将讨论 C 中的字符串。 首先&#xff0c;什么是字符串&#xff1f; 01 什么是字符串 字…

基于OpenCV+YOLOv5实现车辆跟踪与计数(附源码)

导 读 本文主要介绍基于OpenCVYOLOv5实现车辆跟踪与计数的应用&#xff0c;并给出源码。 资源下载 基础代码和视频下载地址&#xff1a; https://github.com/freedomwebtech/win11vehiclecount main.py代码:​​​​​​​ import cv2import torchimport numpy as npfrom tr…

Vue CLI 初体验之如何创建一个项目并打开,以及组件的简单使用案例。

目录 什么是Vue CLI? 如何使用Vue CLI 创建一个项目 1.winr 打开cmd 输入vue create 1127(1127是文件名) 2.配置基础设置 选择Manually select features 选择Router和Vuex 选中vue版本&#xff08;我这里选vue3&#xff09; 剩下的看自己需要&#xff0c;如果不确定就一…

3、Segment Anything

github 创建anaconda环境 conda create -n ASM python3.8下载依赖包 # pytorch>1.7 and torchvision>0.8 conda install pytorch1.11.0 torchvision0.12.0 torchaudio0.11.0 cudatoolkit11.3 -c pytorchpip install githttps://github.com/facebookresearch/segment-a…

13、LCD1602调试工具

LCD1602调试工具 使用LCD1602液晶屏作为调试窗口&#xff0c;提供类似Printf函数的功能&#xff0c;可实时观察单片机内部数据的变化情况&#xff0c;便于调试和演示。 main.c #include <REGX52.H> #include "LCD1602.h" #include "Delay.h"//存储…

快速搭建一个SpringCloud、SpringBoot项目 || 项目搭建要点

1. 基本结构 建立springcloud项目从表入手&#xff0c;分析好需求建立表结构后&#xff0c;使用mybatis-plux生成POJO类&#xff0c;在对应的model模块中。 2. 微服务部分架构 2.1 依赖 service 微服务模块的依赖仅包含如下&#xff0c;数据库等依赖包含在model中&#xff0c…

【解决视觉引导多个位置需要标定多个位置的问题】

** 以下只针对2D定位&#xff0c;就是只有X、Y、Rz三个自由度的情况。** 假设一种情况&#xff0c;当视觉给机器人做引导任务时&#xff0c;零件有多个&#xff0c;分布在料框里&#xff0c;视觉需要走多个位置去拍&#xff0c;那么只需要对第一个位置确定拍照位&#xff0c;确…

力扣6:N字形变化

代码&#xff1a; class Solution { public:string convert(string s, int numRows){int lens.size();if(numRows1){return s;}int d2*numRows-2;int count0;string ret;//第一行&#xff01;for(int i0;i<len;id){rets[i];}//第k行&#xff01;for(int i1;i<numRows-1;…

智能优化算法应用:基于教与学算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于教与学算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于教与学算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.教与学算法4.实验参数设定5.算法结果6.参考文献7.…

超越GPT-4,拥有联网能力,Kimi-Chat大模型已免费使用,国内直接访问

目前ChatGPT的所有免费用户都已可以使用带有语音功能的ChatGPT。 人吧&#xff0c;总是贪婪的&#xff0c;我还想要ChatGPT Plus用户独享的“联网”功能。 目前对于ChatGPT来说&#xff0c;不想交钱&#xff0c;别拥有“联网”能力了&#xff0c;于是我找到了一个后起之秀&…

【差旅游记】新疆哈密回王府印象

哈喽&#xff0c;你好啊&#xff0c;我是雷工&#xff01; 2023年11月4号&#xff0c;那天的风的确挺大&#xff0c;逛完哈密博物馆考虑要不要去旁边的哈密回王府逛逛。想着来都来了&#xff0c;虽然网上评价不太好&#xff0c;还是去溜达一圈吧&#xff0c;于是决定自己去转转…

为啥网络安全那么缺人,但很多人却找不到工作?

文章目录 一、学校的偏向于学术二、学的东西太基础三、不上班行不行 为什么网络安全的人才缺口那么大&#xff0c;但是大学毕业能找到网安工作的人却很少&#xff0c;就连招聘都没有其他岗位多&#xff1f; 明明央视都说了网络安全的人才缺口还有300多万&#xff0c;现在找不到…

C++ 用ifstream读文件

输入流的继承关系: C++ 使用标准库类来处理面向流的输入和输出: iostream 处理控制台 IOfstream 处理命名文件 IOstringstream 完成内存 string 的 IO每个IO 对象都维护一组条件状态 flags (eofbit, failbit and badbit),用来指出此对象上是否可以进行 IO 操作。如果遇到错误…

vue实战——登录【详解】(含自适配全屏背景,记住账号--支持多账号,显隐密码切换,登录状态保持)

效果预览 技术要点——自适配全屏背景 https://blog.csdn.net/weixin_41192489/article/details/119992992 技术要点——密码输入框 自定义图标切换显示隐藏 https://blog.csdn.net/weixin_41192489/article/details/133940676 技术要点——记住账号&#xff08;支持多账号&…

「江鸟中原」有关HarmonyOS-ArkTS的Http通信请求

一、Http简介 HTTP&#xff08;Hypertext Transfer Protocol&#xff09;是一种用于在Web应用程序之间进行通信的协议&#xff0c;通过运输层的TCP协议建立连接、传输数据。Http通信数据以报文的形式进行传输。Http的一次事务包括一个请求和一个响应。 Http通信是基于客户端-服…

进程等待讲解

今日为大家分享有关进程等待的知识&#xff01;希望读完本文&#xff0c;大家能有一定的收获&#xff01; 正文开始&#xff01; 进程等待的引进 既然我们今天要讲进程等待这个概念&#xff01;那么只有我们把下面这三个方面搞明白&#xff0c;才能真正的了解进程等待&#x…