联机手写汉字识别系统技术要求与测试规程

news2024/12/23 16:33:09

声明

本文是学习GB-T 18790-2010 联机手写汉字识别系统技术要求与测试规程. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们

1 范围

本标准规定了联机手写汉字识别系统的技术要求和测试规程。

本标准适用于微型计算机、手持式信息处理设备等数字化设备中使用的联机手写汉字识别系统。

2 规范性引用文件

下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有
的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究

是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。

GB 18030—2005 信息技术 中文编码字符集

3 术语和定义

下列术语和定义适用于本标准。

3.1

联机手写数据采集设备 on-line handwriting device

可将人们书写的汉字及字符轨迹实时转换成坐标点序列并形成电子数据的设备,如手写板、触摸

屏、鼠标等。

3.2

联机手写汉字识别系统 on-line handwriting Chinese
character recognition system

运行于微型计算机、手持式信息处理设备等具有计算能力的系统中,可将联机手写数据采集设备采

集的汉字手写数据进行处理与辨识,输出相应的汉字标准字符的软件系统。

3.3

样本 sample

一个完整的、由联机手写数据采集设备采集的、符合附录B
规定数据格式的数据称为一个样本。

3.4

样本文件 sample file

由多个样本按附录 B 规定的数据格式组成的文件。

3.5

样本库 library of sample files

多个同类型样本文件组成的文件集合。

3.6

工整样本库 library of printed-handwriting sample

由书写者使用联机手写数据采集设备、在工整书写提示下自然书写的汉字样本组成的样本库。

3.7

乱笔顺样本库 library of random-stroke-order sample

以随机方式打乱了笔划顺序的汉字样本组成的样本库。

GB/T 18790—2010

3.8

自由手写体样本库 library of cursive-handwriting
sample

由书写者使用联机手写数据采集设备、在自由书写提示下按照自身书写习惯自然书写的汉字样本

组成的样本库。

3.9

平均首选识别率 average accuracy of hit-in 1

首选正确的样本数与样本库中样本总数的比值。

注:测试过程中,如识别系统对被测样本给出的首个候选字是正确结果,则该样本为首选正确的样本。

3.10

平均十选识别率 average accuracy of hit-in 10

十选正确的样本数与样本库中样本总数的比值。

注:测试过程中,如识别系统对被测样本给出的前10个候选字中包含正确结果,则该样本为十选正确的样本。

4 技术要求

4.1 识别字符集的范围

4.1.1 汉字字符

联机手写识别系统识别的汉字字符集应为 GB 18030—2005
中的全部汉字,或至少包括

GB 18030—2005 强制性部分中的全部汉字。

4.1.2 非汉字字符

联机手写汉字识别系统识别的非汉字字符应包括数字、拉丁字母、西文标点和符号、中文标点和符

号,以及手写控制符,见附录 A。

4.2 识别率

4.2.1 对工整样本库的识别要求

a) 对 GB18030—2005 中强制性部分汉字的平均首选识别率应大于95%;

b) 对附录 A 中的非汉字字符的平均首选识别率应大于80%;

c) 对支持GB18030—2005
中的全部汉字字符的产品,平均首选识别率应大于85%。

4.2.2 自由手写体库识别要求

对自由手写体样本库的平均十选识别率应大于90%。

4.2.3 对乱笔顺样本库的识别要求

对乱笔顺样本库的平均十选识别率应大于80%。

4.3 功能要求

4.3.1 候选字

联机手写识别系统应具备候选字功能。

4.3.2 词组联想功能

联机手写识别系统应具备词组联想功能。

4.3.3 用户笔迹自适应

联机手写识别系统应具备用户笔迹自适应功能。即,当用户确认正确的识别结果出现在候选字中
(非首选)时,识别系统可以自动学习当前对应的用户笔迹,使得当用户以后再次输入同一笔迹时,正确

结果可以出现在首选结果中。

4.3.4 倾斜字识别

联机手写识别系统应具备倾斜字识别功能。即,给定屏幕内的垂直坐标为0°方向,识别系统应能

正确识别±45°以内倾斜方向书写的用户笔迹。

4.3.5 混合识别

联机手写识别系统应具备识别中、英、数、符混合输入的功能。即,当用户手写输入汉字、英文字母、

GB/T 18790—2010

数字、符号时,用户不需要设定或改变当前识别范围,识别系统就可以识别所有笔迹。

4.3.6 简(体)繁(体)转换

联机手写识别系统应具备写繁出简的功能,即当用户书写笔迹为繁体字时,系统自动输出为对应的

简体字识别结果;同时应提供选项设置,以实现写简出繁、写繁出繁。

5 测试规程

5.1 测试样本库

测试样本库包括工整样本库、乱笔顺样本库和自由手写体样本库。

5.2 测试样本库的建立

5.2.1 工整样本库的建立

使用联机手写数据采集设备,采集由一定数量的书写者按照笔顺规范工整书写的汉字及符号的笔

迹数据。

数据套数不应少于30套,书写者的数量不应少于30人,同一书写者不能重复书写相同字符。

应选取不同年龄、不同性别、不同文化程度的书写者。

每套数据的内容,应包含GB18030—2005
中全部或强制性部分包含的所有汉字,及附录 A 中列出

的所有字符。

5.2.2 笔顺样本库的建立

将工整样本库中的样本,以随机方式打乱笔顺后形成乱笔顺样本库。

5.2.3 自由手写体样本库的建立

使用联机手写数据采集设备,采集由一定数量的书写者按照自身书写习惯书写的汉字及符号的笔

迹数据。

数据套数不应少于30套,书写者的数量不应少于30人,同一书写者不能重复书写相同字符。

应选取不同年龄、不同性别、不同文化程度的书写者。

每套数据的内容,应包含GB18030—2005
强制性部分中双字节编码2区包含的所有汉字,及附录

A 中列出的所有字符。

5.3 测试方法

5.3.1 识别字符集的范围

使用被测联机手写识别系统,对全部工整样本进行识别,验证系统所能识别的汉字字符及非汉字字

符,应符合4.1的要求。

5.3.2 识别率

使用被测联机手写识别系统,分别对全部工整样本和乱笔顺样本进行识别,记录每个样本中每个字

符的识别结果,并按下列公式计算平均首选识别率和平均十选识别率。

平均首选识别率=CN/NN (1)

式中:

NN—— 样本库中样本总数;

CN—— 经统计首选识别结果正确的样本数。

平均十选识别率=CN10/NN ………………………… (2)

式中:

NN—— 样本库中样本总数;

CN10—— 经统计前10选识别结果中包含正确结果的样本数。

5.3.3 功能要求

采用被测联机手写识别系统进行实际输入,判定是否具备4.3要求的各项功能。

GB/T 18790—2010

A

(规范性附录)

联机手写汉字识别系统的识别字符集中的非汉字字符集

联机手写汉字识别系统至少应识别如下非汉字字符:

A.1 数字

0123456789

A.2 大写英文字符

ABCDEFGHIJKLMNOPQRSTUVWXYZ

A.3 小写英文字符

abcdefghijklmnopqrstuvwxyz

A.4 西文标点、符号

!"#$%&’()*,./:;<->?@[\^ `{ |}~6&

A.5 中文标点、符号

!?,。、:;“” “ -……~() () {) 〈〉 《》¥

A.6

手写控制符与内码对应关系见表 A.1。

A.1 手写控制符与内码对应关系

名称/Name

内码/Code

手写控制符/Figure

退格/Backspace

0x0008

制表/Tab

0x0009

回车/Return

0x000D

空格/Space

0x0020

撤销/Undo(Ctrl+Z)

0x001A

Z

拷贝/Copy(Ctrl+C)

0x001B

C

粘贴/Paste(Ctrl+V)

0x001C

V

剪/Cut(Ctrl+X)

0x001D

X

Tab、Return、Space书写时均要求宽度大于高度。

“”要求一笔写成,不能写成两笔的"八"字。

注:图中的箭头只表示书写方向,不需要书写。

GB/T 18790—2010

B

(规范性附录)

关于标准测试样本文件的规定

本附录规定了标准测试样本库中的样本文件的扩展名和文件格式。

本附录对于提供和使用联机手写汉字识别系统的各方提出共同遵从的约定。

B.1 标准测试样本文件的扩展名

标准测试样本文件的扩展名统一为".POT"。

B.2 标准测试样本文件格式

文件格式:标准测试样本文件中存放的是连续的POT
数据块;无其他额外的格式信息。

POT 数据块定义:每个 POT
数据块中包含一个手写汉字的字型采样数据和内码等信息,详见

下表。

位移 内容

0 WORD 数据块长度,以字节(BYTE) 为单位,假设为 n

2 DWORD 本数据块所代表的汉字内码,例如"啊"= 0x0000b0al

6 WORD 手写样本的总笔划数,假设为 N

8 WORD 第一笔的第一个点的 X 方向坐标值

10 WORD 第一笔的第一个点的 Y 方向坐标值

··

i WORD 0xFFFF, 第一笔的结束标志

i+1 WORD 0x0000,第一笔的结束标志

···

n-7

n-5

n-3

n- 1

WORD 0xFFFF, 第 N 笔的结束标志

WORD 0x0000,第 N 笔的结束标志

WORD 0xFFFF, 本字的结束标志

WORD 0xFFFF, 本字的结束标志

注:1 WORD=2BYTE

1DWORD=2WORD

34H,12H。

(低字节在前,高字节在后),例如:0x1234,在文件中的字节排列顺序为34H,12H;

(低字在前,高字在后),例如:0x12345678,
在文件中的字节排列顺序为78H,56H,

延伸阅读

更多内容 可以 GB-T 18790-2010 联机手写汉字识别系统技术要求与测试规程. 进一步学习

联系我们

DB34-T 3501-2019 自动土壤水分传感器实验室检测规范 安徽省.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1041620.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

功能定义-后方碰撞预警

功能概述 后方碰撞预警(Rear Collision Warning)&#xff0c;简称RCW&#xff0c;其功能表现为实时监测车辆后方环境&#xff0c;并在可能受到后方碰撞危险时发出警告信息 报警区域 其中&#xff1a; L&#xff1a;表示后方盲区&#xff0c;受布置及传感器FOV影响 W&#xff1…

Java实现byte数组与Hex互转

十六进制字符的输出大写字符&#xff1a;0123456789ABCDEF 十六进制字符的输出小写字符&#xff1a;0123456789abcdef下面使用十六进制大写字符。 1、方式1 public class HexStringUtils {private static final char[] HEX_CHAR_TABLE {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B,…

00-MySQL数据库的使用-上

一 数据库基础知识 先谈发音 MySQL如何发音&#xff1f;在国内MySQL发音有很多种&#xff0c;Oracle官方文档说 他们念作 My sequal[si:kwəl]。 数据库基本概念 数据 数据&#xff08;Data&#xff09;是指对客观事物进行描述并可以鉴别的符号&#xff0c;这 些符号是可识别…

一篇文章全面解析Modbus协议中的消息帧

在 Modbus网络通信的两种传输模式中&#xff08; ASCII或RTU&#xff09;&#xff0c;传输设备以将Modbus消息转为有起点和终点的帧&#xff0c;这就允许接收的设备在消息起始处开始工作&#xff0c;读地址分配信息&#xff0c;判断哪一个设备被选中&#xff08;广播方式则传给…

MySQL 基础

本系列文章为【狂神说 Java 】视频的课堂笔记&#xff0c;若有需要可配套视频学习。 1. 简介 数据库&#xff08;DB&#xff0c;Database&#xff09;是安装在操作系统上的存储数据的软件。 关系型数据库&#xff08;RDB&#xff09;以行列形式存储数据。 非关系型数据库&am…

如何访问TDH中Inceptor 底层的元数据库TxSQL

如何访问TDH中Inceptor 底层的元数据库TxSQL 1 Inceptor概述 在大数据生态系统中&#xff0c;HIVE是离线数据仓库事实上的标准&#xff0c;绝大多数的大数据分析型系统或数据仓库系统&#xff0c;都是基于HIVE来构建的。 在星环的大数据平台TDH中&#xff0c;在功能上对应开…

PWN环境搭建

虚拟机Ubuntu安装 工具&#xff1a;Vmware 16 以及 Ubuntu 18或20 来源&#xff1a;清华大学开源软件镜像站 | Tsinghua Open Source Mirror 虚拟机安装流程 安装很简单&#xff0c;按照提示一步步来即可 处理器可以多给一些&#xff0c;我给了8个&#xff0c;内核数量不…

CCS介绍

CCS介绍 设置主体颜色 修改字体的颜色和大小 安装一些插件 CCS中的App中心 切换工作空间 导入工程

CarbonData详细解析

一、CarbonData简介 CarbonData是一种新型的Apache Hadoop本地文件格式&#xff0c;使用先进的列式存储、索引、压缩和编码技术&#xff0c;以提高计算效率&#xff0c;有助于加速超过PB数量级的数据查询&#xff0c;可用于更快的交互查询。同时&#xff0c;CarbonData也是一种…

AnyDesk多ID集中控制台V2.0

网盘下载 AnyDesk多ID集中控制台V2.0 软件介绍&#xff1a; 首先大家要知道AnyDesk软件是干嘛的&#xff1f;国外的远程协助工具&#xff0c;和TeamViewer同一个软件&#xff0c;TeamViewer确定需要登录&#xff0c;使用限制5分钟等等缺点&#xff0c;所以自己就用易语言开发An…

uni-app:实现页面效果1

效果 代码 <template><view><view class"add"><image :src"add_icon" mode""></image></view><view class"container_position"><view class"container_info"><view c…

69.渲染函数如何提高Vue应用程序的效率

通过使用虚拟 DOM&#xff0c;Vue 可以比直接操作真实 DOM 更高效地更新和渲染用户界面。渲染函数可用于在服务器上预渲染组件&#xff0c;从而提高应用程序的初始加载性能。渲染函数可让我们完全控制组件的结构和内容&#xff0c;从而构建自定义的复杂用户界面。 h() 函数&…

Java笔记:手写spring之aop

手写spring之aop 仓库地址: Raray-chuan/mini-spring 博文列表: 导读手写spring之ioc手写spring之aop手写spring之简单实现springboot 1.什么是AOP AOP(Aspect-oriented Programming), AOP翻译过来叫面向切面编程, 核心就是这个切面. 切面表示从业务逻辑中分离出来的横切…

【排序算法】冒泡排序、插入排序、归并排序、希尔排序、选择排序、堆排序、快速排序

目录 几大排序汇总 1.冒泡排序 性能: 思路和代码: 2.插入排序 性能: 思路和代码: 3.归并排序 性能: 思路和代码: 4.希尔排序 性能: 思路和代码: 5.选择排序 性能: 思路和代码: 6.堆排序 性能: 思路和代码: topK问题 7.快速排序 性能: 思路和代码: 几大排…

vue3自定义全局Loading

自定义插件之全局Loading ElementPlus的默认全局Loading 如果完整引入了 Element Plus&#xff0c;那么 app.config.globalProperties 上会有一个全局方法$loading&#xff0c;同样会返回一个 Loading 实例。 名称说明类型默认targetLoading 需要覆盖的 DOM 节点。 可传入一…

田忌赛马Java

给定两个大小相等的数组 A 和 B&#xff0c;A 相对于 B 的优势可以用满足 Ai] > Bi] 的索的数目来描述。 返回 A的任意排列&#xff0c;使其相对于 B 的优势最大化. 其实核心思想就是让A中的数最小且刚好大于B中数,我们可以用链表来存储A和B中对应的数据,至于B比A中所有的数…

优优嗨聚集团:餐饮发展与房地产的关联:一种强效应的探索

随着时代的进步和经济的发展&#xff0c;餐饮业和房地产行业已成为人们日常生活中的重要组成部分。这两个行业之间存在着复杂的联系&#xff0c;它们相互影响、相互促进&#xff0c;形成了独特的经济现象。本文将从多个角度分析餐饮发展与房地产之间的关联&#xff0c;并探讨这…

苹果Vision Pro头显内置AI芯片

苹果首席执行官蒂姆库克近日在接受采访时确认&#xff0c;备受瞩目的Vision Pro头显将按计划于明年初在美国上市。这款头显被认为是苹果自iPhone以来最重要的产品之一&#xff0c;售价高达3499美元。 蒂姆库克在接受CBS Sunday Morning的采访时透露&#xff0c;他的团队对Visi…

一、浏览器输入URL会发生什么

参考链接&#xff1a;B站视频链接&#xff1a;https://www.bilibili.com/video/BV1qL411G7uj/ 本视频讲述了HTTP协议及其工作原理&#xff0c;包括HTTP协议的三次握手建立TCP连接、HTTP请求报文、HTTP响应报文等。同时&#xff0c;本视频还介绍了浏览器解析域名并建立TCP连接的…

Failed to load property source from location ‘classpath:/application.yml‘

前言 给同学部署项目的时候出现了这个错误&#xff0c;困扰我半天&#xff0c;搞了一下午&#xff0c;最后Google找到了答案。 在这里记录一下&#xff01; 解决方案 第一步&#xff1a;删除原有yml文件&#xff0c;把内容复制下来&#xff0c;重新写一个然后再粘贴进去 …