论文阅读和分析:Hybrid Mathematical Symbol Recognition using Support Vector Machines

news2025/1/11 6:00:13

HMER论文系列
1、论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客
2、论文阅读和分析:Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客
3、论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation_KPer_Yang的博客-CSDN博客
4、 论文阅读和分析:Watch, attend and parse An end-to-end neural network based approach to HMER_KPer_Yang的博客-CSDN博客
5、 论文阅读和分析:Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客
6、 论文阅读和分析:Mathematical formula recognition using graph grammar_KPer_Yang的博客-CSDN博客
7、 论文阅读和分析:Hybrid Mathematical Symbol Recognition using Support Vector Machines_KPer_Yang的博客-CSDN博客
8、论文阅读和分析:HMM-BASED HANDWRITTEN SYMBOL RECOGNITION USING ON-LINE AND OFF-LINE FEATURES_KPer_Yang的博客-CSDN博客

主要贡献:

1、提出了一种基于支持向量机的混合识别系统,该系统同时使用在线和离线信息进行分类。

2、并行运行的两个基于支持向量机的多类分类器的概率输出通过加权和进行组合。实验结果表明,赋予在线信息稍高的权重会产生更好的结果。混合系统在单独使用时的整体错误率低于在线和离线识别系统。

复习SVM

下面所说的,在libsvm都有实现

SVMs基于两个观点:VC维度和最小化结构风险。

在VC理论中,最常用的概念为VC维(VC dimension)。VC维度(或Vapnik-Chervonenkis维度)是衡量可以通过统计分类算法学习的函数空间的容量(复杂度,表现力,丰富度或灵活性)的度量。它被定义为算法可以破碎(shatter)的最大点集的基数,在这里破碎(shatter)意为若对于一个假设空间H,如果存在m个数据样本能够被假设空间H中的函数按所有可能的2^h种形式分开,则称假设空间H能够把m个数据样本破碎(shatter)。在二维平面上的简单理解就是可以使得线性划分数据集所有点类别的最小直线数目。

SVMs遇到线性不可分的情况下,理论上在一个更高的维度空间可以线性可分,相当于给一个非线性决策平面在原来的特征空间。可以表示成:
f ( x ) = ∑ i α i y i K ( x , x i ) + b f(x)=\sum_i\alpha_iy_i K(x,x_i)+b f(x)=iαiyiK(x,xi)+b

y i y_i yi:label;

x i x_i xi:训练样本;

x x x:待分类样本;

K ( x , x i ) = ϕ ( x ) ϕ ( x i ) K(x,x_i)=\phi(x) \phi(x_i) K(x,xi)=ϕ(x)ϕ(xi):核函数:
K ( a , b ) = exp ⁡ ( − γ ∣ ∣ a − b ∣ ∣ 2 ) , γ > 0 (radial basis fns) K ( a , b ) = ( γ ( a ⋅ b ) + r ) d , γ > 0 (polynomial) K ( a , b ) = tanh ⁡ ( γ ( a ⋅ b ) + r ) (sigmoid) \begin{array}{l} K(a,b)=\exp(-\gamma||a-b||^2),\gamma>0\text{(radial basis fns)}\\ K(a,b)=(\gamma(a\cdot b)+r)^d,\gamma>0\textrm{(polynomial)}\\ K(a,b)=\tanh(\gamma(a\cdot b)+r)\textrm{(sigmoid)} \end{array} K(a,b)=exp(γ∣∣ab2),γ>0(radial basis fns)K(a,b)=(γ(ab)+r)d,γ>0(polynomial)K(a,b)=tanh(γ(ab)+r)(sigmoid)

一般而言,SVMs用于二分类任务,多分类任务用DAG and one-against-one作为多分类的实现。

同时,要让SVMs输出后验概率,需要使用sigmoid函数:
p ( y = 1 ∣ f ( x ) ) = 1 1 + exp ⁡ ( A f ( x ) + B ) p(y=1|f(x))=\dfrac{1}{1+\exp(Af(x)+B)} p(y=1∣f(x))=1+exp(Af(x)+B)1

f ( x ) f(x) f(x):SVM的输出;

A和B:可以从负的log-likelihood 函数在训练数据得到;

架构

使用在线特征和离线特征,通过两个不同的SVM分类器,得到每个类别的概率,联合求出总的概率,得到结果。

联合:
P ( C i ∣ X ) = α P ( C i ∣ X , O N F ) + β ( C i ∣ X , O F F ) P(C_i|X)=αP(C_i|X,ONF)+β(C_i|X,OFF) P(CiX)=αP(CiX,ONF)+β(CiX,OFF)

α + β = 1 \alpha + \beta = 1 α+β=1

在这里插入图片描述

在线特征向量

预处理:

1、smoothing:使用中心平滑去平滑墨水的笔迹;
x i = 0.25 x i − 1 + 0.5 x i + 0.25 x i + 1 y i = 0.25 y i − 1 + 0.5 y i + 0.25 y i + 1 \begin{array}{rcl}x_i&=&0.25x_{i-1}+0.5x_i+0.25x_{i+1}\\ y_i&=&0.25y_{i−1}+0.5y_i+0.25y_{i+1}\end{array} xiyi==0.25xi1+0.5xi+0.25xi+10.25yi1+0.5yi+0.25yi+1
2、Filling intermediate points:在连续的点之间填充内部点,这样对齐空间,没有对齐时间,因为发现空间对齐比时间对齐更有用。因此,在重新采样时,我们将笔画上的点放置在相等的距离上。

3、resample重采样:每个笔画选择每 N / 1 1 t h N/11^{th} N/11th的点,N是总的点数;

4、size normalization尺度归一化:每个stroke使用 1 / m a x ( h , w ) 1/max(h,w) 1/max(h,w)进行归一化;

提取特征:

发现坐标和角度信息是最有区分度的特征,增加图形特征例如相关长度,错误率降低很小但是特征向量更多;

计算重心:
∑ i ( x i / N ) , ∑ i ( y i / N ) , \sum_i(x_i/N),\sum_i(y_i/N), i(xi/N),i(yi/N),
转过的角度:

在这里插入图片描述

因此得到的特征包括:

特征:
stroke笔画的每个点的坐标
line segments的sines和cosines值
line segments和符号重心的sines和cosines值

离线特征向量

1、离线特征是将stroke转换成图片,存储样本文件在InkML格式,这些文件加载使用black ink在white背景上,使用Microsofts Tablet PC SDK.

2、转换到bitmap后,进行尺度缩放: 15 / m a x ( w , h ) 15/max(w,h) 15/max(w,h)

3、使用high-quality bilinear interpolation filter,填补边缘得到bitmap 15*15大小。

在这里插入图片描述

提取的特征:

特征:
( I 1 , I 2 , . . . , I N ) (I_1,I_2,...,I_N) (I1,I2,...,IN):灰度强度像素点的值 N = w ∗ h N=w*h N=wh

参考:

《Hybrid Mathematical Symbol Recognition using Support Vector Machines》
VC维度 | 机器之心 (jiqizhixin.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/421179.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自然语言处理(七): Deep Learning for NLP: Recurrent Networks

目录 1. N-gram Language Models 2. Recurrent Neural Networks 2.1 RNN Unrolled 2.2 RNN Training 2.3 (Simple) RNN for Language Model 2.4 RNN Language Model: Training 2.5 RNN Language Model: Generation 3. Long Short-term Memory Networks 3.1 Language M…

论文阅读【14】HDLTex: Hierarchical Deep Learning for Text Classification

论文十问十答: Q1论文试图解决什么问题? 多标签文本分类问题 Q2这是否是一个新的问题? 不是 Q3这篇文章要验证一个什么科学假设? 因为文本标签越多,分类就越难,所以就将文本类型进行分层分类,这…

【人工智能与深度学习】判别性循环稀疏自编码器和群体稀疏性

【人工智能与深度学习】判别性循环稀疏自编码器和群体稀疏性 判别类循环稀疏自编码器 (DrSAE)组稀疏组稀疏自编码器的问与答图像级别训练,无权重分享(weight sharing)的局域过滤器 (local filters)判别类循环稀疏自编码器 (DrSAE) DrSAE的设计结合了稀疏编码(稀疏自编码器)…

数据库并发控制基本概念和基本技术

并发控制与基本技术一、并发控制1. 概述2. 并发访问可能出现的问题二、并发控制的主要技术1、基本技术2、封锁及锁的类型2.1、什么是封锁2.2、基本封锁类型2.2.1、排它锁(Exclusive Locks,简记为 X 锁)2.2.2、共享锁(Share Locks&…

基于ArkUI框架开发-ImageKnife渲染层重构

ImageKnife是一款图像加载缓存库,主要功能特性如下: ●支持内存缓存,使用LRUCache算法,对图片数据进行内存缓存。 ●支持磁盘缓存,对于下载图片会保存一份至磁盘当中。 ●支持进行图片变换:支持图像像素源图…

【SSconv:全色锐化:显式频谱-空间卷积】

SSconv: Explicit Spectral-to-Spatial Convolution for Pansharpening (SSconv:用于全色锐化的显式频谱-空间卷积) 全色锐化的目的是融合高空间分辨率的全色(PAN)图像和低分辨率的多光谱(LR-MS&#xff…

【微服务】6、一篇文章学会使用 SpringCloud 的网关

目录一、网关作用二、网关的技术实现三、简单使用四、predicates(1) 网关路由可配置的内容(2) 路由断言工厂(Route Predicate Factory)五、filters(1) GatewayFilter(2) 给全部进入 userservice 的请求添加请求头(3) 全局过滤器 —— GlobalFilter(4) 过…

PX4从放弃到精通(二十七):固定翼姿态控制

文章目录前言一、roll/pitch姿态/角速率控制二、偏航角速率控制三、主程序前言 固件版本 PX4 1.13.2 欢迎交流学习,可加左侧名片 一、roll/pitch姿态/角速率控制 roll/pitch的姿态控制类似,这里只介绍roll姿态控制, 代码位置: …

如何确定NetApp FAS存储系统是否正常识别到了boot device?

近期处理了几个NetApp FAS存储控制器宕机的案例,其中部分有代表性的就是其实控制器并没有物理故障,问题是控制器里面的boot device的SSD盘出现了问题。这里给大家share一下如何确定系统是否成功识别到了boot device设备。 对于很多非专业人士来说&#…

mongodb使用docker搭建replicaSet集群与变更监听

在mongodb如果需要启用变更监听功能(watch),mongodb需要在replicaSet或者cluster方式下运行。 replicaSet和cluster从部署难度相比,replicaSet要简单许多。如果所存储的数据量规模不算太大的情况下,那么使用replicaSet方式部署mongodb是一个…

凹凸/法线/移位贴图的区别

你是否在掌握 3D 资产纹理的道路上遇到过障碍? 不要难过! 许多刚接触纹理或 3D 的艺术家在第一次遇到凹凸贴图(Bump Map)、法线贴图(Normal Map)和移位贴图(Displacement Map)时通常…

Linux Redis主从复制 | 哨兵监控模式 | 集群搭建 | 超详细

Linux Redis主从复制 | 哨兵监控模式 | 集群搭建 | 超详细一 Redis的主从复制二 主从复制的作用三 主从复制的流程四 主从复制实验4.1 环境部署4.2 安装Redis(主从服务器)4.3 修改Master节点Redis配置文件 (192.168.163.100)4.4 修改Slave节点Redis配置文…

MySQL-用户与权限

目录 🍁DB权限表 🍁新建普通用户 🍂创建新用户(create user) 🍂创建新用户(grant) 🍁删除普通用户 🍁修改用户密码 🍂Root用户修改自己的密码 🍂Root用户修改普通用户密码 &#x1f…

区块链概论

目录 1.概述 2.密码学原理 2.1.hash函数 2.2.签名 3.数据结构 3.1.区块结构 3.2.hash pointer 3.3.merkle tree 3.3.1.概述 3.3.2.证明数据存在 3.3.3.证明数据不存在 4.比特币的共识协议 4.1.概述 4.2.验证有效性 4.2.1.验证交易有效性 4.2.2.验证节点有效性 …

~~~~~不得不会的账号与权限管理小知识

目录一.用户账号和组账号概述二. useradd添加用户账号三. passwd 修改密码四. 修改用户账户的属性五 . userdel 删除用户账号六. 用户账号的初始配置文件七. 组账号文件八 . 文件/目录的权限及归属8.1设置文件和目录的权限chmod8.2 设置文件和目录的归属chown命令8.3 补充扩展:…

JAVA本地监听与远程端口扫描的设计与开发

随着Internet的不断发展,信息技术已成为社会进步的巨大推动力。不管是存储于服务器里还是流通于Internet上的信息都已成为一个关系事业成败的关键,这就使保证信息的安全变得格外重要。本地监听与远程端口扫描程序就是在基于Internet的端口扫描的基础上&a…

Optional类快速上手

目录 一、概述 二、使用 1、创建对象 2、安全消费值 3、安全获取值 4、过滤 5、判断 6、数据转换 一、概述 我们在编码的时出现最多的就是空指针异常,所以在很多情况下我们需要做各种非空的判断。 尤其是对象中的属性还是一个对象的情况下,这种…

Doris(3):创建用户与创建数据库并赋予权限

Doris 采用 MySQL 协议进行通信,用户可通过 MySQL client 或者 MySQL JDBC连接到 Doris 集群。选择 MySQL client 版本时建议采用5.1 之后的版本,因为 5.1 之前不能支持长度超过 16 个字符的用户名。 1 创建用户 Root 用户登录与密码修改 Doris 内置 ro…

从C出发 19 --- 函数定义细节剖析

因为编译器是自上而下执行代码的,当编译到 paw2 的时候不知道是什么东西,看起来像一个函数但是前面的代码没有发现它,这个时候编译器就会报错 为了防止编译器报错 应该在调用前先声明 ,注意声明的三要素 声明的作用: 让编译器先…

# 切削加工形貌的相关论文阅读【1】-球头铣刀铣削球面的表面形貌建模与仿真研究

切削加工形貌论文【1】-球头铣刀铣削球面的表面形貌建模与仿真研究1. 论文【2】-球头铣刀加工表面形貌建模与仿真1.1 切削加工形貌仿真-考虑的切削参数1.2 其他试验条件1.3 主要研究目的1.4 试验与分析结果1.5 面粗糙度的评价指标2. 论文【1】-球头铣刀加工球面(曲面…