学习笔记:统计建模方法的比较分析

news2025/1/16 18:58:09

前言

本文介绍了隐马尔可夫模型 (HMM)、最大熵马尔可夫模型 (MEMM) 和条件随机场 (CRF) 的比较分析。 HMM、MEMM 和 CRF 是三种流行的统计建模方法,通常应用于模式识别和机器学习问题。 让我们更详细地探讨每种方法。

一、隐马尔可夫模型 (HMM)

“隐藏”一词象征着只有系统发布的符号是可观察的,而用户无法查看状态之间的底层随机游走。 该领域的许多人将 HMM 视为有限状态机。

    • HMM的优势

HMM 具有强大的统计基础和高效的学习算法,可以直接从原始序列数据中进行学习。 它允许以本地可学习方法的形式一致地处理插入和删除惩罚,并且可以处理可变长度的输入。 它们是序列概况最灵活的概括。 它还可以执行多种操作,包括多重对齐、数据挖掘和分类、结构分析和模式发现。 它也很容易组合到库中。

    • HMM 的缺点

  • HMM 仅依赖于每个状态及其对应的观察对象:

  • 序列标注,除了与单个词有关系外,还与观察到的序列长度、词上下文等方面有关。

  • 目标函数和预测的目标函数不匹配:HMM得到的是状态和观测序列的联合分布P(Y, X),而在估计问题上,我们需要一个条件概率P(Y|X)。

二、最大熵马尔可夫模型 (MEMM)

MEMM 考虑了相邻状态和整个观察序列之间的依赖关系,因此具有更好的表达能力。 MEMM不考虑P(X),减少建模工作量,学习目标函数与估计函数的一致性。

    • MEMM 标签偏差

在上图 中,状态 1 倾向于转换为状态 2,同时状态 2 倾向于停留在状态 2。

P(1-> 1-> 1-> 1)= 0.4 x 0.45 x 0.5 = 0.09, P(2->2->2->2)= 0.2 x 0.3 x 0.3 = 0.018,

P(1->2->1->2)= 0.6 x 0.2x 0.5 = 0.06,P(1->1->2->2)= 0.4 x 0.55 x 0.3 = 0.066。

然而,最佳状态转换路径是 1 > 1 > 1 > 1。 为什么?

这是因为 State 2 的可转换状态比 State 1 多,从而降低了转换概率——MEMM 倾向于选择可转换状态较少的状态。 这种选择被称为标签偏差问题。 CRF 很好地解决了标签偏差问题。

三、条件随机场(CRF 模型)

CRF 模型解决了标注偏差问题,消除了 HMM 中两个不合理的假设。 当然,模型也变得更复杂了。MEMM采用局部方差归一化,CRF采用全局方差归一化。另一方面,MEMM 无法找到满足以下分布的相应参数,但是 CRF 可以:

1.生成模型或判别模型

假设 o 是观测值,m 是模型。

a) 生成模型:无限样本>概率密度模型=生成模型>预测

如果你对 P(o|m) 建模,它就是一个生成模型。 其基本思想是,首先建立样本的概率密度模型,然后利用该模型进行推理预测。 样本无限大或尽可能大的要求是常识。 该方法借鉴了统计力学和贝叶斯理论。

HMM直接对转移概率和表型概率进行建模,计算共现概率。 因此,它是一个生成模型。

b) 判别模型:有限样本>判别函数=判别模型>预测

如果你在条件概率 P(m|o) 上建模,它就是判别模型。 其基本思想是以有限样本建立判别函数,不考虑样本的生成模型,直接研究预测模型。 其代表理论是统计学习理论。

CRF是一种判别模型。 MEMM 不是生成模型,而是基于状态分类的具有有限状态的模型。

2.拓扑结构

HMM和MEMM是有向图,而CRF是无向图。

3.全局最优或局部最优

HMM直接对转移概率和表型概率进行建模,计算共现概率。

MEMM 基于转移概率和表型概率建立共现概率。 它计算条件概率,只采用局部方差归一化,容易陷入局部最优。

CRF 在全局范围内计算归一化概率,而不是像 MEMM 那样在局部范围内计算。 它是一个最优的全局解决方案,解决了 MEMM 中的标签偏差问题。

4.CRF的优点和缺点

(1)优点

与HMM相比:由于CRF没有HMM那样严格的独立性假设,它可以容纳任何上下文信息。 其功能设计灵活(与ME相同)。

与MEMM相比:由于CRF计算的是全局最优输出节点的条件概率,因此克服了MEMM中label bias的弊端。

与ME相比:CRF计算的是在有待标记的观察序列时,整个标记序列的联合概率分布,而不是定义给定当前状态条件下下一个状态的状态分布。

(2)缺点

CRF 在算法的训练阶段具有高度的计算复杂性。 当更新的数据可用时,很难重新训练模型。

结论

这篇博客详细介绍了隐马尔可夫模型 (HMM)、最大熵马尔可夫模型 (MEMM) 和条件随机场 (CRF) 之间的比较分析。 在这篇文章中,我们明确了解到 CRF 和 MEMMS 主要是判别序列模型,而 HMM 主要是生成序列模型。 贝叶斯规则构成了 HMM 的基础。 相反,CRF 和 MEMM 基于过渡和可观察特征的 MaxEnt 模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/155885.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

node ~ zip压缩 文件加密

我们知道zip压缩,文件加密都是基于http的,下面我用用node实现着几个功能 zip压缩/解压 let zlib require(zlib); // 核心 let path require(path); let fs require(fs);// 压缩流 将1.txt压缩成1.txt.gz function gzip(source){ //source文件目录let gzip zlib.createGzi…

[Android]View的事件分发机制(源码解析)

目录 1.分发对象-MotionEvent 2.如何传递事件 1.传递流程 2.事件分发的源码解析 3.主要方法: 4.事件传递中listener 5.滑动冲突如何用事件分发处理 1.分发对象-MotionEvent 事件类型有: 1.ACTION_DOWN-----手指刚接触屏幕 2.ACTION_MOVE------手…

ASIC和FPGA,选择哪种设计比较好?

很多人都觉得同样都是写Verilog的,ASIC和FPGA其实并没有什么区别,其实并不是这样。那么ASIC和FPGA,选择哪种设计比较好?接下来IC修真院就来为大家细细分析。 ASIC (Application Specific Integrated Circuit),即专用集…

盘点:2022年勒索金额超百万美元的攻击事件

1、哥斯达黎加政府 勒索赎金:2000万美元 这是2022年最受关注的攻击事件,因为这是一个国家首次宣布进入“国家紧急状态”以应对勒索软件攻击。调查显示,从4月中旬到5月初,27个政府机构成为第一波攻击活动的目标。国家财政部数TB数…

生物化学 SY001盘尼西林

盘尼西林的发现与作用原理 发现历史略 青霉素 青霉素Penicillinβ-内酰胺类抗生素(β-lactams)青霉素类抗生素水溶性好,血消除半衰期大多不超过2小时音译盘尼西林抑制胞壁粘肽合成酶,从而使细菌胞壁缺损…

MOS管的<控制电路>与<防反接电路>

为了方便记忆,我不管D与S,只说MOS管中的二极管方向。 另外G是控制端 这是一篇只管结果的文章,大家只要记住就行。 懂原理vs记结果 懂原理以分析一切现象,但每次使用都要分析一次; 记结果方便使用,但出现问题…

1.1.1-了解什么是计算机

文章目录1 什么是计算机2 计算机硬件3 计算机软件3.1 应用软件3.2 系统软件3.3 主流的电脑操作系统有哪些4 Linux系统4.1 Linux系统介绍4.1 Linux系统版本5 计算机语言5.1 机器语言5.2 汇编语言5.3 人机交互6 计算机操作命令-DOS命令1 什么是计算机 计算机全称:电子…

Java基础学习笔记(十二)—— 数据结构

数据结构1 栈2 队列3 数组4 链表5 二叉树5.1 二叉树5.2 二叉查找树5.3 平衡二叉树5.4 红黑树6 哈希表数据结构是计算机存储、组织数据的方式。是指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率。…

【C++】stack queue priority_queue ...

🌈感谢阅读East-sunrise学习分享——stack & queue & 容器适配器 & prioity_queue & 反向迭代器 博主水平有限,如有差错,欢迎斧正🙏感谢有你 码字不易,若有收获,期待你的点赞关注&#x1f…

SAP ABAP增强 BADI的增强全解析

BADI的全称是Business Add-in,它的主要技术是基于ABAP的对象来实现增强。SAP中BADI的维护事务代码是SE18和SE19,SE18主要是创建及维护BADI对象,而SE19用于维护BADI的实例,即如何来实现BADI对象的功能。 SAP的BADI因系统版本的差别…

K8S Deployment 使用 更新 回滚 扩容

K8S Deployments 使用 & 更新 & 回滚 & 扩容 K8S Deployments 提供比 Replication Controller 、ReplicaSet 更高一级的抽象,也具备更丰富的功能。Deployment对象不仅创建pod,还确保集群中始终运行正确数量的pod,处理可伸缩性&a…

Esp8266+TFT太空人天气时钟

开源项目,只对动手能力有要求,有现成程序 b站演示视频: https://www.bilibili.com/video/BV1ND4y1W7oS/?spm_id_from333.999.0.0 效果图 模块和接线方法 使用ESP8266-12F模块,4M空间。OLED使用1.3寸IPS 240*240点阵彩屏,ST7789…

【Java集合】ArrayList源码分析

目录 一、ArrayList介绍 1.1 简介 1.2 继承体系 二、源码剖析 2.1 成员属性 2.2 构造方法 2.2.1 带int类型的构造方法:ArrayList(int initialCapacity) 2.2.2 无参构造方法:ArrayList() 2.2.3 Collection型构造方法:ArrayList(Collection c) …

flink规则引擎设计思路

在日常工作中我们经常收到一些诸如此类需求:“用户给点击了开屏广告,给用户下发私信”、“用户进入了推荐线,但在60秒内没有任何点击操作,弹框引导用户选择感兴趣的内容”、“用户点赞了某位作者的两篇以上的内容,但并…

C++入门----缺省参数和函数重载

C入门第一讲: 文章目录C入门第一讲:1.C关键字(C98)2.命名空间2.1命名空间的定义3.C的输入和输出4.缺省参数4.1缺省参数的概念4.2缺省参数的分类4.2.1全缺省参数4.2.2半缺省参数5.函数重载5.1函数重载的概念5.2C支持函数重载的原理…

在 SpringBoot 中 初步使用 MyBatis

这篇文章简单介绍如何初步使用MyBatis框架。MyBatis官网:mybatis – MyBatis 3 | 简介。本文中介绍MyBatis使用在SpringBoot中,Spring帮我们进行了管理,省去了获取sql的步骤。 什么是 MyBatis? MyBatis 是一款优秀的持久层框架&a…

XAML控件宽度为另一控件的一半、静态属性绑定、ObjectDataProvider

控件上当某些数据需要根据其他数据的变化而变化 很多时候,想让某个控件的宽度或者高度是另一个已有控件的一半,一开始打算使用ObjectDataProvider来实现,因为在控件上当某些数据需要根据其他数据的变化而变化时,可以使用ObjectDa…

Selenium实战【滑动验证码破解】【JAVA爬虫】

简介本文主要讲解,利用之前所学到的java selenium如何实战操作,浏览器控制鼠标,模拟人工操作滑动验证码。这里需要用javacv 的代码知识,用于计算图像中滑块需要移动的距离。实战目标网站:https://dun.163.com/trial/jigsaw操作流程…

【Java入门】Java注释和关键字

✅作者简介:CSDN内容合伙人、阿里云专家博主、51CTO专家博主、新星计划第三季python赛道Top1🏆 📃个人主页:hacker707的csdn博客 🔥系列专栏:Java入门 💬个人格言:不断的翻越一座又一…

mycat个人详谈

项目背景 现在业务想实现不同的用户分别看到不同的数据库,领导说用mycat中间件试试。没有接触过这个东西,刚拿到手直接头皮发麻,现在搞定了,索性就记录一下 Mycat数据库分库分表中间件 简介 阿里大牛开发的开源免费产品&#x…