机器学习的4种经典模型总结

news2024/11/16 21:36:18

机器学习(Machine Learning)是人工智能的一个分支,也是人工智能的一种实现方法。机器学习的核心是“使用算法解析数据,从中学习,然后对新数据做出决定或预测”,机器学习的概念就是通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或预测。

机器学习的经典模型有很多,篇幅所限,本文将介绍四种常用的机器学习模型的基本概念、模型特点和主要应用场景,供大家学习参考。

本文主要提及的机器学习模型包括:

·隐马尔科夫
·条件随机场
·最大熵模型
· 逻辑斯谛回归

下面我们将具体展开介绍。

1.隐马尔科夫

Hidden Markov Model(HMM),隐马尔科夫模型是统计模型,它可以用来描述一个含有隐含未知参数的马尔可夫过程。其中马尔可夫过程的特点是下一时刻的状态只与当前状态有关,与上一时刻的状态无关。隐马尔科夫模型的难点是从可观测的参数中确定该过程的隐含参数,然后利用这些参数进行分析。

隐马尔科夫模型的精髓在于通过建立“隐藏“变量,将观测变量的时序相关性抽象到隐藏变量上。在日常生活中,我们常称这种感觉为”第六感“。在机器学习中,我们称这种感觉为“隐马尔科夫模型”。

在这里插入图片描述

隐马尔科夫模型注意点:

·HMM只依赖于每一个状态和它对应的观察对象

序列标注问题不仅和单个词相关,而且和观察序列的长度,单词的上下文,等等相关。

·目标函数和预测目标函数不匹配:

HMM学到的是状态和观察序列的联合分布P(Y,X),而预测问题中,我们需要的是条件概率

P(YIX)。

隐马尔科夫模型可以用来解决三大问题:

第一种是计算概率:已知整个模型和观测序列,计算出现该观测序列的概率。

第二种是学习问题:已知观测序列和模型,调整模型参数使出现观测序列的概率最大。

第三种是预测问题:已知整个模型和观测序列,推算隐状态序列。

2. 条件随机场

条件随机场是机器学习领域比较复杂的一个算法模型,原因在于其涉及到的定义多(概率图模型、团等概率)、数学上近似完美。

条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,常用于标注或分析序列资料,如自然语言文字或是生物序列。

基本概念:

X:X = (x1, x2, x3, …, xn) 表示输入的序列,也称为观测值,例如句子中所有单词。

Y:Y = (y1, y2, y3, …, yn) 表示输出的序列,也称为状态值,例如句子中每一个单词的词性。

随机场:随机场是一种图模型,包含结点的集合和边的集合,结点表示一个随机变量,而边表示随机变量之间的依赖关系。如果按照某一种分布随机给图中每一个结点赋予一个值,则称为随机场。

马尔科夫随机场:马尔科夫性质指某一个时刻 t 的输出值只和 t-1 时刻的输出有关系,和更早的输出没有关系。马尔科夫随机场则是一种特殊的随机场,其假设每一个结点的取值只和相邻的结点有关系,和不相邻结点无关。

条件随机场 CRF:CRF 是一种特殊的马尔科夫随机场,CRF 假设模型中只有 X (观测值) 和 Y (状态值)。在 CRF 中每一个状态值 yi 只和其相邻的状态值有关,而观测值 x 不具有马尔科夫性质。注意观测序列 X 是作为一个整体影响 Y 计算,如下图所示。
在这里插入图片描述

适用场景及主要应用领域:

条件随机场是一类最适合预测任务的判别模型,其中相邻的上下文信息或状态会影响当前预测。CRF 在命名实体识别、词性标注、基因预测、降噪和对象检测问题等方面都有应用。

3. 最大熵模型

先给出熵的定义:

$H§ = - \sum {p(x){{\log }_2}p(x)} $

对于任意一个随机变量X,它的不确定性越大,它的熵也就越大(这是合乎常理的,如果一件事越是让人琢磨不透,那么当有人把正确信息告诉你,你就越会感觉这信息的价值有多大)。

最大熵模型的基本思想是,学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。

若模型要满足一些约束条件时,则最大熵原理就是在满足已知条件的概率模型集合中,找到熵最大的模型。因而最大熵模型指出,在预测一个样本或者一个事件的概率分布时,首先应当满足所有的约束条件,进而对未知的情况不做任何的主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。

最大熵模型的优点:

·最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。

·可以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度

最大熵模型的缺点:

·由于约束函数数量和样本数目有关系,导致迭代过程计算量巨大,实际应用比较难。

4. 逻辑斯谛回归

逻辑斯谛回归是经典的分类方法,它属于对数线性模型,原理是根据现有的数据对分类边界线建立回归公式,以此进行分类。

下图给出了文本情感分类中,分别使用二分类和多分类逻辑斯蒂回归,对样本“dessert was great”的情感极性进行推理(分类)的样例:

在这里插入图片描述

二分类逻辑斯蒂回归示例

LR优点:

·适合需要得到一个分类概率的场景。

·计算代价不高,容易理解实现。LR在时间和内存需求上相当高效。它可以应用于分布式数据,并且还有在线算法实现,用较少的资源处理大型数据。

·LR对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。(严重的多重共线性则可以使用逻辑回归结合L2正则化来解决,但是若要得到一个简约模型,L2正则化并不是最好的选择,因为它建立的模型涵盖了全部的特征。)

LR缺点:

·容易欠拟合,分类精度不高。

·数据特征有缺失或者特征空间很大时表现效果并不好。

适用场景及主要应用领域:

逻辑斯蒂回归(LR)属于对数线性模型,可以用于解决二分类或多分类问题的分类模型,对应的输入为实例特征向量,输出为实例属于不同类别的概率。和感知机不同,它能更准确的量化分类问题,究竟属于哪个具体类别。

LR是解决工业规模问题最流行的算法。在工业应用上,如果需要分类的数据拥有很多有意义的特征,每个特征都对最后的分类结果有或多或少的影响,那么最简单最有效的办法就是将这些特征线性加权,一起参与到决策过程中。比如预测广告的点击率,从原始数据集中筛选出符合某种要求的有用的子数据集等等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/125878.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【财务】FMS财务管理系统---质保金与预付款

在FMS财务管理系统中,如何对质保金和预付款进行管理,笔者做了详细的业务流程拆解。 上一篇主要说了财务应收管理,有一些朋友留言提出了很多建议,在这里必须谢谢。 关于应收分为ToC与ToB两部分,每一部分都与前端业务系…

新一代自动出价范式:在线强化学习SORL框架

丨目录: 摘要 动机:在离线不一致问题 问题建模 方法:SORL框架 实验结果 总结 关于我们 参考文献▐ 摘要近年来,自动出价已成为广告主提升投放效果的重要方式,在真实广告系统(RAS)中,…

C++ 数学与算法系列之高斯消元法求解线性方程组

1. 前言 什么是消元法? 消元法是指将多个方程式组成的方程组中的若干个变量通过有限次地变换,消去方程式中的变量,通过简化方程式,从而获取结果的一种解题方法。 消元法主要有代入消元法、加减消元法、整体消元法、换元消元法、…

【C/C++ SOCKET编程】实现服务器客户端的简单通信

什么是SOCKET Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求,使主机间或者一台计算机上的进程间可以通讯。 TCP/IP协议 从字面意义上讲,有人可能会认为 TCP/IP 是指 TCP 和 IP 两种协议…

Hive环境安装搭建

目录 Hive安装 MySQL安装 配置Hive元数据库到MySQL Hive安装 软件包 0积分免费下载: hive环境安装所需软件包-Hive文档类资源-CSDN下载 将软件包拖进虚拟机中 将jar包解压到目录 给目录文件夹名改为hive 配置环境变量 输入命令: vim /etc/profile …

数据滚动大屏:Stimulsoft Dashboards.WIN 2023.1.2

Stimulsoft Dashboards.WIN 是一组组件,您可以使用这些组件将分析添加到您的应用程序中。WinForms 和 WPF 的仪表板 Stimulsoft Dashboards.WIN 是一个功能齐全的工具,用于在仪表板上转换、分析、分组、过滤、排序和显示数据。它与 .NET Framework 4.5 及…

科创板智能家居第一股,萤石网络昨日上市

2022年12月28日,杭州萤石网络股份有限公司(以下简称“萤石网络”)成功登陆上海证券交易所科创板,证券代码为688475。值得一提的是,萤石网络是登陆科创板的第500家企业。 在上市仪式上,萤石网络董事长、总经理蒋海青表示&#xff0…

医药信息咨询公司排名TOP10是怎么进行收费的?

随着我国医药行业的飞速发展,市场竞争也是越发的激烈,作为产业链中的医药信息咨询公司作用也愈加明显,医药信息咨询公司以提供医药行业的战略咨询、项目尽调、产品立项评估、行业赛道/细分市场机会评估、专利服务、新产品上市服务、新药产品特…

QA | 关于高级硬件在环(HIL)想要了解的十个问题

HiL(Hardware-in-the-Loop)硬件在环仿真测试系统是采用实时处理器运行仿真模型来模拟受控对象(比如:汽车、航空飞机等设备)的运行状态,以此判断电控模块的性能。 Q1:什么是HIL? 硬…

分享20个Javascript中的数组方法,收藏

什么是数组?与其他编程语言中的数组一样,Array对象允许在一个变量名称下存储多个项的集合,并且具有用于执行常见数组操作的成员。 声明数组 我们可以用两种不同的方式声明数组。 使用新阵列 使用new Array,我们可以指定希望存在…

GitHub下载量10W,最新23版Java岗面试攻略,涵盖25个技术栈

年底失业,机会也不多,短时间内想找到合适工作是几乎不可能的。身体好点在家,主要建议大家就做两件事: 第一:整理工作经验,制定新年求职计划。等一些不错的公司放出新的hc,市场情况一回暖&#…

淘宝首页serverless升级后的质量保障方案

本文主要介绍了serverless 架构升级在淘宝首页的应用,新架构对底层所依赖的容器、环境资源等与之前相比差异较大,并且对应的预发、安全生产、生产等环境,与旧架构的完全隔离。背景阿里巴巴集团大淘宝技术全面推进云原生2.0战役——serverless…

wordpress企业主题推荐

WordPress制造企业主题推荐 国潮好物,配国产主题,为中国制造加油、助力,适合生产、加工、制造业官网的WordPress主题。 演示 https://www.jianzhanpress.com/?p4358 wordpress服务行业网站模板推荐 浅绿色小清新wordpress网站模板&#x…

软件测试期末复习(一)试题及答案

一、单项选择题(每空 2 分,共 40 分) 1.软件测试的目的:( c ) A. 避免软件开发中出现的错误 B. 发现软件开发中出现的错误 C. 尽可能发现并排除软件中潜藏的错误,提高软件的可靠性 D. 修改软件…

Axure绘制流程图

相信大家在日常的工作中经常会绘制流程图,基本常见的绘制流程图的工具有Visio、亿图等。但是如果大家使用的是axure制作的产品prd的话,这些流程图的源文件全部需要进行存储,一旦丢失就需要重新画一遍,这样是很不方便。那么有没有一…

JDBC API详解

文章目录入门案例DriverManagerConnectionStatementResultSetPreparedStatement数据库连接池完整代码入门案例 package jdbc;import java.sql.*;public class connectionTest {public static void main(String[] args) throws ClassNotFoundException, SQLException {//1.注册…

Revit二次开发小技巧(十六)寻找最短路径

最近遇到一个需求,指定两个配电箱,然后找到两个配电箱之间最短的桥架路径。运用了Dijkstra算法去计算最短路径,以配电箱实体、三通、四通为节点,简化中间弯头计算的方式。 背景 选择起点和终点的配电箱,找到最短的桥架…

RingUI + JCEF开发IDEA插件

文章目录RingUI知识储备示例插件实现逻辑开发环境开发流程新建一个IDEA插件项目新建一个前端项目验证前端项目丰富前端项目丰富插件内容RingUI This collection of UI components aims to provide all the necessary building blocks for web-based products built inside JetB…

向 Windows 高级用户进阶,这 5 款效率工具帮你开路

工欲善其事,必先利其器。作为全球最多人使用的桌面操作系统,Windows 的使用效率与我们的工作学习息息相关。今天,小编就为大家整理了 10 款提高效率的利器,让你的 Windows 更具生产力。 1.文件预览——Seer MacOS 有一个非常方便…

优雅草YYC松鼠短视频2022年12月28日更新v5.1.6版本更新·修复因为消息提醒二开导致菜单栏无法显示·进一步完善推送

优雅草YYC松鼠短视频2022年12月28日更新v5.1.6版本更新修复因为消息提醒二开导致菜单栏无法显示进一步完善推送 更新日志 修复因为消息提醒二开导致菜单栏无法显示 继续进一步开发消息推送 目前消息推送登录以及推送判断返回刷新仍存在问题在开发中 目前goeasy官方也在更新关…