机器学习——关于极大似然估计法的一些个人思考(通俗易懂极简版)

news2024/12/28 15:20:47

最近在回顾机器学习的一些相关理论知识,回顾到极大似然法时,对于极大似然法中的一些公式有些迷糊了,所以本文主要想记录并分享一下个人关于极大似然估计法的一些思考,如果有误,请见谅,欢迎一起前来探讨。当然,如果这篇文章还能入得了各位“看官”的法眼,麻烦点赞、关注、收藏,支持一下!

一、须知前提

可能有一部分小伙伴的概率学等相关理论知识相对薄弱,因此,为了让大家更好的理解,在对极大似然估计法进行说明前,先对相关的须知理论知识做一个简单的说明

在理解极大似然估计法时,有两需要理解,一个是贝叶斯定理,一个是联合概率

1、贝叶斯定理

直接给出公式:

对于贝叶斯定理的公式,可能很多小伙伴不能理解是怎么得来的,其实本人也不甚了解,但是这并不影响公式的使用,所以大家不需要过度纠结这条公式是怎么来的,其实只要会用就可以,当然有兴趣的小伙伴可以自行去检索一下,相信网络上有很多相关资料。

但是,我们必须要理解公式中每个部分代表着什么,这样才能保证我们可以正常使用。

这里比较重要的是条件概率联合概率,公式中的P(x,c)就是联合概率,对于联合概率此处先不讲,但是会在下一小节重点解释,公式中的P(c|x)和P(x|c)就是条件概率,举两个例子大家感受一下:

P(好瓜|敲声=脆响)=敲声脆响的瓜是好瓜的概率

P(敲声=脆响|好瓜)=好瓜的敲声是脆响的概率

对此,我们不难发现,对于条件概率,大家可以理解为,在某一前提的情况下发生某件事的概率

至于为什么使用贝叶斯公式,其实原因很简单,因为P(c|x)在实际生活中无法求得或者求得的投入入过大不划算,比如说,如果我们要求P(好瓜|敲声=脆响)时,我们通过敲打西瓜可以知道敲声是否脆响,但是无法直接得出是不是好瓜,要想知道西瓜是否是好瓜,我们需要把西瓜切开,一两个瓜还好,要是成百上千呢?如果仅仅只是为了知道瓜是不是好瓜而将每个瓜都切开这不现实。

2、联合概率

在贝叶斯定理部分,已经给出了条件概率的形式,在概率中还有一种概率形式叫做联合概率,其形式如下:

或者是:

 对于联合概率,大家可以理解为,多个事件同时发生的概率,即“”的关系,举个简单的例子大家感受一下:

P(敲声脆响,触感硬滑)=敲声脆响触感硬滑的概率

另外,根据样本的分布是否独立,联合概率分成两种形式。

当属性/样本之间是独立分布时:

或者:

 为了让大家更好理解,我举个例子:

 P(敲声=脆响,触感=硬滑,根蒂=蜷缩)=P(敲声=脆响)*P(触感=硬滑)*P(根蒂=蜷缩)

这里需要注意的是千万千万不要写成累加的形式。为什么是累乘而不是累加,我举个例子简单解释一下,P表示求概率想必大家都知道,概率必然是小于等于1的,若采用累加的形式,当敲声要么脆响要么沉闷,触感要么硬滑要么绵软,根蒂要么蜷缩要么硬挺时:

P(敲声=脆响)=P(触感=硬滑)=P(根蒂=蜷缩)=0.5

 P(敲声=脆响,触感=硬滑,根蒂=蜷缩)=P(敲声=脆响)+P(触感=硬滑)+P(根蒂=蜷缩)=1.5>1

概率值是1.5,大于1,这显然是错误的,因此我们不难得出,采用累加的形式是错误的。

说到这里我就再多说一句,什么情况下我们可以采用累加的形式,举个例子大家感受一下:

当敲声有三个值时,即敲声可以是脆响、清响、沉闷,如果我们要求敲声不为清脆的概率,或者说敲声等于脆响或者沉闷的概率,我们可以用累加,即:

P(敲声清脆)=P(敲声=脆响U敲声=沉闷)=P(敲声=脆响)+P(敲声=沉闷)

当属性/样本之间是非独立分布时:

举个例子,x1是x2的父节点,即x2的值受x1影响,如下所示:

举个例子:

 P(敲声=脆响,触感=硬滑)=P(敲声=脆响)*P(触感=硬滑|敲声脆响)

二、极大似然估计法有啥用?

在上面一节中提到了贝叶斯定理,而极大似然法就是为了求解贝叶斯公式中的P(x|c),比如求好瓜中敲声脆响的概率P(敲声=脆响|好瓜)。讲到这里,可能有些小伙伴,有些迷糊,P(x|c)明明很清楚也很好求,为啥还要用极大似然法,原因其实很简单,下面会进行说明。

对于单一样本或者单一属性而言确实很好求,就好像求解P(敲声=脆响|好瓜),但是现实生活中我们需要求解的可能是多个属性,或者含有多个样本的样本集,即P(x1,x2,……xn|c),对于这种情况我们往往很难直接求得。

举个例子,假设对于每个属性/样本x1~xn都有0和1两个值的话,那么x1~xn的组合形式也就有2^{n}个,这样也就是说,要想使得训练集准确,训练集必须包含每一种可能性。因此,我们训练集中的训练样本数至少要有2^{n}个,而且这些训练样本还必须都不同。当n大起来或者当x1~xn的取值不仅仅只有两个值时,就会存在要么训练集中样本数量巨大导致训练过程耗时耗力的问题,要么就会存在训练集中某种组合缺失导致训练结果不准的问题,而极大似然法却恰恰可以帮助我们解决这些问题。

三、极大似然估计法

先说一下极大似然估计法估计条件概率的基本原理/策略,极大似然估计法是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计(这是《西瓜书》上的原话)。

个人理解:极大似然估计法认为每一个标记c都对应一种概率分形式,比如说正态分布、均匀分布等等,而我们求条件概率就是求特定分布下的某一值的概率,比如说,标记c对应的是正态分布,求P(x=1|c),即求在这个正态分布下的x=1的概率是多少,当正态分布曲线画出来后,横轴代表数据点的值,纵轴代表数据点在该分布下的概率。因此,极大似然法就将求条件概率转换成了求标记c的具体分布,当分布曲线确定好之后,我们就可以直接在曲线上得出相应数据点的概率。

下面我将给出极大似然法的核心公式:

从上面的三条公式,我们不难看出,极大似然法最后求的是令LL(\theta_{c})达到最大的\theta _{c},这与上面所讲的极大似然估计法的原理保持一致。

其中,\theta _{c}是一个参数向量,以正态分布为例,\theta _{c}=\left [ \mu _{c},\sigma _{c} \right ],当\theta _{c}确定后,正态分布曲线就可以定下来了,D_{c}表示训练集D 中第c 类样本组成的集合,并且我们假定这些样本是独立同分布的。

至于为什么求得的\theta _{c}要使LL(\theta_{c})达到最大,原因很简单。因为我们最根本目的是为了求的一个误差最小的模型,或者说预测结果最准却得模型,即P(c|x)要达到最大,因为P(c)和P(x)是确定的,所以根据贝叶斯公式,我们要求P(c|x)达到最大就可以转换成求P(x|c)达到最大。

样本点是由采样得来的,是一定的,而极大似然估计法则认为标记c对应的是一种概率分布形式,在不同的概率分布形式下,相同的样本点的概率是不同的,所以要使的P(x|c)达到最大,就是要找到一个最佳的概率分布曲线。

当标记c确定为某一概率分布形式后,比如正态分布,通过\theta _{c}就可以确定具体概率分布曲线的形态,不同的\theta _{c}会产生不同形态的概率分布曲线,也就会导致P(x|c)出现不同的值,当P(x|c)达到最大时,LL(\theta_{c})必然达到最大。因此,求解P(x|c)的最大值,就也可以转换成求使LL(\theta_{c})达到最大的\theta _{c}

参考书籍

周志华老师的《西瓜书》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1923283.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

昇思25天学习打卡营第9天|MindSpore静态图加速

打卡 目录 打卡 AI编译框架运行模式 动态图模式PyNative 手动控制动态图运行示例-全局context 静态图模式Graph 手动控制静态图运行示例-全局context ​编辑 jit 装饰器加速图编译-例 jit函数变换方式加速图编译-例 jit 加速某个部分的神经网络模块-例 静态图的语法…

基因组、染色体和基因水平上可视化拷贝数变异(CNVs)

1.CNVmap简介 CNVmap是一种用于在基因组、染色体和基因水平上可视化拷贝数变异(CNVs)的工具。CNVkit和CNVpytor是一种检测全基因组拷贝数变异和变异的软件, 该工具的输入是从CNVkit / CNVpytor工具获得的**.cns和.cnr文件格式**。可用于CNV-…

云动态摘要 2024-07-12

给您带来云厂商的最新动态,最新产品资讯和最新优惠更新。 最新优惠与活动 数据库上云优选 阿里云 2024-07-04 RDS、PolarDB、Redis、MongoDB 全系产品新用户低至首年6折起! [免费体验]智能助手ChatBI上线 腾讯云 2024-07-02 基于混元大模型打造,可通过对话方式生成可视化…

基于stm32+小程序开发智能家居门禁系统-硬件-软件实现

视频演示: 基于stm32智能家居门禁系统小程序开发项目 视频还有添加删除卡号,添加删除指纹,关闭继电器电源等没有演示。 代码Git: https://github.com/Abear6666/stm32lock 总体功能: 本门禁系统主要解锁功能分别为卡…

Argo CD入门、实战指南

1. Argo CD概述 1.1 什么是 Argo CD Argo CD 是针对 Kubernetes 的声明式 GitOps 持续交付工具。 1.2 为什么选择 Argo CD 应用程序定义、配置和环境应具有声明性并受版本控制。应用程序部署和生命周期管理应自动化、可审计且易于理解。 2. Argo CD基础知识 在有效使用 Ar…

MySQL数据库day7.11

一,SQL概述 1.1 SQL语句语法 MySQL 数据库的 SQL 语句不区分大小写,关键字建议使用大写, 以分号结尾。例如: SELECT * FROM user; 使用 /**/ 、 -- 、 # 的方式完成注释 /* 多行注释 */ -- 单行注释 # 单行注释 SELECT * FRO…

296个地级市GDP相关数据(2000-2023年)

GDP相关数据:衡量地区经济活动的综合指标 国内生产总值(GDP)是衡量一个国家或地区经济规模和发展水平的核心指标。它反映了在一定时期内,所有常住单位生产活动的最终成果。 GDP的种类及其含义: 名义GDP:按…

QT--槽函数和控件篇一

一、自定义信号和槽函数 QT 将信号和槽集成在QObject类中;发送者和接受者都必须继承这个类。Q_OBJECT宏是实现信号和槽机制、属性系统和元对象系统的关键。Q_OBJECT宏必须出现在每个使用信号和槽的类中,因为它为这些类提供了必要的元数据和功能。信号在…

使用 Python 创建你的第一个情绪分析模型

「AI秘籍」系列课程: 人工智能应用数学基础 人工智能Python基础 人工智能基础核心知识 人工智能BI核心知识 人工智能CV核心知识 BTS 的《Dynamite》1拥有 15,815,254 条评论,是 YouTube 上评论最多的视频之一。 假设 BTS 成员想知道这些听众对这首…

二、计划任务

1.什么是计划任务 对于一些特定的任务,可以设定任务,让服务在规定时间去执行 2.windows中的计划任务 打开控制面板》管理工具》任务计划程序》创建基本任务 3.linux中的计划任务 周期性的计划crontab crontab -l :显示当前的计划惹怒我 -e&#…

探索JT808协议在车辆远程视频监控系统中的应用

一、部标JT808协议概述 随着物联网技术的迅猛发展,智能交通系统(ITS)已成为现代交通领域的重要组成部分。其中,车辆远程监控与管理技术作为ITS的核心技术之一,对于提升交通管理效率、保障道路安全具有重要意义。 JT8…

【单片机毕业设计选题24060】-基于ESP8266的燃气浓度监测系统

系统功能: 1. 连接blinker云平台,通过手机控制。 2. 手机界面text,number控件。 3. 通过DHT11采集温湿度。 4. 通过MQ2采集可燃气体。 系统功能框图: 主要功能模块原理图 资料获取地址 https://shop272529339.taobao.com 部分代码: unsigned char…

【linux】进程间通信(IPC)——匿名管道,命名管道与System V内核方案的共享内存,以及消息队列和信号量的原理概述

目录 ✈必备知识 进程间通信概述 🔥概述 🔥必要性 🔥原理 管道概述 🔥管道的本质 🔥管道的相关特性 🔥管道的同步与互斥机制 匿名管道 🔥系统调用接口介绍 🔥内核原理 …

Python函数 之 匿名函数

1.概念 匿名函数: 使用 lambda 关键字 定义的表达式,称为匿名函数. 2.语法 lambda 参数, 参数: 一行代码 # 只能实现简单的功能,只能写一行代码 # 匿名函数 一般不直接调用,作为函数的参数使用的 3.代码 4.练习 # 1, 定义匿名函数, 参数…

Python excel知识库批量模糊匹配的3种方法实例(fuzzywuzzy\Gensim)

前言 当然,基于排序的模糊匹配(类似于Excel的VLOOKUP函数的模糊匹配模式)也属于模糊匹配的范畴,但那种过于简单,不是本文讨论的范畴。 本文主要讨论的是以公司名称或地址为主的字符串的模糊匹配。 使用编辑距离算法进…

【香橙派】Orange pi AIpro开发板评测,看小白如何从0到1快速入门,以及亲测手写数字识别模型训练与推理

作为业界首款基于昇腾深度研发的AI开发板,Orange Pi AIpro无论在外观上、性能上还是技术服务支持上都非常优秀。 接口丰富,扩展能力强。支持Ubuntu、openEuler操作系统,满足大多数AI算法原型验证、推理应用开发的需求。 目录 开发板介绍亮点顶…

APP专项测试之网络测试

背景 当前app网络环境比较复杂,越来越多的公共wifi,网络制式有2G、3G、4G网络,会对用户使用app造成一定影响;当前app使用场景多变,如进地铁、上公交、进电梯等,使得弱网测试显得尤为重要; 网络正…

SpringBootWeb 篇-入门了解 Swagger 的具体使用

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 Swagger 介绍 1.1 Swagger 和 Yapi 的使用场景 2.0 Swagger 的使用方式 2.1 导入 knife4j 的 maven 坐标 2.2 在配置类中加入 knife4j 相关配置 2.3 设置静态资源…

「案例分析」不同发展阶段非人力资源部门的人力资源管理职能

引言: 企业人力资源管理应该是公司全体管理人员都应该承担的责任,是所有管理者日常工作的重要组成成分,非人力资源部门经理,作为公司的重要管理者,也应该参与公司人力资源管理活动,协调配合人力资源部门做…

2024年7月好用的图纸加密软件丨图纸加密软件分享

图纸加密是企业保护技术资产和知识产权的关键措施之一。随着信息技术的飞速发展,图纸作为企业核心竞争力的表现形式,其安全性越来越受到重视。图纸一旦泄露,不仅可能导致企业产品被模仿,市场份额受损,还可能引发法律风…