机器学习 | 分类算法原理—

机器学习 | 分类算法原理——似然函数

news2025/4/6 18:24:52

Hi，大家好，我是半亩花海。接着上次的逻辑回归继续更新《白话机器学习的数学》这本书的学习笔记，在此分享似然函数这一分类算法原理。本章的分类算法原理基于《基于图像大小进行分类》项目，欢迎大家交流学习！

一、似然函数概述

二、案例分析

1. 设置问题

2. 定义模型

3. 似然函数

一、似然函数概述

在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然函数在推断统计学（Statistical inference）中扮演重要角色，如在最大似然估计和费雪信息之中的应用等等。

“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。

二、案例分析

1. 设置问题

现在，我们就一起来先求参数的更新表达式吧，但是逻辑回归的目标函数与之前的不一样。

一开始我们把 $\boldsymbol{x}$ 为横向的概率 $P(y = 1|x)$ 定义为 $f_{\boldsymbol{\theta}}(\boldsymbol{x})$ 了。基于这一点，训练数据的标签 $y$ 和 $f_{\boldsymbol{\theta}}(\boldsymbol{x})$ 是什么样的关系会比较理想呢？既然 $f_{\boldsymbol{\theta}}(\boldsymbol{x})$ 是 $\boldsymbol{x}$ 为横向时的概率，那么在 $y = 1$ 时 $f_{\boldsymbol{\theta}}(\boldsymbol{x})=1$ ， $y = 0$ 时 $f_{\boldsymbol{\theta}}(\boldsymbol{x})=0$ ，这样的关系最为理想。

2. 定义模型

我们把这句话换成如下说法。

$y = 1$ 的时候，我们希望概率 $P(y = 1|x)$ （图像为横向的概率）是最大的
$y = 0$ 的时候，我们希望概率 $P(y = 0|x)$ （图像为纵向的概率）是最大的

这适用于全部的训练数据。对于一开始列举的那 6 个训练数据，我们期待的最大概率是这样的：

3. 似然函数

假定所有的训练数据都是互不影响、独立发生的，这种情况下整体的概率就可以用下面的联合概率来表示：

$L(\boldsymbol{\theta})=P\left(y^{(1)}=0 \mid \boldsymbol{x}^{(1)}\right) P\left(y^{(2)}=0 \mid \boldsymbol{x}^{(2)}\right) \cdots P\left(y^{(6)}=1 \mid \boldsymbol{x}^{(6)}\right)$

联合概率的表达式是可以一般化的，写法如下：

$L(\boldsymbol{\theta})=\prod_{i=1}^n P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^{y^{(i)}} P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right)^{1-y^{(i)}}$

虽然看起来有点乱，但就像之前说的那样，只要把每一个组成部分都理解了就不会那么难了。我们可以分别考虑 $y^{(i)}=1$ 或 $y^{(i)}=0$ 时的 $P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^{y^{(i)}} P\left(y^{(i)}=\right.\left.0 \mid \boldsymbol{x}^{(i)}\right)^{1-y^{(i)}}$ 。 $P$ 右上角的 $y^{(i)}$ 和 $1-y^{(i)}$ 表示指数。 $i$ 表示第 $i$ 次迭代，表示次数。

首先向指数 $y^{(i)}$ 代入 1。

$\begin{aligned} & P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^1 P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right)^{1-1} \\ & =P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^1 P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right)^0 \\ & =P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right) \end{aligned}$

这样就只剩 $y^{(i)}=1$ 的概率。同理， $y^{(i)}=0$ 的时候也一样。

$\begin{aligned} & P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^0 P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right)^{1-0} \\ & =P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^0 P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right)^1 \\ & =P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right) \end{aligned}$

这个表达式利用了任何数字的 0 次方都是 1 的特性。比起区分各种情况的写法，还是汇总到一个表达式的写法更简单。现在我们总算知道它的目标函数。接下来考虑一下使这个目标函数最大化的参数 $\theta$ 吧。（ps：回归的时候处理的是误差，所以要最小化，而现在考虑的是联合概率，我们希望概率尽可能大，所以要最大化）