【深度学习】LDA线性判别分析

news2025/7/14 16:26:30

date:2024/07/23
author:sion
tag:Deeping Learn

LDA(线性判别分析)

文章目录

LDA(线性判别分析)
- 1.LDA是什么
- LDA是一种解决二分类问题的线性方法。它描述，对于给定样例集，将样例点投影到一条直线上，这条直线能使异样的样例相距远，同类的样例分布靠近，对于新的样例，根据在这条直线上的投影判断属于哪一类别。
LDA(线性判别分析)
- 1.LDA是什么
- 2.问题背景
- 3.投影
- 4.离散度
- 5.目标函数
- 6.推广到多分类

1.LDA是什么

LDA是一种解决二分类问题的线性方法。它描述，对于给定样例集，将样例点投影到一条直线上，这条直线能使异样的样例相距远，同类的样例分布靠近，对于新的样例，根据在这条直线上的投影判断属于哪一类别。

date:2024/07/23
author:sion
tag:Deeping Learn

LDA(线性判别分析)

文章目录

LDA(线性判别分析)
- 1.LDA是什么
- LDA是一种解决二分类问题的线性方法。它描述，对于给定样例集，将样例点投影到一条直线上，这条直线能使异样的样例相距远，同类的样例分布靠近，对于新的样例，根据在这条直线上的投影判断属于哪一类别。
LDA(线性判别分析)
- 1.LDA是什么
- 2.问题背景
- 3.投影
- 4.离散度
- 5.目标函数
- 6.推广到多分类

1.LDA是什么

LDA是一种解决二分类问题的线性方法。它描述，对于给定样例集，将样例点投影到一条直线上，这条直线能使异样的样例相距远，同类的样例分布靠近，对于新的样例，根据在这条直线上的投影判断属于哪一类别。

在这里插入图片描述

因此我们的所有任务围绕确定直线展开。

2.问题背景

首先描述问题背景，这里直接引用西瓜书原话：

在这里插入图片描述

这里描述的是一个二分类问题。

那么如何理解投影？

3.投影

若已知向量 $\vec{x}$ 和向量 $\vec{w}$ ,求 $\vec{x}$ 在向量 $\vec{w}$ 上的投影，可以用内积表示：
$\vec{x} \cdot \vec{w} = |\vec{x}||\vec{w}|\cos {\theta}$
当w为单位向量，该投影为：
$|\vec{x}|\cos {\theta}$
因此在下图上， $y$ 表示target（标签），假设x与y有线性关系由参数集合 $w$ 确定（ $y = wx + b，w^T = {w,b}*$ ）

则任意x在直线上的投影可以认为是x根据线性关系找到的y值，那么这个投影过程表示为：
$w^TX$
其中 $x_i$ 在向量 $X$ 方向上( $X={X_1;X_2..;X_i}$ )

在这里插入图片描述

4.离散度

前面提到需要使得“异样的样例相距远，同类的样例分布靠近”，因此我们需要一个衡量标准，异样的距离使用类间散度衡量，同样使用类内散度衡量

$ \ {\mu}_i $用来表示各类的均值，这里只有$ \ {\mu_0},{\mu_1}$,分别表示正类和负类的均值。异类之间的距离使用均值在直线的投影的距离表示：
$||w^T\mu_0-w^T\mu_1||_2^2 = w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw$
这里下标2表示2类向量的模，即欧几里得距离

同类之间使用协方差比较距离：
$w^T(\Sigma_0 + \Sigma_1) w$
$\ {\Sigma}$ 为协方差矩阵

为了简化表示，我们引入两个新概念，类间散度矩阵和类内散度矩阵。

类间散度矩阵用 ${S_b}$ 表示：
$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$
类内散度矩阵用 $S_w$ 表示：
$S_w= \Sigma_0+\Sigma_1$

5.目标函数

为了同时考虑”使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可

能小“，设置目标函数：
$J=\frac{w^TS_bw}{w^TS_ww}$
求这个目标函数的最大值可以转换为求 $S_b$ 和 $S_w$ 的**”广义瑞利商“**，这里使用拉格朗日乘子法求解，具体过程不在讨论范围。

$min\quad ω^TS_bw\\ s.t.\quad w^TS_ww = 1 .$

在这里插入图片描述

最终求得 $\ w = S^{-1}(\mu_0-\mu_1)$

6.推广到多分类

在多分类问题中，LDA一般作为降维方法进行属性约简。设target数量为N, $\mu$ 为所有数据的均值， $\ {\mu_i}$ 表示示属性i的均值, $m_i$ 表示第i属性的数据量。

首先定义”全局散度矩阵“：
$S_t=S_b+S_w=\sum_{i=1}^m({x_i}-\mu)({x_i}-\mu)^T$
${S_w}$ 可以表示为：
${S_w}_i = \sum_{x\in X_i} \Sigma_i = \sum_{x\in X_i} \ (x-\mu_i)(x-\mu_i)^T\\ S_w = \sum_{i=1}^N S_{wi}$