文章目录

第三章：线性模型
- 一、线性回归模型
- - 1.1、线性回归模型
  - 1.2、求解线性回归模型（时刻要分清维度）
  - 1.3、多输出线性回归模型
- 二、线性分类模型
- - 2.1、判别函数
  - 2.2、概率判别模型
  - 2.3、概率生成模型

第三章：线性模型

一、线性回归模型

1.1、线性回归模型

训练数据包含𝑁个输入数据 $(\mathbf{x_1},\mathbf{x_2},……\mathbf{x_N})$ 以及对应函数值 $t_1,t_2……t_N)$ ，回归任务是对一个新的输入 $\mathbf{x}$ 预测对应的目标值

最简单的线性回归模型形式如下(以下均是针对具有D个元素的单一向量 $\mathbf{x}$ 进行分析）：
$y(\mathbf{x},\mathbf{w})=w_{0}+w_{1}x_{1}+\dots\cdot w_{D}x_{D}=\mathbf{w^T}\mathbf{x}$
其中 $\mathbf{w}= (w_{0},w_{1},\cdots ,w_{D})^{T}$ , $\mathbf{x}= (1,x_{1},\cdots ,x_{D})^{T}$

但输入线性组合限制了模型能力，所以要引入非线性基函数对输入进行变换：
$y({\bf x},{\bf w})=\sum_{j=0}^{M-1}w_{j}\phi_{j}({\bf x})={\bf w}^{\mathrm{T}}\phi({\bf x})$
其中 $(w_{0},w_{1},\cdots ,w_{M-1})^{T}$ , $\phi = (\phi _{0},\phi _{1},\cdots ,\phi _{M-1})^{T} , \phi _{0} (x)=1$

可以看出， $\mathbf{\phi}$ 共有 $M$ 个,把一个 $\mathbf{x}$ 中的D维数据转化到了M维,因而 $w$ 也只需要 $M$ 个(结合下面实例理解）。

常见的基函数有：

基函数 $\phi _{j}(\mathbf{x})$ 可以看作是对原始数据的特征提取或变换过程

此图可理解成 $\phi_1=x_1^2$ , $\phi_2=x_2^2$ ……，通过三个 $\phi$ 把二维 $\mathbf{x}$ 变成了三维。

1.2、求解线性回归模型（时刻要分清维度）

训练数据包含𝑁个输入数据 $(\mathbf{x_1},\mathbf{x_2},……\mathbf{x_N})$ 以及对应函数值 $t_1,t_2……t_N)$ ，模型为线性回归模型 $y(\mathbf{x},\mathbf{w})=\mathbf{w}^T \phi(\mathbf{x})$

其中：
$\sum_{n=1}^{N}\{t_{n}-\mathbf{w}^{\mathsf{T}}\phi(\mathbf{x_{n}})\}\phi(\mathbf{x_{n}})^{\mathsf{T}}=0$ 可以先拆成： $\sum_{n=1}^{N}t_{n}\phi(\mathbf{x_{n}})^{\mathsf{T}}=$ $\sum_{n=1}^{N}\mathbf{w}^{\mathsf{T}}\phi(\mathbf{x_{n}})\phi(\mathbf{x_{n}})^{\mathsf{T}}$ 是用之后用矩阵代替连加号 , 即可得到结果，记住答案即可。

不过解析式有时很难得到；数据量大时，数据矩阵操作计算量大，可以不使用最大似然估计，而是：

1.3、多输出线性回归模型

输出结果不是一个单独的 $t$ 值，而是一个向量 $\mathbf{t}=(t_1,t_2,\cdots t_K)^T$

思路一：对𝒕的每一个元素成分使用不同的基函数组，进行𝐾个独立的单输出回归
思路二：对𝒕的所有元素成分使用相同的基函数组，进行联合回归

思路一过于冗杂，所以采用思路二。

与单输出大体相同，只是由向量 $w$ 变成了矩阵 $W$

其中输出数据组织为一个𝑁×𝐾维矩阵 $T$ ，其第 $n$ 行是 $t_n^T$

二、线性分类模型

有三种方法可被用来解决分类问题 : 最简单的方法是构造一个判别函数，它直接将每个向量x分配给一个特定的类。然而，一种更强大的方法是在推理阶段对条件概率分布 $p(C_k|x)$ 进行建模，然后随后使用这个分布来做出最优决策.有两种不同的方法来确定条件概率 $p(C_k|x)$ 。一种技术是直接对它们进行建模，例如，通过将它们表示为参数模型，然后使用一个训练集来优化参数,最终得到 $p(C_k|x)$ ，此为概率判别模型。另一种是概率生成模型，我们将由 $p(x|C_k)$ 给出的类条件密度，以及类的先验概率 $p(C_k)$ 进行建模,得到 $P(C_k,x)$ 即联合概率分布密度，之后由贝叶斯公式 $p(C_k|x)=\frac{P(C_k,x)}{P(x)}$ 得出结果。

2.1、判别函数

判别函数的功能是将输入特征向量 $x$ 分配到 $K$ 个类别中的某一类 $C_K$ ，它将输入空间分为不同的决策区域，每个区域是一个类别，决策区域的边界称为决策边界(decision boundary)或决策平面(decision surface).

对于二分类问题：

最简单的方法是使用线性函数： $y(\mathbf{x})=\mathbf{w}^T\mathbf{x}+w_0$ ,其中 $\mathbf{w}$ 为权重， $w_0$ 为偏差
$\begin{cases}c_{1},若y(\mathbf{x})\geqslant0\\c_{2},若y(\mathbf{x})<0\end{cases}$

其中决策边界的性质：
- $\mathbf{w}$ 是决策平面的法向，即 $\mathbf{w}$ 垂直于决策平面内的任意向量
- 任意向量 $\mathbf{x}$ 到决策平面的有符号垂直距离 $r$ 为
  $r=\frac{y({\bf x})}{||\mathbf{w}||}=\frac{\mathbf{w}^{\mathrm{T}}{\bf x}+w_{0}}{||\mathbf{w}||}$
证明如下所示：

$\begin{array}{c}{{\mathbf{x}=\mathbf{x}_{\perp}+r{\frac{\mathbf{w}}{\||\mathbf{w}||}}}}\\ {{\mathbf{w}^{\mathrm{T}}\mathbf{x}+w_{0}=\mathbf{w}^{\mathrm{T}}\mathbf{x}_{\perp}+w_{0}+r{\frac{\mathbf{w}^{\mathrm{T}}\mathbf{w}}{\||\mathbf{w}||}}}}\\y(\mathbf{x})=\mathbf{0}+r{\frac{\mathbf{w}^{\mathsf{T}}\mathbf{w}}{||\mathbf{w}||}} \end{array}$

对于多分类问题
- 分类K个类别:（通过构建多个二分类器完成多分类）
one-vs-rest表示的是属于 $C_1$ 的概率和不属于 $C_1$ 的概率，最终看属于C几的概率最大

one-vs-one表示的是属于 $C_1$ 的概率和属于 $C_2$ 的概率，属于 $C_1$ 的概率和属于 $C_3$ 的概率等等，最后看归属C几的数目最多

参考one-vs-one和one-vs-rest简单理解 - herb.dr的文章 - 知乎
- K类判别式法，包含K个线性函数:
$y_{k} (\mathbf{x})= \mathbf{w}_{k}^{T} \mathbf{x}+ w_{k0} ,k=1, \cdots K$

$\mathbf{x}的类别为 C_{k} ,如果 \forall j \neq k, y_{k} (\mathbf{x})> y_{j} (\mathbf{x})$

$C_{k} 和C_j类之间的决策边界: y_{k} (x)= y_{j} (x)或 (\mathbf{w}_{k}-\mathbf{w}_{j})^{T} x+( w_{k0} - w_{j0} )=0$

其中，𝐾类判别式方法的决策区域是单连通和凸的，证明如下：
判别函数学习法（为了求出参数而服务）：
- 最小平方和误差
  
  其中 $\mathbf{t_n}$ 采取独热编码，若 $\mathbf{x_n}$ 的类别是 $\mathbf{C_k}$ ,则 $\mathbf{x_n}$ 的第k个元素是1，其余为0
  
  可以看出，和前面多输出模型结果相同。
- Fisher线性判别式
  
  判别方法：二分类器 $y=\mathbf{w}^T \mathbf{x}+w_0$ ,可以看做 $y=\mathbf{w}^T \mathbf{x}$ 当 $y>=-w_0,\mathbf{x}$ 类别为 $C_1$ ,否则为 $C_2$
  
  主要思想是：选择投影方向，使投影后两类相隔尽可能远，而同一类内部的样本又尽可能的聚集。
  
  主要使用参数定义如下：
  
  Fisher准则 $J(\mathbf{w})=\frac{\left(\mathrm{m}_2-\mathrm{m}_1\right)^2}{s_1^2+s_2^2}=\frac{\mathbf{w}^{\mathrm{T}} \boldsymbol{S}_{\mathrm{B}} \mathbf{w}}{\mathbf{w}^{\mathrm{T}} \boldsymbol{S}_{\mathrm{W}} \mathbf{w}} \quad J(\mathbf{w})=\frac{\text { 类间距 }}{\text { 类内距 }}$
  
  其中：
  $\boldsymbol{S}_{\mathrm{B}}=\left(\mathbf{m}_2-\mathbf{m}_1\right)\left(\mathbf{m}_2-\mathbf{m}_1\right)^{\mathrm{T}} \quad$
$\boldsymbol{S}_{\mathrm{W}}=\sum_{n \in C_1}\left(\mathbf{x}_n-\mathbf{m}_1\right)\left(\mathbf{x}_n-\mathbf{m}_1\right)^{\mathrm{T}}+\sum_{n \in C_2}\left(\mathbf{x}_n-\mathbf{m}_2\right)\left(\mathbf{x}_n-\mathbf{m}_2\right)^{\mathrm{T}}$

之后进行优化 $\mathbf{w}^*=arg max J(\mathbf{w})$

可得结果 $\mathbf{w} \propto \mathbf{S}_w^{-1}(\mathbf{m_2}-\mathbf{m_1})$

具体证明可见Fisher线性判别算法原理及实现 MATLAB_fisher算法_寂静的以的博客-CSDN博客，这里记结果即可
- 感知机算法（参考自一文读懂感知机算法 - yuquan的文章 - 知乎）
  
  假设样本线性可分，感知机学习的目标就是求能将正负样本完全分开的分离超平面,即要寻找w，b(因为wx+b=0确定了分离超平面)。因此我们需要确定一个学习策略，即定义损失函数，并通过训练样本使其最小化。
  
  损失函数的一个自然选择是误分类点的总数，但是，通过这种方式定义的损失函数对参数w,b来说不是连续可导函数，不易于优化。所有感知机采取的是误分类点到超平面S的总距离。损失函数的推导如下：

2.2、概率判别模型

对于二分类情况，在相当一般的假设条件下，类别 $C_1,C_2$ 的后验概率可以写成作用在特征向量 $\phi$ 的线性函数上的 logistic-sigmoid 函数的形式，即：
$p(C_1|\phi)=y(x)=\sigma(w^T\phi)$

$p(C_2|\phi)=1-p(C_1|\phi)$

其中 $\sigma(a)$ 是 logistic- sigmoid 函数，这个模型被称为 logistic回归.
$\sigma(\mathrm a)=\dfrac{1}{1+\exp(-a)},\dfrac{d\sigma}{da}=\sigma(1-\sigma)$
之后进行最大似然估计：

给定𝑁个数据样本集 ${(\pmb{\phi}_{n},t_{n})|t_{n}\in\{0,1\},\pmb{\phi}_{n}=\pmb{\phi}(\mathbf{x}_{n}),n=1,2,\ldots,N}$ 其中 $t_n=1$ 表示 $C_1$

似然函数为：
$p(\mathbf{t}|\mathbf{w})=\prod_{n=1}^N y_n^{t_n}\{1-y_n\}^{1-t_n}$
其中 $\quad\mathbf{t}=(t_1,\ldots,t_N)^{\mathcal{T}}\quad y_n=p(C_1|\boldsymbol{\phi}_n)=\sigma(\mathbf{w}^{\mathcal{T}}\boldsymbol{\phi}_n)$

之后进行优化：
$E(\mathbf{w})=-\mathrm{ln}p(\mathbf{t}|\mathbf{w})=-\sum_{n=1}^{N}\{t_{n}\mathrm{ln}y_{n}+(1-t_{n})\mathrm{ln}(1-y_{n})\}$
优化目标为： $\mathbf w^*=\arg\:\mathrm{min}\:E(\mathbf w)$

要求的是极值(不是零点），采用牛顿迭代法： $x_{k+1}=x_k-\dfrac{f'\left(x_k\right)}{f''\left(x_k\right)}$ ,

即 $\mathbf{w}^{(\mathrm{new})}=\mathbf{w}^{(\mathrm{old})}-\mathbf{H}^{-1}\nabla E(\mathbf{w})$

计算可得：

$\nabla E(\mathbf w)=\sum\limits_{n=1}^N(y_n-t_n)\:\boldsymbol\phi_n=\boldsymbol\Phi^{\mathrm T}(\mathbf y-\mathbf t)$ , $\mathbf{H}=\nabla\nabla E(\mathbf{w})=\sum\limits_{n=1}^{N}y_n(1-y_n)\:\boldsymbol{\phi}_n\boldsymbol{\phi}_n^{\text{T}}=\boldsymbol{\Phi}^{\text{T}}\mathbf{R}\boldsymbol{\Phi}$

其中矩阵 $\boldsymbol \phi$ ,第n行为 $\phi_n^T$ ， $\mathbf R$ 为N*N对角矩阵， $R_{nn}=y_n(1-y_n)$

ALL IN ALL:
$\begin{array}{l}\mathbf{w}^{\text{(new)}}=\mathbf{w}^{\text{(old)}}-\left(\boldsymbol{\Phi}^{\text{TR}}\boldsymbol{\Phi}\right)^{-1}\boldsymbol{\Phi}^{\text{T}}(y-t)=\left(\boldsymbol{\Phi}^{\text{T}}\mathbf{R}\boldsymbol{\Phi}\right)^{-1}\boldsymbol{\Phi}^{\text{T}}\mathbf{R}\mathbf{z}\\ \mathbf{z}=\boldsymbol{\Phi}\mathbf{w}^{\text{(old)}}-\mathbf{R}^{-1}(y-t)\end{array}$
对于多分类的情况：
$p(C_k|\phi)=y_k(\phi)=\dfrac{\exp(a_k)}{\sum_j\exp(a_j)}\quad\quad a_k=\mathbf{w}_k^T\phi$

2.3、概率生成模型

我们对类条件密度 $p(x|C_k)$ 以及类先验 $p(C_k)$ 进行建模，然后利用它们通过贝叶斯定理计算后验概率 $p(C_k|x)$ .
$p(C_1|\mathbf{x})=\dfrac{p(\mathbf{x}|C_1)p(C_1)}{p(\mathbf{x})}=\dfrac{p(\mathbf{x}|C_1)p(C_1)}{p(\mathbf{x}|C_1)p(C_1)+p(\mathbf{x}|C_2)p(C_2)}$
此时 $p(\mathbf{x}|C_1)，p(C_1)$ 这些都是未知的，我们换一种形式来表示这个式子：
$=\frac{1}{1+\exp(-a)}=\sigma(\mathrm{a})$
其中： $a=\ln\dfrac{p(\mathbf{x}|C_1)p(C_1)}{p(\mathbf{x}|C_2)p(C_2)}$

同理，对于多分类问题：
$p(C_k|\mathbf{x})=\dfrac{p(\mathbf{x}|C_k)p(C_k)}{\sum_j p(\mathbf{x}|C_j)p(C_j)}=\dfrac{\exp(a_k)}{\sum_j\exp(a_j)}\quad\quad a_k=\ln p(\mathbf{x}|C_k)p(C_k)$
此时 $a$ 只是便于后续运算所需的符号，其内部的变量仍需我们求解出来之后，再得到 $p(C_1|\mathbf{x})$ 的结果。

$p(\mathbf{x}|C_1)$

通常我们可以将先验分布选为一些熵比较高的分布例如均匀分布或高斯分布，然后通过对数据的不断观测，减小后验概率的熵从而使其集中在比较可能的参数配置上。

对于连续输入特征：

输入为连续特征，设类条件密度服从高维高斯分布，所有类具有相同协方差矩阵，则:
$p(\mathbf{x}|C_k)=\dfrac{1}{(2\pi)^{D/2}}\dfrac{1}{|\Sigma|^{1/2}}\exp\left\{-\dfrac{1}{2}\left(\mathbf{x}-\boldsymbol{\mu}_k\right)^{\text{T}}\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_k)\right\}$
（这个东西就是我们假设出来的一个先验分布）

此时，我们之前用的 $a$ 就可以表示成
$a=\ln\dfrac{p(\mathbf{x}|C_1)p(C_1)}{p(\mathbf{x}|C_2)p(C_2)}=\mathbf{w^T}\mathbf{x}+w_0$
其中： $\mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_1-\boldsymbol{\mu}_2)$ ，， $w_0=-\frac{1}{2}\boldsymbol{\mu}_1^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_1+\frac{1}{2}\boldsymbol{\mu}_2^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_2+\ln\frac{p(C_1)}{p(C_2)}$

推导过程如下：

同理，对于多分类问题：
$a_k=\ln p(\mathbf{x}|C_k)p(C_k)=\mathbf{w}_k^\mathbf{T}\mathbf{x}+w_{k0}$
其中： $\mathbf{w}_k=\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_k$ ，， $w_{k0}=-\dfrac{1}{2}\boldsymbol{\mu}_k^{\text{T}}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_k+\ln p(C_k)$

一旦我们为类条件密度 $p(x|C_k)$ 指定了参数泛函数形式，我们就可以使用最大似然来确定参数的值，以及先验类概率 $p(C_k)$ 。这需要一个包含对x的观测值及其相应的类标签的数据集。

给定N个数据样本集 $\{(\mathbf{x}_{n},t_{n})|t_{n}\in\{0,1\},n=1,2,\ldots,N\}$ , $t_n=1$ 表示 $C_1$ ;先验概率 $p(C_1)=\pi\:,\:\:p(C_2)=1-\pi$ ,则似然函数为
$p(t|\pi,\boldsymbol{\mu}_1,\boldsymbol{\mu}_2,\boldsymbol{\Sigma})=\prod_{n=1}^N\:[\pi\mathcal{N}(\mathbf{x}_n|\boldsymbol{\mu}_1,\boldsymbol{\Sigma})]^{t_n}[(1-\boldsymbol{\pi})\mathcal{N}(\mathbf{x}_n|\boldsymbol{\mu}_2,\boldsymbol{\Sigma})]^{1-t_n}$
之后我们逐个求偏导，就可得到参数值：
$\pi=\dfrac{1}{N}\sum\limits_{n=1}^N t_n=\dfrac{N_1}{N}=\dfrac{N_1}{N_1+N_2}\\ \mu_1=\dfrac{1}{N_1}\sum_{n=1}^N t_n x_n\\ and so on$