【AI学习笔记】初学机器学习西瓜书概要记录（一）机器学习基础知识篇

初学机器学习西瓜书的概要记录（一）机器学习基础知识篇(已完结)
初学机器学习西瓜书的概要记录（二）常用的机器学习方法篇(待更)
初学机器学习西瓜书的概要记录（三）进阶知识篇(待更)

文字公式撰写不易，随意学习，但禁止转载！谢谢

（一）机器学习基础知识篇

1.1 机器学习
1.2 典型的机器学习过程
1.2 机器学习理论
1.3 基本术语
1.4 归纳偏好
1.5 NFL定理
2.1 泛化能力
2.2 过拟合和欠拟合
2.3 三大问题
2.4 评估方法
2.5 调参与验证集
2.6 性能度量
2.7 比较检验
3.1 线性回归
3.2 最小二乘解
3.3 多元线性回归
3.4 广义线性模型
3.5 广义线性模型
3.6 对率回归求解
3.7 线性判别分析(LDA)
3.7 线性判别分析(LDA)的多类推广
3.9 多分类学习基本思路
3.10 类别不平衡

以下内容出自周志华老师亲讲西瓜书

1.1 机器学习

（1）经典定义：利用经验改善系统自身的性能。（经验->数据）
随着该领域的发展，目前主要研究智能数据分析的理论和方法，并已成为智能数据分析技术的源泉之一

1.2 典型的机器学习过程

在这里插入图片描述

适用于全局 - 模型适用于局部 - 模式（pattern）

1.2 机器学习理论

PAC（Probably Approximately Correct 概率近似正确模型）
$y|\leq \epsilon )\geq 1- \delta$

建立一个模型，对于数据 $x$ 样本得到一个模型 $f$ ，那么模型 $f$ 会对 $x$ 进行一个判断，即 $f (x)$ ，我们希望这个模型判断特别准，即逼近真实结果 $y$ 。那么可以表达为 $y|\leq \epsilon$ ，即它们俩的差别小于一个很小的数。希望能得到这样一个模型 $f$ ，但并不是每次都能得到，所以希望能以很高的概率去得到它，很高的概率意味着 $y|\leq \epsilon )\geq 1- \delta$ ，如果 $\delta$ 非常小，那么获取到这个模型的概率就非常高。
为什么不追求该模型一定是准的，即 $∣ f (x) - y ∣ = 0$ ，且一定能获取到该模型？
机器学习通常解决的问题具有高度的不确定性、高度的复杂性，甚至不知道怎么去做它。当我们的知识已经不能精确的给我结果的时候，我从数据里去分析，希望能从数据中得到答案。
$P ? = NP$
P问题：在多项式时间内，能找到该问题的解。
NP问题：在多项式时间内，给一个解，能判断它是不是解。
如果 $∣ f (x) - y ∣ = 0$ ， $P = 1$ ，那么意味着每次都能给到最佳答案，那么即证明了 $P = NP$

1.3 基本术语

在这里插入图片描述
非监督学习：拿到的数据中，没有希望结果，聚类、密度估计
监督学习：预测内容、分类回归

1.4 归纳偏好

机器学习算法学习过程中对某种类型假设的偏好
在这里插入图片描述
一般原则：奥卡姆剃刀（若非必要，勿增实体）
学习算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能！

1.5 NFL定理

NFL定理：一个算法 $a$ 若在某些问题比领一个算法 $b$ 好，必存在另一些问题 $b$ 比 $a$ 好。

NFL定理的重要前提：所有“问题”出现的机会相同、或所有问题同等重要
实际情形并非如此，我们通常只关注自己正在试图解决的问题
脱离具体问题，空泛地谈论“什么学习算法更好”毫无意义！
最优方案往往来自：按需设计、度身定制

2.1 泛化能力

泛化能力强，能很好地适用于 unseen instance

2.2 过拟合和欠拟合

泛化误差：在“未来”样本上的误差
经验误差：在训练集上的误差，亦称“训练误差”
在这里插入图片描述
过拟合（over fitting），所有的算法都是在缓解过拟合，在学习具体算法时需要关注该算法靠什么去缓解过拟合，以及缓解过拟合的策略在什么情况下会失效，明白以上两点便把握了该算法应该在什么时候用。

2.3 三大问题

三个关键问题：
（1）如何获得测试结果评估方法
（2）如何评估性能优劣性能度量
（3）如何判断实质差别比较检验

2.4 评估方法

关键：怎么获得“测试集”？
测试集应该与训练集"互斥"

常见方法：
（1）留出法（hold-out）
在这里插入图片描述

例如训练一个100条数据的数据集，训练出的模型称为 $M_{100}$ ，它的性能判断 $Err_{100}$ ，但是 $Err_{100}$ 是无法得到的，因此我们划分出80条数据集进行训练，得到模型 $M_{80}$ ，则用剩下的20条数据进行测试得到 $Err_{80}$ ，使用 $Err_{80}$ 去近似 $Err_{100}$ 。但是如果测试集使用的数据过多，那么 $M_{80}$ 已经不是 $M_{100}$ 模型了，随着训练集的减少，该近似效果就会变差，同时又希望测试集更多，才会使 $Err_{80}$ 的测试结果更准确。因此大部分情况下都是使用经验值20%去做测试。在通过抽取的训练集训练出模型后，通过性能判断 $Err_{80}$ 选择最终的模型，此时并不是把 $M_{80}$ 作为最终的模型，而是使用所有数据集训练得到 $M_{100}$ .

（2）交叉验证法（cross vaildation）
因为在留出法中，每次都是挑取一定比例的数据作为训练集，所以存在有的数据永远都没存在在训练集中。
在这里插入图片描述

（3）自助法（bootstrap）
基于“自助采样”（bootstrap sampling）亦称“有放回采样”、“可重复采样”
在十个彩色小球的筐内，随机抽取一个小球，复制一份放到训练集中。最后未抽取到的颜色小球作为测试集。
在这里插入图片描述

2.5 调参与验证集

算法的参数：一般由人工设定，亦称"超参数"
模型的参数：一般由学习确定
调参的过程相似：先产生若干模型，然后基于某种评估方法进行选择。

在拟合一条直线时，对于一个模型 $y=ax^d+bx+c$ ，其中次数 $d$ 可以由用户提供，即超参数，剩下的则有学习确定

参数调的好不好往往对最终性能有关键影响
在训练集中单独留出用于调参数的数据称为验证集
算法参数选定后，要用“训练集+验证集”重新训练最终模型

2.6 性能度量

性能度量时衡量模型泛化能力的评价标准，反映了任务需求
使用不同的性能度量往往会导致不同的评判结果
什么样的模型是好的，不仅取决于算法和数据，还取决于任务需求

（1）回归任务常用均方误差：
${1\over m}\sum^m_{i=1}(f(x_i)-y_i)^2$
（2）分类任务错误率：
${1\over m}\sum^m_{i=1}\prod(f(x_i) \neq y_i)$

（3）查准率和查全率
在这里插入图片描述

2.7 比较检验

在某种度量下取得评估结果后，不可以直接比较以评判优劣
因为：
（1）测试性能不等于泛化性能
（2）测试性能随着测试集的变化而变化
（3）很多机器学习算法本身有一定随机性
统计假设检验为学习器性能比较提供了总要依据

两学习器比较：

交叉验证t检验（基于成对t检验）
McNemar检验（基于列联表，卡方检验）

3.1 线性回归

线性模型试图学得一个通过属性的线性组合来进行预测的函数
$f(x) = w_1x_1+w_2x_2+...+w_dx_d+b$
向量形式： $f(x) = w^Tx+b$

$f(x_i)=w^Tx_i+b 使得 f(x_i)\approx y_i$

对于线性回归模型，其擅长处理数值属性，对于离散属性转换成连续数值。在转化的过程中需要考虑是否有序的关系，例如对于高、中、低，但是对于一个西瓜的颜色，他们的序是无法判断的，这时候就不能简单的划分为1、0.5、0。对于这样的离散属性，可以将其表示为三维向量。

离散属性的处理：若有序，则连续化，否则转化为 $k$ 维向量

令均方误差最小化，有：

$(w^*,b^*) = \underset{(w,b) }{argmin}\sum^m_{i=1}(f(x_i)-y_i)^2$ $\underset{(w,b) }{argmin}\sum^m_{i=1}(y_i - wx_i-b)^2$
对 $E(w,b)=\sum^m_{i=1}(y_i - wx_i-b)^2$ 进行最小二乘估计

3.2 最小二乘解

$E(w,b)=\sum^m_{i=1}(y_i - wx_i-b)^2$ 分别对 $w$ 和 $b$ 求偏导
${\partial E(w,b) \over \partial w} =2\sum^m_{i=1}(y_i - wx_i-b)x_i \\ =2\left(w \sum^m_{i=1} x^2_i - \sum^m_{i=1} (y_i-b)x_i \right)$ ${\partial E(w,b) \over \partial b} =-2\sum^m_{i=1}(y_i - wx_i-b) \\=2\left(mb - \sum^m_{i=1} (y_i-wx_i) \right)$
令导数等为 0，得到闭式解：
$w={\sum^m_{i=1} y_i(x_i-\bar x) \over \sum^m_{i=1} x^2_i - {1\over m} \left(\sum^m_{i=1} x_i \right)^2}$ $b=\ {1\over m} \sum^m_{i=1} (y_i-wx_i)$

偏导的真实含义是变化率，对于该凸函数，极值点就是最值点。

3.3 多元线性回归

$f(x_i)=w^Tx_i+b 使得 f(x_i)\approx y_i$ $x_i=(x_{i1};x_{i2};...;x_{id}) \\y_i\in \Bbb{R}$

把 $w$ 和 $b$ 吸收入向量形式 $\hat{w} = (w;b)$ 数据集表示为
$\begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \\ \end{pmatrix} = \begin{pmatrix} x_{1}^T & 1 \\ x_{2}^T & 1 \\ \vdots & \vdots \\ x_{m}^T & 1 \\ \end{pmatrix}$ $y=(y_1;y_2;...;y_m)$

同样采用最小二乘法求解，有
$\hat{w}^* = \underset{\hat{w}}{argmin}(y-X\hat{w})^T(y-X\hat{w})$
令 $E_{\hat{w}}=(y-X\hat{w})^T(y-X\hat{w})$ ，对 $\hat{w}$ 求导：
${\partial E(\hat{w}) \over \partial \hat{w}} =2X^T(X\hat{w}-y)$ 令其为零可得 $\hat{w}$

若 $X^TX$ 满秩或正定，则 $\hat {w}^*=(X^TX)^{-1}X^Ty$
若 $X^TX$ 不满秩，则可解出多个 $\hat{w}$
此时需求助于归纳偏好，或引入正则化。

3.4 广义线性模型

线性模型的变化
对于样例 $(x,y)，y\in \Bbb{R}$ ，希望线性模型的预测值逼近真实标记，则得到线性回归模型 $y=w^Tx+b$

令预测值逼近 $y$ 的衍生物，若令 $lny=w^Tx+b$ 则得到对数线性回归，实际是在用 $e^{w^Tx+b}$ 逼近 $y$
在这里插入图片描述
一般形式：
$y=g^{-1}(w^Tx+b)$ 其中 $g^{-1}$ 为单调可微的联系函数

3.5 广义线性模型

二分类任务
线性回归模型产生的实值输出 $z=w^Tx+b$
期望输出 $\in \{0,1\}$
找出 $z$ 和 $y$ 的联系函数，理想的“单位阶跃函数”
$\begin{cases} 1, & \text{z<0} \\[2ex] 0.5, & \text{z=0} \\[2ex] 1, & \text{z>0} \end{cases}$
性质不好，不连续，需要找替代函数。常用单调可微、任意阶可导的对数几率函数(logistic function)，简称对率函数
$y={1\over 1+e^{-z}}$
在这里插入图片描述

注意：Logistic与“逻辑”没有半毛钱关系！
1.Logistic 源自 Logit，不是Logic
2.实数值，并非“非0即1”的逻辑值

以对率函数为联系函数：
$y={1\over 1+e^{-z}} 变为y={1\over 1+e^{-(w^Tx+b)}}$ 即 $\over 1-y}=w^Tx+b$

$\over 1-y$ ：几率（odds），反映了 $x$ 作为正例的相对可能性
对数几率回归，简称对率回归

无需事先假设数据分布
可得到“类别”的近似概率预测
可直接应用现有数值优化算法求取最优解

注意：它是分类学习算法

3.6 对率回归求解

若将 $y$ 看做类后验概率估计 $p (y = 1∣ x)$ ，则

$\over 1-y}=w^Tx+b$ 可写为 $\over p(y=0|x)}=w^Tx+b$ 于是，可使用极大似然法
给定数据集 $\{ (x_i,y_i) \}^m_{i=1}$ ，最大化对数似然函数
$l(w,b)=\sum^m_{i=1}lnp(y_i|x_i;w,b)$
令 $\beta=(w;b),\hat{x}=(x;1)$ ，则 $w^Tx+b$ 可简写为 $\beta^T\hat{x}$
再令：
$p_1(\hat{x_i};\beta) =p(y=1|\hat{x};\beta)={e^{w^Tx+b}\over 1+e^{w^Tx+b}} \\ p_0(\hat{x_i};\beta) =p(y=0|\hat{x};\beta)=1-p_1(\hat{x_i};\beta) ={1\over 1+e^{w^Tx+b}}$
则似然项可重写为 $p(y_i|x_i;w_i,b)=y_ip_1(\hat{x}_i;\beta)+(1-y_i)p_0(\hat{x}_i;\beta)$
于是最大化似然函数 $l(w,b)=\sum^m_{i=1}lnp(y_i|x_i;w,b)$ 等价为最小化：

$l(\beta)=\sum^m_{i=1}\left( -y_i\beta^T\hat{x}_i+ln(1+e^{\beta^T\hat{x}_i}) \right)$

高阶连续可导凸函数，可用经典的数值优化方法，如梯度下降法/牛顿法

MAX(P(真是+)P(预测为+) + P(真是-)P(预测为-))，在极大似然法中通常需要加对数，因为其概率可能是很小值，当概率连乘时可能会出现浮点数下溢，在取对数后乘法变成加法。
即 $ln(y*{e^{\beta^T x} \over 1+e^{\beta^T x}}+(1-y){1\over 1+e^{\beta^T x}}) \\ =ln{ye^{\beta^T x} + 1-y \over 1+e^{\beta^T x}}\\ =ln(ye^{\beta^T x} + 1-y)-ln(1+e^{\beta^T x})$
当 $y = 1$ 时为 $\beta^Tx-ln(1+e^{\beta^T x})$
当 $y = 0$ 时为 $-ln(1+e^{\beta^T x})$
因此可写为通项：
$(y\beta^Tx-ln(1+e^{\beta^T x})) \\ =MIN (-y\beta^Tx+ln(1+e^{\beta^T x})) \\ =MIN (ln{(1+e^{\beta^T x}) \over e^{y\beta^Tx}})$
其中 $\beta^T\hat{x} = w^Tx+b$
$(ln{(1+e^{f(x)}) \over e^{yf(x)}})$

一般情况下，即使是凸函数，也很难通过直接求导为零得到最优解（需要求逆），通常通过梯度下降的方式求解

最终解一定是梯度为零的点，梯度为零的点不一定是最优解
梯度下降通常是迭代解法 $(w_{i+1}=w_{i}+\delta w)$ ，迭代解法比较容易并行化，更适合计算机处理，往往更快

3.7 线性判别分析(LDA)

用线性模型做分类，有两种基本思路，以上讲的是先用线性模型做回归，然后找一个联系函数，把我们要做的分类结果和回归结果联系起来，那么能否直接去做分类。
在这里插入图片描述
由于将样例投影到一条直线（低维空间），因此也被视为一种“监督降维”技术。

给定数据集 $\{(x_i,y_i) \}^m_{i=1}$
第 $i$ 类示例的集合 $X_i$
第 $i$ 类示例的均值向量 $\mu_i$
第 $i$ 类示例的协方差矩阵 $\sum_i$
两类样本的中心在直线上的投影： $w^T \mu_0$ 和 $w^T \mu_1$
两类样本的协方差： $w^T\sum_0 w$ 和 $w^T\sum_1w$
同类样例的投影点尽可能接近： $w^T\sum_0 w$ 和 $w^T\sum_1w$ 尽可能小
异类样例的投影点尽可能远离： $||w^T\mu_0 -w^T\mu_1||^2_2$ 尽可能大
于是，最大化
$J={||w^T\mu_0 -w^T\mu_1||^2_2 \over w^T\sum_0 w +w^T\sum_1w}={w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw \over w^T(\sum_0+\sum_1)w}$

类内散度矩阵
$S_w=\sum_0+\sum_1\\ =\sum_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1}(x-\mu_1)(x-\mu_1)^T$
类间散度矩阵
$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$
LDA目标：最大化广义瑞利商
$J={w^TS_bw\over w^TS_ww}$

可以看出 $w$ 大小无关紧要，其方向才是关键。

求解：令 $w^TS_ww=1$ 最大化广义瑞利商等价形式为：
$\underset{w}{min}-w^TS_bw \\ s.t. \quad w^TS_ww=1$
运用拉格朗日乘子法：即 $w^TS_ww-1=0$
$-w^TS_bw+\lambda( w^TS_ww-1)$
令其对 $w$ 偏导为零，即
$-(S_b+S_b^T)w+ \lambda(S_w+S_w^T)w$
其中类内散度矩阵和类间散度矩阵均为对称阵，则：
$-2S_bw+2\lambda S_ww=0 \\ S_bw=\lambda S_ww$
由 $S_b$ 定义，有 $S_bw=(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw$ ，注意到 $(\mu_0-\mu_1)^Tw$ 为标量，且 $w$ 大小无关紧要，令其等于 $\lambda$ ，于是：
$w=S_w^{-1}(\mu_0-\mu_1)$
实践中通常是进行奇异值分解 $S_w=U\sum V^T$ ，然后 $S^{-1}_w=V\sum^{-1} U^T$

3.7 线性判别分析(LDA)的多类推广

假设有 $N$ 个类

全局散度矩阵
$S_t=S_b+S_w=\sum^m_{i=1}(x_I-\mu)(x_i-\mu)^T$
类内散度矩阵
$S_w=\sum^N_{i=1}S_{w_i} \\ S_{w_i} = \sum_{x\in X_i}(x-\mu_i)(x-\mu_i)^T$
类内散度矩阵
$S_b=S_t-S_w=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^T$

多类LDA有多种实现方法：采用 $S_b,S_w,S_t$ 中的任何两个，例如
$\underset{W}{max}{tr(W^TS_bW)\over tr(W^TS_wW)} \quad W \in \Bbb{R}^{d\times(N-1)} \\ \Rightarrow S_bW=\lambda S_wW$
$W$ 的闭式解是 $S_w^{-1}S_b$ 的 $d'(\leq N-1)$ 个最大非零广义特征值对应的特征向量组成的矩阵

3.9 多分类学习基本思路

除了LDA技术，比如知识向量机，如何基于两类模型去做多类分类。

拆解法：将一个多分类任务拆分为若干个二分类任务求解
在这里插入图片描述

最终的分类结果选择预测结果次数最多的那类，若次数相同可以根据置信度选择。

OvO(one)每次只考虑将一个类作为正类，而另一个作为负类。
（1）训练 $\over 2$ 个分类器，存储开销和测试时间大
（2）训练只用两个类的样例，训练时间短
OvR(rest) 每次只考虑将一个类作为正类，其余作为负类。
（1）训练 $N$ 个分类器，存储开销和测试时间小
（2）训练用到全部样例，训练时间长
预测性能取决于具体数据分布，多数情况下两者差不多。