第一章概论

统计学习，又称统计机器学习（机器学习），现在提到的机器学习往往指的就是统计机器学习。

统计学习研究的对象是数据，其对数据的基本假设是同类数据存在一定的统计规律性，因此可以用概率统计方法处理他们：用随机变量描述数据中的特征，用概率分布描述数据的统计规律，然后基于数据构建概率统计模型从而对数据进行预测和分析。

统计学习假设数据是独立同分布（i.i.d.）

1.1 统计学习的分类

统计学习方法一般包括一下几种：

监督学习

监督学习假设输入随机变量X和输出随机变量Y遵循联合概率分布 $\text{[math]}$ 。

监督学习的模型可以是概率模型：条件概率分布 $\text{[math]}$ ，也可以是非概率模型：决策函数 $\text{[math]}$ 。对具体的输入做预测，写作 $\text{[math]}$ 或 $\text{[math]}$ 。通过学习（训练）得到一个模型为条件概率分布 $\text{[math]}$ 或决策函数 $\text{[math]}$ 。

无监督学习

无监督学习的本质是学习数据中的统计规律或潜在结构。

假设 $\text{[math]}$ 是输入空间， $\text{[math]}$ 是隐式结构空间，无监督学习要学习的模型可表示为 $\text{[math]}$ 或条件概率分布 $\text{[math]}$ 或 $\text{[math]}$

强化学习

半监督学习与主动学习

统计学习按照模型的种类，可分为：

概率模型和非概率模型（二者区别不在于输入与输出映射关系，而在于模型内部结构）

概率模型：决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型。代表是概率图模型（贝叶斯网络、马尔科夫随机场、条件随机场）

非概率模型：感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析、神经网络

线性模型和非线性模型

线性模型：感知机、线性支持向量机、k近邻、k均值、潜在语义分析

非线性模型：核函数支持向量机、AdaBoost、神经网络

参数化模型和非参数化模型

按照算法来分，可以分为：在线学习和批量学习

按照技巧来分，可以分为：贝叶斯学习和核方法

1.2 统计学习三要素

统计学习三要素：模型、策略、算法。

在监督学习中，模型就是所要学习的条件概率分布或决策函数。算法指学习模型的具体计算方法，可以利用已有的最优化算法，有时也需要开发独自的最优化算法。策略是按照什么样的准则从模型的假设空间 $\text{[math]}$ 中选取最优模型。下面主要讲策略。

损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。

期望风险 $\text{[math]}$ 是模型关于联合分布 $\text{[math]}$ 的期望损失；经验风险 $\text{[math]}$ 是模型关于训练样本集的平均损失。根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险。所以一个很自然地想法就是用经验风险估计期望风险。答案现实中样本往往是有限的，所以用经验风险估计期望风险往往不是很理想，要对经验风险进行一定矫正。