01 机器学习概述

news2025/2/23 6:20:44

1. 基本概念

2. 机器学习三要素

3. 参数估计的四个方法

3.1 经验风险最小化

3.2 结构风险最小化

3.3 最大似然估计

3.4 最大后验估计

4. 偏差-方差分解

5. 机器学习算法的类型

6. 数据的特征表示

7. 评价指标

1. 基本概念

机器学习（Machine Learning，ML）就是研究如何让计算机从数据中进行自动学习，得到某种知识（或规律）并利用学习到的规律（模型）对未知或无法观测的数据进行预测。

机器学习的任务，比如光学字符识别、语音识别、人脸识别等．这些任务的特点是，对于我们人类而言很容易完成，但我们不知道自己是如何做到的，因此也很难人工设计一个计算机程序来完成这些任务。比如：下图中的手写数字识别，对人来说认识0~9很简单，但对计算机来说却十分困难.。

在计算机中，一切皆数据，包括声音、图片或视频，均会被计算机转换为数组读取！

2. 机器学习三要素

3. 参数估计的四个方法

关于参数分布及先验后验的一些概念，可参看一下文章：

https://zhuanlan.zhihu.com/p/506449599https://zhuanlan.zhihu.com/p/506449599

3.1 经验风险最小化

这种方法用于求解线性回归参数时，也叫最小二乘法（ Least Square Method ， LSM ）：

由于这种方法要求 $(XX^T)$ 必须有逆矩阵（满秩），而实际情况是 $(XX^T)$ 并不一定满秩，这会导致参数 $\textbf{w}^*$ 有多个解.。因此，一般会对数据预处理，比如通过主成分分析消除不同特征之间的相关性，使其满秩。

3.2 结构风险最小化

如果数据量大且特征非常多，那么特征间可能存在多重共线性，即使预处理了数据，也会使得最小二乘法计算结果不稳定。为了解决这个问题，Hoerl等人提出了岭回归（Ridge Regression），也就是给 $(XX^T)$ 的对角线元素都加上一个常数 $\lambda$ ，使 $(XX^T+\lambda I)$ 满秩，这种方法表现在风险函数上即为（相较经验风险函数）增加了一个正则项：

3.3 最大似然估计

最大似然估计 （ Maximum Likelihood Estimation ， MLE ）是指找到一组参数使似然函数的值最大，也等价于对数似然函数的值最大。最大似然估计参数方法如下：

可以看出，最大似然估计的解和最小二乘法的解相同。

3.4 最大后验估计

最大似然估计的一个缺点是当训练数据比较少时会发生过拟合，估计的参数可能不准确．为了避免过拟合，我们可以给参数加上一些先验知识，即基于经验对要估计的参数加上一定的限制，这样得到的参数称为最大后验估计，计算方法如下：

可以看出，最大后验概率等价于平方损失的结构风险最小化，其中正则化系数 $\lambda =\sigma ^2/\nu ^2$ 。

由于贝叶斯求解复杂，最大后验概率是贝叶斯学派的一种近似手段，最大后验估计和最大似然估计很像，只是多了一项先验分布，它体现了贝叶斯认为参数也是随机变量的观点，在实际运算中通常通过超参数给出先验分布。

最大似然估计和贝叶斯估计可以分别看作频率学派和贝叶斯学派对需要估计参数的不同解释。

4. 偏差-方差分解

关于偏差（bias）和方差（Variance）的概念可参看下面这篇文章：

偏差（bias）和方差（Variance）https://blog.csdn.net/nanhuaibeian/article/details/102658419?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%81%8F%E5%B7%AE%E5%92%8C%E6%96%B9%E5%B7%AE&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-102658419.nonecase&spm=1018.2226.3001.4187

针对于高偏差和高方差的解决措施，可参看我之前的文章：

《吴恩达机器学习第二课 week3 学习算法（模型）进阶》https://blog.csdn.net/weixin_43490087/article/details/139709608?spm=1001.2014.3001.5501

偏差方差分解，是一种重要的分析技术，‌用于解释学习算法泛化能力。‌

偏差方差分解将学习算法的期望误差分解为三个非负项的和，‌即样本真实噪声、‌偏差和方差。‌这种分解帮助我们从统计学派的视角看待模型复杂度，‌提供了一种理解模型泛化性能的方法。‌如下：

5. 机器学习算法的类型

6. 数据的特征表示

在实际应用中，数据的类型多种多样，比如文本、音频、图像、视频等，不同类型的数据，其原始特征（Raw Feature）的空间也不相同。而很多机器学习算法要求输入的样本特征是数学上可计算的，因此在机器学习之前我们需要将这些不同类型的数据转换为向量表示。

（也有一些机器学习算法（比如决策树）不需要向量形式的特征）

图像特征：表示为 𝑀 × 𝑁 维的向量，为了提高模型准确率，会经常加入一个额外的特征，比如直方图、宽高比、笔画数、纹理特征、边缘特征等。

文本特征：从文本形式转为向量形式，一种简单的方式是使用词袋（Bag-of-Words，BoW）模型，比如两个文本“我喜欢读书”和“我讨厌读书”中共有“我”“喜欢”“讨厌”“读书”四个词，它们的BoW表示分别为[1 1 0 1]和[1 0 1 1]。

词袋模型将文本看作词的集合，不考虑词序信息，不能精确地表示文本信息。

一种改进方式是使用N元特征（N-Gram Feature），即每𝑁 个连续词构成一个基本单元，然后再用词袋模型进行表示。以最简单的二元特征（即两个词的组合特征）为例，上面的两个文本中共有“我”“我喜欢”“我讨厌”“喜欢读书”“讨厌读书”“读书”六个特征单元，随着 𝑁 的增长，N 元特征的数量会指数上升，因此，在实际应用中，文本特征维数通常在十万或百万级别以上。