机器学习——期末复习重点题归纳

第一题

问题描述

现有如下数据样本：

编号	色泽	敲声	甜度	好瓜
1	乌黑	浊响	高	是
2	浅白	沉闷	低	否
3	青绿	清脆	中	是
4	浅白	浊响	低	否

（1）根据上表，给出属于对应假设空间的3个不同假设。若某种算法的归纳偏好为“适应情形尽可能少”，则该算法喜欢选择哪些“判断为好瓜”的假设？

（2）若该数据包含噪声，则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下设计一种合理的归纳偏好用于假设选择。

回答

（1）假设空间中的三个不同假设

假设1：色泽 = 乌黑 ∧ 敲声 = 浊响 ∧ 甜度 = 高 → 好瓜
假设2：色泽 = 青绿 ∧ 敲声 = 清脆 ∧ 甜度 = 中 → 好瓜
假设3：色泽 ≠ 浅白 ∧ 敲声 ≠ 沉闷 ∧ 甜度 ≠ 低 → 好瓜

如果算法的归纳偏好是“适应情形尽可能少”，那么它会选择那些能够覆盖最少正例的假设。在这种情况下，算法可能会选择以下两个假设：

假设1：色泽 = 乌黑 ∧ 敲声 = 浊响 ∧ 甜度 = 高 → 好瓜
假设2：色泽 = 青绿 ∧ 敲声 = 清脆 ∧ 甜度 = 中 → 好瓜

这两个假设分别只覆盖了一个正例，因此它们满足“适应情形尽可能少”的要求。

（2）合理的设计归纳偏好

在存在噪声的情况下，假设空间中可能没有一个假设能完全匹配所有的训练样本。此时可以采用以下几种归纳偏好来选择合适的假设：

最小化错误率：选择使得预测错误率最低的假设。
最大化置信度：选择对正例和负例分类最准确的假设。
简化原则：选择最简单的假设，即参数最少或规则最简洁的假设。

这些归纳偏好可以帮助在有噪声的数据集中找到相对较好的假设。

第二题

问题描述

假设由同一数据分布采样得到两个样本集合 S1 和 S2：

S1 包含 6000 个数据样本；
S2 包含 120000 个数据样本。

每个样本集均按照 9:1 的比例随机划分为训练集和测试集。请按以下要求，在同一坐标系下清晰地绘制四条曲线，并标记每一条曲线：

对于每个样本集合，试画出该集合的训练误差曲线和测试误差曲线；纵轴为误差，横轴为模型复杂度。（5 分）
解释曲线为何这样画的原因，即解释不同曲线的变化趋势以及曲线间的高低位置关系。（5 分）

回答问题

1. 绘制曲线

对于每个样本集合，我们可以绘制两条曲线：训练误差曲线和测试误差曲线。纵轴表示误差，横轴表示模型复杂度。

S1 训练误差曲线
- 当模型复杂度较低时，训练误差较高。
- 随着模型复杂度增加，训练误差逐渐降低。
- 在某个点之后，训练误差开始趋于平稳。
S1 测试误差曲线
- 当模型复杂度较低时，测试误差也较高。
- 随着模型复杂度增加，测试误差先下降后上升。
- 最佳模型复杂度出现在测试误差达到最低点的位置。
S2 训练误差曲线
- 类似于 S1 的训练误差曲线，但整体误差更低。
- 随着模型复杂度增加，训练误差同样逐渐降低并趋于平稳。
S2 测试误差曲线
- 类似于 S1 的测试误差曲线，但整体误差更低。
- 随着模型复杂度增加，测试误差先下降后上升。
- 最佳模型复杂度出现在测试误差达到最低点的位置。

2. 曲线变化原因及位置关系

训练误差曲线：随着模型复杂度的增加，模型拟合能力增强，导致训练误差逐渐减小。当模型过拟合时，训练误差会趋于平稳。
测试误差曲线：随着模型复杂度的增加，测试误差先下降是因为模型泛化能力提高。然而，当模型过于复杂时，会出现过拟合现象，导致测试误差再次升高。
S1 和 S2 曲线比较：由于 S2 样本量更大，其训练误差和测试误差都会比 S1 更低。同时，S2 的最佳模型复杂度也会更高，因为更多的数据有助于避免过拟合。

通过以上分析，我们可以在同一坐标系下绘制出四条曲线，并解释它们的变化趋势及其相互之间的位置关系。

第三题

问题描述

试简述离群点的基本概念并列出三种应对策略

离群点的基本概念

离群点是指在一组数据中显著偏离其他观测值的异常值。这些值通常与其他数据点不一致，可能是由于测量错误、实验偏差或其他因素引起的。离群点的存在会影响数据分析的结果，因此需要对其进行识别和处理。

应对策略

以下是三种应对离群点的常见策略：

删除离群点：将离群点从数据集中移除是最直接的方法之一。这种方法适用于离群点数量较少且确信这些点是由于错误等原因产生的情况。删除离群点可以减少它们对统计结果的影响，使分析更加可靠。
修正离群点：如果确定了离群点的具体原因，可以通过修正方法将其调整到正常范围内。例如，如果是由于输入错误造成的，可以更正数据；如果是由于设备故障等技术问题导致的，可以重新进行测量。修正后的数据更能反映实际情况。
保留离群点并进行特殊处理：有些情况下，离群点可能包含了有价值的信息，不应简单地删除或修正。这时可以选择保留离群点，并在后续分析中对其特别关注。例如，使用稳健统计方法（如中位数代替平均值），或者在建模时引入变量来考虑离群点的影响。

这三种策略各有优缺点，具体应用应根据实际场景和研究目的来决定。正确处理离群点有助于提高数据分析的质量和可靠性。

第四题

问题描述

给定一个含有缺失值的西瓜数据集，其中前10个样本作为训练集，后5个样本作为验证集。数据集包括编号、色泽、敲击声音、根蒂和是否为好瓜五个属性。任务是在决策树的根节点处基于信息增益原则选择最优划分属性，并讨论预剪枝策略下的决策。

数据集

编号	色泽	敲击声音	根蒂	是否为好瓜
1	乌黑	浊响	蜷缩	是
2	-	沉闷	蜷缩	是
3	青绿	-	稍蜷	是
4	乌黑	浊响	蜷缩	是
5	青绿	清脆	稍蜷	是
6	浅白	清脆	硬挺	否
7	-	沉闷	-	否
8	浅白	清脆	硬挺	否
9	-	清脆	硬挺	否
10	青绿	-	-	否
11	青绿	浊响	稍蜷	是
12	浅白	清脆	稍蜷	是
13	乌黑	沉闷	蜷缩	是
14	浅白	沉闷	硬挺	否
15	青绿	清脆	稍蜷	否

回答

(1) 决策树的根节点处的选择

在决策树的根节点处，我们将基于信息增益原则来选择最优划分属性。首先，我们需要计算目标变量（是否为好瓜）的熵$ (H(\text{是否为好瓜}))，然后计算每个候选属性（色泽、敲击声音、根蒂）的信息增益。

计算 (H(\text{是否为好瓜}))

在训练集（前10个样本）中，有6个是好瓜（是），4个不是好瓜（否）。因此：

[ H(\text{是否为好瓜}) = -\left( \frac{6}{10} \log_2\frac{6}{10} + \frac{4}{10} \log_2\frac{4}{10} \right) ]

接下来，计算每个属性的信息增益。由于这里包含缺失值，处理缺失值的一种方法是忽略这些记录，或者用已有的数据估计缺失值。

信息增益计算

色泽：考虑色泽为乌黑、青绿、浅白的样本。
敲击声音：考虑敲击声音为浊响、清脆、沉闷的样本。
根蒂：考虑根蒂为蜷缩、稍蜷、硬挺的样本。

对于每一个属性，我们需要计算在该属性不同取值下的条件熵 (H(\text{是否为好瓜}|\text{属性}))，然后计算信息增益。

[ \text{信息增益}(\text{属性}) = H(\text{是否为好瓜}) - H(\text{是否为好瓜}|\text{属性}) ]

最终，选择信息增益最大的属性作为根节点的划分属性。

(2) 预剪枝策略下的决策

预剪枝是一种在决策树生长过程中就进行修剪的方法，以防止树变得过于复杂而造成过拟合。预剪枝可以通过设置一些停止条件来实现，比如：

最小样本数：当节点中的样本数低于某个阈值时停止分裂。
信息增益阈值：当信息增益小于某个阈值时停止分裂。
最大深度：限制决策树的最大深度。
纯度：如果节点中的样本几乎全部属于同一类，则不需要进一步分裂。

在本例中，可以设置一个最小样本数或信息增益阈值。如果根节点的信息增益不高，或者根节点下的样本数量不足以支持进一步分裂，那么可以决定不再进行分裂，从而实现预剪枝的效果。

综上所述，在决策树的根节点处，根据信息增益来选择最优划分属性，并通过设置适当的预剪枝条件来控制树的生长，以防止过拟合。具体的预剪枝参数需要根据实际情况和经验来设定。

第五题

题目要求设计一种高效、合理的方案，利用m台机器实现分布式聚类算法。具体来说，需要考虑如何将数据样本划分到每台机器上，并且如何汇总处理每台机器的计算结果。

设计方案

1. 数据划分

随机划分：将所有数据样本随机分配给m台机器。这样可以确保每台机器的数据量大致相同。
特征维度划分：如果数据样本的特征维度p较大，可以考虑按照特征维度进行划分。例如，将每个特征维度平均分配给不同的机器，使得每台机器只处理一部分特征。

2. 计算过程

局部聚类：在每台机器上独立运行聚类算法（如K-means），得到初步的簇中心和簇成员信息。
中间结果同步：将各台机器上的簇中心信息发送到一台主控机（Master）上。主控机收集所有的簇中心信息，并根据这些信息更新全局的簇中心。
迭代优化：重复上述步骤，直到簇中心不再显著变化或达到预设的最大迭代次数。

3. 结果汇总

主控机根据最终的簇中心信息，对整个数据集进行重新分配，确定每个样本所属的簇。
将最终的聚类结果返回给用户。

示例流程

假设我们有m台机器，数据样本为D，特征维度为p，簇类别数为k。

初始化：
- 随机选择k个初始簇中心。
- 将数据样本随机划分为m份，分别存储在m台机器上。
本地聚类：
- 每台机器执行以下操作：
  - 使用当前的簇中心对本地数据进行聚类。
  - 更新本地的簇中心。
同步与更新：
- 各台机器将自己的簇中心信息发送给主控机。
- 主控机收集所有簇中心信息，计算新的全局簇中心。
- 将新的全局簇中心广播给所有机器。
迭代优化：
- 重复步骤2和步骤3，直到簇中心收敛或达到最大迭代次数。
结果汇总：
- 根据最终的簇中心，对整个数据集进行重新分配，确定每个样本所属的簇。
- 返回聚类结果。

通过这种方式，可以在多台机器上并行地执行聚类任务，有效地处理大数据场景下的聚类问题。

第六题

问题

六、Boosting 算法是一种常用的集成算法，试回答以下问题。（20 分）

（1）试描述 Boosting 算法的基本概念。（4 分）

（2）AdaBoost 是 Boosting 中最具代表性的算法，试描述 AdaBoost 算法是如何实现的。（10 分）

（3）AdaBoost 算法通常有如下 2 个局限性：
- 当基学习器的精度小于 50%时，AdaBoost 算法将不能正常运行，试其分析原因。（3 分）
- AdaBoost 算法易受离群点的干扰，试简要描述一种可以减少该干扰的方法。（3 分）

回答

（1）Boosting 算法的基本概念

Boosting 是一种集成学习方法，通过组合多个弱分类器来构建一个强分类器。基本思想是迭代地训练一系列弱分类器，并在每次迭代中调整数据样本的权重分布，使得后续的弱分类器更加关注之前被错误分类的样本。

（2）AdaBoost 算法如何实现

AdaBoost（Adaptive Boosting）算法的具体步骤如下：

初始化所有样本的权值相等。
对于每个弱分类器：
- 训练一个弱分类器。
- 根据弱分类器的误差率计算其权重。
- 更新样本的权值：正确分类的样本权值减小，错误分类的样本权值增加。
将所有弱分类器按照它们的权重进行加权投票，得到最终的强分类器。

（3）AdaBoost 的局限性及解决方法

当基学习器的精度小于 50%时，AdaBoost 算法将不能正常运行

原因：如果基学习器的精度低于 50%，意味着它比随机猜测还要差，此时 AdaBoost 算法会不断放大这些错误分类样本的权值，导致整体性能下降甚至发散。
AdaBoost 算法易受离群点的干扰

解决方法：使用剪枝技术或对异常值进行预处理。例如，可以通过设置阈值来识别和移除离群点，或者采用其他鲁棒性更强的学习算法作为基学习器。另一种方法是在训练过程中动态调整离群点的权值，使其影响最小化。