目前,在机器学习系统中,监督学习(Supervised Learning)占主导地位。由于监督学习的任务定义明确,例如识别垃圾邮件或预测降水,因此它比无监督学习具有更多潜在用例;而与强化学习相比,监督学习更好地利用历史数据。
监督机器学习基于以下核心概念:
- 数据
- 模型
- 训练
- 评估
- 推理
目录
1.数据
1.1 数据集特征
2.模型
3.训练
4.评估
5.推理
6.参考文献
1.数据
数据是机器学习的驱动力。数据以单词和数字的形式存储在表格中,或者以图像和音频文件中捕获的像素值和波形的形式出现。我们将相关数据存储在数据集中。例如,我们可能有以下数据集:
- 猫的图像
- 房价
- 天气信息
数据集由包含 特征 和 标签 的单个示例组成 。我们可以将示例简单地看作电子表格中的单行。特征是监督模型用来预测标签的值。标签是 “答案”,或者我们希望模型预测的值。在预测降雨的天气模型中,特征可以是 纬度、经度、温度、 湿度、云量、风向 和气压,标签则是降雨量。同时包含特征和标签的示例称为 带标签示例。
两个带标签的例子
相反,未标记的示例包含特征,但没有标签。创建模型后,模型会根据特征预测标签。
两个未标记的示例
1.1 数据集特征
数据集的特征在于其 大小 和 多样性。大小表示示例的数量。多样性表明了这些例子所涵盖的范围。好的数据集既大又高度多样化。这很好理解,以刷题为例,刷的题数量越多、类型越丰富,考试的时候取得好成绩的可能性越大。
一些数据集既庞大又多样化。然而,有些数据集很大但多样性较低,有些数据集较小但多样性很高。换句话说,大数据集并不能保证足够的多样性,而高度多样化的数据集也不能保证有足够的示例。例如,数据集可能包含 100 年的数据,但仅包含 7 月份的数据。使用此数据集来预测一月份的降雨量会产生糟糕的预测。相反,数据集可能只涵盖几年,但包含每个月。该数据集可能会产生较差的预测,因为它没有包含足够的年份来解释变异性。
2.模型
在监督学习中,模型是复杂的数字集合,定义从特定 输入特征 模式到 特定输出标签值 的 数学关系。该模型通过训练发现这些模式。
3.训练
在监督模型进行预测之前,必须对其进行训练。为了训练模型,我们为模型提供带有标记示例的数据集。该模型的目标是找出从特征预测标签的最佳解决方案。该模型通过将其预测值与标签的实际值进行比较来找到最佳解决方案。根据预测值和实际值之间的差异(定义为损失-Loss),模型逐渐更新其解决方案。换句话说,模型学习特征和标签之间的数学关系,以便可以对看不见的数据做出最佳预测。
例如,如果模型预测 1.15英寸
会下雨,但实际值为 0.75 英寸
,则模型会修改其解,使其预测更接近 0.75 英寸
。在模型查看数据集中的每个示例(在某些情况下多次)后,它会得出一个解决方案,平均对每个示例做出最佳预测。下面演示了模型的训练:
1.该模型采用单个标记示例并提供预测。
图1 根据标记示例进行预测的 ML 模型
2.该模型将其预测值与实际值进行比较并更新其解决方案。
图2 更新其预测值的 ML 模型
3.该模型对数据集中的每个标记示例重复此过程。
图3 机器学习模型更新其对训练数据集中每个标记示例的预测
如此一来,模型逐将会渐学习到 特征 和 标签 之间的正确 关系。这种逐步的理解也是大型且多样化的数据集产生更好模型的原因。该模型看到了更多具有更广泛值的数据,并完善了对特征和标签之间关系的理解。
在训练期间,机器学习从业者可以对模型用于进行预测的配置和功能进行细微调整。例如,某些特征比其他特征具有更强的预测能力。因此,机器学习从业者可以选择模型在训练期间使用哪些特征。例如,假设天气数据集包含 “时间”特征,机器学习从业者可以在训练期间添加或删除 “时间”,以查看模型在使用或不使用它时是否能做出更好的预测。
4.评估
我们评估经过训练的模型以确定其学习效果。当我们评估模型时,我们使用带标签的数据集,但我们只为模型提供数据集的特征。然后,我们将模型的预测与标签的真实值进行比较。
图4 通过将预测与实际值进行比较来评估 ML 模型
根据模型的预测,在将模型部署到实际应用程序中之前,我们可能会进行更多的训练和评估。
5.推理
一旦我们对模型的评估结果感到满意,我们就可以使用该模型对未标记的示例进行预测,称为推断。在天气应用程序示例中,我们将为模型提供当前的天气条件(例如温度、大气压力和相对湿度),它会预测降雨量。
6.参考文献
本文部分内容翻译自英文资料(链接-https://developers.google.cn/machine-learning/intro-to-ml/supervised),感兴趣的读者可以通过链接查看原文。