Datawhale X 李宏毅苹果书 AI夏令营入门 Task1-机器学习

news2024/11/13 12:48:08

机器学习基础

机器学习：机器具备有学习的能力/让机器具备找一个函数的能力。比如语音识别、图像识别、

机器学习有不同的类别。
1）回归：假设要找的函数的输出是一个数值/标量，这种机器学习的任务称为回归。
2）分类：分类任务要让机器做选择题。人类先准备好一些选项，这些选项称为类别。
3）结构化学习：机器不只是要做选择题或输出一个数字，而是产生一个有结构的物体，比如让机器画一张图，写一篇文章。这种叫机器产生有结构的东西的问题称为结构化学习。

案例分析-视频的点击次数预测

机器学习流程

1）构建模型
写出一个带有未知参数的函数（模型），用于预测未来观看次数。
例如， $y = b + wx_1$ ，其中 y 是预测的观看次数， $x_1$ 是前一天的观看次数，b 和 w 是未知参数。
其中，带有未知的参数的函数称为模型。特征 $x_1$ 是这个函数里面已知的，而 w 跟 b 是未知的参数。w 称为权重，b 称为偏置。
2）定义损失函数
损失函数用于评估模型预测值与实际值之间的差异。
例如，如果 b = 500 和 w = 1，则预测函数为 $y = 500 + x_1$ 。
计算每一条记录的预测值与实际值之间的差距，并求平均值得到损失。
3）最优化
使用梯度下降算法来调整模型参数，以最小化损失函数。
初始参数随机选取，然后根据损失函数的梯度来更新参数。
更新规则为： $w1 ← w0 - η ∂L/∂w | w=w_0$ ，其中 η 是学习率。
梯度下降过程中可能遇到局部最小值，但这通常不是一个严重的问题。
4）结果
在训练数据上找到了最佳参数 w* = 0.97, b* = 100。
使用这些参数得到的平均误差约为 480。
在未见过的数据上（2021年的数据），模型的误差为 0.58。