机器学习概括

news2026/2/11 5:05:02

文章目录

一、机器学习是什么？
二、模型训练
- YouTube流量预测
- - 1. 先写一个具有未知参数的函数（Function）
  - 2. 定义损失（从训练数据进行计算）
  - 3.最优化
  - 4.结果分析
- Back to framework
- - 1.带有未知数的函数：
  - 2.定义损失（从训练数据进行计算）
  - 3. 最优化
  - 4.激活函数
  - 5.继续改我们的模型
三、Neural Network

一、机器学习是什么？

机器学习≈找一个函数
在这里插入图片描述

这个函数不是人能容易的找出来，需要借助机器的力量。
在这里插入图片描述
不同的函数：

回归（Regression）:函数输出一个标量。eg.对PM2.5的预测：

对PM2.5的预测

分类（Classification）:给定选项(类)，函数输出正确的选项。eg1二分类.是否为垃圾邮件：

eg2多分类.下围棋：

二、模型训练

训练：

先写一个具有未知参数的函数（Function）
定义损失（从训练数据进行计算）
最优化

YouTube流量预测

有没有可能找一个函数，输入是这个频道后台的数据，输出隔天的总点阅率？
在这里插入图片描述
机器学习找这个函数分为三个过程，以 YouTube流量预测为例。

1. 先写一个具有未知参数的函数（Function）

先猜测函数的类型
在这里插入图片描述

2. 定义损失（从训练数据进行计算）

损失是一个关于参数的函数
在这里插入图片描述
函数输入的值代表：这一组参数设定某一组数值，这个数值是好还是不好。

同样的方法，我们可以算出三年来每一天的预测误差。

接下来我们把三年的误差求平均。

L越小参数设置越好，越大越不好。

计算误差有很多方式，根据需求选取。
在这里插入图片描述
如果真实值与预测值是概率分布，可能选择交叉熵损失。

误差曲面：
在这里插入图片描述

3.最优化

找一组参数是的L最小
在这里插入图片描述

为此我们使用梯度下降（gradient decent）

简化过程，一个参数的gradient decent：
在这里插入图片描述

随机选取初始点 $w_0$
计算 $\frac{\partial L}{\partial w}|_{w=w_0}$ 。（就是看左右哪边高，向低的跨步）
若求出为负值（左高右低的切线），增大w，loss就变小；若求出为正值（左低右高的切线），减小w，loss就变大。
步子跨多大，取决于：1.斜率（斜率大就跨大一点），2学习率（自己设定的）
更新迭代w

当 $\frac{\partial L}{\partial w}|_{w=w_0}$ 计算为0就不在更新了。

有可能梯度下降会陷入局部最优
在这里插入图片描述

局部最小值真的会导致问题吗？（后面会说gradient decent的真正痛点）

两个参数的gradient decent：
在这里插入图片描述

随机选取初始点 $w_0，b_0$
计算 $\frac{\partial L}{\partial w}|_{w=w_0，b=b_0}，\frac{\partial L}{\partial b}|_{w=w_0, b=b_0}$ 。（就是看左右哪边高，向低的跨步）
若求出为负值（左高右低的切线），增大w，loss就变小；若求出为正值（左低右高的切线），减小w，loss就变大。
步子跨多大，取决于：1.斜率（斜率大就跨大一点），2学习率（自己设定的）
更新迭代w

在深度学习中，微分应该怎么算？ ---- 程序会自己算

4.结果分析

在这里插入图片描述
能否做的更好？

从图中看出，7天一个循环。我们分别考虑2017-2020的前1、7、18、56天，对2021年的某一天的影响。我们采用的是Linear Model。

在这里插入图片描述
线性模型太简单了… 我们需要更复杂的模式。

线性模型具有严重的局限性。模型偏差我们需要一个更灵活的模式!

在这里插入图片描述

所有分段的线性曲线可以可以由常数与一系列蓝色Function组成。

在这里插入图片描述
转折越多，越复杂，需要的蓝色Function就越多。

如果不是分段曲线，而是连续曲线，我们可以使用分段线性曲线去逼近。
在这里插入图片描述
如何表示蓝色的Function呢？

我们可以使用 $y=c\frac{1}{1+e^{-(b+w_1x)}}$ :

Sigmoid Function(S型曲线）:
$c*sigmoid(b+w_1x) = c\frac{1}{1+e^{-(b+w_1x)}}$