datawhale AI夏令营第五期深度学习入门 Task1 了解机器学习

news2025/4/17 12:07:04

机器学习基础

定义

学习一般是只有人才具备的能力，机器学习就是通过某种方式让机器具备人才有的学习能力，这里的某种方式是机器具备找一个函数的能力

比如说证件照背景颜色更换，那么机器需要找到图片中的背景在哪里，再替换成目标背景颜色
即输入是图片，输出也是图片

回归

即输出是数值，就比如说预测一下下个星期一的温度，这个就是一个数值（标量）

分类

即从给出的选项中选出一个作为输出，比如说判断一张图片是否是AI生成的，选项就只有两个，是或者不是

结构化学习

即输出一个有结构的物体，就比如文生图

案例

以视频的点击次数预测为例，听说过微信视频赚钱把，就是流量曝光

假设后台可以看到如下信息

每天点赞的人数
订阅的人数
观看次数

现在要找到一个函数，该函数的输入是后台的信息，输出是次日所有的总观看的次数

step 1: 写出函数表达式

假设是一次函数

$y = wx_{1}+b$

y是今天总共的观看次数
$x_{1}$ 是这个频道的昨天的总共观看次数

已知 y和 $x_{1}$ ,找b和w，当然不是让你瞎找，瞎猜，要合理的猜测，就这个而言，提出一个猜想

设今天的观看次数是today,昨天的观看次数是yesterday, 再加上一个修正值 adjust,因为事实可能是和我们的猜想一致，但存在一定差异，得到下面的
$\times w +adjust$
这个和之前的 $y = wx_{1}+b$ 一致，w称之为权重，b称之为偏置

模型：含有未知的参数，机器学习中就是一个带有未知的参数的函数
特征：即再函数中已知的信息，来自后台的信息

steps2: 定义损失

这里的损失可以理解为预测结果与实际结果之间的差距
由于需要根据已有的东西去猜测未知的东西，那么如何定义这一组数值优劣情况呢？答案是用函数来定义
在这里插入图片描述

$y = wx_{1}+b$

y是今天总共的观看次数
$x_{1}$ 是这个频道的昨天的总共观看次数

假设w=1，b=200
那么将2017年1月1日的观看次数代入得
$y^{'}=200+x_{1}$ ,将 $x_{1}=4800$ 代入得 $y^{'}=200+4800=5000$ ,但真实得结果是4900，那么预测结果与真实结果直接的差值是100（记作 $e_{1}$ ），以此类推，用1月2日的值来预测1月3日的值，值是5100，差值为2400(记作 $e_{2}$ )，依次类推，将三年的误差算出来，再算一个平均值，公式如下
$L=\frac{1}{N}\sum\limits_{n}^{}e_n$