李宏毅机器学习第一课(结尾附作业模型详细分析)

news2024/12/23 6:56:09

机器学习就是让机器找一个函数f,这个函数f是通过计算机找出来的

如果参数少的话,我们可以使用暴搜,但是如果参数特别多的话,我们就要使用Gradient Descent

Regression (输出的是一个scalar数值)

Classification (在设定好的选项,两个或者多个,中做出选择)

Structured Learning (画一张图,写一段文字,让机器学会创造)

机器人寻找一个函数式子有三个步骤

一:function with unknow parameters

我们需要基于domain knowledge 来猜测确定一个函式,这个函数就是model

feature x 是我们已经知道的数据 , weight w、 bias b 是未知的参数 , label 是一个正确的数值

hyper parameters是我们在机器学习的时候,我们自己设置的参数

y = b + wx

二:Difine Loss

本质上也是一个function ,输入是上面b和w,输出的值代表输入的b和w好还是不好

label是真实的数据

我们根据y = b + wx来预测数据,和label之间的差距取一个绝对值

然后吧每一组数据都计算y^ ,然后加总求一下平均值

97aeecd1cf5c40be87a0c7e747d961fe.png

e = |y - y^| 如果用这种方式来计算的话, L is mean absolute err (MAE)

044cca21d75a44929e4439c2904847a9.png

具体用哪一种函数来衡量这一组参数的好坏,取决于对问题的本质的理解

Error Surface 是等高线图,是尝试了多个w和b之后的结果

三:Optimization

是找一个最好的w和b,叫做w*和b* ,用到的方法是Gradient Descent,

435523ff130242c5b09eef6be2c34d20.png

假设现在只有一个参数

22c91689f1fe48808959ff8056ef1b2e.png

假设现在有两个参数,和之前一个参数其实一样的

4d58029418c649449dff577d06a2f8e5.png

上面三个步骤,是在做机器学习的训练

我们之后还需要做预测

训练的数据和预测的数据做一个对比,发现后者的loss比前者的loss大,这说明,我们在预测已经存在的数据的效果比较好,但是预测未知的数据效果比较差

我们需要修改模型,对模型的修改,往往来自于对问题本质的理解,我们修改了模型,让分别考虑前七天,前28天,前56天等等

15e27d7d22354b8abd4b8d7a1a402b1e.png

 

model bias

上面的所有模型都是Linear model ,也许Linear模型过于简单,我们可以修改w,修改b,但是模型始终都是一条直线,我们始终无法实现红色的这种模型

c22c054994084982bdd36a0aeb86407d.png

Linear models本质是一条线性直线,但是很多问题不是Linear models,Linear models 有很大的限制,来自于model的限制叫做model bias

piecewise Linear Curves

我们可能是想要piecewise Linear Curves (分段线性曲线:一种由多个线性部分组成的曲线,每个部分都是线性的,但整体上可能不是线性的),我们其实可以通过下面的方式达到这种效果,我们可以是所有一系列 下面蓝色的function

6da9eea75c2e45c1ba7d63d33e6218dd.png

再也许piecewise Linear 也无法满足我们模型的需求了,我们想要的是曲线,如下图所示

ba6cfbfa6cfd41fa94f312d84df95eb6.png

piecewise Linear Curves 足够多,可以逼近曲线,此时所有的 piecewise Linear 虽然是直线,但是已经达到了曲线的效果

那这个蓝色的function (Hard Sigmod)是什么呢? 如何把蓝色的function写出来呢?

其实就是用sigmoid函数来逼近蓝色的function

ec71e0b6b90944c5bcc377c19452d212.png

我们需要各种各样的蓝色的function,那我们可以通过调整b和w来实现

64c0fd4ce7a54bb2af3d5920ed6a8540.png

所以,我们需要一个红色的function,就可以通过下面的方式来实现,同时我们既然实现了红色的function,我们可以实现和红色类似的曲线(Continuous)

d4f20080c53842dc8af669554b1410ad.png

所以,我们解决了model bias的问题

2a1c62c957b142ff9e191fa13cfa753c.png

如何计算这个式子呢?

d5464df4bcf340458affa33d6dd8cb0f.png

用线性代数的表示方式表示如下:

输出=w1​⋅x1​+w2​⋅x2​+…+w8​⋅x8​+偏置项

b0c7c7229315406ab61990dabfd0d4a8.png

最后总的表示一下

9095a4ae47794bb68553a7f453611b83.png

这里面,除了x是feature,其他都是未知的参数,我们使用线性代数的方式来统一表示

f13a8b176b8a4d489909391d49720974.png

模型定义解决了,接下来是第二步定义Loss function,跟之前是一模一样的

55101e00f09f4c2582a0b480d968394c.png

第三部optimization ,也是一模一样

da07221500d944bfad722b7033ca38ab.png

d79c75bd6e7d420b9219e80de1fb508d.png

Batch 、 Epoch

我们在之前计算loss的时候,是把所有的data都参与进去,但是现在的话,我们是把data分成 L 笔,每一笔就是一个batch ,每个batch都计算loss,每次根据计算出来的loss然后对当前参数进行微分,一直把所有的batch完成,这就是一个epoch,一个epoch中会update N / B = L次参数

44bacbc439624b2598038b481e6513a2.png

我们刚才是使用sigmoid函数来模拟蓝色的function ( hard sigmoid ),多个hard sigmoid 叠加, 从而实现红色的function

但是 这个蓝色的function ,也可以不用sigmoid函数模拟,我们可以使用 两个Rectified Linear来实现蓝色的function

c1ec5c32ed9c4c11b0046af595cb9b3e.png

92fbb5a774b545569f14eea18f8e23c2.png

Activation Function : Relu和sigmoid

ReLU和sigmoid那个好呢? 后续会讲解

我们使用1000个Relu函数之后,就可以实现很复杂的函数,效果会有改善

Deep Learning

深度学习,我们计算出来的a,我们再把a重新放入函数中,再计算很多次

a782da4425884509b16ddf83df908b94.png

Overfitting 

Better on training data, worse on unseen data

 

作业一的模型

self.layers = nn.Sequential(
            # 这个地方函数都是有参数的, 只是没有写出来
            # y[0] = weight[0][0] * x[0] + weight[0][1] * x[1] + ... + weight[0][input_dim - 1] * x[input_dim - 1] + bias[0]
            # y[1] = weight[1][0] * x[0] + weight[1][1] * x[1] + ... + weight[1][input_dim - 1] * x[input_dim - 1] + bias[1]
            # ...
            # y[15] = weight[15][0] * x[0] + weight[15][1] * x[1] + ... + weight[15][input_dim - 1] * x[input_dim - 1] + bias[15]
            # 类似于视频中YouTube观看人数预测,如果考虑七天,input_dim就是7,如果考虑28天,input_dim就是28
            nn.Linear(input_dim, 16),  # 这个是一个线性层
            # 对于每个输出维度y[i](其中 i是从0到15的索引),ReLU激活函数将执行以下操作:
            # y[i] = max(0, y[i])
            nn.ReLU(),  # 激活函数,我们可以对上面的结果进行Relu操作
            nn.Linear(16, 8),
            nn.ReLU(),
            # 具体地,线性映射通过一个权重矩阵和一个偏置项来实现,将每个输入维度与相应的权重相乘,然后将结果相加,再加上偏置项。
            nn.Linear(8, 1)  # 因为我们最终是要预测一个数字结果,所以这个地方要是一维的
            # 视频上面预测Youtube人数,就是nn.Linear(3,1),视频上面直接就是输出的一维结果
        )

nn.Linear(input_dim, 16),为什么要输出16维度的结果?

input_dim就对应视频中的考虑7天,28天,56天等等

16 代表输出的是一个16维度的结果  ,这个就是我们自己设置了

Linear 里面有很多的weight参数和一个bias参数,这些我们看不到,但是pytroch帮我们做好了,机器学习就是在找这些参数。

chatgpt回复:是的,你可以将模型中的16更改为32,以增加隐藏层的维度。这将增加模型的复杂性,并有可能提高其性能,尤其是在处理更复杂的数据或任务时。但请注意,增加隐藏层维度也会增加模型的计算复杂度,因此你可能需要更多的数据来训练模型,以避免过拟合。

你可以像这样更改模型的隐藏层维度:

self.layers = nn.Sequential( 
  nn.Linear(input_dim, 32), # 将16更改为32 
  nn.ReLU(), 
  nn.Linear(32, 8), # 这里也需要相应地更改输入和输出维度 
  nn.ReLU(),
  nn.Linear(8, 1)
 )

记得根据你的数据和任务来调整模型的参数,以获得最佳性能。如果你的数据集较小,你还可以考虑使用正则化技巧来防止过拟合。

 

隐藏层的维度通常是根据你的具体问题和数据来确定的,而不是一个固定的数值。选择隐藏层维度通常是深度学习模型设计中的一个超参数,需要进行调优。

 

 

Relu函数起到了什么作用?

后面就一个ReLU函数,引入非线性,这一个Relu函数,能作用于Linear的多个输出,对每个维度的输出都做sigmoid,也就是说,每个维度上面都会进行非线形的操作。738644842de44534b2d18820fa86b512.png

 

nn.Linear(16, 8)  和 nn.ReLU()的作用?

深度学习,deep learning ,能让效果变好,为什么?不要问,反正能变好

nn.Linear(8, 1) 的作用?

我们最后是要输出一个发病率数字,所以需要把最后的多个维度的输入变成一个维度的输出

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1050401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

dart flutter json 转 model 常用库对比 json_serializable json_model JsonToDart

1.对比 我是一个初学者,一直跟着教材用原生的json,最近发现实在太麻烦了.所以搜索了一下,发现真的有很多现成的解决方案. 网页 https://app.quicktype.io/?ldart 这个是测试下来最好用的 有很多选项,可以使用 json_serializable 也可以不使用 json_serializable 这是推荐最…

【模拟实现C语言库函数】atoi的模拟实现

#include <stdio.h> #include <assert.h> #include <string.h> #include <math.h> int my_atoi(const char* str) {assert(str);size_t len strlen(str);size_t j len - 1;// 个位&#xff08;1234中的4&#xff09;int ret str[j--] - 0;// 十位百…

基于PySide6的GUI程序开发全流程(看完就会)

本文详细记录了从零到一开发一个GUI程序的过程&#xff0c;想学PySide6的入门文章不二之选&#xff1b; 1 前言 1.1 开发框架的选择 GUI程序的开发方式太多了&#xff0c;这里肯定就是Python语言了&#xff0c;至于为什么&#xff0c;就不多描述了&#xff1b; 那么基于Pyth…

YOLov5 分割数据集的制作(详细过程+代码)

1.labelme 的使用 每张图片会对应生成一个&#xff1a; 以上已经画好所有的数据集&#xff08;&#xff01;&#xff01;&#xff09; 2.这里介绍一下如果都是没有变化的数据集&#xff0c;标签的位置都一样&#xff0c;如何批量生成这个数据集 我们先将第一个数据集复制2275…

红队打靶:THE PLANETS: MERCURY打靶思路详解(vulnhub)

目录 写在开头 第一步&#xff1a;主机发现和端口扫描 第二步&#xff1a;Web渗透 第三步&#xff1a;获取初步立足点并搜集信息 第四步&#xff1a;软连接劫持sudo提权 总结与思考 写在开头 本篇博客在自己的理解之上根据大佬红队笔记的视频进行打靶&#xff0c;详述了…

C2. Powering the Hero (hard version)

题目&#xff1a;样例&#xff1a; 输入 5 5 3 3 3 0 0 6 0 3 3 0 0 3 7 1 2 3 0 4 5 0 7 1 2 5 0 4 3 0 5 3 1 0 0 4输出 6 6 8 9 4 思路&#xff1a; 贪心思维题&#xff0c;这道题要求的是一张一张的凑卡牌&#xff0c;凑到的是力量赋值卡就存储好&#xff0c;抽到 0 就是英…

智能驾驶、智能家居、智能工业中的 AI 关键基础设施,半导体厂商恩智浦的角色是什么?

我们来看一条七年前的真实新闻报道&#xff0c;2016 年《福布斯》在报道中提到“2020 年会有 1000 万台的自动驾驶汽车”。然而 2023 年的现在&#xff0c;真正实现 L4 级别自动驾驶的汽车&#xff0c;仍然远远没有达到这个预测的数量。 另一边&#xff0c;数据显示&#xff0c…

递归实例:汉诺塔问题(n个圆盘3个柱子abc 一次动一个盘子)

实例&#xff1a;汉诺塔问题 n个圆盘3个柱子abc 一次动一个盘子 把上面n-1个盘看成一个整体&#xff0c;下面1个盘看成一个整体 n-1盘经过c移动到b第n盘到cn-1盘经过a到c 1 3步就是小一规模的汉诺塔 移动次数递推式 h(x)2h(x-1)1 def hanoi(n, a, b, c):if n > 0:hano…

Flutter笔记:AnimationMean、AnimationMax 和 AnimationMin 三个类的用法

Flutter笔记 AnimationMean、AnimationMax 和 AnimationMin三个类的用法 作者&#xff1a;李俊才 &#xff08;jcLee95&#xff09;&#xff1a;https://blog.csdn.net/qq_28550263 邮箱 &#xff1a;291148484163.com 本文地址&#xff1a;https://blog.csdn.net/qq_28550263/…

第1篇 目标检测概述 —(3)YOLO系列算法

前言&#xff1a;Hello大家好&#xff0c;我是小哥谈。YOLO&#xff08;You Only Look Once&#xff09;系列算法是一种目标检测算法&#xff0c;主要用于实时物体检测。相较于传统的目标检测算法&#xff0c;YOLO具有更快的检测速度和更高的准确率。YOLO系列算法的核心思想是将…

织梦CMS采集插件-DEDE插件大全

在如今充满信息爆炸的互联网时代&#xff0c;维护一个具有吸引力和活力的网站或博客是一项具有挑战性的任务。对于那些使用织梦CMS建立网站的用户来说&#xff0c;如何持续不断地更新内容以吸引访问者成为了一个突出的问题。 什么是织梦CMS自动采集插件&#xff1f;这些插件是为…

【数据结构】【C++】哈希表的模拟实现(哈希桶)

【数据结构】&&【C】哈希表的模拟实现(哈希桶&#xff09; 一.哈希桶概念二.哈希桶模拟实现①.哈希结点的定义②.数据类型适配③.哈希表的插入④.哈希表的查找⑤.哈希表的删除⑥.哈希表的析构 三.完整代码 一.哈希桶概念 哈希桶这种形式的方法本质上是开散列法&#x…

常用压缩解压缩命令

在Linux中常见的压缩格式有.zip、.rar、.tar.gz.、tar.bz2等压缩格式。不同的压缩格式需要用不同的压缩命令和工具。须知&#xff0c;在Linux系统中.tar.gz为标准格式的压缩和解压缩格式&#xff0c;因此本文也会着重讲解tar.gz格式压缩包的压缩和解压缩命令。须知&#xff0c;…

26667-2021 电磁屏蔽材料术语 学习笔记

声明 本文是学习GB-T 26667-2021 电磁屏蔽材料术语. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本文件界定了0 Hz&#xff5e;500GHz 频率范围内具有电磁屏蔽作用的材料的术语和定义。 本文件适用于电磁屏蔽材料领域及相关的设备、人体和…

[C++ 网络协议] 异步通知I/O模型

1.什么是异步通知I/O模型 如图是同步I/O函数的调用时间流&#xff1a; 如图是异步I/O函数的调用时间流&#xff1a; 可以看出&#xff0c;同异步的差别主要是在时间流上的不一致。select属于同步I/O模型。epoll不确定是不是属于异步I/O模型&#xff0c;这个在概念上有些混乱&a…

数据安全:文件分析

什么是文件分析 文件分析是在组织的文件存储库中扫描、报告和处理文件安全性和存储的过程。文件安全性分析处理检查文件的位置、所有权和权限安全。文件存储分析包括检测结构化和非结构化数据&#xff0c;以及存储容量规划&#xff0c;由于对暗数据的担忧日益增加&#xff0c;…

基于Java的音乐网站管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图详细视频演示为什么选择我自己的网站自己的小程序&#xff08;小蔡coding&#xff09;有保障的售后福利 代码参考源码获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者&…

【MATLAB源码-第35期】matlab基于lms算法的陷波器仿真,估计误差,估计频率。

1、算法描述 1. LMS算法&#xff1a; LMS&#xff08;Least Mean Square&#xff09;算法是一种自适应滤波算法。其核心思想是通过最小化输入信号和期望响应之间的均方误差来调整滤波器的权重。 LMS算法的更新公式为&#xff1a;w(n1)w(n)μe(n)x(n) 其中&#xff0c; w(n) …

OSPF基础

OSPF&#xff1a;开放式最短路径优先协议 无类别IGP协议&#xff1a;链路状态型(LS) 基于LSA收敛&#xff0c;故更新量较大&#xff0c;在大中型网络正常工作&#xff0c;需要进行结构化部署---区域划分&#xff0c;IP地址规划 组播更新----224.0.0.5 224.0.0.6 支持等开销…