李宏毅机器学习第一课

news2025/1/23 22:34:10

机器学习就是让机器找一个函数f,这个函数f是通过计算机找出来的

如果参数少的话,我们可以使用暴搜,但是如果参数特别多的话,我们就要使用Gradient Descent

Regression (输出的是一个scalar数值)

Classification (在设定好的选项,两个或者多个,中做出选择)

Structured Learning (画一张图,写一段文字,让机器学会创造)

机器人寻找一个函数式子有三个步骤

一:function with unknow parameters

我们需要基于domain knowledge 来猜测确定一个函式,这个函数就是model

feature x 是我们已经知道的数据 , weight w、 bias b 是未知的参数 , label 是一个正确的数值

hyper parameters是我们在机器学习的时候,我们自己设置的参数

y = b + wx

二:Difine Loss

本质上也是一个function ,输入是上面b和w,输出的值代表输入的b和w好还是不好

label是真实的数据

我们根据y = b + wx来预测数据,和label之间的差距取一个绝对值

然后吧每一组数据都计算y^ ,然后加总求一下平均值

e = |y - y^| 如果用这种方式来计算的话, L is mean absolute err (MAE)

具体用哪一种函数来衡量这一组参数的好坏,取决于对问题的本质的理解

Error Surface 是等高线图,是尝试了多个w和b之后的结果

三:Optimization

是找一个最好的w和b,叫做w*和b* ,用到的方法是Gradient Descent,

假设现在只有一个参数

假设现在有两个参数,和之前一个参数其实一样的

上面三个步骤,是在做机器学习的训练

我们之后还需要做预测

训练的数据和预测的数据做一个对比,发现后者的loss比前者的loss大,这说明,我们在预测已经存在的数据的效果比较好,但是预测未知的数据效果比较差

我们需要修改模型,对模型的修改,往往来自于对问题本质的理解,我们修改了模型,让分别考虑前七天,前28天,前56天等等

model bias

上面的所有模型都是Linear model ,也许Linear模型过于简单,我们可以修改w,修改b,但是模型始终都是一条直线,我们始终无法实现红色的这种模型

Linear models本质是一条线性直线,但是很多问题不是Linear models,Linear models 有很大的限制,来自于model的限制叫做model bias

piecewise Linear Curves

我们可能是想要piecewise Linear Curves (分段线性曲线:一种由多个线性部分组成的曲线,每个部分都是线性的,但整体上可能不是线性的),我们其实可以通过下面的方式达到这种效果,我们可以是所有一系列 下面蓝色的function

再也许piecewise Linear 也无法满足我们模型的需求了,我们想要的是曲线,如下图所示

piecewise Linear Curves 足够多,可以逼近曲线,此时所有的 piecewise Linear 虽然是直线,但是已经达到了曲线的效果

那这个蓝色的function (Hard Sigmod)是什么呢? 如何把蓝色的function写出来呢?

其实就是用sigmoid函数来逼近蓝色的function

我们需要各种各样的蓝色的function,那我们可以通过调整b和w来实现

所以,我们需要一个红色的function,就可以通过下面的方式来实现,同时我们既然实现了红色的function,我们可以实现和红色类似的曲线(Continuous)

所以,我们解决了model bias的问题

如何计算这个式子呢?

用线性代数的表示方式表示如下:

输出=w1​⋅x1​+w2​⋅x2​+…+w8​⋅x8​+偏置项

最后总的表示一下

这里面,除了x是feature,其他都是未知的参数,我们使用线性代数的方式来统一表示

模型定义解决了,接下来是第二步定义Loss function,跟之前是一模一样的

第三部optimization ,也是一模一样

Batch 、 Epoch

我们在之前计算loss的时候,是把所有的data都参与进去,但是现在的话,我们是把data分成 L 笔,每一笔就是一个batch ,每个batch都计算loss,每次根据计算出来的loss然后对当前参数进行微分,一直把所有的batch完成,这就是一个epoch,一个epoch中会update N / B = L次参数

我们刚才是使用sigmoid函数来模拟蓝色的function ( hard sigmoid ),多个hard sigmoid 叠加, 从而实现红色的function

但是 这个蓝色的function ,也可以不用sigmoid函数模拟,我们可以使用 两个Rectified Linear来实现蓝色的function

Activation Function : Relu和sigmoid

ReLU和sigmoid那个好呢? 后续会讲解

我们使用1000个Relu函数之后,就可以实现很复杂的函数,效果会有改善

Deep Learning

深度学习,我们计算出来的a,我们再把a重新放入函数中,再计算很多次

Overfitting 

Better on training data, worse on unseen data

作业一的模型

self.layers = nn.Sequential(
            # 这个地方函数都是有参数的, 只是没有写出来
            # y[0] = weight[0][0] * x[0] + weight[0][1] * x[1] + ... + weight[0][input_dim - 1] * x[input_dim - 1] + bias[0]
            # y[1] = weight[1][0] * x[0] + weight[1][1] * x[1] + ... + weight[1][input_dim - 1] * x[input_dim - 1] + bias[1]
            # ...
            # y[15] = weight[15][0] * x[0] + weight[15][1] * x[1] + ... + weight[15][input_dim - 1] * x[input_dim - 1] + bias[15]
            # 类似于视频中YouTube观看人数预测,如果考虑七天,input_dim就是7,如果考虑28天,input_dim就是28
            nn.Linear(input_dim, 16),  # 这个是一个线性层
            # 对于每个输出维度y[i](其中 i是从0到15的索引),ReLU激活函数将执行以下操作:
            # y[i] = max(0, y[i])
            nn.ReLU(),  # 激活函数,我们可以对上面的结果进行Relu操作
            nn.Linear(16, 8),
            nn.ReLU(),
            # 具体地,线性映射通过一个权重矩阵和一个偏置项来实现,将每个输入维度与相应的权重相乘,然后将结果相加,再加上偏置项。
            nn.Linear(8, 1)  # 因为我们最终是要预测一个数字结果,所以这个地方要是一维的
            # 视频上面预测Youtube人数,就是nn.Linear(3,1),视频上面直接就是输出的一维结果
        )
nn.Linear(input_dim, 16),为什么要输出16维度的结果?

input_dim就对应视频中的考虑7天,28天,56天等等

16 代表输出的是一个16维度的结果  ,这个就是我们自己设置了

Linear 里面有很多的weight参数和一个bias参数,这些我们看不到,但是pytroch帮我们做好了,机器学习就是在找这些参数。

chatgpt回复:是的,你可以将模型中的16更改为32,以增加隐藏层的维度。这将增加模型的复杂性,并有可能提高其性能,尤其是在处理更复杂的数据或任务时。但请注意,增加隐藏层维度也会增加模型的计算复杂度,因此你可能需要更多的数据来训练模型,以避免过拟合。

你可以像这样更改模型的隐藏层维度:

self.layers = nn.Sequential( 
  nn.Linear(input_dim, 32), # 将16更改为32 
  nn.ReLU(), 
  nn.Linear(32, 8), # 这里也需要相应地更改输入和输出维度 
  nn.ReLU(),
  nn.Linear(8, 1)
 )

记得根据你的数据和任务来调整模型的参数,以获得最佳性能。如果你的数据集较小,你还可以考虑使用正则化技巧来防止过拟合。

隐藏层的维度通常是根据你的具体问题和数据来确定的,而不是一个固定的数值。选择隐藏层维度通常是深度学习模型设计中的一个超参数,需要进行调优

Relu函数起到了什么作用?

后面就一个ReLU函数,引入非线性,这一个Relu函数,能作用于Linear的多个输出,对每个维度的输出都做sigmoid,也就是说,每个维度上面都会进行非线形的操作。

nn.Linear(16, 8)  和 nn.ReLU()的作用?

深度学习,deep learning ,能让效果变好,为什么?不要问,反正能变好

nn.Linear(8, 1) 的作用?

我们最后是要输出一个发病率数字,所以需要把最后的多个维度的输入变成一个维度的输出

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1033489.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

美团2024届秋招笔试第一场编程[汇总](上课口胡一下)

一.小美的好矩阵 口胡:模拟题,数据和题意灰常清楚。 俩层循环枚举每个3﹡3的小矩阵,然后枚举每个小矩阵,12个if判断俩俩相邻的字符是否相等。这里有个技巧:拿出中间的字符,这样就能使用一个偏移…

基于紫光同创FPGA的图像采集及AI加速

本原创文章由深圳市小眼睛科技有限公司创作,版权归本公司所有,如需转载,需授权并注明出处 适用于板卡型号: 紫光同创PGL50H开发平台(盘古50K开发板) 本篇优秀作品:2023集创赛全国总决赛紫光同…

Lua学习笔记:词法分析

前言 本篇在讲什么 Lua的词法分析 本篇需要什么 对Lua语法有简单认知 对C语法有简单认知 依赖Visual Studio工具 本篇的特色 具有全流程的图文教学 重实践,轻理论,快速上手 提供全流程的源码内容 ★提高阅读体验★ 👉 ♠ 一级标题…

stm32之PWM呼吸灯

呼吸灯是灯从渐亮到渐灭周而复始形成的一个效果。由于51没有PWM所以需要定时器模拟PWM才能实现呼吸灯的效果,但是stm32的通用定时器是有PWM模式的,所以不需要再用软件模拟,精准度也高。 本实验用的基于stm32f103C8t6。在PB8引脚上接了一个le…

stm32之串口/蓝牙控制led灯

该文章记录学习stm32串口遇到的一些问题,完整代码地址。 一、项目描述 通过串口或蓝牙发送指令来控制led灯。 open ------> led 亮close ------> led 灭其它 -------> 反馈给串口或蓝牙错误指令 二、项目用到的模块 stm32 串口1,PA9(TX), PA10(RX)HC…

计算机组成与设计硬软件接口学习2

并行处理器:从客户端到云 任务级并行或进程级并行:通过同时运行独立的多个程序来使用多处理器 并行处理程序:同时在多个处理器上运行的单个程序 通过增加硬件的方式,将取指令和指令译码实现并行,一次性取出多条指令…

MQTT 协议概要

01 MQTT协议 MQTT(消息队列遥测传输) 是基于 TCP/IP 协议栈而构建的支持在各方之间异步通信的消息协议。MQTT在空间和时间上将消息发送者与接收者分离,因此可以在不可靠的网络环境中进行扩展。虽然叫做消息队列遥测传输,但它与消息…

[RF学习记录][ssh library][execute Command】关键字的返回值

有时候需要判断通过ssh在远程机器上执行的命令是否正常,使用关键字Execute Command可以在远程机器上运行命令,但是默认不加任何参数的话,没有看到范返回值,而这个关键字是带了几个参数的,简单的试验了下这几个参数&…

点云从入门到精通技术详解100篇-单期点云的高斯曲率定位桥梁潜在损伤技术研究

目录 前言 国内外研究现状 三维激光扫描对桥梁损伤检测的研究现状 基于点云高斯曲率损伤检测的研究现状 柱体偏差检测技术研究现状 存在的问题 法向量约束高斯曲率的 TLS 桥面潜在损伤区域探测 2.1 高斯曲率探伤的基本理论 2.2 点云拓扑关系建立的方法比较 2.2.1 KD-…

机器学习第十三课--主成分分析PCA

一.高维数据 除了图片、文本数据,我们在实际工作中也会面临更多高维的数据。比如在评分卡模型构建过程中,我们通常会试着衍生出很多的特征,最后就得到上千维、甚至上完维特征;在广告点击率预测应用中,拥有几个亿特征也是常见的事…

【数学建模】2023华为杯研究生数学建模F题思路详解

强对流降水临近预报 我国地域辽阔,自然条件复杂,因此灾害性天气种类繁多,地区差异大。其中,雷雨大风、冰雹、龙卷、短时强降水等强对流天气是造成经济损失、危害生命安全最严重的一类灾害性天气[1]。以2022年为例,我国强对流天气引发风雹灾害造成的死亡失踪人数和直接经济…

git:一、GIT介绍+安装+全局配置+基础操作

版本管理系统(SVN和Git): 集中式版本控制系统(SVN) SVN是集中式版本控制系统,版本库是集中放在中央服务器的. 工作流程如下: 1.从中央服务器远程仓库下载代码 2.修改后将代码提交到中央服务器远程仓库…

基于微信小程序的电影院订票系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言运行环境说明用户微信小程序端的主要功能有:管理员的主要功能有:具体实现截图详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考论文参考源码获取 前言 💗博主介绍&…

原生js的animate()方法详解

1.介绍 Element 接口的 animate() 方法是创建一个新的 Animation 的便捷方法,将它应用于元素,然后运行动画。它将返回一个新建的 Animation 对象实例。 同时通过Element.getAnimations() 方法可获取元素所有的Animation实例。 2.语法 Element.animate…

读高性能MySQL(第4版)笔记14_备份与恢复(中)

1. 在线备份 2. 离线备份 2.1. 关闭MySQL做备份是最简单、最安全的 2.2. 所有获取一致性副本的方法中最好的 2.3. 损坏或不一致的风险最小 2.4. 根本不用关心InnoDB缓冲池中的脏页或其他缓存 2.5. 不需要担心数据在尝试备份的过程中被修改 2.5.1. 服务器不对应用提供访问…

Redis淘汰策略-架构案例2020(三十六)

上篇案例回顾: 解释器,管道过滤,隐式调用优缺点? 解释器 则是独立的语法规则,可以通过解释器来解析,可扩展性很高,灵活性强。 管道过滤则是侧重于数据的输入和输出,上一个模块的数…

stm32之看门狗

STM32 有两个看门狗,独立看门狗和窗口看门狗,独立看门狗又称宠物狗,窗 口看门狗又称警犬。可用来检测和解决由软件错误引起的故障。两个看门狗的原理都是当计数器达到给定的超时值时,产生系统复位,对于窗口型看门狗同…

2023.9.20 简单了解 HTTP协议 及 Fiddle 安装使用

目录 HTTP 协议基本概念 Fiddle 下载 HTTP 请求格式 HTTP 响应格式 HTTP 协议基本概念 应用层使用最广泛的协议浏览器 基于 HTTP协议 获取网站是 浏览器 和 服务器 之间的交互桥梁HTTP协议 基于传输层的 TCP协议 实现HTTP 全称为 HyperText Transfer Protocol,中…

Java IO流实现文件复制

目录 前言 文件复制底层逻辑 代码实现 ​编辑 重点!!! 完整代码 改善思考 前言 Windows文件复制时我们是使用Ctrl C复制Ctrl V粘贴,上一篇文章Java基础入门对存储文件的相关操作 我们学习了Java IO流对文件的读写操作&…

数据结构--排序(1)

文章目录 排序概念直接插入排序希尔排序冒泡排序堆排序选择排序验证不同排序的运行时间 排序概念 排序指的是通过某一特征关键字(如信息量大小,首字母等)来对一连串的数据进行重新排列的操作,实现递增或者递减的数据排序。 稳定…