机器学习|多变量线性回归 | 吴恩达学习笔记

news2025/1/15 6:46:06

前文回顾:机器学习 | 线性回归(单变量)

目录

📚多维特征

📚多变量梯度下降

📚梯度下降法实践

🐇特征缩放

🐇学习率

📚特征和多项式回归

📚正规方程

📚梯度下降与正规方程的比较


📚多维特征

接上文单变量线性回归,现在我们对房价模型增加更多的特征,例如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为(x_1,x_2,...,x_n)

增添更多特征后,我们引入一系列新的注释:

  •  n代表特征的数量
  • x^{(i)}代表第i个训练实例,是特征矩阵中的第i行,是一个向量
  • x_j^{(i)}代表特征矩阵中第i行的第j个特征,也就是第i个训练实例的第j个特征。

  • 支持多变量的假设h表示为:h_\Theta (x)=\Theta _0+\Theta _1x_1+\Theta _2x_2+...+\Theta _nx_n,这个公式中有n+1个参数和n个变量,为了使公式能够简化一些,引入x_0=1
    • 则公式转化为h_\Theta (x)=\Theta _0x_0+\Theta _1x_1+\Theta _2x_2+...+\Theta _nx_n
    • 此时模型中的参数是一个n+1维的向量,任何一个训练实例也都是n+1维的向量,最后公式可以简化为:h_\Theta (x)=\Theta ^TX

📚多变量梯度下降

与单变量线性回归类似,在多变量线性回归中,我们也构建一个代价函数,且我们的目标依旧是要找出使得代价函数最小的一系列参数

 多元线性回归的批量梯度下降算法为

 

在这里我们回顾当时单变量用到的代价函数,就会发现单变量多变量的代价函数其实就是同一个东西,x_0^{(i)}=1。 

我们开始随机选择一系列参数值,计算所有的预测结果后,再给所有的参数一个新的值如此循环直至收敛

📚梯度下降法实践

🐇特征缩放

在我们面对多维特征问题的时候,我们 要保证这些特征都具有相近的尺度 ,这将帮助梯度下降算法更快地收敛。 以房价问题为例,假设我们使用两个特征,房屋的尺寸和房间的数量,尺寸的值为 0-2000 平方英尺,而房间数量的值则是 0-5,以两个参数分别为横纵坐标,绘制代价函数的等高线图能, 图像会显得很扁 ,梯度下降算法 需要非常多次的迭代(会反复振荡) 才能收敛,就是会走一条折来折去的路线来找全局最小值
解决方法就是尝试将所有特征的尺度都尽量 缩放到-1到1之间 ,例如把房屋的尺寸除以2000,把房间的数量除以5,如下图,会更圆一些,梯度下降算法会找到一条更直接的路径。

最简单的方法是令:x_n=\frac{​{x_n-\mu _n}}{s_n},其中\mu_n是平均值,s_n是标准差。针对这个s_n,一般就是最大值减去最小值就可以了。而且其实特征缩放也不一定需要那么精确,我们只是为了让梯度下降运行得更快一点,收敛所需的迭代次数更少


🐇学习率

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同,我们不能提前预知,而我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。

 所以这条曲线显示的是梯度下降的每步迭代后代价函数的值。如果代价函数正常工作的话,每一步迭代之后J(\Theta )都应该下降,因此看这种曲线图可以告诉你算法有没有正常工作。而且可以通过这个曲线判断梯度下降算法最后有没有收敛(如上图,可以判断在400次左右就已经收敛了)。

也有一些自动测试是否收敛的方法,例如将代价函数的变化值与某个阀值(例如 0.001)
进行比较,但通常看上面这样的图表更好。
梯度下降算法的每次迭代受到学习率的影响, 如果学习率𝑎过小 ,则达到收敛所需的迭代次数会非常高; 如果学习率𝑎过大 ,每次迭代可能不会减小代价函数,可能会越过局部最小值导致无法收敛。通常来说,如果代价函数没有下降(不管是一直上升,或者是一会降一会升),那就是 要减小学习率(但也别太小)。
通常可以考虑尝试这些学习率:\alpha=0.01,0.03,0.1,0.3,1,3,10,通过图像找出最快收敛的\alpha

📚特征和多项式回归

如以下房价预测问题,所给的特征是邻街宽度和纵向深度,而我们可以用临街宽度×纵向深度得到面积,并用面积这一更好的特征来替换原有的那两个特征。

与选择特征想法密切相关的一个概念被称为多项式回归

线性回归并不适用于所有的数据,有时我们需要曲线来适应我们的数据,例如以下所给出的数据集,我们或许会用二次方模型去拟合(考虑到数据集的后续下降趋势),也可以用三次方模型去拟合(考虑到数据集后续再升高),通常我们需要先观察数据然后再决定准备尝试怎样的模型

且相关特征的选择也可以是灵活的,例如以下二次方模型的两种特征选择。

最后不管选择了怎样的模型,我们可以通过换元在将模型转化为线性回归模型。

 注:如果我们采用多项式回归模型,在运行梯度下降算法前,特征缩放非常有必要。因为平方甚至更高次方等等数据之间相差太多啦。

📚正规方程

到目前为止,我们都在使用梯度下降算法,但是对于某些线性回归问题,正规方法是更好的解决方案。正规方程(区别于迭代方法的直接解法)

假设我们的训练集特征矩阵为X(包含了x_0=1),并且我们的训练集结果为向量y,则利用正规方程解出向量\theta =(X^TX)^{-1}X^Ty

在Octave中,正规方程写作

pinv(X'*X)*X'*y
注:
  • 对于那些不可逆的矩阵(通常是因为特征之间不独立,如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征,也有可能是特征数量大于训练集的数量),正规方程方法是不能用的(原则上)。
  • 当你发现矩阵𝑋′𝑋的结果是奇异矩阵(即不可逆)
    • 首先,看特征值里是否有一些多余的特征,像这些x_1x_2是线性相关的,互为线性函数。同时,当有一些多余的特征时,可以删除这两个重复特征里的其中一个,无须两个特征同时保留,将解决不可逆性的问题。
  • 但于𝑋′𝑋的不可逆的问题很少发生,在 Octave 里,如果用pinv()来实现𝜃的计算,会得到一个正常的解,即便矩阵 𝑋′𝑋是不可逆的(即使𝑋′𝑋的结果是不可逆的,但算法执行的流程是正确的。在 Octave 里,有两个函数可以求解矩阵的逆,一个被称为 pinv(),另一个是 inv(),这两者之间的差异是些许计算过程上的,一个是所谓的伪逆, 另一个被称为逆。
  • 总之,出现不可逆矩阵的情况极少发生,所以在大多数实现线性回归中, 出现不可逆的问题不应该过多的关注X^TX是不可逆的。

📚梯度下降与正规方程的比较

梯度下降正规方程
需要选择学习率\alpha不需要
需要多次迭代一次运算得出
当特征数量n大时也能较好适用
需要计算(X^TX)^{-1},如果特征数量n较大则运算代价大,因为矩阵逆的计算时间复杂度为O(n^3),通常来说当𝑛小于 10000 时还是 可以接受的
适用于各种类型的模型只适用于线性模型,不适合逻辑回归模型等其他模型

一般来说,只要特征变量的数目并不大,标准方程是一个很好的计算参数θ的替代方法。


参考学习链接:【中英字幕】吴恩达机器学习系列课程,本篇对应4.1-4.7


be happy——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/387794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开发手册——一、编程规约_6.并发处理

这篇文章主要梳理了在java的实际开发过程中的编程规范问题。本篇文章主要借鉴于《阿里巴巴java开发手册终极版》 下面我们一起来看一下吧。 1. 【强制】获取单例对象需要保证线程安全,其中的方法也要保证线程安全。 说明:资源驱动类、工具类、单例工厂…

Microsoft designer 使用教程

继各种ai绘图软件诞生之后 dell 2 playground.... 微软自己研发的重量级产品 Microsoft designer 上线了 Microsoft Designer 是微软公司推出的一款设计工具,主要用于快速创建Web和移动应用程序的原型设计。它提供了一系列的工具和模板,可以帮助用户…

Python3.8.8-Django3.2-Redis-连接池-数据类型-字符串-list-hashmap

文章目录1.认识Redis1.1.优点1.2.缺点2.在Django中Redis的连接3.Redis的基础用法3.1.hashmap结构3.2.list结构4.命令行查看数据库5.作者答疑1.认识Redis Remote DIctionary Server(Redis) 是一个key-value 存储系统,是跨平台的非关系型数据库。是一个开源的使用 AN…

【分布式】什么是分布式,分布式和集群的区别又是什么?答案在正文。

文章目录1. 什么是分布式 ?2. 分布式与集群的区别 ?3.用一个请求串起来4.一个简化的架构图5.分布式环境的特点6.分布式环境下面临的问题7.总结1. 什么是分布式 ? 分布式系统一定是由多个节点组成的系统。 其中,节点指的是计算机服务器,而且这些节点一…

Stochastic Approximation —Stochastic gradient descent 随机近似方法的详解之(四)随机梯度下降

Stochastic Approximation —Stochastic gradient descent 随机近似方法的详解之(四)随机梯度下降 郑重声明:本系列内容来源 赵世钰(Shiyu Zhao)教授的强化学习数学原理系列,本推文出于非商业目的分享个人学习笔记和心得。如有侵权…

【微信小程序】-- 案例 - 本地生活(二十)

💌 所属专栏:【微信小程序开发教程】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! &…

【数据结构初阶】堆排序

目录 前言 概念 堆排序的实现 1.建堆 (1)堆向上调整算法 (2)堆的向下调整算法 2. 利用堆删除思想来进行排序 3.堆排序的时间复杂度 4.源码 总结 前言 前边我们学习了堆的实现,对堆的每个接口都进行了详细的讲…

js中getBoundingClientRect()方法

getBoundingClientRect()返回值是一个 DOMRect 对象,是包含整个元素的最小矩形(包括 padding 和 border-width)。该对象使用 left、top、right、bottom、x、y、width 和 height 这几个以像素为单位的只读属性描述整个矩形的位置和大小。除了 …

高性能网络I/O框架-netmap源码分析

前几天听一个朋友提到这个netmap,看了它的介绍和设计,确实是个好东西。其设计思想与业界不谋而合——因为为了提高性能,几个性能瓶颈放在那里,解决方法自然也是类似的。 netmap的出现,它既实现了一个高性能的网络I/O框…

【Storm】【五】Storm集成Kafka

Storm集成Kafka 一、整合说明二、写入数据到Kafka三、从Kafka中读取数据一、整合说明 Storm 官方对 Kafka 的整合分为两个版本,官方说明文档分别如下: Storm Kafka Integration : 主要是针对 0.8.x 版本的 Kafka 提供整合支持;Storm Kafka …

English Learning - L2-3 英音地道语音语调 小元音 [ʌ] [ɒ] [ʊ] [ɪ] [ə] [e] 2023.02.27 周一

English Learning - L2-3 英音地道语音语调 小元音 [ʌ] [ɒ] [ʊ] [ɪ] [ə] [e] 2023.02.27 周一课前活动练习方法大小元音总结小元音准备工作[ʌ] 中元音发音技巧对应单词的发音对应句子的发音常见的字母组合[ɒ] 后元音发音技巧对应单词的发音对应句子的发音常见的字母组合…

Spring——什么是事务?传播行为?事务隔离级别有哪些?

思维导图一、什么是事务?多条DML要么同时成功,要么同时失败Transaction(tx)二、事务的四个过程:开启事务(start transaction)执行核心业务代码提交事务(如果核心业务处理过程中没有出…

真香,Grafana开源Loki日志系统取代ELK?

一、Loki是什么? Loki是由Grafana Labs开源的一个水平可扩展、高可用性,多租户的日志聚合系统的日志聚合系统。它的设计初衷是为了解决在大规模分布式系统中,处理海量日志的问题。Loki采用了分布式的架构,并且与Prometheus、Graf…

【前端】一个更底层库-React基础知识点

目录Reat是什么?为什么要使用React类库比较容易学习,API非常少。组件内聚,容易组合原生组件和自定义组件融合渲染状态/属性驱动全局更新commonjs生态圈/工具栏完善React基础知识JSX概述JSX嵌入变量Event事件组合组合CHILDREN总结大家好&#…

02-问题思考维度:抓住核心用户、场景化分析、需求收集与辨别、用户故事

文章目录2.1 抓住核心用户2.1.1 为什么要抓住核心用户2.1.2 核心用户的特征根据不同维度,描述核心用户2.1.3 如何抓住核心用户2.2 场景化分析2.2.1 场景五要素2.2.2 场景化分析方法2.2.3 场景化分析方法的应用2.3 需求收集与辨别2.3.1 需求的定义及层次2.3.2 需求收…

汇编相关问题

汇编语言期末复习题DX:单项选择题 DU:多项选择题 TK:填空题 MC:名词解释 v JD:简答题 CXFX:程序分析题 CXTK:程序填空题 BC:编程题第1章:基础知识1、在汇编语言程序的开发…

Vue2.0开发之——购物车案例-axios请求列表数据(45)

一 概述 项目导入axios HTTP 库axios请求数据列表将请求到的数据转存到data中 二 项目导入axios HTTP 库 2.1 axios介绍 Axios是一个基于promise 的 HTTP 库,可以用在浏览器和 node.js中 2.2 axios项目地址 https://www.npmjs.com/package/axios 2.3 axios安装…

excel的Countif函数使用详细教程

excel的Countif函数使用详细教程本教程通过七个示例讲解Countif函数使用教程,其中条件如何设置模糊值,统计固定长度的文本,统计大于某个值,统计等于某个值的,统计日期等。Countif函数作用:对指定单元格区域…

pycharm关联github、新建以及更新仓

此处已经默认你安装了git以及pycharm,这篇文章将会教给大家如何利用pycharm管理自己的github. 目录 pycharm关联github设置 Github创建新的仓 仓库的更新 pycharm:2022。不同版本界面略有不同。 pycharm关联github设置 设置PyCharm,打开File --> Settings -…

SAP 如何批量扩充(复制)科目到其他子公司(T-CODE: FS15)?

SAP 科目主数据管理常用的事务代码: 科目的创建分科目表层(FSP0); 公司代码层(FSS0); 集中创建(FS00)。 现假设我们成立一家新的子公司,需要把母公司的科目批…