吴恩达机器学习WEEK2

news2024/9/20 14:56:28

COURSE1 WEEK2

多维特征

在线性回归中,往往特征不止一个,而是具有多维特征

例如,在预测房价的例子中,我们知道更多的信息:

x 1 x_1 x1:房屋的面积

x 2 x_2 x2:卧室的数目

x 3 x_3 x3:楼层数目

x 4 x_4 x4:房屋的年限

因此,我们每一个特征 x ( i ) x^{(i)} x(i) 的表示变成了向量形式, x j ( i ) x^{(i)}_j xj(i) 表示具体的某的 特征( i 行 j 列)

从而,我们的线性模型公式转化为:
f w , b ( x ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + w 4 x 4 + b f_{w,b}(x) = w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + b fw,b(x)=w1x1+w2x2+w3x3+w4x4+b
其中, w i w_i wi可以理解为第 i i i 个特征对目标的贡献程度

进而,推广到更一般的形式:
f w , b ( x ) = w 1 x 1 + w 2 x 2 + ⋯ + w n x n + b f_{w,b}(x) = w_1x_1 + w_2x_2 + \dots + w_nx_n + b fw,b(x)=w1x1+w2x2++wnxn+b
将所有的参数 w i w_i wi组合在一起,形成向量 w ⃗ = [ w 1 , w 2 , … , w n ] \vec {w} = [w_1, w_2, \dots, w_n] w =[w1,w2,,wn],将所有的特征 x i x_i xi 组合在一起,形成一个向量 x ⃗ = [ x 1 , x 2 , … , x n ] \vec{x} = [\boldsymbol x_1, \boldsymbol x_2, \dots, \boldsymbol x_n] x =[x1,x2,,xn]

从而,将模型形式可以写为:
f w ⃗ , b ( x ⃗ ) = w ⃗ ⋅ x ⃗ + b f_{\vec w, b}(\vec x) = \vec w \cdot \vec x + b fw ,b(x )=w x +b
其中, ⋅ \cdot 代表点乘

这种具有多个特征的线性回归模型叫做多元线性回归

向量化

在多元线性回归中,使用向量化的方法,可以使得代码的编写更加简洁,实现更加快速

如果不使用向量化,在代码的编写中,我们需要计算以下结果:
f w ⃗ , b ( x ⃗ ) = ∑ j = 1 n w j x j + b f_{\vec w, b}(\vec x) = \sum _{j=1}^{n}w_jx_j + b fw ,b(x )=j=1nwjxj+b
n n n 较大时,需要较大的计算量,实现较为复杂

f = 0
for j in range(n):
    f = f + w[j] * x[j]
f = f + b

所谓向量化,就是把数据都看作向量,在每一步的计算中使用向量的计算。例如多元线性回归模型,将 w w w 和 特征 x x x 进行点乘计算

f = np.dot(w, x) + b

向量化的好处:

  • 使得代码更加简洁
  • 运算速度更快

多元线性回归的梯度下降

与单变量线性回归的梯度下降相似,唯一不同的是,此时要把参数 w w w 当作是一个向量 w ⃗ \vec w w ,因此得到参数更新的公式:
w j = w j − α ∂ ∂ w j J ( w ⃗ , b ) b = b − α ∂ ∂ b J ( w ⃗ , b ) w_j = w_j - \alpha \frac{\partial}{\partial w_j}J(\vec w, b) \\ b = b - \alpha \frac{\partial}{\partial b}J(\vec w, b) wj=wjαwjJ(w ,b)b=bαbJ(w ,b)
在这里插入图片描述

正规方程

正规方程即最小二乘法

由于我们要求解损失函数最小的时候对应的参数值,所以不妨将损失函数看作是参数的函数,然后对损失函数求一阶导函数,令一阶导函数等于 0,求解其极小值点,就对应着最优的参数

特点:

  • 仅适用于线性回归
  • 解决最小化参数问题(同梯度下降算法),但是不需要迭代
  • 当特征较多时( > 10000),运行速度较慢

只要特征变量的数目并不大,标准方程是一个很好的计算参数的替代方法。具体地说,只要特征变量数量小于一万,通常使用标准方程法,而不使用梯度下降法。

特征缩放

使用特征缩放的方法,能够使得梯度下降算法的运行速度得到提升

所谓特征缩放,就是在进行模型训练之前,对数据进行归一化操作

例如,以房价预测为例,特征又房屋面积 x 1 x_1 x1 和卧室数量 x 2 x_2 x2,因此:
p r i c e ^ = w 1 x 1 + x 2 x 2 + b \hat {price} = w_1x_1 + x_2x_2 + b price^=w1x1+x2x2+b
其中, x 1 ∈ [ 300 , 2000 ] , x 2 ∈ [ 0 , 5 ] x_1 \in [300,2000],x_2 \in [0, 5] x1[300,2000]x2[0,5]

数据集:

$x_1 = 2000, x_2 = 5, price = $500K$

由此可以看出,我们的参数 w 1 w_1 w1应该较小, w 2 w_2 w2 应该较大

即,对于一个好的模型来说:

  • 当特征的可能指较小时,其参数的合理值将相对较大
  • 当特征的可能指较大时,其参数的合理值将相对较小

当每个特征的取值范围相差较大时,特征关系与损失函数图像如下:
在这里插入图片描述

如右侧的损失函数梯度图,当我们使用梯度下降算法时,如果学习率设置不当,算法会来回左右横跳动,经过很长一段时间才会收敛到最优值

在这里插入图片描述

当我们使用特征缩放时,即将 x 1 x_1 x1 x 2 x_2 x2进行重新标度,归一化到区间 [ 0 , 1 ] [0,1] [0,1]内,保证了两个特征拥有一个可比较的范围,从而使得损失函数梯度图更像一个圆形,便于算法能够快速收敛到最优点
在这里插入图片描述

特征缩放方法

特征缩放的目的是将一列数据变化到某个固定区间(范围)中

均值归一化

将数据归一化到区间 [ − 1 , 1 ] [-1,1] [1,1]
x = x − μ x m a x − x m i n x = \frac{x - \mu}{x_{max} - x_{min}} x=xmaxxminxμ
其中, μ \mu μ 是数据 x x x 的均值
在这里插入图片描述

Z-score 归一化

即,将数据转化为均值为0,标准差为1的分布
x = x − μ σ x = \frac{x - \mu}{\sigma } x=σxμ
其中, μ \mu μ 是数据的均值, σ \sigma σ 是标准差
在这里插入图片描述

特征缩放的好坏,具体取决于所有特征进行特征缩放后的取值范围是否尽量一致,以保证梯度下降算法的有效进行

梯度下降法则

如何判断梯度下降是否收敛

一般而言,在模型训练阶段,随着迭代次数的进行,损失值如下图所示:
在这里插入图片描述

可以看到的是,当迭代次数大于300时,曲线接近平行,下降的趋势非常平缓,此时意味着我们的梯度下降开始收敛了

通常,可以使用 epsilon法进行自动收敛测试,即设置收敛阈值 ε = 0.001 \varepsilon = 0.001 ε=0.001,当损失值下降幅度小于阈值时,即认为算法开始收敛,但从实际来看,要想确定一个正确的阈值是非常困难的

如何设置学习率

如果学习率设置过大,则最终结果不容易收敛

如果学习率设置太小,则会导致算法运行较长时间
通过绘制损失函数与迭代次数关系的图像,如果损失函数出现时而下降,时而上升,即不是一直下降的趋势,那么则表明学习率的设置可能较大(也可能是代码存在错误

因此,在实际工作中,一般会选择一系列的值不断去尝试,且在尝试的过程中,只对模型的部分数据进行有限的迭代次数,通过对比来选择最优的学习率

多项式回归

特征工程

在实际问题中,使用的模型往往比较复杂,因此有时需要利用特征工程的方法来对模型加入一些重要的特征

例如,在预测房价时,目前存在临街长度 x 1 x_1 x1 和深度 x 2 x_2 x2,因此房价预测模型为:
f w ⃗ , b ( x ⃗ ) = w 1 x 1 + w 2 x 2 + b f_{\vec w, b}(\vec x) = w_1x_1 + w_2x_2 + b fw ,b(x )=w1x1+w2x2+b
在这里插入图片描述

但是在实际中,根据生活经验,使用房屋面积作为单特征可能会更好的帮助我们进行预测,因此引入第三个变量房屋面积 x 3 x_3 x3,且 x 3 = x 1 x 2 x_3 = x_1x_2 x3=x1x2,从而我们的模型转化为:
f w ⃗ , b ( x ⃗ ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + b f_{\vec w, b}(\vec x) = w_1x_1 + w_2x_2 +w_3x_3 + b fw ,b(x )=w1x1+w2x2+w3x3+b
这种方法叫做创建新特征

多元线性回归+特征工程

将多元线性回归与特征工程的思想结合起来,就是多项式回归的算法,这可以使我们获得更好的数据模型

对于通过面积来预测房价的例子,根据数据集的分布情况,可以看出如果使用二次函数来拟合,效果可能会更好,如下图:

在这里插入图片描述

但是考虑到二次函数在达到最高点之后会再次下降,而实际情况中房屋面积越大,价格应该是越高,因此对模型进行调整,改为三次函数模型

在这里插入图片描述

同时,在加入高次幂时,要记得对使用特征缩放得方法,保证我们的梯度下降算法有效的进行

除此之外,由于观察到随着面积的增长,价格增长的趋势不在那么陡峭,因此也可以考虑使用平方根函数

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

天气预报仿写总结

目录 前言 首页 搜索页 详情页 浏览页 前言 这周学习了iOS中简单的网络请求,并完成了天气预报的仿写,这篇博客来做一下总结。天气预报主要要实现四个界面,接下来分四个界面分别讲解一下。 首页 首页的布局就是上方两个很简单的控件添加…

【人工智能基础三】卷积神经网络基础(CNN)

文章目录 1. 卷积神经网络结构2. 卷积神经网络计算2.1. 卷积层计算2.2. 池化层计算2.3. 全连接层计算 3. 典型卷积神经网络3.1. AlexNet3.2. VGGnet 卷积神经网络(Convolutional Neural Network,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Ne…

1、 window平台opencv下载编译, 基于cmake和QT工具链

1. 环境准备,源码下载 1.1 前置环境 qt 下载安装cmake 安装,可参考: https://blog.csdn.net/qq_51355375/article/details/139186681 1.2 opencv 源码下载 官网地址: https://opencv.org/releases/ 下载源码: 2 …

(2024,∞-Brush,无限维扩散,希尔伯特空间,超分辨率,跨注意力神经算子,线性注意)具有无限维度扩散模型的可控大图像合成

∞-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions 目录 0. 摘要 1. 简介 2. 相关工作 4. 提出的方法 4.1 函数空间中的条件扩散模型 4.2 带有跨注意力神经算子的条件去噪器 5. 实验 6. 限制 7. 结论 0. 摘要 将复杂、特定…

【C++】C++11(可变参数模板、lambda表达式、包装器)

文章目录 1. 可变参数模板1.1 介绍1.2 emplace系列接口实现 2. lambda表达式2.1 语法介绍2.2 原理 3. 包装器4. bind 1. 可变参数模板 1.1 介绍 可变参数我们在C语言阶段已经了解过了,C语言中叫做可变参数列表,其中使用 ... 代表可变参数。 C语言中的可…

百款精选的HTML5小游戏源码,你可以下载并直接运行在你的小程序或者自己的网站上

今天我带来了一份特别的礼物——百款精选的HTML5小游戏源码,你可以下载并直接运行在你的小程序或者自己的网站上,只需双击index.html即可开始。无论你是在寻找创意引流,还是想为你的网站增添互动性,这些小游戏都能帮你实现&#x…

Arch Linux - 2-安装中文输入法

文章目录 2 安装中文输入法2.0 准备2.0.1 前置条件2.0.2 建议 2.1 方案一:RimeIBus2.1.1 安装&配置2.1.2 添加输入法 2.2 方案二:IBusLibpinyin 2 安装中文输入法 2.0 准备 2.0.1 前置条件 预装gnome # 安装 pacman -S gnome# 设置开机自启动 sy…

开放式耳机有什么用?市面上热门的四款蓝牙耳机推荐

开放式耳机的用处相当广泛。 其一,它在耳朵健康方面表现出色。长期使用入耳式或者封闭式耳机,容易致使耳道处于潮湿状态、细菌大量滋生,甚至诱发耳部疾病。而开放式耳机不会阻塞耳道,能够使耳朵维持通风且干燥的状态,…

分享5款漂亮、简洁的登录页面模板分享,拿来即用(二)

文章目录 前言一、Bootstrap Material 风格的登录模板二、简洁清晰的jQuery登录模板三、防知乎的登录模板四、背景动态变化的登录模板五、背景动态变化的登录模板2六、深色背景登录模板 前言 在做管理系统的时候,有时为了做一个漂亮简洁的登录页面,对应…

【Log4j2】log4j-users-guide 官方文档阅读笔记

文章目录 前言1. Log4j2 架构直观了解2. Logger 的树状结构及 additivity3. Logger 的 Level 属性4. Filter 的结构5. Filter 作用的规则 前言 原文 Apache Log4j 官方文档 pdf需求 将指定包目录的日志打到指定文件中将 ERROR 日志单独打到指定文件中 目标 理解 log4j2 的架构…

java学习--集合

集合简介 关系示例图 Collection接口实现类的特点 Collection接口常用方法 Collection接口遍历元素方式: import java.util.ArrayList; import java.util.Collection; import java.util.Iterator;/* author:我与java相爱相杀---c语言梦开始的地方 今天又是努力学习的…

【vulnhub】The Ether: Evil Science靶机

靶机安装 下载地址:https://www.vulnhub.com/entry/the-ether-evilscience-v101,212/ 运行环境:Vmware 信息收集 进行IP发现 nmap 192.168.93.0/24 进行端口扫描,开放了80和22端口 nmap -A 192.168.93.155 -p- 进行目录扫描 dirsearch -u http://…

MATLAB(15)分类模型

一、前言 在MATLAB中,实现不同类型的聚类(如K-means聚类、层次聚类、模糊聚类)和分类(如神经网络分类)需要用到不同的函数和工具箱。下面我将为每种方法提供一个基本的示例代码。 二、实现 1. K-means聚类 % 假设X是…

现代前端架构介绍(第一部分):App是如何由不同的构建块构成的

远离JavaScript疲劳和框架大战,了解真正重要的东西 几周前,我的同事们对我们的前端架构、代码结构和面临的挑战很感兴趣。在做了几次关于如何构建可扩展且健壮的前端的演讲后,我觉得把它们都总结一下并与社区分享我们的策略是一个不错的主意。…

主机安装要点

1.选择主板时,一定要先看能不能与 CPU 匹配得上。 2.后缀带 K 的 CPU,因为支持超频,也最好搭配 支持超频 系列主板。 3.主板尺寸大小E-ATX 加大板、ATX 大板、M-ATX 小板、ITX 迷你板,符合机箱大小。 4.部分主板不带A-RGB,有灯…

OpenHarmony应用开发和Android应用开发区别

OpenHarmony 和 Android 是两个不同的操作系统平台,各自有其独特的开发环境和架构。以下是 OpenHarmony 应用开发与 Android 应用开发之间的主要区别: 1. 架构设计 OpenHarmony 微内核架构:OpenHarmony 采用微内核设计,核心功…

中科院2区SCI,稳定检索39年!不收版面费,审稿友好,最快6周录用,速投!

关注GZH【欧亚科睿学术】,第一时间了解期刊最新动态! 中科院2区SCI,最快6周录用! MACHINE LEARNING 是一本国际性期刊,由知名出版社SPRINGER出版,创刊于1986年,一直致力于发布报道高质量的机器…

2、 qt平台opencv引入,和工程搭建

1. 准备工作 opencv 编译, 参考: https://blog.csdn.net/qq_51355375/article/details/140857966vscode qt cmake工程创建及环境搭建: https://blog.csdn.net/qq_51355375/article/details/140752130 2. 引入opencv 头文件和链接库 2.1 配…

大数据信用报告查询注意事项

在当今这个数据驱动的时代,大数据信用报告已成为评估个人信用状况的重要参考。无论是申请贷款、租房还是求职,一份良好的信用报告都能为您加分不少。然而,在查询大数据信用报告时,有几点注意事项不容忽视,以确保您的信…

CAN通信编程

ubuntu使用虚拟can 1. sudo modprobe vcan //加载虚拟can模块 2. sudo ip link add dev can0 type vcan //添加can0网卡 3. ifconfig -a //查看can0 4. sudo ip link set dev can0 up //开启can0 5. sudo ip link set dev can0 down //关闭can0 6. sudo ip link del dev can0 /…