动手学深度学习（二）线性神经网络

news2026/2/11 12:08:18

推荐课程：跟李沐学AI的个人空间-跟李沐学AI个人主页-哔哩哔哩视频

目录

一、线性回归

1. 线性模型

2. 损失函数（衡量预估质量）

3.梯度下降算法（优化算法）

3.1 梯度下降公式

3.2 选择学习率

3.3 小批量随机梯度下降

回归任务是指对连续变量进行预测的任务。

一、线性回归

线性回归模型是一种常用的统计学习方法，用于分析自变量与因变量之间的关系。它通过建立一个关于自变量和因变量的线性方程，来对未知数据进行预测。

1. 线性模型

举个例子，房价预测模型：

假设1︰影响房价的关键因素是卧室个数，卫生间个数和居住面积，记为x1，x2，x3。
假设2：成交价是关键因素的加权和， $y = w_1x_1 + w_2x_2 + w_3x_3 + b$

权重 $w$ 和偏差 $b$ 的实际值在后面决定。

给定n维输入， $x=[x_1,x_2, ....x_n]^T$ ，向量x对应于单个数据样本的特征。
线性模型有一个n维权重和一个标量偏差， $w =[w_1, w_2, ..., w_n]^T$ ， $b$ 。权重 $w$ 决定了每个特征对预测值的影响。偏置 $b$ 是指当所有的特征都取0时，预测值应为多少。
输出是输入的加权和， $\hat{y} = w_1x_1+w_2x_2+ ...+ w_nx_n + b$ 。我们常用 $\hat{y}$ 表示预测值。

则，该房价预测模型为： $\hat{y} = w^Tx+ b$ ，这是一个线性预测模型。给定一个数据集（如x），我们的目标就是寻找模型的权重 $w$ 和偏置 $b$ ，使得根据模型做出的预测大体符合数据中真实价格 $y$ 。也是就说最佳的权重 $w$ 和偏置 $b$ 有能力使得预测值 $\hat{y}$ 逼近真实值 $y$ ，找到最佳的权重 $w$ 和偏置 $b$ 这是我们的最终目的。

2. 损失函数（衡量预估质量）

用于比较真实值和预估值的差异，即以特定规则计算真实值和预估值的差值，例如房屋售价和估价。

假设 $y$ 是真实值， $\hat{y}$ 是预测值，平方差损失为 $\ell(y,\hat{y})=(y-\hat{y})^2$ ，我们以该函数作为损失函数。

设训练集有n个样本，则这n个样本的损失均值为

$L(w, b)=\frac{1}{n}\sum_{n}^{i=1}\ell^i(y,\hat{y})=\frac{1}{n}\sum_{n}^{i=1}(y_i-\hat{y_i})^2=\frac{1}{n}\sum_{n}^{i=1}(y_i-w^Tx_i+b)^2$

Q：那么损失函数，对我们找到最优的权重 $w$ 和偏置 $b$ 有什么帮助呢？

我们可以看到，最佳的预测值与真实值之间的损失值一定是尽可能小的，因此我们只要求得最小的损失值，那么得到这个损失值的权重 $w$ 和偏置 $b$ 一定是最优的。

Q：怎么求得最小的损失值呢？

如，平方差损失函数是一个凹函数，那么求解最小的损失值，我们只需要将该函数关于 $w$ 的偏导数设为0，求导即可。求解得到的 $w$ 就是最优的权重 $w$ 。预测出的预估值 $\hat{y}$ 也就最接近真实值。这类解称为解析解。

3.梯度下降算法（优化算法）

在绝大多数的情况下，损失函数是很复杂的（比如逻辑回归），根本无法得到参数估计值的表达式，也就无从获取没有显示解（解析解）。

此需要一种对大多数函数都适用的方法，这就引出了“梯度下降算法”，这种方法几乎可以优化所有深度学习模型。它通过不断地在损失函数递减的方向上更新参数来降低误差（原理）。

3.1 梯度下降公式

首先，我们需要确定初始化模型的参数 $w_0$ ，接下来重复迭代更新参数t=1、2、3、....、n，更新权重的公式为：

其中， $\textup{w}_{t-1}$ 为上一次更新权重的结果， $\eta$ 为学习率（这是一个超参数，决定了每次参数更新的步长）， $\frac{\partial \ell }{\partial \textup{w}_{t-1}}$ 为损失函数递增的方向（注意公式中为负）。

3.2 选择学习率

梯度下降的过程宛如一个人在走下山路，一步一步地接近谷底，学习率相当于这个人的步长。

学习率的选取不易过大，也不宜过小。学习率选取过大会使得权重更新的过程一直在震荡，而不是真正的在下降。学习率选取过小，会使得权重更新的过程十分缓慢，影响效率。

3.3 小批量随机梯度下降

一个神经网络模型的训练可能需要几分钟至数个小时，我们可以采用小批量随机梯度下降的方式来加快这一过程。

在整个训练集上计算梯度太昂贵了，因此可以随机采用 $b$ 个样本 $i_1,i_2,...,i_b$ 来求取整个训练集的近似损失（原理）。求近似损失公式为：

其中， $b$ 是批量大小，另一个重要的超参数。

Q：如何选择批量大小？

选择批量大小不能太小，也不能太大。批量大小选择过小，则每次计算量太小，不适合并行来最大利用计算资源。批量大小选择过大，内存消耗增加浪费计算，例如如果所有样本都是相同的。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/834252.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

2023华数杯数学建模C题完整5问代码思路分析

2023华数杯数学建模C题完整5问代码思路分析

目前已经写出2023华数杯C题母亲身心健康对婴儿成长的影响全部5问的完整代码和42页论文（正文30页，论文部分摘要如下： 本文共解决了五个问题，涉及婴儿行为特征、睡眠质量与母亲的身体指标和心理指标的关系，以及如何优化…

阅读更多...

YOLOv5模型压缩方法：综述

YOLOv5模型压缩方法：综述

文章目录 YOLOv5模型压缩方法：综述摘要1、介绍2、剪枝2.1、修剪的显著性标准2.1.1、 ℓn-norm2.1.2、特征图激活 YOLOv5模型压缩方法：综述摘要 Model Compression Methods for YOLOv5: A Review (arxiv.org) 在过去的几年里，广泛的研究致…

阅读更多...

vue3引入video.js

vue3引入video.js

一.引入video.js yarn add video.js videojs-player/vue --save 或者 npm install video.js videojs-player/vue --save 二.vue3项目main.js引入 import VueVideoPlayer from "videojs-player/vue" import "video.js/dist/video-js.css" const app cr…

阅读更多...

DP(各种模型）

DP(各种模型）

数字三角形模型摘花生 Hello Kitty想摘点花生送给她喜欢的米老鼠。她来到一片有网格状道路的矩形花生地(如下图)，从西北角进去，东南角出来。地里每个道路的交叉点上都有种着一株花生苗，上面有若干颗花生，经过一株花生苗就…

阅读更多...

Doris(三)-集群部署3个FE+3个BE

Doris(三)-集群部署3个FE+3个BE

前置 1）配置java环境 1st 解压jdk包 unzip jdk1.8.0_171-amd64.zip 2nd 配置环境变量 vim /etc/profile#文末添加JAVA_HOME/data/jdk1.8.0_171-amd64 PATH$JAVA_HOME/bin:$PATHexport PATH JAVA_HOME3rd 启用配置 source /etc/profile 4th 验证 java -versi…

阅读更多...

离散 Hopfield 神经网络的分类与matlab实现

离散 Hopfield 神经网络的分类与matlab实现

1 案例背景 1.1离散 Hopfield 神经网络学习规则离散型 Hopfield神经网络的结构、工作方式,稳定性等问题在第9章中已经进行了详细的介绍,此处不再赘述。本节将详细介绍离散Hopfield神经网络权系数矩阵的设计方法。设计权系数矩阵的目的是: ①保证系统在异步工作时的稳…

阅读更多...

Consul实战

Consul实战

Consul实战什么是Consul Consul是一种为分布式系统提供服务发现、配置共享和健康检查的开源工具； 可以用来做微服务架构里的注册中心和配置中心。Consul的特定和功能有： 1.服务发现 consul允许微服务注册自己的实例到Consul, 并查询consul来获取可用的…

阅读更多...

flex 弹性布局

flex 弹性布局

Flex 布局的使用任何一个容器都可以指定为 Flex 布局。 .box{ display: flex; //flex作为display的一个属性使用 } 行内元素也可以使用 Flex 布局。 .box{ display: inline-flex; } 注意：设为 Flex 布局以后，子元素的float、clear和vertical-align…

阅读更多...

jmeter使用步骤

jmeter使用步骤

jmeter 使用步骤 1，进入jmeter目录中的bin目录，双击jmeter.bat 打开 2，右键test plan 创建线程组 3，配置线程组参数 4，右键刚刚创建的线程组，创建请求，填写请求地址 5，需要携带to…

阅读更多...

【力扣刷题 | 第二十四天】

【力扣刷题 | 第二十四天】

目录前言： 416. 分割等和子集 - 力扣（LeetCode） 总结前言： 今晚我们爆刷动态规划类型的题目。 416. 分割等和子集 - 力扣（LeetCode） 给你一个只包含正整数的非空数组 nums 。请你判断是否可以将这…

阅读更多...

MPP架构和Hadoop架构的区别

MPP架构和Hadoop架构的区别

1. 架构的介绍 mpp架构是将许多数据库通过网络连接起来，相当于将一个个垂直系统横向连接，形成一个统一对外的服务的分布式数据库系统。每个节点由一个单机数据库系统独立管理和操作该物理机上的的所有资源（CPU，内存等&#xff09…

阅读更多...

flask------消息闪现 flash

flask------消息闪现 flash

1介绍 flask提供了一个非常有用的flash()函数，它可以用来“闪现”需要提示给用户的消息，比如当用户登录成功后显示“欢迎回来！”。在视图函数调用flash()函数，传入消息内容，flash（）函数把消息存…

阅读更多...

【网络基础进阶之路】设计网络划分的实战详解

【网络基础进阶之路】设计网络划分的实战详解

PS：本要求基于华为的eNSP模拟软件进行具体要求： 完成步骤： 1、对192.168.1.0/24进行子网划分 2、对每一个路由器进行IP的配置 3、开始静态路由的书写，在写之前，我们可以先对每一个路由器写一条通向右边的缺省路由&…

阅读更多...

【C++入门到精通】C++入门 —— 内存管理（new函数的讲解）

【C++入门到精通】C++入门 —— 内存管理（new函数的讲解）

目录一、C/C内存分布 1. 栈（Stack） 2. 堆（Heap） 3. 全局区/静态区（Global Area/Static Area） 4. 常量区（Constant Area） 5. 代码区（Code Area） 二、C…

阅读更多...

【HAL库】STM32CubeMX开发----STM32F407----LAN8720A----移植FreeModbus实现ModbusTCP

【HAL库】STM32CubeMX开发----STM32F407----LAN8720A----移植FreeModbus实现ModbusTCP

前言本次实验以 STM32F407VET6 芯片为MCU，使用 25MHz 外部时钟源。以太网PHY层芯片为 LAN8720A，移植FreeModbus实现ModbusTCP网口通信。具体内容参考文章：【HAL库】STM32CubeMX开发----STM32F407----ETHLAN8720ALWIP----ping通本次移植…

阅读更多...

基于开源模型搭建实时人脸识别系统（三）：人脸关键点、对齐模型概览与模型选型

基于开源模型搭建实时人脸识别系统（三）：人脸关键点、对齐模型概览与模型选型

续基于开源模型搭建实时人脸识别系统（二）：人脸检测概览与模型选型_CodingInCV的博客-CSDN博客摘要人脸对齐（face alignment）或者人脸关键点（face alignment）是定位人脸上的关键点&#xff…

阅读更多...

chatGLM 本地部署（windows+linux）

chatGLM 本地部署（windows+linux）

chatGLM算是个相对友好的模型，支持中英文双语的对话交流，清华出的我的教程无需特别的网络设置，不过部分情况因为国内网络速度慢，需要反复重复 chatGLM github地址一、硬件需求 N卡8G显存以上，最好16G以上&#xff…

阅读更多...

redis 集群 1：李代桃僵 —— Sentinel

redis 集群 1：李代桃僵 —— Sentinel

目前我们讲的 Redis 还只是主从方案，最终一致性。读者们可思考过，如果主节点凌晨 3 点突发宕机怎么办？就坐等运维从床上爬起来，然后手工进行从主切换，再通知所有的程序把地址统统改一遍重新上线么？毫无疑问…

阅读更多...

电路暂态过程

电路暂态过程

本文仅提取了课程的部分内容，原视频课程如下：姜三勇《电工学》暂态过程电路暂态过程——产生的原因： 1、内部原因：电路内部含有储能元件（如：电容、电感），其中存储的能量不能发生改…

阅读更多...

vscode如何退出/切换 github 账号

vscode如何退出/切换 github 账号

退出/切换 github 账号左下角点击头像按钮，选择注销，然后再重新登录

阅读更多...

推荐文章

最新文章