毫米波雷达深度学习技术-1.7训练一个神经网络

news2024/11/17 6:01:42

1.7 训练一个神经网络

       对于训练神经网络,有两个步骤,即前向传递和误差反向传播。

1.7.1 前向传播和反向传播

       在前向传递中,输入被馈送到模型并与权重向量相乘,并为每一层添加偏差以计算模型的输出。密集层或全连接层第l层的输入、 激活函数和输出表示如下:

(1.57)

       其中N表示第l层的神经元数量,是第l层任务需要学习的权重,σ()是激活函数

       反向传播如下所述。考虑一个样本,其输入和预期输出和实际输出,因此一个样本的误差为 ,其中是权重的函数。使用梯度下降算法更新权重以最小化误差,可以表示如下:

(1.58)

       在式(1.58),可计算如下:

(1.59)

       其中,

       由于的函数,因此可以推导出

(1.60)

(1.61)

       这是在前馈步骤中计算的。

       因此,把它们放在一起给了我们:

(1.62)

       神经网络训练过程中的一些重要方面如下:

       1.学习率:每次权重更新都由参数 λ 控制,称为学习率参数。如果学习率太小,那么可能会导致学习速度非常慢,很容易被困在局部最小值中,并且可以持续运行多次迭代。另一方面,如果学习率很大,那么它可能会越过最小值,可能无法收敛,并可能发散。因此,根据架构、数据集、传递函数等选择良好的学习率非常重要。图1.18说明了选择小学习率和大学习率对梯度下降的影响。

图1.18 (a)学习率小和(b)学习率大时梯度下降的图示。

       2. 权重初始化:在初始化过程中随机化权重很重要;否则,权重的对称性会阻止网络学习。通常,使用小的随机值,这在层中的神经元数量增长时非常重要,因为加权和可能会使优化函数饱和。

       3. 过拟合和欠拟合:在机器学习中,目标不仅是最小化样本内数据(即可用或可见的数据)的成本函数,而且还要对样本外数据(即训练期间不可用或不可见的数据)进行泛化。在训练过程中,可用的数据集分为训练集、验证集和测试集。训练数据集用于训练模型,验证数据集用于设置模型的超参数,测试数据集用于估计样本外或泛化精度。

       当训练数据的性能较差时,可以将其视为欠拟合,通常是由于学习率选择不当或神经网络维度不足。此错误称为“偏差”。图1.19的左列说明了欠拟合问题。当训练数据的性能良好(即近似精度好),但测试或验证数据性能差(即泛化精度差)时,就会出现过拟合问题。这种现象也称为“方差”,如图1.19的右栏所示。如果训练集大小不足或模型复杂度对于数据来说太高,则模型可以很好地记住或近似训练数据,但不能很好地泛化测试数据,即过度拟合。训练机器学习模型的目的是找到一个如图 1.19 中间列所示的模型,其中训练误差(偏差)和泛化误差(方差)最小化。通常,训练会找到一个模型,以便在偏差和方差之间实现平衡,通常被称为“偏差-方差”权衡。在深度学习的情况下,“偏差-方差”权衡不适用,因为有单独的机制来减少偏差和方差,因此权衡不容易适用。

图1.19 模型欠拟合和过拟合的图示。

       4. 维度的诅咒:机器学习的另一个关键方面是维度的诅咒。维度的诅咒与过拟合密切相关。在高维空间中,大多数训练数据都位于定义特征空间的超立方体的角落。特征空间角落中的实例比超活跃球体质心周围的实例更难分类。因此,随着特征或维度数量的增加,我们需要准确泛化的数据量也呈指数级增长。

1.7.2 优化器

       优化器是帮助改变模型的权重和偏差的方法,以便将损失函数最小化。对标准随机梯度下降 (SGD) 算法提出了一些修改,即,其中) 分别表示损失函数及其导数。表示更新步骤后和之前的权重,λ表示学习率。以下是改进标准 SGD 的优化器列表:

       1. 动量:它加速SGD朝向相关方向,同时减少振荡。它基本上是将先前权重更新的一部分添加到当前更新向量中,从而确保在一定程度上保留先前更新的方向,同时使用当前更新梯度来微调最终更新方向。动量引入了另一个变量,可以表示如下

(1.63)

       2. Nesterov 加速梯度 [45]:虽然动量有助于降低噪声并加速收敛,但它也会引入误差。在Nesterov加速梯度中,通过将先前的权重更新的一部分包含在当前更新向量中以执行权重更新来解决此问题,其表示如下:

(1.64)

       γ的典型值 = 0.9。

       3. Adagrad [46]:Adagrad 的动机是每个参数都有一个自适应学习率;然而,早期的方法具有固定的学习率。Adagrad 确保依赖于迭代的隐藏层的不同神经元具有不同的学习率。其背后的直觉是,对于不频繁的参数,应该进行较大的更新,而对于频繁的参数,应该进行较小的更新。对于每次权重更新,学习率调整如下:

(1.65)

       由于梯度的平方和不断增长,因此自适应地会导致较小的学习率。参数ε有助于避免除以零的问题。

       4. RMSprop [47]:Adagrad 的一个问题是,在DNN中经过几次迭代后,学习速率变得非常小,从而导致死神经元问题,并导致这些神经元没有更新。RMSprop 修复了此问题,即使在多次参数更新后,学习也可以继续。在RMSprop 中,学习率是梯度的指数平均值,而不是像 Adagrad 中那样的梯度平方和的累积和。通过将梯度累积限制在某个过去来计算每个权重的平方梯度的移动平均值,可以表示如下:

 (1.66)

       5. Adadelta [48]:Adadelta 是对 Adagrad 的另一项改进,可在多次参数更新后继续学习。但 Adadelta 的计算成本很高。在这里,梯度累积仅限于某个过去的更新,方法是计算每个权重参数的平方梯度和参数更新的移动平均值,如下所示:

(1.67)

       6. 自适应矩估计(ADAM)[49]:Adam 优化器是当今最流行和使用最广泛的优化器之一。它既存储类似于动量的过去梯度的衰减平均值,也存储过去平方梯度的衰减平均值,类似于 RMSprop和Adadelta。ADAM可以表示为以下等式,其中动量通过使用第一和第二矩添加到RMSprop中,即梯度的平均值和方差

(1.68)

       其中β1和β2是梯度均值和方差的移动平均实现中的遗忘因子。Adam易于实现且计算效率高,并且由于移动平均实现,需要的内存更少

1.7.3 损失函数

       神经网络被表述为一个优化问题。候选解,即网络的权重,应最小化或最大化给定目标函数的分数。

       在回归问题的情况下,目标是预测一个实值量。在这种情况下,在输出层使用线性激活单元,并使用 MSE 作为损失函数。回归的均方损失如下:

(1.69)

       其中y和ŷ分别是神经网络的真实值和预测值。

       对于分类问题建模,其思路是将输入变量映射到类标签,这意味着目标是预测示例属于特定类的概率。在最大似然估计下,网络的训练试图找到一组模型权重,以最小化模型给定数据集的预测概率分布与训练数据集中概率分布之间的差异。这称为CE损失,在二元分类的情况下,在输出端配置为sigmoid激活,而对于多类分类,在输出端使用 softmax 激活。在这两种情况下,问题都表述为预测属于特定类的给定输入的最大可能性

       二元分类的二元CE损失如下:

(1.70)

       其中p是类1的概率,1−p 是类0的概率,ŷ是神经网络的预测概率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1884656.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序的运行机制与更新机制

1. 小程序运行机制 1.1. 冷启动与热启动 冷启动为用户第一次打开小程序时,因为之前没有打开过,这是第一种冷启动的情兑。第二种情况为虽然之前用户打开过,但是小程序被用户主动的销毁过,这种情况下我们再次打开小程序&#xff0…

西门子S120伺服驱动器F1910故障报警处理总结

西门子S120伺服驱动器F1910故障报警处理总结 热压机正常工作时出现故障,无上升和下降动作,伺服故障代码为1910, 同时发现压机的实际压力为13Mpa,没有达到设定的14Mpa, 查看S120的报警手册,如下图所示, F01910:现场总线设定值超时,与上位机控制器的通讯故障, 可能的原…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《考虑复合指标优化模态分解和 Stacking 集成的综合能源系统多元负荷预测》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

巴西东南湾乌巴图巴 ANTARES 监测站数据

ANTARES monitoring station in Ubatuba, Southeast Brazilian Bight 巴西东南湾乌巴图巴 ANTARES 监测站 简介 ANTARES 区域网络由分布在拉丁美洲的沿岸时间序列站组成。主要目的是研究气候和人为影响引起的长期变化,以及用于卫星匹配和算法开发的海洋颜色。Uba…

一分钟学习数据安全—自主管理身份SSI分布式加密密钥管理

在这篇之前,我们已经对SSI有了一个全局的了解。这个系列的文章可以作为一个学习笔记来参考,真正要实践其中的一些方案、协议,还需要参考专业的书籍和官方文档。作为一个SSI系列学习笔记的最后一篇,我们做一个简单的延伸&#xff0…

【PLC】三菱PLC如何和汇川伺服实现485通信

前言 一开始选用的是汇川SV660P脉冲型伺服,由于生产需求需要对伺服的个别参数进行读取和写入操作,但是SV660P并不支持这种情况,因此需要使用485通信来满足。PLC这边选用的是三菱FX5U。 开始 1、首先准备按照下图的引脚提示准备好一根带屏蔽…

(七)glDrawArry绘制

几何数据&#xff1a;vao和vbo 材质程序&#xff1a;vs和fs(顶点着色器和片元着色器) 接下来只需要告诉GPU&#xff0c;使用几何数据和材质程序来进行绘制。 #include <glad/glad.h>//glad必须在glfw头文件之前包含 #include <GLFW/glfw3.h> #include <iostrea…

英伟达经济学:云服务商在GPU上每花1美元 就能赚7美元

NVIDIA超大规模和 HPC 业务副总裁兼总经理 Ian Buck 近日在美国银行证券 2024 年全球技术大会上表示&#xff0c;客户正在投资数十亿美元购买新的NVIDIA硬件&#xff0c;以跟上更新的 AI 大模型的需求&#xff0c;从而提高收入和生产力。 Buck表示&#xff0c;竞相建设大型数据…

flask中解决图片不显示的问题(很细微的点)

我在编写flask项目的时候&#xff0c;在编写html的时候&#xff0c;发现不管我的图片路径如何变化&#xff0c;其就是显示不出来。如下图我框中的地方。 我尝试过使用浏览器打开&#xff0c;是可以的。 一旦运行这个flask项目&#xff0c;就无法显示了。 我查阅资料后。发现…

Kafka-时间轮和延迟操作-源码流程

TimingWheel 字段&#xff1a; buckets&#xff1a;Array.tabulate[TimerTaskList]类型&#xff0c;其每一个项都对应时间轮中的一个时间格&#xff0c;用于保存 TimerTaskList的数组。在TimingWheel中&#xff0c;同一个TimerTaskList中的不同定时任务的到期时间可能 不同&a…

【Dison夏令营 Day 06】用 Python 和 Rich 制作 Wordle克隆(中篇)

在大流行期间&#xff0c;Wordle 在 Twitter 上还算比较流行的一款基于网络的益智游戏&#xff0c;要求玩家每天在六次或更短时间内猜出一个新的五个字母的单词&#xff0c;每个人得到的单词都是一样的。 在本教程中&#xff0c;你将在终端上创建自己的 Wordle 克隆。自 2021 …

【Qt】认识Qt界面Hello world小程序

一.认识Qt界面 1.左边栏 在编辑模式下&#xff0c;左边竖排的两个窗⼝叫做 "边栏" 。 ① 是项⽬⽂件管理窗⼝ ② 是打开⽂件列表窗⼝。 边栏⾥的窗⼝数⽬可以增加&#xff0c;边栏⼦窗⼝标题栏有⼀排⼩按钮&#xff0c;最右边的是关闭按钮&#xff0c;倒数第⼆个是 …

分布式限流:Spring Cloud Gateway 限流

分布式限流&#xff1a;Spring Cloud Gateway 限流 在现代微服务架构中&#xff0c;流量控制是一个至关重要的部分。分布式限流作为一种有效的流量控制手段&#xff0c;能够帮助我们保护系统不被突发的流量冲垮。Spring Cloud Gateway支持多种限流方式。 什么是分布式限流 分…

电影交流平台小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;电影类型管理&#xff0c;留言反馈管理&#xff0c;电影中心管理&#xff0c;系统管理 微信端账号功能包括&#xff1a;系统首页&#xff0c;电影中心&#xff0c;留言反馈 开发系统&#xff1a;Window…

适用于高海拔地区的工业路由器产品

1、西藏背景 西藏&#xff0c;这个位于中国西南部的神秘之地&#xff0c;以其雄伟壮观、神奇瑰丽的自然风光和深厚的文化底蕴&#xff0c;被无数人视为心中的圣地。这里属于高原性气候&#xff0c;具有气温低、气压低&#xff0c;降水少&#xff0c;生态环境十分恶劣。西藏被誉…

Spring Boot集成DeepLearning4j实现图片数字识别

1.什么是DeepLearning4j&#xff1f; DeepLearning4J&#xff08;DL4J&#xff09;是一套基于Java语言的神经网络工具包&#xff0c;可以构建、定型和部署神经网络。DL4J与Hadoop和Spark集成&#xff0c;支持分布式CPU和GPU&#xff0c;为商业环境&#xff08;而非研究工具目的…

《Windows API每日一练》7.4 状态报告上使用计时器

这一节我们使用计时器&#xff0c;每隔一秒获取当前鼠标坐标位置的像素值&#xff0c;并显示在窗口&#xff0c;这就相当于是一个简单的取色器了。 本节必须掌握的知识点&#xff1a; 第47练&#xff1a;取色器 7.4.1 第47练&#xff1a;取色器 /*----------------------------…

商家团购app微信小程序模板

手机微信商家团购小程序页面&#xff0c;商家订餐外卖小程序前端模板下载。包含&#xff1a;团购主页、购物车订餐页面、我的订单、个人主页等。 商家团购app微信小程序模板

昇思25天学习打卡营第13天|ResNet50图像分类

1. 学习内容复盘 图像分类是最基础的计算机视觉应用&#xff0c;属于有监督学习类别&#xff0c;如给定一张图像(猫、狗、飞机、汽车等等)&#xff0c;判断图像所属的类别。本章将介绍使用ResNet50网络对CIFAR-10数据集进行分类。 ResNet网络介绍 ResNet50网络是2015年由微软…

使用Git从Github上克隆仓库,修改并提交修改

前言 本次任务主要是进行github提交修改的操作练习实践&#xff0c;本文章是对实践过程以及遇到的问题进行的一个记录。 在此之前&#xff0c;我已经简单使用过github&#xff0c;Git之前已经下好了&#xff0c;所以就省略一些步骤。 步骤记录 注册github账号&#xff0c;gi…