【机器学习9】前馈神经网络

news2024/11/28 20:56:16

深度前馈网络是一类网络模型的统称,主要包括多层感知机、 自编码器、限制玻尔兹曼机, 以及卷积神经网络等。

1 激活函数

激活函数及对应导函数其它
Sigmoid在这里插入图片描述 在这里插入图片描述在这里插入图片描述导数 在z很大或很小时都会趋近于0, 造成梯度消失的现象
Tanh在这里插入图片描述 在这里插入图片描述在这里插入图片描述其导数在z很大或很小时都会趋近于0, 同样会出现“梯度消失
ReLU在这里插入图片描述 在这里插入图片描述在这里插入图片描述ReLU只需要一个阈值即可得到激活值,有效地解决梯度消失的问题,单侧抑制提供了网络的稀疏表达能力。局限性在于其训练过程中会导致神经元死亡的问题 :负梯度在经过该ReLU单元时被置为0, 且在之后也不被任何数据激活, 即流经该神经元的梯度永远为0, 不对任何数据产生响应。
LReLU在这里插入图片描述在这里插入图片描述既实现了单侧抑制, 又保留了部分负梯度信息以致不完全丢失。但a值的选择增加了问题难度, 需要较强的人工先验或多次重复训练以确定合适的参数值
PReLU与LReLU的主要区别是将负轴部分斜率a作为网络中一个可学习的参数, 进行反向传播训练, 与其他含参数网络层联合优化。

2 多层感知机

2.1 网络结构

定义第(l)层的输入为x(l), 输出为a(l); 在每一层中, 首先利用输入x(l)和偏置b(l)计算仿射变换z(l)=W(l)x(l)+b(l); 然后激活函数f作用于z(l), a(l)直接作为下一层的输入, 即x(l+1)。
在这里插入图片描述
在网络训练中, 前向传播最终产生一个标量损失函数, 反向传播算法(BackPropagation) 则将损失函数的信息沿网络层向后传播用以计算梯度, 达到优化网络参数的目的。

2.2 平方误差和交叉熵损失函数

给定包含m样本的集合 , 其整体代价函数为:

在这里插入图片描述

其中第一项为平方误差项, 第二项为L2正则化项。
梯度下降法中每次迭代对参数W(网络连接权重) 和b(偏置) 进行更新:
在这里插入图片描述
在这里插入图片描述下面针对两种不同的损失函数计算最后一层的残差δ(L); 得到δ(L)之后, 其他层的残差δ(L−1),…, δ(1)可以根据上面得到的递推公式计算。 进行简化计算,重点关注梯度产生的损失:

在这里插入图片描述

平方损失函数更适合输出为连续, 并且最后一层不含Sigmoid或Softmax激活函数的神经网络; 交叉熵损失则更适合二分类或多分类的场景。

3 Dropout和批量归一化

3.1Dropout

要求某个神经元节点激活值以一定的概率p被“丢弃”,即该神经元暂时停止工作。对于任意神经元, 每次训练中都与一组随机挑选的不同的神经元集合共同进行优化, 这个过程会减弱全体神经元之间的联合适应性, 减少过拟合的风险, 增强泛化能力。
在这里插入图片描述

3.2批量归一化

神经网络训练过程的本质是学习数据分布, 如果训练数据与测试数据的分布不同将大大降低网络的泛化能力, 因此我们需要在训练开始前对所有输入数据进行归一化处理。批量归一化方法是针对每一批数据, 在网络的每一层输入之前增加归一化处理(均值为0, 标准差为1)
在这里插入图片描述
其中x(k)为该层第k个神经元的原始输入数据, E[x(k)]为这一批输入数据在第k个神经元的均值, 在这里插入图片描述为这一批数据在第k个神经元的标准差。
批量归一化可以看作在每一层输入和上一层输出之间加入了一个新的计算层, 对数据的分布进行额外的约束, 从而增强模型的泛化能力。 但是批量归一化同时也降低了模型的拟合能力, 归一化之后的输入分布被强制为0均值和1标准差。 为了恢复原始数据分布, 具体实现中引入了变换重构以及可学习参数γ和β:
在这里插入图片描述
其中γ(k)和β(k)分别为输入数据分布的方差和偏差。在批量归一化操作中, γ和β变成了该层的学习参数, 仅用两个参数就可以恢复最优的输入数据分布, 与之前网络层的参数解耦, 从而更加有利于优化的过程, 提高模型的泛化能力。

4深度卷积神经网络

卷积神经网络特点是每层的神经元节点只响应前一层局部区域范围内的神经元。
深度卷积神经网络模型通常由若干卷积层叠加若干全连接层组成, 中间也包含各种非线性操作以及池化操作。
由于卷积运算主要用于处理类网格结构的数据, 因此对于时间序列以及图像数据的分析与识别具有显著优势。
卷积操作的本质特性包括稀疏交互和参数共享。

4.1 稀疏交互

卷积核尺度远小于输入的维度, 这样每个输出神经元仅与前一层特定局部区域内的神经元存在连接权重(即产生交互) , 我们称这种特性为稀疏交互, 假设网络中相邻两层分别具有m个输入和n个输出, 全连接网络中的权值参数矩阵将包含m×n个参数。 对于稀疏交互的卷积网络, 如果限定每个输出与前一层神经元的连接数为k, 那么该层的参数总量为k×n。
全连接层

卷积层

稀疏交互的物理意义是, 通常图像、 文本、 语音等现实世界中的数据都具有局部的特征结构, 我们可以先学习局部的特征, 再将局部的特征组合起来形成更复杂和抽象的特征。 以人脸识别为例, 最底层的神经元可以检测出各个角度的边缘特征 ; 位于中间层的神经元可以将边缘组合起来得到眼睛、鼻子、 嘴巴等复杂特征 ; 最后, 位于上层的神经元可以根据各个器官的组合检测出人脸的特征 。

4.2 参数共享

参数共享是指在同一个模型的不同模块中使用相同的参数, 它是卷积运算的固有属性。
全连接网络中, 计算每层的输出时, 权值参数矩阵中的每个元素只作用于某个输入元素一次; 而在卷积神经网络中, 卷积核中的每一个元素将作用于每一次局部输入的特定位置上。 根据参数共享的思想, 我们只需要学习一组参数集合, 而不需要针对每个位置的每个参数都进行优化。

4.3 池化

池化操作的本质是降采样。 池化操作除了能显著降低参数量外, 还能够保持对平移、 伸缩、 旋转操作的不变性。

原理特点
均值池化通过对邻域内特征数值求平均来实现, 能够抑制由于邻域大小受限造成估计值方差增大的现象对背景的保留效果更好
最大池化通过取邻域内特征的最大值来实现, 能够抑制网络参数误差造成估计均值偏移的现象更好地提取纹理信息
相邻重叠区域的池化采用比窗口宽度更小的步长, 使得窗口在每次滑动时存在重叠的区域
空间金字塔池化主要考虑了多尺度信息的描述, 例如同时计算1×1、 2×2、 4×4的矩阵的池化并将结果拼接在一起作为下一网络层的输入

5深度残差网络

5.1 梯度消失

在2.2中推导的误差传播公式为:
在这里插入图片描述

如果再展开所有层的话,就涉及很多参数以及导数的连乘,这时误差很容易产生消失或者膨胀, 影响对该层参数的正确学习。 因此深度神经网络的拟合和泛化能力较差, 有时甚至不如浅层的神经网络模型精度更高。
在这里插入图片描述

ResNet把网络结构调整为, 既然离输入近的神经网络层较难训练, 那么我们可以将它短接到更靠近输出的层,输入x经过两个神经网络的变换得到F(x), 同时也短接到两层之后, 最后这个包含两层的神经网络模块输出H(x)=F(x)+x。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1216095.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python接口自动化(什么是接口、接口优势、类型)

简介 经常听别人说接口测试,接口测试自动化,但是你对接口,有多少了解和认识,知道什么是接口吗?它是用来做什么的,测试时候要注意什么?坦白的说,笔者之前也不是很清楚。接下来先看一下…

模拟实现一个Linux中的简单版shell

exec系列接口中的环境变量 在之前我们学习了exec系类函数的功能就是将一个程序替换成另外一个程序。 然后就会出现下面的问题: 首先父进程对应的环境变量的信息是从bash中来的,因为我们自己写的父进程在运行的时候首先就要成为bash的子进程。这里我们将…

解决计算机丢失msvcr71.dll问题,总结5种解决方法分享

由于各种原因,计算机在使用的过程中可能会出现一些问题,其中之一就是丢失msvcr71.dll文件。这个问题可能会导致计算机无法正常运行某些程序或功能,给我们的生活和工作带来困扰。那么,当我们遇到这个问题时,应该如何解决…

福利来了,运营素材免费下载

各位运营的小伙伴,是不是在日常工作中常常用到这种场景:公司要做一个活动,老板让你写一个活动SOP,但是没有过往经验,一时无从下手,老板又死催。 自己想了解拉新的办法,但是一时找不到资料&…

双十一快递业务量暴增,快递驿站视频智能监控方案保障快递业务顺利开展

一、背景分析 虽然刚刚过去的双十一电商购物狂潮结束,但是快递业务量仍处在高峰期。据数据统计,今年全国邮政快递企业在11月11日当天共揽收快递包裹6.39亿件,是平日业务量的1.87倍,同比增长15.76%。随着电商购物节的不断增多&…

【Qt之QWizardPage】使用

介绍 QWizardPage类是向导页面的基类。 QWizard表示一个向导。每个页面都是一个QWizardPage。当创建自己的向导时,可以直接使用QWizardPage,也可以子类化它以获得更多控制。 页面具有以下属性,由QWizard呈现:a title,…

易点易动库存管理系统:革新企业库存管理,降本增效

在快速变化的市场环境中,企业面临着库存管理的巨大挑战。传统的库存管理方式耗时耗力,且常常因为信息滞后、数据不精确而导致库存积压或短缺。易点易动库存管理系统(以下简称“易点易动”)的出现,标志着企业库存管理进…

前端性能优化的方式

文章目录 前言DNS 预解析存储使用 HTTP / 2.0预加载预渲染懒执行与懒加载文件优化webpack优化如何根据chrome的timing优化移动端优化后言 前言 hello world欢迎来到前端的新世界 😜当前文章系列专栏:前端系列文章 🐱‍👓博主在前端…

Linux进程之进程的状态简述

文章目录 1.百度搜索2.对进程状态的认识2.0创建状态2.1就绪状态2.2运行状态2.3阻塞状态2.4挂起状态 3.认识LinuxOS下的进程3.0进程状态的简述3.1了解R/S状态3.2D深度睡眠状态3.3信号/调试暂停状态3.4僵尸状态 1.百度搜索 2.对进程状态的认识 一个进程所具有的状态为操作系统的…

demo(三)eurekaribbonhystrix----服务降级熔断

一、介绍: 1、雪崩: 多个微服务之间调用的时候,假如微服务A调用微服务B和微服务C,微服务B和微服务C又调用其他的微服务,这就是所谓的"扇出"。如果扇出的链路上某个微服务的调用响应的时间过长或者不可用&am…

开发者的第一台服务器 ECS云服务器低至99元:新老同享

“阿里云始终围绕‘稳定、安全、性能、成本、弹性’的目标不断创新,为客户创造业务价值。”10月31日,杭州云栖大会上,阿里云弹性计算计算产品线负责人张献涛表示,通过持续的产品和技术创新,阿里云发布了HPC优化实例等多…

Kubernetes(k8s)进阶

文章目录 Kubernetes进阶一、Namespace(名称空间)1.namespace介绍2.管理namespace查看namespace创建namespaceyaml文件配置namespace 二、Pod(最小基本部署单元)1.pod介绍2.管理pod创建并运行pod查看pod信息访问pod删除podyaml文件…

如何分析伦敦金的价格走势预测?

伦敦金作为国际黄金市场的重要指标,其价格走势一直备受投资者关注。但是,黄金市场的价格变化受到多种因素的影响,因此要准确预测伦敦金的价格走势并非易事。在本文中,将介绍一些常用的方法和工具,帮助您分析伦敦金的价…

挖掘PostgreSQL事务的“中间态”----更加严谨的数据一致性?

1.问题 今天在上班途中,中心的妹纸突然找我,非常温柔的找我帮忙看个数据库的报错。当然以我的性格,妹子找我的事情对我来说优先级肯定是最高的,所以立马放下手中的“小事”,转身向妹子走去。具体是一个什么样的问题呢…

vue部署之后提示用户更新的两种方式(http请求和worker线程请求)

const { writeFile, mkdir, existsSync } require(fs) // 动态生成版本号 const createVersion () > {// mkdir(./dist, { recursive: true }, (err) > {//检测dist目录是否存在if (existsSync(./dist)) {writeFile(./dist/version.json, {"version":"$…

【vue】0到1的常规vue3项目起步

创建项目并整理目录 npm init vuelatestjsconfig.json配置别名路径 配置别名路径可以在写代码时联想提示路径 {"compilerOptions" : {"baseUrl" : "./","paths" : {"/*":["src/*"]}} }elementPlus引入 1. 安装e…

新增文件收藏夹、回收站、终端等功能,1Panel开源面板v1.8.0发布

2023年11月13日,现代化、开源的Linux服务器运维管理面板1Panel正式发布v1.8.0版本。 在这一版本中,1Panel新增文件收藏夹、回收站、终端功能,面板设置时支持设置面板监听地址。此外,1Panel开源项目组还进行了60多项功能更新和问题…

ICCV 23丨3D-VisTA:用于 3D 视觉和文本对齐的预训练Transformer

来源:投稿 作者:橡皮 编辑:学姐 论文链接:https://arxiv.org/abs/2308.04352 开源代码:http://3d-vista.github.io 摘要: 3D视觉语言标定(3D-VL)是一个新兴领域,旨在将…

《C++避坑神器·十八》运算符重载,小白也能看懂

对已有的运算符重新进行定义,赋予其另一种功能,以适应不同的数据类型 1、对于号运算符没有类 类 类,现在要给号赋予对象可以相加的功能 (1)成员函数重载号运算符 (2)全局函数重载号运算符 …

行情分析——加密货币市场大盘走势(11.16)

大饼昨日突然回调诱多上涨到38000附近,现在又重新跌回到37500,现在仓位小的可以加仓入场,而已经有仓位的不要动即可。 空单策略:入场37500附近 止盈34000-32000 止损39000 以太今日可以入场空单2060附近即可 策略:入…