深度之眼(二十七)——神经网络基础知识(二)

news2024/11/24 3:04:20

文章目录

  • 一、反向传播
    • 1.1 梯度下降法
    • 1.2 学习率
  • 二、损失函数
    • 2.1 两种常见的损失函数
    • 2.2 CE(交叉熵)
    • 2.3 其他的损失函数和网址
  • 三、权值初始化
    • 3.1 自适应标准差:自适应方法随机分布中的标准差
  • 四、正则化方法
    • 4.1 过拟合、方差、偏差、噪声
    • 4.2 两种常用的正则化
    • 4.3 随机失活(正则化方法)
    • 4.4 其他正则化方法
  • 五、其他

一、反向传播

前向传播:输入层数据开始从前向后,数据逐步传递至输出层
反向传播:损失函数开始从后向前,梯度逐步传递至第一层

反向传播的作用是用于权重的更新,使得输出更加贴近标签

在这里插入图片描述

1.1 梯度下降法

在多元函数中有方向导数这一概念,在某一点上有众多的方向导数,其中最大值的方向称之为梯度方向。

梯度下降法中,权值沿梯度负方向更新,使函数值减小,因此,得到的某一点的梯度的方向后,其反方向,就是我们所求方向。也就是下降更快

1.2 学习率

学习率:控制更新步长
沿梯度负方向更新
在这里插入图片描述

步长太长了,以致没有到达最小

在这里插入图片描述
能接近最小值(目的)
通常学习率初始值为:0.1、0.01、0.001、0.0001这样

二、损失函数

搞清楚三个点:损失函数、代价函数、目标函数
损失函数:是对于单个样本的真实值和输出值的差异
代价函数:总体的差异
目标函数:总体的差异和模型复杂度的情况(正则式)
在这里插入图片描述

2.1 两种常见的损失函数

在这里插入图片描述
第一个MSE就是预测值和真实值之间的平方均值。(回归)

回归任务是用于预测数值型数据的一种监督学习任务,就是预测

第二个CE就是,数据的分布和模型的分布之间的差异(模型得出的分布需要逼近真实的分布,即q要逼近p,越是靠近,说明分布越好越真实)(分类)

分类任务是数据项划分为预定义的类别或聚类,就是提炼出标签

2.2 CE(交叉熵)

在这里插入图片描述
交叉熵=信息熵+相对熵
注意:这里的信息熵的定义跟我之前通信原理笔记中的信息熵是同一个概念(等概时,信息熵最大)
《通信原理》期末复习笔记
在这里插入图片描述
Softmax函数是一种在深度学习中常用的函数,它主要用于多分类问题。它的主要作用是将一组数字(通常是概率)转化为一个概率分布
原因:
在这里插入图片描述

2.3 其他的损失函数和网址

在这里插入图片描述
更多损失函数可到PyTorch网站

函数解读

三、权值初始化

在这里插入图片描述
权重不能太小,也不能太大,否则乘上权重之后,激活函数就分布在饱和区域,几乎没有梯度了。一般使用高斯分布(正态分布),所以使用3σ准则,不会太大也不会太小

其中,高斯分布取决于两个值,即均值和方差。(尽量保持数据是一半正的,一半负的,均值为0)

3.1 自适应标准差:自适应方法随机分布中的标准差

在这里插入图片描述
这个初始化,就是使用均匀分布。里面的a和b在不同的层里面是不同的,所以叫自适应。这里面算出的均值和方差就是可以放入之前的高斯分布的均值和方差了。

除了上面这个xavier初始化(叉威尔),还有一个就是kaiming初始化(凯明)(也叫MSRA初始化)

在这里插入图片描述
在这一篇论文里面有。

四、正则化方法

正则化:减小方差的策略,通俗理解为减轻过拟合的策略

误差可分解为:偏差,方差与噪声之和。即误差=偏差+方差+噪声之和
偏差:度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
噪声:则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界

4.1 过拟合、方差、偏差、噪声

在这里插入图片描述

首先:蓝色是训练集,橙色是测试集。纵轴上的1,就是表示精度100%(但是不可能精度百分之百,实际肯定有误差-上帝来了也得99.99%)
其次:偏差就是本身的拟合能力,就是你拟合效果的精度咋样,和实际偏差多少
最后:方差就是训练集和测试集的差距。(就是表示你在不同数据集中又会有多少误差)

所以过拟合现象:方差过大
在训练集表现良好
在测试集表现糟糕

在上面第二点提到目标函数中,由代价函数+约束项(约束项就是表示,拟合的不能太复杂,不然就会过拟合)
过拟合:
在这里插入图片描述
这个函数严格的经过了每一个点,但是对于测试集都太偏离,导致测试集的LOSS很大,这就是过拟合。

4.2 两种常用的正则化

在这里插入图片描述
有两种常用的分别是上图的L1和L2,也就是权重绝对值求和以及平方和。

对于L1
在这里插入图片描述
比方说红色的先是LOSS为0.1,那么W1和W2的最优解就是那个黑色点,而且具有权重的稀疏性。

对于L2
在这里插入图片描述
L2也称权值衰减
在这里插入图片描述
在最后一行,使得W_i减小了,所以也叫权值衰减,这里吧目标函数,简化为LOSS+系数*L2,(这个系数根据自己需要进行定义)

这样就可以解决过拟合现象

4.3 随机失活(正则化方法)

在这里插入图片描述
在这里插入图片描述

4.4 其他正则化方法

BN在CV中有很大的地位
在这里插入图片描述

五、其他

反向传播函数就是为了损失函数更小

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1874108.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis主从复制、哨兵以及Cluster集群

1.Redis高可用 在web服务器中,高可用是指服务器可以正常访问的时间,衡量的标准是在多长时间内可以提供正常服务(99.9%、99.99%、99.999%等等)。 但是在Redis语境中,高可用的含义似乎要宽泛一些,除了保证提供…

嵌入式Linux的浮点运算能力测试

嵌入式Linux的浮点运算能力测试 今天需要对一款ARM CPU的浮点数运算能力进行测试,采用了台式机上常用的SuperPI相同的原理:计算一定小数位数的圆周率来测试硬件的浮点数计算能力和稳定性。 首先下载计算软件的源代码,可以使用下面命令&#…

阿里云常用的操作

阿里云常见的产品和服务 容器服务 可以查看容器日志、监控容器cpu和内存, 日志服务 SLS 可以查看所有服务的日志, Web应用防火墙 WAF 可以查看 QPS. 阿里云查看集群: 点击 “产品和服务” 中的 容器服务,可以查看 集群列表&…

Labview_Occurrencel(事件发生)

PS:这里遇到 一个很Low的事情: 在停止第二个while循环的时候出现了停止不了的情况。因为等待事件发生设置的超时时间为:-1。所以等事件发生后出现了条件接线端已经执行的情况,所以当下次事件发生时未能及时停止。初版的停止设置如下图&#x…

Raylib学习-鼠标检测与GPU缓冲区使用

鼠标左键点击运行绘制 #include <raylib.h>int main() {const int screenWidth 800;const int screenHeight 450;InitWindow(screenWidth, screenHeight, "test"); // 设置帧率SetTargetFPS(150); // 设置一个画布&#xff0c;可以使用GPU进行绘制RenderText…

【深度学习】单机多卡 | DataParallel将计算任务在多个 GPU 上并行执行,可以在多个 GPU 上分摊工作负载,从而加快训练速度

【深度学习】单机多卡 | DataParallel将计算任务在多个 GPU 上并行执行&#xff0c;可以在多个 GPU 上分摊工作负载&#xff0c;从而加快训练速度 写在最前面DataParallel (DP) 简介使用 DataParallel 的场景使用 DataParallel 的基本步骤 代码部分train.py简单的代码示例代码解…

ffmpeg使用png编码器把rgb24编码为png图像

version #define LIBAVUTIL_VERSION_MAJOR 58 #define LIBAVUTIL_VERSION_MINOR 12 #define LIBAVUTIL_VERSION_MICRO 100 note 不使用AVOutputFormat code void CFfmpegOps::EncodeRGB24ToPNG(const char *infile, const char *width_str, const char *height_str, c…

什么是ArchiMate?有优缺点和运用场景?

一、什么是ArchiMate? ArchiMate是一种由The Open Group发布的企业级标准&#xff0c;它是一种整合多种架构的可视化业务分析模型语言&#xff0c;也属于架构描述语言&#xff08;ADL&#xff09;。ArchiMate主要从业务、应用和技术三个层次&#xff08;Layer&#xff09;&…

基于MATLAB对线阵天线进行道尔夫—切比雪夫加权

相控阵天线——基于MATLAB对线阵进行道尔夫—切比雪夫加权 目录 前言 一、阵列天线的综合 二、道尔夫—切比雪夫综合 三、单元间距的改变对切比雪夫阵列方向图的影响 四、单元数的改变对切比雪夫阵列激励分布的影响 五、副瓣电平SLL对切比雪夫阵列激励幅度的影响 六、副…

双路视频同屏显示(拼接)-基于野火Zynq7020开发板

前情提要 米联客FDMA驱动OV5640摄像头—基于野火Zynq7020开发板 本文在此基础上&#xff0c;实现了双路视频拼接。将ov5640输出的1024600的图像数据缩放为512600&#xff0c;分两路写入ddr3&#xff0c;并且显示在1024*600的RGB屏幕中。 纯FPGA也可以按此方法实现。 总体BLOC…

MySQL高级-SQL优化-小结

文章目录 1、insert 优化2、主键优化3、order by 优化4、group by 优化5、limit 优化6、count 优化7、update 优化 1、insert 优化 insert&#xff1a;批量插入、手动控制事务、主键顺序插入 大批量插入&#xff1a;load data local infile 2、主键优化 主键长度尽量短、顺序插…

遥感数据并行运算(satellite remote sensing data parallell processing)

文章内容仅用于自己知识学习和分享&#xff0c;如有侵权&#xff0c;还请联系并删除 &#xff1a;&#xff09; 之前不太会用&#xff0c;单纯想记录一下&#xff0c;后面或许还会用到 1. 教程 [1] Pleasingly Parallel Programming: link 1.1 处理器&#xff0c;核和线程 …

基于多模态知识图谱的多模态推理-MR-MKG

MR-MKG论文中提出了一种新的多模态推理方法&#xff0c;即利用多模态知识图&#xff08;Multimodal Knowledge Graph, MMKG&#xff09;进行多模态推理的方法。这种方法旨在通过从MMKG中学习&#xff0c;扩展大型语言模型&#xff08;LLMs&#xff09;的多模态知识。 1 三个模…

【AUTOSAR 基础软件】DEM模块详解(诊断故障管理)

文章包含了AUTOSAR基础软件&#xff08;BSW&#xff09;中DEM模块相关的内容详解。本文从ISO标准&#xff0c;AUTOSAR规范解析&#xff0c;ISOLAR-AB配置以及模块相关代码分析四个维度来帮读者清晰的认识和了解DEM这一基础软件模块。文中涉及的ISOLAR-AB配置以及模块相关代码都…

深度相机识别物体——实现数据集准备与数据集分割

一、数据集准备——Labelimg进行标定 1.安装labelimg——pip install labelimg -i https://pypi.tuna.tsinghua.edu.cn/simple 2.建立相应的数据集存放文件夹 3.打开labelimg&#xff0c;直接在命令行输入labelimg即可&#xff0c;并初始化 4.开始标注&#xff0c;设置标注好…

[Cloud Networking] VLAN

1 为什么需要 VLAN(Virtual Local Area Network) VLAN是一个逻辑网络&#xff0c;VLAN将设备/用户进行逻辑分组&#xff0c;VLAN需要在Switch上创建。为什么需要这样呢&#xff1f;为何不能所有设备都在同一个网络&#xff1f; 如下网络&#xff0c;如果设备过多&#xff0c;…

五线谱与简谱有什么区别 五线谱简谱混排怎么打 吉他谱软件哪个好

五线谱与简谱作为音乐记谱领域的两大主流系统&#xff0c;各自承载着深厚的历史渊源与独特的表现力&#xff0c;并在全球范围内被不同程度地接受和应用。尽管两者都是为了记录音乐作品中的音高和节奏信息&#xff0c;但其内在机制、适用范围以及学习曲线存在显著差别。下面我们…

QT拖放事件之七:子类化QMimeData,实现对多个自定义类型进行数据

1、前提说明 /*自定义的MIME类型数据存储在QMimeData对象中, 存在两种方法:1. setData(...)可以把自定义类型的数据以QByteArray的形式直接存储在QMimeData中,但是使用此方法一次只能对一个MIME类型进行处理(可参考 QT拖放事件六:自定义MIME类型的存储及读取demo ) 一文。…

动手学深度学习(Pytorch版)代码实践 -计算机视觉-44目标检测算法综述:R-CNN、SSD和YOLO

41~44目标检测算法综述&#xff1a;R-CNN、SSD和YOLO 1. 区域卷积神经网络 (R-CNN 系列) 1.1 R-CNN 使用启发式搜索算法来选择锚框。使用预训练模型对每个锚框提取特征&#xff08;每个锚框视为一张图片&#xff0c;使用 CNN 提取特征&#xff09;。训练 SVM 进行类别分类&a…

Halcon 文本文件操作,形态学

一文件的读写 *******************************************************向文本文件写入字符串内容*************************************************************read_image (Image, fabrik)threshold (Image, Region, 0, 120)area_center (Region, Area, Row, Column)open_…