深度学习,卷积神经网络

news2024/9/22 9:45:09

卷积神经网络

 

1.卷积神经网络应用领域

CV领域发展

CV领域是计算机视觉(Computer Vision)领域的简称。

计算机视觉是指利用计算机模拟人类视觉系统的科学,让计算机具有类似于人类在观察外界的视觉、图像的能力,包括图像处理、图像分析、图像理解等。

计算机视觉领域发展有以下特点:

  1. 视觉系统的出现和不断完善迫使不同物种间的竞争加剧,进而导致了“Big Bang”现象的出现。

  2. 80年代,逻辑学和知识库等理论在人工智能领域占据了主导地位。人们试图建立专家系统来存储先验。

我们需要明确监测任务,然后进行分类和检索,对相应的对象进行超分辨重构,卷积神经网络除了在图像识别上有广泛的应用以外,还在医学任务、无人驾驶等领域也非常重要。

卷积神经网络的应用领域主要有:

  1. 图像识别、物体识别、图像处理、语音识别、自然语言处理等。

  2. 应用于计算机视觉、人工智能研究等多个领域。

  3. 视频分析、游戏AI。

2.卷积的作用

卷积在信号处理和图像处理中主要用于以下几方面1:

  1. 特征提取:通过卷积核(也称为滤波器)对输入信号进行卷积操作,可以提取信号的局部特征。不同卷积核可以提取不同类型的特征,例如在图像处理中,可以使用边缘检测卷积核来提取图像中的边缘特征。

  2. 降噪:通过卷积对输入信号进行平滑处理,可以去除噪声。例如在图像处理中,可以使用高斯滤波器对图像进行平滑处理,从而去除图像中的噪声。

  3. 压缩:通过卷积降低信号的维度,可以实现数据压缩。例如在语音处理中,可以使用卷积将语音信号压缩成更小的维度,从而减少存储空间和计算成本。

卷积网络与传统网络的区别:

 

 

传统神经网络输入是一个向量,一维数据。卷积神经网络输入是三维长方体矩阵。

  1. 传统神经网络的每一层的权值参数都是一样的,而卷积神经网络的每一层的权值是可以不同的。

  2. 传统神经网络有专门的预处理和后处理层,而卷积神经网络的可以没有专门的预处理和后处理层。

  3. 传统神经网络有专门的池化层,而卷积神经网络的可以没有专门的池化层。

卷积网络的作用有:

  1. 局部连接和权值共享,减少了网络自由参数的个数易于计算。

  2. 多卷积核,可以添加多个卷积核提取不同的特征,使特征提取更充分。

  3. 卷积神经网络的池化,降低了空间分辨率,改善结果。

 

 

3.卷积特征值计算方法

 

 

步长大小与计算速度有关系,步长越小,所得特征图越大,所做计算次数越多,一般为1。

卷积核尺寸:所选区域大小,一般取3*3即可

边缘填充:在一定程度上弥补边界特征不被重视的点,一般填充一圈0,或者两圈0都可以,可以自定义

卷积核个数:即特征图个数,即filter个数

卷积计算结果:(特征图长宽以及个数)h * w * c

步长的影响

 

 

步长比较短的,那么它的内容获得更加丰富。

卷积层涉及到参数:

  1. 滑动窗口步长

  2. 卷积和尺寸

  3. 边缘填充

  4. 卷积核个数

 

 

边缘填充方法:一般来说,越往边界的点,利用的次数就比较少;而中间的点利用的次数更多一些。这时候我们需要进行边缘填充,很多时候,我们在边界加上一圈0,扩充边缘的内容,将原来的边界转变为内部值。

卷积结果计算

 

 

其中W1、H1表示输入的宽度、长度;W2、H2表示输出特征图的宽度、长度;F表示积卷核长和宽的大小;S表示滑动窗口的步长;P表示边界填充(加几圈0)。

如果输入数据是32323的图像,用10个553的filter来进行卷积操作,指定步长为1,迈界填充为2,最终输入的规模为?

(32-5+2 * 2) / 1+1=32,所以输出规模为32 * 32 * 10, 经过卷积操作后也可以保持特征图长度、宽度不变。

4.卷积参数共享

 

 

卷积参数共享是指在同一个模型的不同模块中使用相同的参数,它是卷积运算的固有属性。

在全连接网络中,计算每层的输出时,权值参数矩阵中的每个元素只作用于某个输入元素一次;而在卷积神经网络中,卷积核中的每一个元素将作用于每一次局部输入的特定位置上。根据参数共享的思想,我们只需要学习一组参数集合,而不需要针对每个位置的每个参数都进行优化,从而大大降低了模型的存储需求。

卷积参数共享的物理意义是使得卷积层具有平移等变性。例如在图像中有一只猫,那么无论它出现在图像中的任何位置,我们都应该将它识别为猫,也就是说神经网络的输出对于平移变换来说应当是等变的。

数据依旧是32 * 32 * 3的图像,继续用10个5 * 5 * 3的filter来进行卷积操作,所需的权重参数有多少个呢?

5 * 5 * 3=75,表示每一个卷积核只需要75个参数,此时有10个不同的卷积核,就需要10 * 75=750个卷积核参数,不要忘记还有b参数,每个卷积核都有一个对应的偏置参数,最终只需要750+10=760个权重参数。

5.CNN介绍

CNN(卷积神经网络)是一种常见的深度学习神经网络,主要用于图像识别、语音识别和其他图像或语音处理任务。

CNN的基本结构包括卷积层(convolutional layer)、池化层(pooling layer)、全连接层(fully connected layer)和激活函数(activation function)。其中,卷积层用于提取图像或语音的特征,池化层用于降低数据的维度,全连接层用于将特征与标签进行映射,激活函数则用于增加非线性特性。

CNN的优势在于可以利用局部连接、权值共享和池化等操作,使得网络具有平移、旋转、缩放等不变性,从而更好地适应图像和语音等数据。此外,CNN还可以通过多层卷积和池化操作,逐步提取更高级的特征,提高识别准确率

6.池化层的作用

池化层(pooling layer)在卷积神经网络(CNN)中的作用主要有以下几个方面:

  1. 下采样:池化层可以对输入数据进行下采样,即对输入数据进行降维操作,从而减少数据的计算量和存储需求。

  2. 特征压缩:池化层可以通过对输入数据进行降维操作,将高维数据压缩成低维数据,从而实现特征的压缩和简化网络复杂度的效果。

  3. 数据归一化:池化层可以对输入数据进行归一化处理,即将数据映射到指定的范围内,例如将数据压缩到0到1之间,从而避免梯度消失和梯度爆炸等问题。

  4. 提高模型的泛化能力:池化层可以通过对输入数据进行平移、旋转、缩放等不变性操作,提高模型的泛化能力和鲁棒性,从而更好地适应不同的数据场景。

  5. 实现非线性:池化层可以引入非线性因素,例如使用ReLU等激活函数,从而提高模型的表达能力。

  6. 扩大感知野:池化层可以扩大神经网络的感知野,即让神经元能够感知到更多的局部特征,从而提高模型的准确率和泛化能力。

 

 

最大池化:将我们分块的部分选择出最大的参数值进行操作,MAX POOLING就是把最重要的部分(特征)取出来,舍去了不太重要的部分。也就是将原来的大的部分压缩成相对小的多的。

7.整体网络架构

卷积神经网络(CNN)的整体网络架构包括以下几个主要组成部分:

  1. 输入层(Input layer):负责接收原始数据,例如图像、文本等。

  2. 卷积层(Convolutional layer):通过卷积核(也称为滤波器)对输入数据进行卷积操作,提取局部特征。

  3. 池化层(Pooling layer):通过下采样、降维、压缩等操作,降低数据的维度,提高模型的泛化能力和鲁棒性。

  4. 全连接层(Fully connected layer):将所有特征进行线性组合,并输出结果。通常用于分类任务。

  5. 激活函数(Activation function):用于引入非线性因素,提高模型的表达能力。常见的激活函数包括ReLU、sigmoid等。

  6. 损失函数(Loss function):用于评估模型的预测结果与实际结果的差距,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-entropy)等。

  7. 优化器(Optimizer):用于通过反向传播算法更新模型的参数,以最小化损失函数。常见的优化器包括梯度下降(Gradient descent)、Adam等。

  8. 正则化(Regularization):用于防止过拟合现象,提高模型的泛化能力。常见的正则化方法包括L1正则化、L2正则化等。

这是对上面的知识点的总结。

而这些组成部分通过组合和堆叠,可以构建出各种不同类型和规模的卷积神经网络,例如LeNet、AlexNet、VGG、ResNet、Inception等。

一般来说,执行了几次卷积之后,就需要进行一次池化的操作。最后的目标是转化为一条向量,这样才能比较合理地处理相应的数据。

8.VGG网络架构

经典网络-Alexnet

 

 

AlexNet是深度卷积神经网络的一种,由谷歌和Hinton领导的团队在2012年提出,在ImageNet图像识别挑战中以15.3%的错误率登顶,并高出第二名10%以上。

AlexNet的特点包括:

  1. 使用ReLU作为激活函数。

  2. 使用数据增强技术来增加数据集的多样性。

  3. 使用局部响应归一化(Local Response Normalization,LRN)来控制卷积层的响应范围,提高模型的泛化能力。

  4. 使用Dropout技术来避免过拟合。

  5. 使用GPU进行训练,提高了训练速度和效率。

  6. 网络结构较深,使用多个卷积层和池化层来提取图像特征。

  7. 使用两个GPU来加速训练过程,并实现了更高效的并行计算。

AlexNet是深度卷积神经网络的里程碑之一,其提出的许多技术和方法对后来的研究和实践产生了深远的影响。

经典网络-Vgg

  

VGG网络架构是一种深度卷积神经网络,由牛津大学视觉几何组(Visual Geometry Group,VGG)开发。

VGG的网络架构主要由卷积层和全连接层组成,其中卷积层使用的基本上是3x3的小卷积核,通过堆叠多个卷积层和池化层来构建深度模型。VGG共有16、19、3、4、5五种不同深度的模型,其中最常用的是VGG16和VGG19。

VGG网络架构的特点是简单、深度、效果良好,其小卷积核的使用使得网络更加稀疏,减少了计算量和参数数量,同时通过不断加深网络来提升性能,从而提高了模型的泛化能力和鲁棒性。

VGG网络架构在图像分类、目标检测、图像分割等多个领域都取得了良好的效果,成为深度学习领域的一个经典模型。

VGG和AlexNet的区别

  1. 网络结构:VGG的网络结构相对较深,通常有16-19个卷积层和池化层,而AlexNet的网络结构相对较浅,只有8个卷积层和池化层。

  2. 卷积层:VGG的卷积层使用的是3x3的小卷积核,而AlexNet的卷积层使用的是11x11和5x5的大卷积核,这使得AlexNet的卷积层能够更好地捕捉图像的局部特征。

  3. 池化层:VGG的池化层使用的是2x2的最大池化层,而AlexNet的池化层使用的是3x3的最大池化层,这使得AlexNet的池化层能够更好地保留图像的细节信息。

  4. 数据增强:VGG使用了一些简单的数据增强技术,例如随机翻转、旋转和缩放等,而AlexNet使用了更复杂的数据增强技术,例如随机裁剪、旋转、色彩扰动等,这使得AlexNet能够更好地处理图像数据。

  5. 正则化:VGG使用了Dropout技术来避免过拟合,而AlexNet使用了L2正则化技术来控制模型的复杂度。

  6. 激活函数:VGG使用了ReLU激活函数,而AlexNet使用了非线性激活函数,例如ReLU和sigmoid函数。

总体来说,VGG和AlexNet在结构和设计上都有所不同,但它们都是非常优秀的深度卷积神经网络,都在图像识别领域取得了很高的准确率和泛化能力

经典网络-残差Resnet

 

 

ResNet(残差网络)是由微软研究院的Kaiming He等四位华人于2015年提出的深度卷积神经网络,它在ILSVRC2015比赛中取得了冠军,并在ImageNet数据集上实现了9.1%的top-5错误率。

ResNet的主要思想是在网络中增加残差块(residual block),使得网络能够学习到残差映射关系,即通过直接学习残差来训练神经网络,从而避免网络过深导致的梯度消失和梯度爆炸问题。

ResNet的特点包括:

  1. 网络结构非常深,通常有18、34、50、101、152等不同深度的残差块。

  2. 使用批归一化(Batch Normalization,BN)来加速训练和提高模型的泛化能力。

  3. 使用残差块(residual block)来避免梯度消失和梯度爆炸问题。

  4. 使用跨层连接(shortcut connection)来将浅层特征与深层特征进行融合。

  5. 使用恒等映射(identity mapping)来实现残差学习。

  6. 在ImageNet图像识别挑战中获得了极高的准确率,并成为当时最优秀的卷积神经网络之一。

ResNet的贡献在于其提出了深度卷积神经网络的残差学习方法和跨层连接方法,解决了网络过深导致的梯度消失和梯度爆炸问题,并展示了深度卷积神经网络在图像识别领域的巨大潜力。

上面的都是经典的网络代表,具有很好的参考意义。

9.感受野的作用

感受野的作用如下:

  1. 感受野可以减少网络参数,增加网络深度,扩大感受野,从而使得神经网络具有更好的泛化能力和更快的收敛速度。

  2. 对于分类任务,感受野的大小要大于等于输入图像的大小,以保证网络能够捕捉到足够的图像特征,从而提高分类的准确率和稳定性。

  3. 对于目标检测任务,感受野的大小要适当,不能太小也不能太大。如果感受野太小,目标尺寸很大或很小,模型收敛困难,会严重影响检测性能;如果感受野太大,会导致模型计算量过大,增加计算时间和空间复杂度。

  4. 不同层次的特征图具有不同的感受野大小,这可以使得检测网络适应不同尺寸的目标,提高目标检测的准确率和稳定性。

假设输入大小都是h * w * c,并且都使用c个卷积核(得到c个特征图),可以来计算其各自所需的参数:

1个7 * 7卷积核所需参数:C * (7 * 7 * C) = 49 C^2 加上

3个3 * 3卷积核所需参数:3 * C * (3 * 3 * C) = 27 C^2 加上3个relu

很明显,堆叠小的卷积核所需的参数更少一些,并且卷积过程越多,特征提取也会越细致,加入的非线性变换也随着增多,还不会增大权重参数个数,这就是VGG网络的基本出发点,用小的卷积核来完成体特征提取操作。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/801787.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无涯教程-jQuery - ajaxSend( callback )方法函数

ajaxSend(callback)方法附有一个在发送AJAX请求时要执行的功能。这是一个Ajax事件。 ajaxSend( callback ) - 语法 $(document).ajaxSend( callback ) 这是此方法使用的所有参数的描述- callback - 要执行的功能。用于该请求的XMLHttpRequest和设置将作为参数传递给回调…

Excel的使用

1.EXCEL诞生的意义 1.1 找到想要的数据 1.2 提升输入速度 2.数据分析与可视化操作 目的是提升数据的价值和意义 3.EXCEL使用的内在意义和外在形式 4.EXCEL的价值 4.1 解读及挖掘数据价值 4.2 协作板块 4.3 展示专业度 4.4 共享文档内容 5.人的需求》》软件功能

SFP3012A-ASEMI代理海矽美(MHCHXM)快恢复二极管

编辑:ll SFP3012A-ASEMI代理海矽美(MHCHXM)快恢复二极管 型号:SFP3012A 品牌:ASEMI 芯片个数:1 芯片尺寸:102MIL*2 封装:TO-247AC 恢复时间:75ns 工作温度&#…

1300*B. T-primes

解析&#xff1a; 有且只有三个因数&#xff0c;当且仅当&#xff0c;完全平方数并且sqrt&#xff08;n&#xff09;为素数 #include<bits/stdc.h> using namespace std; typedef long long ll; const int N1e55; ll t,n; bool prime(ll x){if(x<2) return 0;for(int…

C语言打印水仙花数

“水仙花数”是指一个n位数&#xff0c;其各位数字的n次方之和确好等于该数本身&#xff0c;如:153&#xff1d;13&#xff0b;53&#xff0b;3^3&#xff0c;则153是一个“水仙花数”。 思路&#xff0c;先把每个数的每位算出来&#xff0c;然后再判断他们的3次方相加是否这个…

微软开源贾维斯(J.A.R.V.I.S.)人工智能AI助理系统

贾维斯(Jarvis)的环境配置 一般情况下&#xff0c;深度学习领域相对主流的入门级别显卡是2070或者3070&#xff0c;而3090可以算是消费级深度学习显卡的天花板了&#xff1a; 再往上走就是工业级别的A系列和V系列显卡&#xff0c;显存是一个硬指标&#xff0c;因为需要加载本地…

电脑看不了视频怎么办?最新解决方法分享!

“昨天刚在电脑里保存了一些视频&#xff0c;但是都没法播放。之前下载在电脑里的视频也播放不了&#xff0c;这是怎么回事呢&#xff1f;电脑看不了视频&#xff0c;有什么方法可以解决吗&#xff1f;” 由于电脑的屏幕比较大&#xff0c;我们在观看视频时会有更好的体验感。因…

目标检测-击穿黑夜的PE-YOLO

前言 当前的目标检测模型在许多基准数据集上取得了良好的结果&#xff0c;但在暗光条件下检测目标仍然是一个巨大的挑战。为了解决这个问题&#xff0c;作者提出了金字塔增强网络&#xff08;PENet&#xff09;并将其与YOLOv3结合&#xff0c;构建了一个名为PE-YOLO的暗光目标检…

无涯教程-jQuery - ajaxSuccess( callback )方法函数

ajaxSuccess(回调)方法附加一个函数&#xff0c;只要AJAX请求成功完成&#xff0c;该函数便会执行。这是一个Ajax事件。 ajaxSuccess( callback ) - 语法 $(document).ajaxSuccess( callback ) 这是此方法使用的所有参数的描述- callback - 要执行的功能。事件对象&…

IMPDP和EXPDP的介绍和使用方法

数据泵的介绍 如何调用数据泵(1/2) 如何调用数据泵(1/2) Directory 操作模式 EXPDP的流程: 创建逻辑目录: * mkdir /home/oracle/app/oracle/oradata/mydata -p * CREATE DIRECTORY MYDATA AS "/home/oracle/app/oracle/oradata/mydata"ps: ORACLE 不会自动创建物理…

途乐证券:股利支付率高好还是低好?

股利付出率是指公司将赢利分配给股东的份额。在许多出资者眼中&#xff0c;高的股利付出率或许意味着公司具有安稳的现金流和盈余才能。但是&#xff0c;也有人以为低的股利付出率能够为公司供给更多的自在现金流&#xff0c;用于增加研发、扩张或并购等方面的出资。所以到底是…

MySQL~DQL查询语句

一、DQL:查询语句 1、排序查询 语法&#xff1a; order by 子句 ​ order by 排序字段1 排序方式1 &#xff0c;排序字段2 排序方2... 排序方式&#xff1a; ASC&#xff1a;升序[默认] DESC&#xff1a;降序 在SQL语句中永远排序最后 注&#xff1a; 如果有多个排序条…

Angular —— Ng Serve Proxy让Ng Serve和你的服务器共存

ng serve是angular-cli的一个命令&#xff0c;用于在本地开发中启动一个测试服务器&#xff0c;自动编译和重新加载你的项目&#xff0c;并且在编译过程中&#xff0c;它会检查你代码中的一些错误&#xff0c;在控制台中提示你。 但是在实际项目&#xff0c;各个项目几乎必然会…

14 Linux实操篇-进程管理(重点)

14 Linux实操篇-进程管理&#xff08;重点&#xff09; 文章目录 14 Linux实操篇-进程管理&#xff08;重点&#xff09;14.1 进程的基本操作14.1.1 进程和程序14.1.2 父进程和子进程14.1.3 常见的Linux进程14.1.4 显示系统执行的进程-ps14.1.5 终止进程-kill/killall14.1.6 查…

应用在工业车间环境温湿度数据看板中的温度传感芯片

现在的制造生产行业不断的实现可视化生产,特别是一些特殊的生产行业需要对一些重点的场合或者生产环境进行环境监控,但是要是想要实时查看室内环境完全依靠人工来巡查是费时又费力的,要想解决这一难题还得引进现在的硬件环境数据监控看板,它是针对于现在制造业的一些特殊环境而…

EIGRP路由协议(红茶三杯CCNA)

EIGRP&#xff08;Enhanced Interior Gateway Routing Protocol&#xff09;增强型内部网关协议-Cisco独有 前身对比 特点&#xff1a; 1. 快速收敛-路由条目不过期&#xff0c;拥有备份路由 2. 高级距离矢量协议-具有距离矢量性和链路状态协议特征 3. 无类路由协议-可划分子…

P1118 [USACO06FEB] Backward Digit Sums G/S(dfs+思维杨辉三角)

1&#xff1a;题目分析 那么我只需要枚举1~n位置上的数&#xff0c;看哪个符合要求。 2&#xff1a;补充&#xff1a; 一个数只能用一次&#xff0c;因为结果是1~n的排列&#xff08;最后组成肯定是1~n的每个数都出现过&#xff09;。 3&#xff1a; ACcode(加注释)&#xff…

网格梯度离散化 gradient

欢迎关注更多精彩 关注我&#xff0c;学习常用算法与数据结构&#xff0c;一题多解&#xff0c;降维打击。 参考自polygon mesh proccessing这本书 重心坐标定理 定理证明点击前往 已经三角形三点上的函数值分别为gi,gj,gk。 可以利用插值得到g处的函数值。 g α g i β …

Redis优惠券秒杀超卖问题

Redis秒杀超卖问题 前言一、出现秒杀超卖的原因二、超卖解决方案使用乐观锁解决超卖问题程序中进行解决 前言 这是我认为b站上最好的redis教程&#xff0c;各方面讲解透彻&#xff0c;知识点覆盖比较全。 黑马redis视频链接&#xff1a;B站黑马redis教学视频 本文参考黑马redi…

多点测试激光焊缝透光率检测仪

聚丙烯&#xff08;PP&#xff09;是日常生活生产中常见的一种塑料&#xff0c;具有较高的耐冲击性&#xff0c;机械强度以及良好的抗腐蚀性&#xff0c;如能耐多种有机溶剂和酸碱腐蚀性液体&#xff0c;被广泛应用于家用电器的绝缘外壳、培养瓶、食品袋、饮料包装瓶等产品中。…