初窥机器视觉与卷积神经网络

news2025/1/14 1:11:06

文章目录

    • 1. 什么是卷积神经网络
    • 2. 卷积运算
    • 3. 池化层
    • 4. 卷积神经网络的整体架构

1. 什么是卷积神经网络

卷积神经网络(convolutional neural network,CNN)主要用于计算机视觉相关任务,但处理对象并不局限于图像,CNN在序列和语音等上的应用也展现出了强大的优势。

先直观认识一下卷积神经网络:

在这里插入图片描述

我们看到,卷积神经网络由若干个方块盒子构成,盒子从左到右仿佛越来越小,但越来越厚;最左边是一张图像,最右边则变成了两排圆圈。其实,每一个方块都是由大量神经元构成的,只不过它们排成了立方体的形状。左边图像上的每个元素相当于一个神经元,构成了这个卷积神经网络的输入单元。最右侧的圆圈也是神经元,它们排列成了两条直线,构成了该网络的输出,这与普通神经网络中的神经元没有区别。
卷积神经网络其实也是一种前馈神经网络,承载了深层的信息处理过程。信息从左侧输入,经过层层加工处理,最后从右侧输出。对于图像分类任务而言,输入的是一张图像,历经一系列卷积层、池化层和完全连接层的运算,最终输出一组分类的概率,要分成多少类别,就有多少个输出神经元。相邻两层的神经元连接用图中的小立体锥形近似表示,实际上这种锥形遍布更高一层(右侧)立方体中的所有神经元。低层(左侧)到高层(右侧)的运算主要分为两大类:卷积和池化。一层卷积,一层池化,这两种运算交替进行,直到最后一层,我们又把立方体中的神经元拉平成了线性排列的神经元,与最后的输出层进行全连接。

从技术角度看,卷积神经网络是一种至少包含一个卷积层(torch.nn.conv2d)的神经网络,该层的功能是计算其输入与一组可配置的卷积核的卷积,以生成该层的特征输出。
可用一种比较简明的定义描述卷积:卷积的目的是将卷积核(滤波器)应用到某个张量的所有点上,并通过将卷积核在输入张量上滑动而生成经过滤波处理的张量。这样抽象的解释不容易理解,我们用对单张图片卷积的例子来解释什么是卷积运算以及卷积运算是如何进行的。假如有一张1000×1000像素的彩色图片,它的形状是(1000,1000, 3),如果仍然使用全连接模型来提取它的特征,仅输入层就需要有1000×1000×3×2个参数(每一个像素点都需要初始化一个w和b),这是一个特别庞大的神经网络,对于内存和计算都将是巨大的挑战。如果图片像素更高、多层神经网络的可训练参数就会变得极其庞大,将使模型难以训练甚至无法训练。

CNN简化了上面的计算过程,在CNN提取图片特征时,不再为每一个输入初始化一个权重和偏置,而是初始化一个小的卷积核,卷积核的大小可能是3×3、5×5或其他值,使用这个卷积核在图片上滑动,在滑动过程中与图片的不同区域的像素做点乘(实际的卷积运算比这里所说的要复杂,在此仅对原理做解释),这样依次滑过图片得到一个形状为(height_, width_, 1)的张量,这就是提取到的特征。为了更好地提取特征,可以初始化多个卷积核,在图片上面滑动计算卷积,得到更多特征张量,假如有N个卷积核,则得到的特征张量为(height_, width_, N)。要注意的是,特征张量的height_和width_与原图的高和宽不一定相同,卷积运算如下图所示:
在这里插入图片描述

上图是一个卷积运算,使用了2×2的卷积核。首先卷积核与图片左上角的4个像素(In1,In2,In7,In8)做卷积运算,得到一个输出Out1,然后卷积核往后滑动一个像素,这时卷积核与图像中的(In2,In3,In8,In9)做卷积运算,得到第二个输出Out2,以此类推,卷积核在图片上滑动,与图像中的像素做卷积运算得到一个特征输出张量,这就是卷积计算的过程。

一般来说,为了增加拟合能力,卷积计算后会使用激活函数为计算带来非线性,提高卷积运算的特征提取能力。进行卷积的目的是从输入中提取有用的特征。在早期的图像处理中,人们发现可以选择各种类型的卷积核(filter)来提取图片特征。每种类型的filter都有助于从输入图像中提取不同的特征,例如水平、垂直、对角线边缘等特征。在卷积神经网络中,我们仍然通过使用filter来提取不同的特征,不同的是,这些filter的权重是在训练期间自动学习的,然后将所有这些提取的特征“组合”以做出决策。

不难发现,通过使用卷积核提取特征,可训练参数大大减小。例如上面的例子,提取特征仅仅需要训练一个大小为2×2的卷积核,整张图片在共享使用这个卷积核的权重计算特征。

那么为什么共享一个卷积核,在图片上滑动提取特征这种方式是有效的呢?
这就要考虑图片的平移不变性,假设图像右上方有一条小狗,当这条小狗移动到左下方时,它依然是一条小狗,因此希望无论小狗在图片什么位置,提取到的特征都应该是一样的。这样的话,使用一个卷积核在图片上滑动,就能实现特征提取的平移不变性。在实际应用中,单个卷积核通常被训练对输入数据中某些特征敏感,例如,在图像中卷积核可能学会识别物体的特征——几何形状,如线条、边缘和其他形状。

为了更好地提取特特征,我们会训练多个卷积核,这些卷积核经过训练能提取到不同的特征,如图下所示:

在这里插入图片描述

在上图的右侧可以看到,卷积操作中因为使用了多个卷积核提取特征,每一个卷积核都提取了一个2D的特征输出,N个卷积核的输出堆叠在一起就是卷积操作的完整结果(height_, width_, N),N也就是输出特征的通道数。这些通道分别代表了每一个卷积核从图像中提取到的某些关键特征。如果使用小批量数据计算,那么卷积运算的结果将是(batch,height_, width_, N)。在PyTorch中内置了torch.nn.Conv2d()方法在三维图片输入时应用2D卷积,其中的最重要参数包括in_channels、out_channels、kernel_size、stride和padding等。

  • in_channels:代表输入的特征层数,如输入通道数为3的彩色图像,则in_channels=3。

  • out_channels:代表输出的特征层数,也就是卷积核的个数,这是一个超参数。

  • kernel_size:代表卷积核的大小,通常使用3×3或者5×5这样的小卷积核,这个参数是一个元组,如果卷积核的长和宽一样,可直接指定为int数值,如kernel_size=3。

  • stride:代表跨度,卷积核在图像上是滑动提取特征的,stride代表每次滑动的步长,图7-2中的stride为1,表示步长为1个像素,也可使用其他步长,如设置stride为2,则卷积核在图像上每次滑动2个像素,显然这样会使输出的特征图像变为大约原来的一半大小,所以stride可影响生成的特征图的大小。

  • padding:代表填充,它表示卷积核在图像边缘的处理方式。

读者可以注意观察上图,如果使用3×3的卷积核提取图片特征,stride使用默认值1,那么得到的特征图会比原图小2个像素,这时,如果设置padding为1,那就表示原图的4条边使用0(这是默认的填充数值)各填充1个像素,原图大小相当于变为(height+2,width+2, channel),这样使用3×3卷积核得到的特征图大小为(height,width, N),也就是说,得到的特征图大小与原图一致了。所以,可以通过padding来控制卷积得到的特征图大小。下面是使用2D卷积的例子,需要注意的是,在PyTorch中使用图片的默认形状为(channel,height,width)。

# 随机生成输入,形状为(20,3,256,256),可以认为是生成了20张大小为(256,256,3)的彩色图像
input = torch.randn(20, 3, 256, 256)  
# 输入的channel为3,我们使用16个卷积核,也就是out channels=16
# #卷积核大小设置为3×3,stride 跨度为1,padding 填充为1
conv_layer = nn.Conv2d(3, 16, (3, 3), stride=1, padding=1)  # 初始化卷积层
output = conv_layer(input)  # 在输入时调用这个卷积层
print(output.shape)  # 输出形状为torch.Size([20, 16, 256, 256])

上面代码中可以认为使用随机函数生成了20张大小为(256, 256, 3)的图片,由于这里的卷积层使用了16个3×3的卷积核(out_channels=16)且padding为1,stride默认也是1。因此经过卷积层计算得到的特征图长和宽不变,通道数为16,最后输出的特征形状为torch.Size([20, 16, 256, 256])。

2. 卷积运算

在这里插入图片描述

如图所示,假设卷积神经网络接收的原始输入图像是一张包含了几个“十”字的图像,它由一系列包含灰度信息的像素构成。与此同时,卷积神经网络的一次卷积运算需要有相应的卷积核。这个卷积核可以看作一张小图,这相当于人头脑中目标的模板。卷积运算就是在原始图像中搜索与卷积核相似的区域,即用卷积核从左到右、从上到下地进行逐个像素的扫描和匹配,并最终将匹配结果表示成一张新的图像,通常称为特征图。特征图上有灰有白,每个像素灰度的高低代表了模板与原始图像相应位置的匹配程度,相似程度越高,就越白。这个特征图就相当于我们在头脑中标记出来与模板匹配的拖鞋的位置。

那么,这个过程在数学上是如何进行的呢?

​ 首先,我们要把图像数值化,变成矩阵,其中数值是0~255的整数;其次,我们要把卷积核数值化,也可以将其看作一张3×3的小图像,每个像素都是一个实数值,对应卷积层神经网络的权重,也就是2.1图中锥体所表示的连边。其中,一条连边就对应卷积核(模板)中的一个像素,连边上的权重大小就对应了卷积核(模板)中每个像素的数值。卷积运算实际上是一个多步的过程。第一步,卷积核与原始图像左上角第一片3×3的区域做内积,也就是把对应位置相乘,然后再把这些数字相加,结果就会输出为特征图左上角的第一个像素,如下图所示:

在这里插入图片描述

第二步,卷积核与原始图像左上角第二片3×3的区域做内积,也就是让卷积核内的数值与每一个位的原始图像像素数值相乘,并把最后的结果相加,于是就得到了特征图上第二个像素的数值,如下图所示:

在这里插入图片描述

第三步,卷积核与原始图像左上角第三片3×3的区域做内积。第四步,当做完第一行每个3×3区域的内积之后,再往下滑动一格,做第二行3×3区域的内积,如下图所示:

在这里插入图片描述

卷积核不断从左到右、从上到下地移动,与下一个对应的原始图像做相应运算,得到特征图的下一个像素的输出……就这样,卷积核不断移动计算输出,得到特征图的像素,直到覆盖原始图像,特征图的计算就完成了。结果如下图所示:

在这里插入图片描述

假设原始图像的尺寸是n,卷积核的宽度是w,特征图的大小一般是(n-w+1)x(n-w+1),所以特征图会比原始图像小一些。如果不想让特征图变小,就需要采用补齐(padding)技术将原始图扩大,并用0来填充补充的区域,如下图所示:

在这里插入图片描述

这样卷积以后得到的特征图与原始图大小一样,还是5×5。

多个卷积核与特征图对于同一张原始输入图像,我们可以用不同的卷积核与其相作用,每个卷积核就相当于不同的模板。每一个卷积核在原始图像的运算结果都可以得到一个不同的特征图,如图所示:

在这里插入图片描述

从神经网络的角度看,特征图上每一个像素(神经元)都和原图上3×3大小的一个方形区域的像素相连(即9个连接),每条连边对应卷积核小矩阵的一个单元,数的大小对应连边上的数字,称为权重值。该权重值可学习,可调节。一层卷积可能有多个卷积核,用不同颜色表示,如下图所示:

在这里插入图片描述

我们可以将多个特征图拼在一起组成立方体,从而表示多个特征图。因此,立方体的厚度是多少,就有多少特征图,也就有多少个卷积核。厚度为2,就有两个特征图、两个卷积核。如下图所示,特征图的厚度是100,即100个125×125的特征图,也就有100个卷积核:

在这里插入图片描述

3. 池化层

在构建卷积神经网络时,会用到一个非常重要的层——池化层。
什么是池化层呢?
池化层是另一种滑动窗口类型的层,池化层也有一个池化核,但它没有可训练的权重,当池化核在图片上滑动时,会直接应用某种类型的统计函数选择窗口中的内容。
最常见的池化层称为最大池化,它会选择池化核中像素的最大值。还有其他变种,如平均池化,平均池化会计算池化核所覆盖像素的平均值,在某些情况下也会使用。我们一般使用最大池化。

下图是最大池操作的示例:

在这里插入图片描述

为什么要使用池化层呢?通过上图中可以看出,最大池化能直接缩小输入的大小,这样池化层向下采样的过程就减少了模型中的参数数量。不仅如此,为了降低参数数量,一般会使用比较小的卷积核,卷积核视野很小。所谓视野,是指卷积核所能覆盖的输入图像的面积,小视野的卷积核只能提取比较小的特征。例如表面纹理,池化层将图像的高和宽减小后,卷积核间接覆盖的区域就会变大,从而能够识别更加抽象的特征。

在卷积神经网络中,一般交叉使用卷积层和池化层,这样多层叠加后,特征图像会越来越小,卷积核的视野相当于在不断地放大,从而提取更高阶抽象的特征。在PyTorch中,可选择使用nn.MaxPool2d()方法来初始化一个最大池化层,但因池化层并没有可训练的参数,在实际构建卷积神经网络时,为了省去池化层初始化这一步,我们常常使用torch.max_pool2d()方法来直接应用最大池化。这个方法最重要的一个参数是kernel_size,也就是池化核的大小,举例来说,如果设置池化核的参数kernel_size=2,池化层计算后,输出的高和宽会变为原来的一半。代码如下:

import torch

# 随机生成批次图像,形状为(64,3,256,256)
img_batch = torch.randn((64, 3, 256, 256))
pool_out = torch.max_pool2d(img_batch, kernel_size=(2, 2))  # 应用最大池化
print(pool_out.shape)  # 输出形状为torch.Size([64, 3, 128, 128])

上述代码中生成了批次图像,形状为(64, 3, 256, 256),经过最大池化运算后,输出形状为(64, 3, 128, 128),可以看到图像的高和宽均变为原来的一半,这是因为当调用torch.max_pool2d()方法应用最大池化时,设置了kernel_size为(2, 2),这表示池化核将从2×2大小的输入中选择最大的值作为输出,这样的效果就是高和宽均缩小为原来的一半。

所以简单来说,池化的作用实际上就是获取粗粒度信息,因此它可以将原始图变小。这个过程模拟了人类从更宏观的尺度观察事物,即俯瞰整个森林而不是树木的过程。这里这种模糊化的运算就体现为将多个方格的原始图像压缩为一格像素点,从而忽略信息。

4. 卷积神经网络的整体架构

LeNet-5网络是Yann LeCun在1998年设计的用于手写数字识别的卷积神经网络,曾被美国大多数银行用来识别支票上的手写数字,它是早期卷积神经网络中最有代表性的模型之一。LeNet-5总共有7层,其结构如下图所示:

在这里插入图片描述

LeNet-5模型中主要由2个卷积层、2个池化层、3个全连接层组成。模型的前面部分是两个卷积层加池化层组合,通过卷积提取特征,然后使用池化层对图片进行下采样;卷积层采用的是5×5大小的卷积核,卷积核每次滑动一个像素(stride=1);池化层采用平均池化,使用2×2的池化核,即上一层的4个节点求均值得到池化输出,且输入域不重叠,即每次滑动2个像素,这样的结果就是经过池化层后图像会变为原来一半大小。

经过卷积和池化处理后,生成的特征图会越来越小,但通道数越来越大,也可以说越来越厚了。卷积部分结束后,通过2个全连接层,最后是输出层。这就是卷积神经网络最早、最经典的架构之一,模型通过交叉使用卷积层和池化层,实现对图片特征的提取和下采样,使得图片越来越小、特征层越来越多,也就是图像越来越厚,最后展平为二维数据,连接全连接层得到输出。

通过对LeNet-5网络结构的分析,可以直观地了解卷积神经网络的一般结构形式,有助于后续学习、分析、构建更复杂、更多层的卷积神经网络。LeNet-5模型也充分证明了CNN能够有效提取图像特征、识别图像视觉上的规律。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/533364.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年陕西省《网络建设与运维》技能大赛试题

项目简介: 某集团公司原在北京建立了总公司,后在成都建立了分公司,广东设立了办事处。集团设有产品、营销、法务、财务、人力5个部门,全网采用OSPF、RIP、ISIS、BGP路由协议进行互联互通。集团在北京建立两个数据中心,贵州建立异地灾备数据中心。 公司网络拓扑如图1所示,…

功能要进阶自动化测试,你必须要了解的十大自动化测试框架

什么是自动化测试框架? 自动化测试框架,即是应用于自动化测试所用的框架。按照框架的定义,自动化测试框架要么是提供可重用的基础自动化测试模块,如:selenium 、watir等,它们主要提供最基础的自动化测试…

【Python入门篇】——Python中循环语句(while循环的嵌套应用,嵌套案例)

作者简介: 辭七七,目前大一,正在学习C/C,Java,Python等 作者主页: 七七的个人主页 文章收录专栏: Python入门,本专栏主要内容为Python的基础语法,Python中的选择循环语句…

监控系统经典架构详解

要了解一个监控系统那么我们就先要了解他的架构,看看监控系统是由哪些模块组成,各个模块是如何相互协调。我们将众多主流监控系统架构进行逻辑抽象和概括。 典型架构 从上图(监控系统经典架构图)来看,从左往右&#x…

Android RecyclerView实现吸顶动态效果

文章目录 一、ItemDecoration二、实现RecyclerView吸顶效果1、实现一个简单的RecyclerView2、通过ItemDecoration画分割线3、画出每个分组的组名4、实现吸顶效果 完整demo 链接:https://download.csdn.net/download/JasonXu94/87786702 一、ItemDecoration ItemDecoration 允…

python实现学生成绩管理程序,包含各科成绩的录入,计算各个学生的总分和平均分,统计各个科目的最高分、最低分和平均分。

一、编程题目 编程题目:使用python实现学生各科成绩的录入,计算各个学生的总分和平均分,统计各个科目的最高分、最低分和平均分。其中学生人数通过输入来决定,科目包括语文、数学和英语这三门课程。(保留一位小数&…

JavaEE 5 (4/28)

1.wait() 和notify() 调用wait后做的三件事 1.释放锁 2.等待其他线程通知 3.收到通知后重新上锁,继续执行 要想实用wait和notify就得搭配synchronized 获取锁 wait哪个对象就要针对哪个对象加锁 Java中线程是随机抢占式执行的,实际上线程的执行我们一定要有一个顺序. join可以…

阿里云服务器可以做什么?十大使用场景举例说明

使用阿里云服务器可以做什么?阿里云百科分享使用阿里云服务器常用的十大使用场景,说是十大场景实际上用途有很多,阿里云百科分享常见的云服务器使用场景,如本地搭建ChatGPT、个人网站或博客、运维测试、学习Linux、跑Python、小程…

【2023秋招】2023华为od-4.20三道题

2023大厂笔试模拟练习网站(含题解) www.codefun2000.com 最近我们一直在将收集到的各种大厂笔试的解题思路还原成题目并制作数据,挂载到我们的OJ上,供大家学习交流,体会笔试难度。现已录入200道互联网大厂模拟练习题&…

【刷题之路Ⅱ】LeetCode 622. 设计循环队列

LeetCode 622. 设计循环队列 一、题目描述二、解题1、方案1——数组实现,预留一个空判满1.1、成环思路1.2、初始化接口1.3、入队接口1.4、出队接口1.5、取队头接口1.6、取队尾接口1.7、判空接口1.8、判满接口1.9、释放接口 2、方案2——单向循环链表实现&#xff0c…

SpringBoot集成Oracle实战和坑

这里写目录标题 前言1.导包2. 配置文件:数据库信息辟谣 3.代码 问题更新 前言 前段时间搞了一个oracle的项目,耗费了很多时间,现在项目整体上线了,在此记录下实战过程以及遇到的坑,有需要的网友也可以直接拿去使用。 …

文本三剑客正则表达式1

文章目录 文本三剑客&正则表达式11 sort1.1 sort -f1.2 sort -b1.3 sort -n1.4 sort -r1.5 sort -u1.6 sort -t1.7 sort -k1.8 sort -o 2 uniq2.1 uniq -c2.2 uniq -u2.3 uniq -d 3 tr3.1tr -c3.2 tr -d3.3 tr -s :3.4 tr -t 4 cut4.1 cut -d4.2 cut -f4.3 cut -b4.4 cut -…

基于 SpringBoot+Vue 的家政服务管理平台

1. 背景 本系统主要是设计出家政服务管理平台,基于B/S构架,后台数据库采用了Mysql,可以使数据的查询和存储变得更加有效,可以确保家政服务管理的工作能够正常、高效的进行,从而提高工作的效率。总体的研究内容如下&am…

模组uart调试总结

配置驱动选项 1.1 首先通过原理图确定其串口号,比如UART1、UART3_HS,同时查看该串口引脚是否有复用功能,比如用作SIM卡引脚。如果有复用,需要在设备树配置中取消复用功能的选项,然后选中串口功能,高通平台设…

【嵌入式环境下linux内核及驱动学习笔记-(12-设备树操作函数)】

目录 1、设备树对应的数据结构1.1 struct device_node1.2 struct property 2、设备树操作函数2.1 查找字点的函数2.1.1 of_find_node_by_path2.1.2 of_find_node_by_name2.1.3 of_find_node_by_type2.1.4 of_find_compatible_node2.1.5 of_find_node_by_phandle2.1.6 of_get_ch…

Automa爬取网页数据直接入库(四)

介绍 在使用automa浏览器插件爬取数据时,可以直接通过发送请求将爬取到的网页数据持久化到数据库中 本次以360趋势图爬取后插入数据库当做测试 建立流程 首先建立打开360趋势图的流程,这个不再演示,直接从获取分析元素开始 打开要爬取的网页 点击定位元素 建立表格存储爬取…

【shell脚本】免交互操作

免交互操作 一、Here Document免交互1.1免交互概述1.2语法格式1.3实验 二、Expect2.1脚本格式2.2实验 一、Here Document免交互 1.1免交互概述 使用I/O重定向的方式将命令列表提供给交互式程序或命令,比如 ftp、cat 或 read 命令。是标准输入的一种替代品可以帮助…

森海塞尔及诺音曼携重磅新品亮相2023广州国际专业灯光、音响展览会

森海塞尔及诺音曼携重磅新品亮相2023广州国际专业灯光、音响展览会 以卓越产品和创新技术引领专业音频行业发展 广州,2023年5月16日——森海塞尔和诺音曼将于2023年5月22日至25日,携重磅新品及全新音频技术亮相第21届广州国际专业灯光、音响展览会。森海…

十七、Bus消息总线

目录 1、Bus消息总线介绍: 2、使用消息总线实现配置自动更新 2.1、方案一架构图: 2.2、方案二架构图(常用) 3、对springcloud-config-server项目进行改造 3.1、修改springcloud-config-server项目的pom文件,添加…

如何防范鱼叉式网络钓鱼及其他钓鱼攻击

在当今日益互联的世界中,远程访问已成为许多组织允许员工随时随地办公的必要条件。远程访问是一把双刃剑,有自身的优势,但也带来了重大的安全风险。网络犯罪分子一直想方设法利用远程访问系统的漏洞,试图通过这些漏洞发起鱼叉式网…