【计算机视觉】万字长文详解:卷积神经网络

news2025/1/16 18:58:33

在这里插入图片描述
以下部分文字资料整合于网络,本文仅供自己学习用!

一、计算机视觉概述

在这里插入图片描述
如果输入层和隐藏层和之前一样都是采用全连接网络,参数过多会导致过拟合问题,其次这么多的参数存储下来对计算机的内存要求也是很高的
在这里插入图片描述
解决这一问题,就需要用到——卷积神经网络

这是一种理解卷积的角度(至少在吴恩达老师这个教学视频中是),也是我之前没有想到的。其实在该刚开始接受卷积神经网络时,我一直很想弄清卷积的真正含义,为此也学习了一些,和有自己的一些理解,详见后文2.6小节!

二、卷积神经网络

2.1:卷积运算

卷积运算是卷积神经网络的基本组成单元之一

这里将从边缘检测(edge detection)入手,举例来介绍卷积神经网络

在这里插入图片描述
通过这种卷积运算,我们可以检测到图像的边缘:(我们把中间的3x3的矩阵称为:过滤器、边缘检测器、卷积核
在这里插入图片描述
下面来讲,如何将这种卷积运算作为基本单元,运用到卷积神经网络中。

  • 正边缘(positive edges)和负边缘(negative edges):由亮变暗和由暗变亮
    在这里插入图片描述

  • 其他的边缘检测器(卷积核)
    在这里插入图片描述

  • 如何让算法自己学习得到边缘检测器,而不是像上面那样手动设计(传统的计算机视觉)——卷积神经网络
    🦄原理就是把卷积核中的数看作参数,利用反向传播(back propagation)去学习
    在这里插入图片描述
    这种学习得到的卷积核,会比计算机视觉研究人员所精心选择的更加稳定

在具体讲如何利用反向传播来学习得到卷积核的这9个参数之前,让我们学习一下卷积神经网络——卷积计算的底层架构的非常重要的组成部分

2.1.1:填充(padding)

首先看不对图像做填充的情况:
即:nxn的图像和fxf的卷积核进行卷积,得到结果大小为:(n-f+1)x(n-f+q)
在这里插入图片描述

💐这样卷积的缺点有:

  • shrinky output:这样得到的卷积结果会比原图像小,而没通过一层这样的卷积,图像就会缩小,在深层卷积神经网络中,最后得到的图像就会非常的小
  • throw away info from the edge:丢失边缘像素的信息。即对比于图像中其他像素提供的信息,边缘像素在卷积过程中只被利用一次或少次,这样我们会丢失掉一些边缘信息。
    在这里插入图片描述
    所以为了解决这两个问题,使用填充,对原图像进行像素填充
    在这里插入图片描述

总结一下,上面其实涉及到两种常用卷积:

  • valid convolutions:即不对原图像进行任何填充
  • same convolutions:对原图像进行填充并且保证卷积结果图像和原图像大小相同
    在这里插入图片描述
    由上图可知,对于Same convolutions,我们通常需要保证卷积核fxff奇数时,才可保证p = (f-1)/2 ,使得卷积结果大小与原图像大小相同。这也解释了为什么通常我们所使用的卷积核大小都是3x35x5。另外一个原因是,当卷积核是奇数时,会有一个中心像素点,事实上对图像进行卷积时,这个特殊的中心像素点是不可或缺的(你可以试想一下如果卷积核是偶数,你该如何卷积),中心像素可以很好的描述卷积核的位置,使用奇数的卷积核这也是计算机视觉所约定俗成的一种传统。

2.1.2:步长(stride)

上文所讲到的,也是默认卷积运算中步长为1,事实上,步长也是可以设定的。和padding一样,步长不同,也会影响卷积结果。下图是设置步长为2时的卷积示例
在这里插入图片描述

总结一下:(注意,这里的向下取整的实际含义是,保证卷积核始终在原图像填充后的那个图像中,而不能超出)
在这里插入图片描述

2.1.3:交叉相关(cross-correlation)

这一小节其实是一个概念补充。事实上学过数字信号处理的话,对于图像卷积(图像其实就是一个2维的数字信号),会将卷积核进行翻转后,再进行元素相乘、相加。事实上在计算机视觉领域,省略了翻转这一步骤,而是直接进行相乘、相加,所以在数学领域会将其称为交叉相关(corss-correlation),但是在深度学习和计算机视觉及其相关文献中,通常还是会将其称为卷积(convolutions).
在这里插入图片描述

2.1.4:3维卷积

事实上,上面所讲到的卷积都是对于2维图像而言(也就是灰度图),也成为二维卷积。而对于包含RGB这种三维图像,则属于三维卷积

在这里插入图片描述
但是你可能和我一样有相同的疑问:这有什么用呢?得到的结果还是二维

像下图展示这样,通过设置3D卷积核不同通道的参数值,你可以选择只检测红色通道的边缘,同时把其他通道的卷积核的参数值设置为0.或者只是把三个通道的卷积核参数设置为一样,这样的意义在于即使输入进来的是RGB图像也可以不用将其转为灰度图像而直接进行卷积计算(效果也是一样的)。
在这里插入图片描述

还有一个问题,就是:上文中,我们只是单单检测一种边缘——垂直。如果想同时检测多种边缘呢?比如同时检测水平和竖直边缘。那么我们需要多个检测器,或者说多个3D卷积核、过滤器,就像下图这样。但是注意到,得到的卷积结果的第三维度的大小就是使用的3D卷积核的个数。
在这里插入图片描述

2.2:卷积网络的一层

对卷积结果进行每个元素相加偏差b,并对其进行非线性变化,再对各个3D卷积核得到的结果进行整合于是得到4x4x2的一层卷积网络的输出结果。

在这里插入图片描述

2.2.1:和传统神经网络的对比

其实过程还是一致的

  1. 首先进行线性运算,将输入a[0]和参数W(对应的就是卷积核)进行相乘再相加
  2. 再加上偏差b
  3. 最后通过激活函数(即进行非线性变换)

在上面例子中,我们有2个3D卷积核,也就是说有2个特征(features)——卷积核的个数代表特征,是必须get到的,特别是在之后理解为什么卷积神经网络的底层原理上(不是卷积神经网络是什么,而是卷积神经网络为什么能行)。

我们再来解释一下本文最开始提到的,传统的全连接神经网络容易过拟合的问题(图像增大,则参数增多),而为什么卷积网络不会。

如下图,不管输入图像多大,卷积网络这一层需要通过训练从而学习得到的参数个数总是固定的:(27+1)x10.由此可知,卷积神经网络不易产生过拟合(overfitting)的问题。
在这里插入图片描述

2.2.2:Summary of notations

在这里插入图片描述

注意:在一些文献中,会把通道数放在前面,宽、高放在后面

2.3:卷积神经网络的简单实例

如下图,经过几层卷积后,最后被一步会把得到的卷积结果进行flatten展平,输入进全连接神经网络,通过逻辑回归或softmax进行分类。
在这里插入图片描述

这里我们可以观察到的是,输入图像(通常比较大),但随着卷积神经网络的深入,与开始图像会保持大小几乎不变,但随着输入图像会逐渐变小,而通道数逐渐增加

2.3.1:超参数(hyperparameter)

如上图,我们把箭头下方的那些参数(filter的个数、步长、padding…)称为超参数,选择这些超参数是卷积神经网络设计过程中的主要工作。

2.3.2:组成

在一个典型的卷积神经网络中,完整应该由以下3部分组成

  • 卷积层
  • 池化层
  • 全连接层
    在这里插入图片描述

2.3.3:卷积层的多层叠加

我们前面提到过随着卷积层的深入,通道数增大而图像减小。这样得到的好处是,每层使用较小的卷积核如3x3也能获得更大的感受野,只要叠加更多的卷积层,就能让感受野覆盖到整个图片。这也是为什么我们需要使用多个卷积层进行叠加。

打个比方,假设我们正在训练一个卷积神经网络来进行面部识别。在网络的第一层,卷积可能只识别出一些基本的特性,如边缘和颜色。到了第二层,卷积可能会学习如何将这些边缘和颜色组合成更简单的形状(比如眼睛、鼻子)。到了第三层,模型可能再将简单的形状组合成面部特征。因此,更深的层亦即卷积层叠加起来,能够把低级特征逐渐组合成高级和更有意义的特征

具体背后的原理是什么呢?我暂时也没有找到一个让我可以理解的回答和解释,因为行所以行吧大概

那什么又是感受野呢?

2.3.4:感受野(Receptive Field)

感受野是一个非常重要的概念,receptive field往往是描述两个feature maps A/B上神经元的关系,假设从A经过若干个操作得到B,这时候B上的一个区域areaB只会跟a上的一个区域areaA相关,这时候areaA成为areaB的感受野。用图片来表示:
在这里插入图片描述
在上图里面,map3里1x1的区域对应map2的receptive field是那个红色的7x7的区域,而map2里7x7的区域对应于map1的receptive field是蓝色的11x11的区域,所以map3里1x1的区域对应map 1的receptive field是蓝色的11x11的区域。

2.4:池化层

我们先来看两种池化类型的示例:
在这里插入图片描述

在这里插入图片描述

2.4.1:原理

池化操作的作用有两个

  • 减轻计算负担
  • 增加感受野
  • 防止过拟合

吴恩达老师在视频中也说到过,池化操作背后深刻的原理其实也不见得有人能说得透彻清除,本质上就是因为实验效果好,可以加。

其实非要去理解的话,也是可以的,因为图像本身就是存在冗余信息的,用4个像素所表示特征信息可以用1个像素代替。从原图像中进行最大值或均值采样后(也就是所谓的池化),可以更好的把图像中的特征得到、识别,既然这样,能加为什么不加呢?

这个操作的直观理解就像是,你看了某个特殊景色,过段时间你可能记不清那里的每个细节,但是你肯定记得那里是美的。这个“美”的概念,就相当于经过池化操作之后保留下来的特征

还需要补充一点是,在alphaGo的算法背后,利用的也是卷积神经网络,不同的是只有卷积层而没有池化层,因为在棋盘上每一个像素点都至关重要,不能因为减轻计算负担而随意舍去。这也是理解池化的一个例子。

2.4.2:总结

需要注意两点

  • 池化层的超参数是人工设定的,不需要通过训练从而学习得到
  • 池化层的最大值和平均值采样是单独作用于输入的每一个通道的。池化结果的通道数和输入的通道数相同。
    在这里插入图片描述

2.5:完整的卷积神经网络示例

注意:由于池化层没有需要学习的参数,只有超参数,所以通常会把卷积层和池化层两层统称为一层——1 layer

在这里插入图片描述

当然,关于卷积层和池化层的安排,上图只是一种示例,实际上,还有可能是多个卷积层后面跟着一个池化层,或者一些特殊场景(如上文提到过的alphaGo的棋盘例子中)根本没有池化层。

在这里插入图片描述
你需要清除以下几点

  1. 池化层没有任何需要学习的参数
  2. 卷积层趋向于拥有越来越少的参数
  3. 多数参数存在于全连接神经网络上

2.6:卷积神经网络的原理

其实上文一直在谈的是——卷积神经网络是什么,由什么组成等等。但是我觉得最重要的还是理解:为什么,为什么卷积神经网络可以。(虽然在本文最开始也把传统的全连接神经网络和带卷积的神经网络进行的简单的对比,说明为什么需要采用卷积而不是全连接,但我觉得那只是一方面)

首先我们需要理解,卷积神经网络,其实是计算机视觉+深度学习。在之前的机器学习中我们知道,通过输入数据,可以很好的进行分类、回归。将计算机视觉和深度学习结合起来,其实本质还是一样的,不同的在于:输入的数据,这也是为什么需要加入卷积层,而不能直接运用全连接层处理数据的原因。

比如之前讲的预测房价,输入就是房子大小、年龄这些基本的单特征。而对于计算机而言,你给它一张图片,只是一个三维或者二维矩阵,没有任何特征信息,换句话来说,直接把图片输入到全连接神经网络,即将像素点作为特征,这样的特征难以利用和复用以及进行比较。而卷积层的作用呢?提取特征,而且是有用的可复用的局部特征。通过卷积层提取到特征,并输入到全连接层进行相应的和之前机器学习中学到的传统的全连接神经网络进行特征信息处理并进行预测一模一样。一言蔽之:卷积神经网络识别图像的第一步:利用卷积层提取图像的局部特征。
在这里插入图片描述
在这里插入图片描述

🌸总结:
而所谓的"卷积操作",可以简单理解为一个滤镜的过程,在图片上不断滑动,把图片局部的像素值经过一定的运算(这里的运算参数就是网络需要学习的部分),得到一个新的值,这个新的值就代表了这部分区域的某种特征

OK,现在我们理解了卷积的作用——提取图像中的特征信息。我们现在的问题就缩小到了——卷积为什么能提取特征?提取的特征又是如何形式的?为什么这种方式提取的特征有效?

2.6.1:特征提取

从上文所讲的卷积操作,以及下面卷积操作结果的直观感受:卷积操作确实能提取特征。例如下图就利用垂直卷积核和水平卷积核,将图像中的垂直边缘信息和水平边缘信息提取出来。

到这里我们知道两点

  • 卷积操作确实可以提取局部特征
  • 不同的特征需要设计不同的卷积核(而在神经网络中,卷积核中的参数无需手动设计,网络会自己学习
    在这里插入图片描述
    关于卷积操作为什么能提取特征背后的本质,和卷积核到底充当一个什么角色,深入理解的话,那就需要了解下面所讲的:傅里叶变换和加窗傅里叶变换

2.6.2:加窗傅里叶变换

卷积的本质是:二维的加窗傅里叶变换。学过信号与系统的话,大致对傅里叶变换有一个理解,我之前也专门写了一篇理解傅里叶变换的博客:傅里叶变换和其图像处理中的应用。这里的卷积核其实就是类比于傅里叶基,通过利用卷积核对二维图像数据进行卷积操作(加窗傅里叶变换),其实是将图像中和卷积核相似的特征信息提取出来(说白了,如果卷积核套在这块像素和卷积核想表达的特征相似,那么这次卷积得到的中心像素值就大,也就是这块存在这种卷积特征)。
在这里插入图片描述

这也是为什么上文讲卷积操作时,吴恩达老师会说,有几个卷积核,也就是有几个特征的含义。
在这里插入图片描述

不过需要注意的是,不像上图中那些规则的卷积核,神经网络中卷积核的样子(也就是卷积核的参数)是由反向传播学习得到的,具体卷积核的样子也是等到训练结束后才得知。
在这里插入图片描述

在这里插入图片描述

比如下面举例识别字母X的例子。我们假设一开始卷积核模板已经学习得到或者设计好,即以下三个特征(模式/卷积核/过滤器)。
在这里插入图片描述

当利用相应的模板(卷积核)对其进行卷积操作时,与模板特征匹配越高,在中心像素点位置的值也就越高(响应越高)——本质上就是,在这个位置捕捉到了这个卷积核对应的特征!

在这里插入图片描述
然后向之前一样,用过滤器将原图像分别卷积一遍,得到3个feature map

feature map 是特征图的意思,是指每个卷积核和输入卷积后形成的特征图,特征图的个数和卷积核的个数相同

在这里插入图片描述
思考:我们可以看到,这样得到的特征信息,包含两个方面:

  • 这个位置存在什么特征
  • 这个特征存在的位置

🪧结合位置+特征这两个信息,将其展平(并不会丢失信息),输入全连接神经网络,神经网络开始干活,对特征信息进行像传统神经网络该做的事情,进行预测。

当然,上面这个例子过于简单,只有一层,多层神经网络和池化我们也讲到,其实还是为了获得更大的感受野和减轻计算负担,本质上还是一样的!

所以为什么经常会看到说对比于传统的计算机视觉,卷积神经网络可以自己学习特征,说到底就是通过反向传播学习这些卷积核里的参数。

2.6.3:卷积神经网络特征图可视化

接下来我们对特征图feature map进行可视化,来深入了解:

定义了一个4层的卷积,每个卷积层分别包含9个卷积、Relu激活函数和尺度不等的池化操作,系数全部是随机初始化

输入原图:
在这里插入图片描述
第一层卷积后可视化的特征图:
在这里插入图片描述
第二层卷积后可视化的特征图:
在这里插入图片描述
第三层卷积后可视化的特征图:

在这里插入图片描述

第四层卷积后可视化的特征图:
在这里插入图片描述
从不同层可视化出来的特征图大概可以总结出一点规律:

  1. 浅层网络提取的是纹理、细节特征
  2. 深层网络提取的是轮廓、形状、最强特征(如猫的眼睛区域)——或者说是前面特征(卷积核)叠加效果的通用、最强特征(个人直觉上),但看一层的特征当然看起来似乎不可解释,但是实际上最后得到的特征图是建立在前面那么多卷积核作用之后的。
  3. 浅层网络包含更多的特征,也具备提取关键特征(如第一组特征图里的第4张特征图,提取出的是猫眼睛特征)的能力
  4. 相对而言,层数越深,提取的特征越具有代表性
  5. 图像的分辨率是越来越小的

以上是个人结合一些视频和文章资料学习、整合和加入自己理解所写,能力有限,若有欠妥地方,欢迎评论区讨论和指正!💐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1432557.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024.2.4

双向链表的头插 头删 尾插 尾删 //头插插入 Doublelink insert_head(Doublelink head,datatype element) {Doublelink screat_Node();s->dataelement;//判断是否有空链表if(NULLhead){heads;}else{s->nexthead;head->priors;heads;}return head; } //头删 Doublelink…

sql相关子查询

1.什么是相关子查询 相关子查询是一个嵌套在外部查询中的查询,它使用了外部查询的某些值。每当外部查询处理一行数据时,相关子查询就会针对那行数据执行一次,因此它的结果可以依赖于外部查询中正在处理的行。 2.为什么要使用相关子…

微信小程序之本地生活案例的实现

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

图论练习3

内容:过程中视条件改变边权,利用树状数组区间加处理 卯酉东海道 题目链接 题目大意 个点,条有向边,每条边有颜色和费用总共有种颜色若当前颜色与要走的边颜色相同,则花费为若当前颜色与要走的边颜色不同,…

Android学习之路(27) ProGuard,混淆,R8优化

前言 使用java编写的源代码编译后生成了对于的class文件,但是class文件是一个非常标准的文件,市面上很多软件都可以对class文件进行反编译,为了我们app的安全性,就需要使用到Android代码混淆这一功能。 针对 Java 的混淆&#x…

【快速上手QT】01-QWidgetQMainWindow QT中的窗口

总所周知,QT是一个跨平台的C图形用户界面应用程序开发框架。它既可以开发GUI程序,也可用于开发非GUI程序,当然我们用到QT就是要做GUI的,所以我们快速上手QT的第一篇博文就讲QT的界面窗口。 我用的IDE是VS2019,使用QTc…

Leetcode高频题:213打家劫舍II

题目链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 题目描述 你是一个专业的小偷,计划偷窃沿街的房屋,每间房内都藏有一定的现金。这个地方所有的房屋都 围成一圈 ,这意味着第一个房屋和最后一个…

MySQL知识点总结(三)——事务

MySQL知识点总结(三)——事务 事务事务的四大特性ACID原子性一致性隔离性持久性 脏读、幻读、不可重复读脏读不可重复读幻读 隔离级别读未提交读已提交可重复读串行化 事务的原理InnoDB如何实现事务的ACID事务的两阶段提交redo log与binlog的区别事务两阶…

基于SpringBoot+Vue的在线教育平台设计与实现

目录 项目介绍 技术栈 项目介绍 项目截图 搭建 代码截取 代码获取 项目介绍 近年由于疫情影响,线下教育行业受到较大冲击,因此线上教育培训有较好的发展势头,其中建筑行业考证培训是一个前景良好的发展方向,该行业不仅需要…

权威认可|亚数强势入围FreeBuf《CCSIP 2023中国网络安全产业全景图》10大细分领域

近日,国内安全行业门户FreeBuf旗下FreeBuf咨询正式发布《CCSIP(China Cyber Security Industry Panorama)2023中国网络安全行业全景册(第六版)》。 凭借卓越的技术产品能力、市场影响力及领先的综合实力,亚…

C++泛编程(3)

类模板基础 1.类模板的基本概念2.类模板的分文件编写3.类模板的嵌套 (未完待续...) 在往节内容中,我们详细介绍了函数模板,这节开始我们就来聊一聊类模板。C中,类的细节远比函数多,所以这个专题也会更复杂。…

【Crypto | CTF】BUUCTF 萌萌哒的八戒

天命:这年头连猪都有密码,真是奇葩,怪不得我一点头绪都没有 拿到软件,发现是.zip的压缩包,打不开,改成7z后缀名,打开了 发现是一张图片 也只有下面这行东西是感觉是密码了,又不可能…

[leetcode] 22. 括号生成

文章目录 题目描述解题方法方法一:dfs遍历java代码 方法二:按照卡特兰数的思路递归求出有效括号组合java代码 相似题目 题目描述 数字 n 代表生成括号的对数,请你设计一个函数,用于能够生成所有可能的并且 有效的 括号组合。 示…

计算机编码:原码、反码、补码的思想、原理和实例(详细版)

​ 目录 收起 一、原码、反码、补码的意义 意义: 三、原码 原码的特点: 原码存在的问题: 四、反码 反码的特点: 存在的问题: 五、补码 六、补码的思想(模&&同余数) 模 && 同余数…

exF2FS: Transaction Support in Log-Structured Filesystem——泛读笔记

FAST 2022 Paper 分布式元数据论文汇总 问题 现代应用程序努力以崩溃一致的方式保护其数据,这通常分布在多个文件抽象之上。在底层文件系统缺乏事务支持的情况下,应用程序使用复杂的协议来确保跨多个文件的事务性更新,产生长序列的写操作和…

小林Coding_操作系统_读书笔记

一、硬件结构 1. CPU是如何执行的 冯诺依曼模型:中央处理器(CPU)、内存、输入设备、输出设备、总线 CPU中:寄存器(程序计数器、通用暂存器、指令暂存器),控制单元(控制CPU工作&am…

自研人工智能小工具-小蜜蜂(国外ChatGpt的平替)

国内有非常多好用的人工智能工具,但均无法完全替代国外ChatGpt。 ChatGPT相较于其他国内工具的优势在于以下几点: 创新的语言生成能力:ChatGPT是由OpenAI开发的先进的自然语言生成模型,它采用了大规模的预训练和精细调整方法。因此…

蓝桥杯刷题day06——平均

1、题目描述 有一个长度为n 的数组(n 是 10 的倍数),每个数ai都是区间 [0,9] 中的整数。 小明发现数组里每种数出现的次数不太平均,而更改第i 个数的代价为bi, 他想更改若干个数的值使得这10 种数出现的次数相等&…

创建TextMeshPro字体文件

相比于Unity的Text组件,TextMesh Pro提供了更强大的文本格式和布局控制,更高级的文本渲染技术,更灵活的文本样式和纹理支持,更好的性能以及更易于使用的优点。但unity自带TextMeshPro字体不支持中文。这里使用普通字体文件生成Tex…

前端登陆加密解决方案

项目背景 环食药烟草的数据下载模块中,需要判断用户在进行数据下载时是进行了登录操作,如果没有登录要跳转登陆页面,输入账号和密码进行登录。 使用场景 项目中需要前端书写登录页面,用户输入账号密码,前端获取到用…