(论文阅读34-39)理解CNN

news2025/1/20 18:37:55

34.文献阅读笔记

简介

题目

Understanding image representations by measuring their equivariance and equivalence

作者

Karel Lenc, Andrea Vedaldi, CVPR, 2015.

原文链接

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lenc_Understanding_Image_Representations_2015_CVPR_paper.pdf

关键词

equivariance, invariance, and equivalence.

研究问题

尽管梯度直方图和深度卷积神经网络在图像表达上非常重要,但是我们对它们的理论了解仍然很受限。

a good representation should combine invariance and discriminability。

一个好的表达应该结合不变形和判别性。但这种定性是相当模糊的;例如,通常不清楚一个表示中包含哪些不变性以及它们是如何获得的。

提出了一种新的方法来研究图像表示。

研究方法

investigate three key mathematical properties of representations: equivariance, invariance, and equivalence.

研究三个数学属性:等变性、不变性和等价性。

等变性研究输入图像的变换是如何被表示编码的,不变性是变换没有影响的一种特殊情况。

等价性研究两个表示,例如CNN的两个不同参数化,是否捕获相同的视觉信息。

经验性的建立这些方法通过introducing transformation(转换) and stitching(拼接)(允许交换不同网络部分的拼接层)(验证等价性) layers in CNNs

研究结论

浅层表示和最先进的深度CNNs的前几层以一种容易预测的方式与图像变形进行转换,并且它们在不同的体系结构中可以互换,因此是等效的。更深层的层共享这些特性的一部分,但程度较低,更具有任务特异性。

创新不足

额外知识

geometric invariances:几何不变性。

Image representations:textons , histogram of oriented gradients (SIFT and HOG , bag of visual words , sparse and local coding, super vector coding, VLAD, Fisher Vectors, and the latest generation of deep convolutional networks.

35.文献阅读笔记

简介

题目

Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images

作者

Anh Nguyen, Jason Yosinski, Jeff Clune, CVPR, 2015.

原文链接

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Nguyen_Deep_Neural_Networks_2015_CVPR_paper.pdf

Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images-CSDN博客

关键词

DNN安全性、“fooling images”

研究问题

人类视觉和当前DNN之间的有趣差异,并提出了关于DNN计算机视觉通用性的问题。

研究方法

生成一张人类无法分辨的图片,却能够让DNN以99%的置信度相信这是某个物体 。我们使用进化算法或者梯度上升来得到这样的图片。

multi-dimensional archive of phenotypic elites MAP-Elites ,这个算法可以让我们同时的进化出一个群体,如:ImageNet的1000个类。

多种不同的方法生成图片,称为“fooling images”:

1.普通的EA算法,对图片的某个像素进行变异、进化

2.CPPN EA算法,可以为图像提供一些几何特性,如对称等

3.梯度上升

研究结论

会将人类无法识别的图案以非常高的置信度归为某个label。当经过重新训练的DNNs学会将负面例子分类为fool image时,即使经过多次再训练迭代,也可以产生一批新的fool image来愚弄这些新网络。

过拟合程度更低,更难去欺骗.

数据集的类别越多,越难被攻击

创新不足

额外知识

在MNIST数据集上,由于数据量小,得到的网络模型的容量小,更容易生成fooling images,也跟难通过利用fooling images重新训练模型的方式来提高其防御能力

在ImageNet数据集上,数据量大,类别多,得到的网络模型的容量大,更难生成fooling images,不过由于其容量大,能够通过重新训练的方式提高防御能力

36.文献阅读笔记

简介

题目

Understanding Deep Image Representations by Inverting Them

(反演)

作者

Aravindh Mahendran, Andrea Vedaldi,  CVPR, 2015

原文链接

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Mahendran_Understanding_Deep_Image_2015_CVPR_paper.pdf

关键词

Understanding of Image Representations、Inverting

研究问题

给定一幅图像的编码,在多大程度上有可能重建图像本身?

研究方法

贡献了一个通用的框架来反演表示。

Hog、sift代表浅层表示法。

CNN表示深层表示法。

展示了如何将 HOG 和 DSIFT 作为 CNN 来实现,从而简化其导数的计算。

将反演技术分别应用于浅层表示(HOG 和 DSIFT)和深层表示(CNN)的分析。

反转只使用最终图像代码,即研究的是网络输出保留了哪些信息。

使用自然图像先验。

损失函数:欧氏距离

研究结论

CNN中的几个层保留了图像的精确信息,具有不同程度的几何和光度不变性。

基于梯度下降优化目标函数的反演浅层和深层表示的优化方法。与替代方案相比,一个关键的区别是使用图像先验,如Vβ范数,可以恢复由表示去除的低级图像统计。应用于卷积神经网络,可视化显示了每一层所代表的信息。特别是,很明显,在网络中形成了一个渐进的、更具有不变性和抽象性的图像内容的概念。

创新不足

方法只使用图像表示和通用自然图像先验的信息,以随机噪声作为初始解,因此只捕捉到表示本身所包含的信息。

额外知识

图像表示:sift->bag of visual words->cnns

37.文献阅读笔记

简介

题目

Object Detectors Emerge in Deep Scene CNNs

作者

Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba, ICLR, 2015.

原文链接

http://arxiv.org/abs/1412.6856

关键词

理解CNN

研究问题

理解这些深层架构的内层所学习到的表象。

手工特征的表征结构往往是清晰的、可解释的,而对于深度网络来说,学习到的表征的性质是什么以及它为什么能如此出色地工作,仍然不清楚。

学习场景分类(即将图像分类为办公室、餐厅、街道等),为研究 CNN 在物体识别以外的任务中学到的内部表示提供了机会。

场景类别由其包含的物体定义,并在一定程度上由这些物体的空间配置定义。物体代表了场景的分布式代码(即不同场景类别之间共享物体类)。重要的是,在场景中,物体的空间配置虽然紧凑,但自由度要大得多。正是这种松散的空间依赖性,使得场景表示不同于大多数对象类(大多数对象类各部分之间没有松散的交互)。

研究方法

展示了目标检测器是通过训练CNN来进行场景分类的。由于场景是由物体组成的,用于场景分类的CNN自动发现有意义的物体检测器,代表学习到的场景类别。随着物体检测器作为学习识别场景的结果而出现。

只使用场景,不使用对象级的监督。

进行了一个简单的实验,以确定每个网络不同层所偏好的图像类型的差异:创建了一组 20 万张图像,其中以场景为中心的图像和以物体为中心的图像分布大致相同,并将它们同时运行于两个网络,记录每一层的激活情况。对于每一层,我们将获得平均激活度(特定层所有空间位置的总和)最大的前 100 张图像。图 1 显示了每一层的前 3 幅图像。我们观察到,对于两个网络来说,pool1和pool2等较早的层更偏好类似的图像,而较晚的层则倾向于更专注于场景或物体分类的特定任务。

给定一幅被网络正确分类的图像,我们希望简化这幅图像,使其保留尽可能少的视觉信息,同时对同一类别仍有较高的分类得分。简化后的图像(命名为最小图像表示)将使我们能够突出导致高分类得分的元素。为此,我们在梯度空间中处理图像。

研究了以下两种不同的方法。

在第一种方法中,我们给定一幅图像,创建边缘和区域的分割,然后从图像中迭代移除分割。每次迭代时,我们都会移除正确分类分数下降最小的片段,直到图像被错误分类为止。最后,我们会得到原始图像的表示形式,该表示形式大约包含了网络正确识别场景类别所需的最小信息量。图 2 展示了这些最小图像表征的一些示例。

物体似乎为网络识别场景贡献了重要信息。例如,在卧室的情况下,这些最小图像表征通常包含床的区域,或者在美术馆类别中,包含墙上画作的区域。

第二种方法:我们使用 SUN Database (Xiao et al., 2014)的全注释图像集生成最小图像表征(有关该数据集的详细信息),而不是进行自动分割。我们采用与第一种方法相同的程序,使用数据库中提供的ground-truth object segments。

对于卧室,在87 %的情况下,最小表示保留了床。卧室的其他物品为墙壁( 28 % )和窗户( 21 % )。对于美术馆来说,最小的图像表征包括绘画( 81 % )和图片( 58 % );在游乐园中,旋转木马( 75 % ),骑马( 64 % ),过山车( 50 % );书店以书柜( 96 % )、书( 68 % )、书架( 67 % )为主。这些结果表明,目标检测是网络构建的表示的重要组成部分,以获得用于场景分类的判别信息。

数据驱动的方法来估计每一层中每个单元的感受野(RF)。

作为输入,我们使用由 200k 张图像组成的图像集,其中场景和物体的分布大致相同(与第 2 章类似)。然后,我们选出给定单元激活度最高的 K 幅图像。对于 K 幅图像中的每一幅图像,我们现在要确定的是图像中哪些区域会导致高单元激活。为此,我们对每幅图像进行多次复制,并在图像的不同位置添加小的随机遮挡物(大小为 11×11 的图像斑块)。具体来说,我们以 3 为步长的密集网格生成遮挡物,这样每张原始图像就会有大约 5000 个遮挡图像。现在,我们将所有被遮挡的图像输入同一个网络,并记录与使用原始图像相比激活度的变化。如果差异很大,我们就知道给定的补丁(patch)很重要,反之亦然。这样,我们就能为每张图像建立差异图。

随着层数的加深,RF 的大小逐渐增大,激活区域也变得更具语义意义。我们使用不同单元的特征图来分割图像。RF 的实际大小远远小于理论大小,尤其是在后面几层。总之,通过这种分析,我们可以精确地聚焦于每个图像的重要区域,从而更好地理解每个单元。

研究结论

物体检测器是在学习对场景类别进行分类的过程中出现的,这表明单个网络可支持多个抽象层次(如边缘、纹理、物体和场景)的识别,而无需多个输出或网络。训练一个网络完成多项任务并将最后一层作为输出是很常见的做法,而在这里,我们展示了可以在每一层提取可靠的输出。由于物体是构成场景的部分,因此在网络的内层会学习到能区分不同场景的物体检测器。请注意,只有对特定场景识别任务有参考价值的物体才会出现。同一个网络可以在一次前向传递中完成物体定位和场景识别。

创新不足

额外知识

与 ImageNet-CNN 的特征相比,Places-CNN 的深度特征在场景相关的识别任务中往往表现更好。

receptive fields (RFs):感受野

38.文献阅读笔记

简介

题目

Inverting Visual Representations with Convolutional Networks

作者

Alexey Dosovitskiy, Thomas Brox, arXiv, 2015.

原文链接

http://arxiv.org/abs/1506.02753

关键词

重建彩色图像。

研究问题

提出了一种新方法来分析特征表示保留了哪些信息,丢弃了哪些信息。对模式识别任务有用的特征表示应集中于输入图像中对任务重要的属性,而忽略输入图像中无关的属性。

研究方法

浅层特征。我们反转了三种传统的计算机视觉特征表示:定向梯度直方图(HOG)、尺度不变特征变换(SIFT)和局部二值模式(LBP)。我们选择这些特征是有原因的。目前已经有了反转 HOG 的方法,因此我们可以与现有的方法进行比较。LBP 的有趣之处在于它不可微,因此基于梯度的方法无法反转它。SIFT 是一种基于关键点的表示法,因此网络必须将不同的关键点拼接成一张平滑的图像。

在提取特征之前,我们将图像转换为灰度图像

任务是重建彩色图像。特征不包含任何颜色信息,因此要预测颜色,网络就必须分析图像内容,并利用在训练过程中学到的自然图像先验信息。

很多时候,网络都能正确预测颜色,尤其是天空、大海、草地和树木。在其他情况下,网络无法预测颜色(例如图 3 最上面一行中的人),导致某些区域呈灰色。偶尔,网络也会预测出错误的颜色,如图 3 底行。

研究结论

图像的颜色和粗略轮廓可以从更高网络层的激活中重建,甚至可以从预测的类概率中重建。

隐含地学习自然图像先验。

将我们的方法应用于 AlexNet 卷积网络学习到的表征,可以得出以下几个结论: 1)网络各层(包括最后的 FC8 层)的特征都保留了图像中物体的精确颜色和大致位置;2)在较高层中,输入图像的几乎所有信息都包含在非零激活模式中,而不是其精确值中;3)在 FC8 层中,输入图像的大部分信息都包含在那些不在网络预测前 5 位的类别的小概率中。

创新不足

额外知识

 "层的输出 "指的是该层最后一个处理步骤的输出。例如,第一个卷积层 CONV1 的输出是经过 ReLU、池化和归一化后的结果

39.文献阅读笔记

简介

题目

Visualizing and Understanding Convolutional Networks

作者

Matthrew Zeiler, Rob Fergus, ECCV, 2014.

原文链接

https://www.cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf

关键词

特征可视化技术

研究问题

深入了解中间特征层的功能和分类器的功能

研究方法

介绍了一种新颖的可视化技术。

将特征激活投射回输入像素空间。还通过遮挡部分输入图像对分类器输出进行敏感性分析,揭示场景中哪些部分对分类很重要。

deconvnet layer:(反卷积层)

研究结论

随着层数的增加,它们显示出许多直观可取的特性,如组成性、不断增加的不变性和类别区分度。该模型在进行分类训练的同时,对图像中的局部结构高度敏感,而不仅仅是利用广泛的场景背景。对模型的消融研究表明,网络的最小深度,而不是任何单独的部分,对模型的性能至关重要。

创新不足

额外知识

消融研究以发现不同模型层的性能贡献。

Ablation study(消融研究、消融学习、消融实验)_Accelerating的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1211759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NumLevels

NumLevels:输入参数,最大的金字塔层数。默认auto,范围【0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, auto】。 AngleStart:输入参数,输入匹配时的起始角度。默认-0.39,建议值【 -3.14, -1.57, -0.79, -0.39, -0.20,…

Go 理解零值

在 Go 语言中,零值(Zero Value)是指在声明变量但没有显式赋值的情况下,变量会被自动赋予一个默认值。这个默认值取决于变量的类型,不同类型的变量会有不同的零值。零值是 Go 语言中的一个重要概念,因为它确…

sCrypt 发布零知识证明精选列表

sCrypt 发布了与零知识证明相关的精选列表,包括:教程,编程语言,工具,书籍,社区,证明系统。欢迎收藏 github 代码仓:https://github.com/sCrypt-Inc/awesome-zero-knowledge-proofs。…

冷空气已发货,户外作业者请做好足部保暖

冷空气不间断 多地体验一夜入冬 据中国天气网消息 冷空气正在马不停蹄发货 三分之二国土需羽绒服护体 同时记得做好足部保暖。 在寒风凛冽的冬日中,对于常年在户外工作人员的群体来说,又到了一年里最难熬的时节。他们不畏严寒,在零度以下…

计算机视觉的应用16-基于pytorch框架搭建的注意力机制,在汽车品牌与型号分类识别的应用

大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用16-基于pytorch框架搭建的注意力机制,在汽车品牌与型号分类识别的应用,该项目主要引导大家使用pytorch深度学习框架,并熟悉注意力机制模型的搭建,这个…

【5G PHY】5G SS/PBCH块介绍(三)

博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 本人就职于国际知名终端厂商,负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。 博客…

Springboot-aop的使用

aop:面向切面编程&#xff0c;可以看作是面向对象的补充 举例 1.依赖 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.7.1</version><relativePath/>…

【QT HTTP】使用QtNetwork模块制作基于HTTP请求的C/S架构

目录 0 引言1 HTTP基本知识1.1 请求类型1.2 HTTP请求报文格式1.3 HTTP响应报文格式1.4 拓展&#xff1a;GET vs POST 请求方法GET请求请求报文&#xff1a;响应报文 POST请求请求报文响应报文 其他注意事项示例&#xff1a;GET请求示例POST请求示例 2 实战2.1 QtNetwork模块介绍…

【eNSP安装与使用】华为eNSP网络设备模拟器从安装到使用详细步骤(亲测有效,附安装包下载)

目录 写在前面涉及知识一、安装那些事1.1前期安装包准备&#xff08;基于windows10环境测试&#xff09;1.2 安装WinPcap1.3 安装Wireshark1.4 安装VirtualBox1.5 安装eNSP 二、使用那些事2.1 安装问题解决&#xff08;启动设备ar1失败 错误代码41&#xff09;2.2 测试使用 三、…

LTD251次升级 | 商机平台可筛选、浏览历史可查看 • 在线课程可秒杀购买 • 采购表单可实时计算价格与周期

1、 新增商机类型筛选及历史浏览功能&#xff1b; 2、 新增地址管理和物流公司管理功能&#xff1b; 3、 优化表单导出问题文件格式&#xff1b; 4、 可定制实时计算价格的表单&#xff1b; 5、 知识付费支持秒杀活动&#xff1b; 01 商机平台应用 在上次升级中&#xff0c;我…

03-CSS基础选择器

3.1 CSS基础认知&#x1f34e; 3.1.1 &#x1f441;️‍&#x1f5e8;️CSS概念 CSS&#xff1a;层叠样式表&#xff08;Cascading style sheets)&#xff0c;为网页标签增加样式表现的 语法格式&#xff1a; 选择器{<!-- 属性设置 -->属性名:属性值; <!--每一个…

修改ubuntu终端目录背景颜色

Ubuntu终端上有部分目录是黄绿色底色&#xff0c;看着很不舒服。如下图所示&#xff1a; 这是由于修改用户权限导致的问题。 通过下面指令可以看到 echo $LS_COLORS | grep "ow" ​ 可以看到ow的默认参数是34:42ow:OTHER_WRITABLE&#xff0c;即其他用户可写权限 …

[sqlserver]在count(*)末尾增加单位(sql语句中的类型转换函数convert())

背景&#xff1a;在查询登录总数后面增加“人次” 解决&#xff1a;使用convert()函数转换为varchar类型即可 原语句&#xff1a; select count(*) 登录次数 from login 更改后&#xff1a; select convert(varchar,count(*))人次 登陆次数 from login 关于convert()函数的…

通过IP地理位置阻止网络攻击

随着网络技术的不断发展&#xff0c;网络安全问题日益引起人们的关注。网络攻击者往往隐藏在虚拟的网络世界中&#xff0c;难以追踪其真实身份和位置。然而&#xff0c;近年来技术专家们借助IP地址定位的方法来阻止网络被攻击&#xff0c;这种方法引起了广泛关注。本文将探讨通…

uniapp大概是怎么个开发法(前端)

写在前面&#xff0c;博主是个在北京打拼的码农&#xff0c;从事前端工作5年了&#xff0c;做过十多个大大小小不同类型的项目&#xff0c;最近心血来潮在这儿写点东西&#xff0c;欢迎大家多多指教。 对于文章中出现的任何错误请大家批评指出&#xff0c;一定及时修改。有任何…

《QT从基础到进阶·二十八》QProcess使用,从一个exe程序启动另一个exe程序

QString exePath QCoreApplication::applicationDirPath(); //获取要启动的另一个exe路径 exePath exePath “/OffLineProcess.exe”; //路径exe名称 QProcess* Process new QProcess; //创建新的进程 Process->start(exePath)…

基于C++设计与实现的算符优先分析器

一、实验目的及要求 1.1 目的 加深对语法分析器工作过程的理解&#xff1b;加强对算符优先分析法实现语法分析程序的掌握&#xff1b;能够采用一种编程语言实现简单的语法分析程序&#xff1b;能够使用自己编写的分析程序对简单的程序段进行语法翻译。 1.2 要求 对语法规则…

小DEMO:css制作圆滑梯形按钮

代码&#xff1a; <div class"pull-btn-box"><div class"pull-btn"><svg width"12" height"12"><path d"M0 0 L6 11 L12 0" stroke"#A6A6A6" stroke-width"2" fill"none&qu…

彩票双色球预测工具1.0

搏一搏 单车变跑车 祝各位开出大奖&#xff01;&#xff01; 后续会持续更新&#xff0c;欢迎关注&#x1f44f; from random import randintdef gener_blue_ball():return randint(0, 33)def gener_blue_ball_s():blue_ball_set set()while True:if len(blue_ball_set) 6:b…

Git笔记简化版

起源 Git是目前世界上最先进的分布式版本控制系统。林纳斯-托瓦兹在开发linux系统时有很多人想有一个平台进行版本控制。当时同类型的版本控制软件是BitKeeper&#xff0c;bitKeep是不开源的。当林纳斯团队无法免费使用它时&#xff0c; 林纳斯花费了一个月左右时间就开发出了…