【AI】人类视觉感知特性与深度学习模型(2/2)

news2024/11/29 18:40:24

目录

二、人类视觉感知特性对深度学习模型的启发

2.1 视觉关注和掩盖与调节注意力模型的关系

1.视觉关注和掩盖

2. 注意力机制模型

2.2 对比敏感度与U形网络的联系

2.3 非局部约束与点积注意力的联系


续上节

【AI】人类视觉感知特性与深度学习模型(1/2)-CSDN博客

二、人类视觉感知特性对深度学习模型的启发

上次我们讨论了人类视觉感知的4个特性,这4个特性,对深度学习模型,都有重要的影响,主要体现在以下几个方面。

2.1 视觉关注和掩盖与调节注意力模型的关系

视觉关注(Visual Attention)和掩盖(Masking)与调节注意力模型(Attentional Modulation Models)在视觉认知和神经科学领域中紧密相关。这些概念共同探讨了人类和机器如何处理大量视觉信息,特别是在资源有限的情况下如何优先处理最重要的信息。

1.视觉关注和掩盖

视觉关注是指视觉系统在处理信息时选择性地集中于场景中的某些部分,而忽视其他部分的过程。这种选择性关注有助于高效地处理复杂的视觉场景,因为它允许有限的认知资源被优先分配给最相关或最显著的信息。

掩盖是一种视觉现象,其中一个刺激(掩盖刺激)的存在使得另一个同时或相近时间出现的刺激(目标刺激)变得难以被察觉或识别。掩盖效应可以在空间上(例如,两个刺激相邻时)或时间上(例如,两个刺激相继出现时)发生。掩盖可以影响视觉关注的分配,因为被掩盖的刺激可能不会被视觉系统优先处理。

调节注意力模型试图解释视觉关注是如何在场景中分布的,以及这种分布是如何根据任务需求、刺激特性和内部状态进行调节的。这些模型通常涉及计算场景中不同位置的显著性(Saliency),然后基于这些显著性值来分配注意力。

2. 注意力机制模型

调节注意力(Attentional Modulation)。调节注意力是一种机制,通过它,神经系统可以根据当前的目标或任务需求来调整其对不同刺激的敏感性。这种调节可以在多个层面上发生,包括感知、认知和运动层面。在感知层面,调节注意力可以影响刺激的视觉显著性和神经表征的强度。

点积注意力(Dot-Product Attention)。点积注意力是深度学习领域中的一种注意力机制,特别是在Transformer架构中得到了广泛应用。在这种机制中,输入的每个元素都会与一个查询(Query)进行点积运算,生成一个分数,这个分数反映了输入元素与查询的相关性。然后,这些分数会被归一化(通常使用Softmax函数),并用于加权输入元素,从而生成一个加权的上下文向量。这个过程可以被看作是一种软性的信息选择机制,其中每个输入元素都对输出有一定的贡献,但贡献的大小取决于其与查询的相关性。

视觉关注和掩盖都与注意力的分配和调节密切相关。当一个刺激被另一个刺激掩盖时,它可能不会被视觉系统优先关注,因为掩盖效应降低了其显著性。调节注意力模型试图解释这种注意力的分配过程,并预测在不同条件下哪些刺激会被优先关注。

点积注意力等注意力机制模型为理解和实现这种选择性关注提供了计算工具。在深度学习模型中,这些注意力机制可以被用来模拟人类的视觉关注过程,从而提高模型在处理复杂视觉任务时的性能。例如,在图像分类或目标检测任务中,模型可以学会将更多的注意力分配给图像中最相关或最显著的部分,从而更准确地识别和分类对象。

挤压激励(SE)模块使用全局平均池化和一个线性层来计算每个通道的比例因子,然后相应地强化有效通道而弱化无意义通道。因此,SLA有效地刻画了人类视觉的视觉关注和视觉掩盖两个感知特性,如下图。

2.2 对比敏感度与U形网络的联系

对比敏感度说明,人类视觉系统非常关注物体的边缘,往往通过边缘信息获取目标物体的具体形状、解读目标物体等。U型网络通过跳接结构,将能够表达边缘、纹理的细节信息传递到高阶特征中,从而帮助解码器更好地修复目标的细节。U型网络的这种特性,反映的是物体的边缘、形状、纹理等信息对于人类视觉信息理解的重要性,因此,U型网络在一定程度上刻画了人类视觉对比敏感度的特征。

对比敏感度,作为视觉感知的关键指标之一,描述了人眼或图像传感器在不同对比度下区分亮度变化的能力。在视觉科学中,对比敏感度通常与空间频率相关联,反映了视觉系统对快速变化的图像特征的响应能力。这种感知机制对于理解图像中的细节、边缘以及纹理至关重要。

近年来,深度学习领域的发展推动了各种新型网络结构的设计,其中U形网络(U-Net)在图像处理和分析任务中尤为突出。U形网络得名于其特殊的U形架构,这种架构包括一个收缩的路径来捕获上下文信息,以及一个对称的扩展路径来实现精确的定位。这种设计使得U形网络在处理分割、去噪、超分辨率等任务时表现出色。

对比敏感度与U形网络之间的联系,在于它们共同关注图像中的细节信息和特征差异。对比敏感度作为人类视觉系统的一个基本属性,启发了计算机视觉算法在处理图像时需要考虑不同对比度下的特征变化。而U形网络通过其独特的架构设计,有效地结合了上下文信息和定位精度,使得在像素级别的图像处理任务中能够更好地保留和利用这些细节信息。

在实际应用中,利用对比敏感度的概念可以指导U形网络的设计和优化。例如,在网络训练过程中引入对比度变化的数据增强技术,可以帮助网络学习在不同对比度条件下鲁棒的特征表示。此外,U形网络的性能评估也可以参考对比敏感度的指标,以量化其在处理不同对比度图像时的性能差异。

对比敏感度和U形网络在视觉信息处理方面有着紧密的联系。通过将人类视觉系统的感知特性与深度学习网络的设计原则相结合,可以进一步推动计算机视觉技术的发展和应用。

2.3 非局部约束与点积注意力的联系

大量人类视觉研究发现,人脑处理视觉信息时并不是仅局限于局部区域的信息。人眼对全局的、语义的、简单结构的形状整体更容易产生印象,而非局部细节信息。

DPA 通过点积计算形式,获得询问特征向量任意一个位置与键(key)特征向量中全部位置之间的相关性:从而捕获位置与位置之间(像素与像素之间)的长距离依赖关系,实现全局上下文信息的建模。同时,学习到的全局上下文信息通过softmax 得到空间上的注意力图,也可以起到对有效信息增强强和无效信息弱化的作用。     

DPA的全局上下文建模在一定程度上体现了人眼视觉关注、视觉掩盖和非局部约束等多个特征。

点积注意力,作为注意力机制的一种,是通过计算输入序列中各个位置之间的点积相似度来确定注意力权重的方法。在点积注意力中,输入序列中的每个元素都会被赋予一个查询(Query)、键(Key)和值(Value),通过计算查询与键的点积相似度,再经过Softmax函数归一化得到权重,最后对值进行加权求和得到注意力输出。点积注意力可以看作是一种软性的信息选择机制,其中每个输入元素都对输出有一定的贡献,但贡献的大小取决于其与查询的相关性。

非局部约束和点积注意力之间的联系主要体现在它们都是用来捕捉全局信息或长距离依赖性的方法。非局部约束通过考虑图像或数据中更广泛区域的信息来提供全局上下文感知,而点积注意力则通过计算输入序列中各个位置之间的点积相似度来确定全局的注意力权重。在实际应用中,非局部约束和点积注意力可以相互结合,共同提高模型在复杂任务中的性能。例如,在视觉问答、图像生成或视频理解等任务中,可以利用非局部约束来捕捉全局上下文信息,同时利用点积注意力来关注与问题或任务最相关的部分。

需要注意的是,非局部约束和点积注意力虽然有一定的联系,但它们在具体实现和应用上可能存在差异。在实际使用时,需要根据具体任务和数据特点选择合适的方法或结合使用多种方法来提高模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1348485.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【如何选择Mysql服务器的CPU核数及内存大小】

文章目录 🔊博主介绍🥤本文内容📢文章总结📥博主目标 🔊博主介绍 🌟我是廖志伟,一名Java开发工程师、Java领域优质创作者、CSDN博客专家、51CTO专家博主、阿里云专家博主、清华大学出版社签约作…

python练习2【题解///考点列出///错题改正】

一、单选题 【文件】 *1.【单选题】 ——文件:读取方法 下列哪个选项可以从文件中读取任意字节的内容?(C )A A.read() B.readline() C.readlines() D.以上全部 A\B\C三种方法都是可以读取文件中任意的字节内容的&#xff0…

emacs:Searching for program: No such file or directory,sml;

首先,编辑一个现有的或新的 SML 文件(如果没有其他方便的方法,可尝试C-x C-f test.smlC-x C-f test.sml 创建一个新文件)。你会看到 Emacs 窗口底部的模式显示从 "基本"(或其他任何模式)变成了 S…

【ArcGIS微课1000例】0084:甘肃积石山地震震中100km范围内历史灾害点分布图(2005-2020)

甘肃积石山地震震中100km范围内历史灾害点分布图(2005-2020)。 文章目录 一、成果预览二、实验数据三、符号化四、地图整饰一、成果预览 本实验最终效果图如下所示: 二、实验数据 以下数据可以从本专栏配套的实验数据包中0084.rar中获取。 1. 历史灾害数据。为2005-2020时…

【c++】使用vector存放键值对时,明明给vector的不同键赋了不同的值,但为什么前面键的值会被后面键的值给覆盖掉?

错误描述 运行程序得到结果如下图所示(左边是原始数据,xxml文件中真实数据的样子,右图是程序运行得到的结果结果): 对比以上两图可以发现,右图中两个实例的三个属性值都来自左图中的第二个User实例&#x…

思维训练-怎样设计一个MQ

架构师需要做各种设计,要不断地提高自己的设计能力。这有没有方法可以训练呢?有的,就是看到什么、想到什么,就假设对面坐着产品经理,一起讨论怎么把它设计出来。比如怎样设计一个MQ 我:首先我确认一下需求。…

2023年“中银杯”四川省职业院校技能大赛“云计算应用”赛项样题卷①

2023年“中银杯”四川省职业院校技能大赛“云计算应用”赛项(高职组) 样题(第1套) 目录 2023年“中银杯”四川省职业院校技能大赛“云计算应用”赛项(高职组) 样题(第1套) 模块一…

系统学习Python——装饰器:函数装饰器-[装饰器状态保持方案:外层作用域和非局部变量]

分类目录:《系统学习Python》总目录 我们在某些情况下可能想要共享全局状态。如果我们真的想要每个函数都有自己的计数器,要么像前面的文章那样使用类,要么使用Python3.X中的闭包函数(工厂函数)和nonlocal语句。由于这…

【产品设计】表对象建模

随着不断深入的拆解,从产品经理的设计方法到系统的拆解,每一部分都有值得探索的地方。 随着不断深入的拆解,从产品经理的设计方法,到经典系统的拆解,到零代码平台的构建,一直在走系统建设方法路线。如今再看…

SpringBoot解决前后端分离跨域问题:状态码403拒绝访问

最近在写和同学一起做一个前后端分离的项目,今日开始对接口准备进行 登录注册 的时候发现前端在发起请求后,抓包发现后端返回了一个403的错误,解决了很久发现是【跨域问题】,第一次遇到,便作此记录✍ 异常描述 在后端…

【AIGC风格prompt】风格类绘画风格的提示词技巧

风格类绘画风格的提示词展示 主题:首先需要确定绘画的主题,例如动物、自然景观、人物等。 描述:根据主题提供详细的描述,包括颜色、情感、场景等。 绘画细节:描述绘画中的细节,例如表情、纹理、光影等。 场…

设计模式(4)--对象行为(11)--访问者

1. 意图 表示一个作用于某对象结构中的各元素的操作。 使你可以在不改变各元素的类的前提下定义于作用于这些元素的新操作。 2. 五种角色 抽象访问者(Visitor)、具体访问者(Concrete Visitor)、抽象元素(Element)、 具体元素(Concrete Element)、对象结构(ObjectStructure) 3…

回顾2023在CSDN的足迹与2024展望

目录 一、关于博主 二、2023的历程 1、博客分类 2、年度创作数据 3、解锁勋章 4、主要的方向 二、技术感悟 1、技术深入 2、还是实践 三、展望2024 今天是2024年的第一天,告别2023年,让我们以全新的姿态,去迎接新的一年的挑战。2023年…

影视后期:Pr 调色处理之风格调色

写在前面 整理一些影视后期相关学习笔记博文为 Pr 调色处理中风格调色,涉及下面几个Demo 好莱坞电影电影感调色复古港风调色赛博朋克风格调色日系小清晰调色 理解不足小伙伴帮忙指正 简单地说就是害怕向前迈进或者是不想真正地努力。不愿意为了改变自我而牺牲目前所…

Xgboost分类模型的完整示例

往期精彩推荐 数据科学知识库机器学习算法应用场景与评价指标机器学习算法—分类机器学习算法—回归PySpark大数据处理详细教程 定义问题 UCI的蘑菇数据集的主要目的是为了分类任务,特别是区分蘑菇是可食用还是有毒。这个数据集包含了蘑菇的各种特征,如…

WorkQueue模型

WorkQueues,也被称为任务队列模型。当消息处理比较耗时的时候,可能生产消息的速度会远远大于消息的消费速度。长此以往,消息就会堆积越来越多,无法及时的处理。此时就可以使用work模型:让多个消费者绑定到一个队列&…

IDEA错误: 找不到或无法加载主类 com.atguigu.springcloud.EurekaServer7001_App

第一种方法&#xff1a; 可以手动点击maven中的compile编译一下&#xff0c;如下图&#xff1a; 第二种方法&#xff1a; 在pom.xml文件中加入编译插件&#xff1a; <build><plugins><!-- 编译插件 --><plugin><artifactId>maven-compiler-plu…

matlab概率论例子

高斯概率模型&#xff1a; [f,xi] ksdensity(x): returns a probability density estimate, f, for the sample in the vector x. The estimate is based on a normal kernel function, and is evaluated at 100 equally spaced points, xi, that cover the range of the da…

如何在Linux系统中安装Redis

原本Redis官网提供了Windows和Linux两个版本&#xff0c;但从 2011-12-29 以后不再更新Windows版本&#xff08;https://github.com/dmajkic/redis/downloads&#xff09;&#xff0c;加之企业生产环境通常使用Linux系统&#xff0c;所以这里在Linux系统中演示如何安装Redis。 …

typescript,eslint,prettier的引入

typescript 首先用npm安装typescript&#xff0c;cnpm i typescript 然后再tsc --init生成tsconfig.json配置文件&#xff0c;这个文件在package.json同级目录下 最后在tsconfig.json添加includes配置项&#xff0c;在该配置项中的目录下&#xff0c;所有的d.ts中的类型可以在…