【AI】人类视觉感知特性与深度学习模型(1/2)

news2024/11/19 19:19:33

目录

一、关于人类视觉感知

1.1 视觉关注

1.自上而下(Top-down)的视觉关注

​编辑

2.自下而上(Bottom-up)的视觉关注

3.区别和记忆点

1.2 视觉掩盖

1.常见的视觉掩盖效应

2.恰可识别失真(Just Noticeable Difference, JND)

1.3 对比敏感度(Contrast Sensitivity)

1.4 非局部约束


一、关于人类视觉感知

视觉感知特性,即人类视觉系统感知图像信息的特性,是一个高度复杂的信息处理过程。理解人类对视觉信息的处理机制,有助于推动计算机视觉高性能算法研究。下面主要研究视觉关注、亮度及对比敏感度、视觉掩盖、视觉非局部约束这四个特性。

1.1 视觉关注

视觉关注机制(Visual Attention Mechanism)是一个非常重要的概念。视觉关注机制是人类视觉系统的一种特性,它能够帮助我们优先处理视野中最相关或最显著的信息。近年来,深度学习模型,特别是卷积神经网络(CNN),已经成功地模拟了这种机制,以提高在各种计算机视觉任务中的性能。

视觉关注机制,一般分为两种类型:

1.自上而下(Top-down)的视觉关注
  • 英文简称:Top-down Attention
  • 定义:自上而下的视觉关注是指基于观察者的内部状态、知识、期望或任务需求来引导的视觉注意力分配。这种注意力是有意识的、目标导向的,并依赖于大脑的高级认知功能。
  • 详细解释:当我们在寻找特定目标时,比如在一群人中寻找一个熟悉的面孔,我们的视觉系统会根据大脑中已有的信息(如该人的面部特征)来指导我们的眼睛移动,这就是自上而下的视觉关注。在这种情况下,注意力是被主动地、有意识地分配到最有可能包含目标信息的区域。
2.自下而上(Bottom-up)的视觉关注
  • 英文简称:Bottom-up Attention
  • 定义:自下而上的视觉关注是由外部刺激驱动的,它基于图像中的显著性特征(如颜色、亮度、对比度、运动等)来自动吸引观察者的注意力。这种注意力是无意识的、刺激驱动的,并且相对独立于观察者的内部状态或任务需求。
  • 详细解释:想象一下,当你在一个安静的图书馆中突然听到一声巨响,你的注意力会立即被吸引到那个声音来源的方向。这就是自下而上的视觉关注的一个例子,即使你的初衷是专注于阅读,但外部的刺激(巨响)无意识地捕获了你的注意力。在视觉中,显著性的视觉特征,如一个明亮的物体或一个快速移动的物体,可以自动吸引我们的注意力,而无需任何有意识的努力。
3.区别和记忆点

其实很好记忆,自下而上的视觉关注类型,是客观因素驱动的,和你的记忆和意识无关,是被动刺激带来的,这是一种无意识、自发的反应,例如“循声望去”;而自上而下的视觉关注类型,是主观命令指导的,受意识的支配,依赖于特定的指令,例如上面的找人。

这两种类型的视觉关注在人类的视觉处理中相辅相成,共同帮助我们高效地处理复杂的视觉环境。在深度学习中,模拟这两种类型的注意力机制已经成为提高模型性能的一个重要研究方向。例如,通过在神经网络中引入注意力模块,模型可以学会在处理图像或视频时优先关注最相关的信息,从而提高在目标检测、图像识别、视频分析等任务中的准确性。

1.2 视觉掩盖

视觉掩盖(Visual Masking)是一种视觉现象,其中一个视觉刺激(掩盖刺激)的存在使得另一个同时或相近时间出现的视觉刺激(目标刺激)变得难以被察觉或识别。这种掩盖效应可以发生在空间上(两个刺激相邻时)或时间上(两个刺激相继出现时)。

1.常见的视觉掩盖效应
  • 亮度掩盖:当一个高亮度的刺激与一个低亮度的刺激同时出现时,低亮度的刺激可能会被掩盖。
  • 模式掩盖:一个复杂的模式可能会掩盖其中的简单模式或特征。
  • 运动掩盖:运动物体的某些特征可能会因为其他运动物体的存在而被掩盖。
  • 颜色掩盖:在颜色对比强烈的区域,较弱的颜色可能会被较强的颜色所掩盖。
  • 空间频率掩盖:高频的空间信息可能会被低频的空间信息所掩盖。
2.恰可识别失真(Just Noticeable Difference, JND)

人眼无法察觉到一定阈值下的失真,这个阈值,就是JND。

恰可识别失真是指人类观察者能够察觉到的最小刺激变化量。这是心理物理学中的一个关键概念,用于量化人类感觉系统的敏感性和分辨力。在视觉领域中,JND 可以指的是亮度、颜色、大小、方向等属性上的最小可察觉变化。

JND 是基于韦伯定律(Weber's Law)的,该定律指出人类感知到的刺激变化量与原有刺激强度之间存在一定的比例关系。换句话说,人类对刺激的感知并不是绝对的,而是相对的。因此,当刺激发生微小变化时,如果这种变化小于 JND,那么人类观察者就无法区分变化前后的刺激。

例如:

  • 亮度 JND:考虑一个房间里的灯光。如果你逐渐调暗灯光,直到达到一个点,人们刚刚能够察觉到灯光变暗了,那么这个调暗的量就是亮度上的 JND。
  • 颜色 JND:想象你有一组非常相似的颜色样本。你逐个展示给观察者,并要求他们指出哪个样本与其他样本不同。观察者能够准确指出的最小颜色差异就是颜色上的 JND。
  • 大小 JND:在一条线上逐渐增加一个小点的大小,直到观察者能够明确地说出点的大小已经改变了,这个改变的大小就是大小上的 JND。

1.3 对比敏感度(Contrast Sensitivity)

人类的视觉系统具有鲁棒性,无法分辨一定程度以内的边缘模糊,这种分辨能力成为对比灵敏度。它实际是对比度阈值的倒数。

对比灵敏度=1/对比度阈值

对比敏感度是指人眼或图像传感器对图像中亮度差异(对比度)的敏感程度。在视觉科学中,对比敏感度通常用来描述观察者区分两个亮度级别之间细微差异的能力,尤其是当这些差异较小的时候。它是评价视觉功能的重要参数之一,与视觉锐度(视力)不同,但两者密切相关。

人类视觉系统对高对比度刺激的反应比对低对比度刺激的反应更强烈。例如,在完全黑暗的背景上看到一个明亮的点非常容易,但在相似的灰度背景下区分两个相近的灰度级别则可能更具挑战性。对比敏感度通常用一个函数来描述,该函数表示了在不同空间频率下,观察者能够检测到的最小对比度。

考虑一个简单的视觉测试,其中包含一系列具有不同对比度的条纹图案。每个图案的条纹宽度和间距可能不同,代表着不同的空间频率。观察者被要求指出他们能够清晰看到条纹的最低对比度水平。这个测试可以用来测量观察者的对比敏感度,并绘制出对比敏感度函数(Contrast Sensitivity Function, CSF),该函数揭示了在不同空间频率下对比敏感度的变化。

对比敏感度通常通过计算韦伯分数(Weber Fraction)来量化,该分数是引起感觉变化所需的最小刺激强度与基准刺激强度的比值。在视觉领域,这可以表示为:

Weber Fraction = ΔL / L

其中 ΔL 是能够引起感觉变化的最小亮度差异,L 是基准亮度水平。然而,在实际应用中,对比敏感度通常使用更复杂的公式和模型来描述,这些模型考虑了空间频率、观察条件(如光照水平)和个体差异等因素。

1.4 非局部约束

格式塔心理学强调了很多在视觉感知中的非局部性约束特征,如相似性、相近性、连续性和闭合性等。人的视觉感知往往会将符合这些特征的图像信息组织到一起,而通常情况下,这些特征也是区分对象是否属于同一目标的显著标志。

我自己常常认为,这就是看不准。但是为了类似图灵测试这样的人工智能要求,而需要让计算机生成的图像,更接近人的主观感受。AIGC可能给你画了一副非常符合你要求的画,但是你总是感觉不对劲,就是模型并不理解人类的心理,对视觉感受的影响。

越强大的模型,生成的图像,越接近用户的心理预期。

可以参考我这2个AIGC生成图片的探讨。

【AIGC】接着昨天的AI“洗图”骚操作,继续调戏国产大模型_aigc 洗稿-CSDN博客

【AIGC】今天想用AI“洗个图”,失败了,进来看我怎么做的-CSDN博客

在图像处理、计算机视觉和深度学习领域,非局部约束指的是在分析和处理图像或数据时,不仅仅考虑当前像素或位置的局部邻域信息,而是同时考虑图像中其他位置或数据集中其他样本的信息。这种约束有助于捕捉图像或数据中的长距离依赖性和全局结构,从而提高相关任务的性能。

非局部约束的重要性:

  • 全局上下文感知:传统的局部处理方法(如卷积操作)主要关注像素周围的小邻域。然而,许多视觉任务需要理解全局上下文,例如识别一个物体在不同尺度、位置和方向上的出现。非局部约束通过考虑图像中更广泛区域的信息来提供这种上下文感知。
  • 长距离依赖性建模:在许多场景中,图像中的像素或特征之间可能存在长距离依赖性。例如,在识别一个人的姿势时,手臂和腿的位置是相互关联的,即使它们在图像中是分开的。非局部约束有助于捕捉这些依赖性。
  • 提升性能:通过整合更全面的信息,非局部约束可以增强深度学习模型在复杂任务中的性能,如目标检测、语义分割和视频理解等。

(未完待续)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1358607.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

缓存数据库一致性问题

为什么使用缓存? 业务处于起步阶段,流量非常小,那无论是读请求还是写请求,直接操作数据库随着业务指数级增长,请求量剧增,直接访问数据库,导致性能急剧下降,需要引入缓存提高读性能…

win环境安装yarn脚手架

win环境安装yarn脚手架 1、安装命令 npm install -g yarn 2、查看安装的版本 yarn --version 报错了!!! 解决方案 搜索​​ PowerShell​​,右键以管理员身份运行; 输入:​​set-ExecutionPolicy Remo…

知虾shopee数据:为卖家提供了丰富的数据分析工具

使用Shopee的卖家都知道,这个平台为卖家提供了丰富的数据分析工具,帮助他们更好地理解店铺运营状况和市场趋势。这些数据分析工具不仅能够提供数据总览,还包括买家分析、商品排名、分类排名、销售辅导、流量分析、销售结构、行销活动、聊天响…

性能优化-OpenMP概述(一)-宏观全面理解OpenMP

本文旨在从宏观角度来介绍OpenMP的原理、编程模型、以及在各个领域的应用、使用、希望读者能够从本文整体上了解OpenMP。 🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:高性能(HPC)开发基础…

整除判断-判断正整数a能否被b整除,如果不能整除,输出商和余数 C语言xdoj42

问题描述 判断正整数a能否被b整除&#xff0c;如果不能整除&#xff0c;输出商和余数 输入说明 输入两个正整数a和b&#xff08;0<a, b<10000&#xff09;&#xff0c;a和b之间用空格分隔。 输出说明 如果a能被b整除&#xff0c;输出yes&#xff0c;否则在同…

山区老人爱的礼物丨守护银龄,情暖寒冬

为让山区老人们在寒冷的冬天感受到来自社会的温暖&#xff0c;新年伊始&#xff0c;北京传益千里携手志愿者再次走进酉阳土家族苗族自治县木叶乡分发新的一轮山区老人爱的礼物&#xff0c;让更多的物资走向有需要的人群。 中午阳光正好&#xff0c;志愿者们走进山林中的人家&am…

文件销毁 硬盘销毁 数据销毁 物料销毁 淼一护航数据安全最后一公里

文件销毁、硬盘销毁、数据销毁以及物料销毁&#xff0c;是现代商业和行政管理中必须面对的重要环节。随着信息化程度的加深&#xff0c;数据安全和隐私保护已经成为全社会共同关注的焦点&#xff0c;而数据销毁则是确保信息安全的重要手段。淼一护航数据安全最后一公里&#xf…

开源协议简介和选择

软件国产化已经提到日程上了&#xff0c;先来研究一下开源协议。 引言 在追求“自由”的开源软件领域的同时不能忽视程序员的权益。为了激发程序员的创造力&#xff0c;现今世界上有超过60种的开源许可协议被开源促进组织&#xff08;Open Source Initiative&#xff09;所认可…

SCA面面观 | 企业该如何选择组件检测工具?

一般来说&#xff0c;一个软件应用程序可以被分解成若干部分&#xff0c;为软件程序解耦&#xff0c;以减少整个应用程序的复杂性&#xff0c;这些部分就是软件组件。以一种标准化的方式相互作用&#xff0c;使得组件可以像机器的“零部件”一样被换入或换出&#xff0c;因组件…

wait 和 notify 这个为什么要在synchronized 代码块中?

一个工作七年的小伙伴&#xff0c;竟然不知道” wait”和“notify”为什么要在 Synchronized 代码块中 。 好吧&#xff0c;如果屏幕前的你也不知道&#xff0c;请在公屏上刷”不知道“。 对于这个问题&#xff0c;我们来看看普通人和高手的回答。 一、问题解析 1. wait 和 n…

理解 Node.js 中的事件循环

你已经使用 Node.js 一段时间了&#xff0c;构建了一些应用程序&#xff0c;尝试了不同的模块&#xff0c;甚至对异步编程感到很舒适。但是有些事情一直在困扰着你——事件循环&#xff08;Event Loop&#xff09;。 如果你像我一样&#xff0c;花费了无数个小时阅读文档和观看…

将音频与视频格式互转的7 个顶级工具方法

你是否遇到过需要将视频文件从一种格式转换为另一种格式的情况&#xff1f; 在编辑家庭电影或者专业电影工作室工作&#xff0c;我们经常需要将视频文件转换成不同的格式。市场上有很多自称能够高效转换的工具&#xff0c;但是我们要时刻警惕诈骗工具&#xff0c;它们可能会耗…

【mac-m1 docker 安装upload-labs靶场】

1.搜索upload-labs docker search upload-labs 2.下载upload-labs docker pull c0ny1/upload-labs 3.启动 docker run -it -d --name uploadlabs -p 80:80 c0ny1/upload-labs --platform linux/amd64 4.访问127.0.0.1:80 注意点&#xff1a;后续使用的时候会报错 需要手动创…

BAT036:TXT与DOC格式互转、DOC与DOCX格式互转

引言:编写批处理程序,可实现txt与doc文档格式互转、doc与docx文档格式互转。 一、新建Windows批处理文件 参考博客: BAT002:在右键菜单新建中添加【Windows批处理文件】_为右键菜单添加bat-CSDN博客 二、TXT与DOC格式互转 1.右键新建的批处理文件,点击【编辑】。 ​ …

虚幻UE 增强输入-触发器

上一篇增强输入基础&#xff1a;虚幻UE 增强输入-第三人称模板增强输入分析与扩展 主要对第三人称模板的增强输入进行分析、复刻和扩展 本篇将会对增强输入中的触发器中的各参数进行讲解 文章目录 前言触发器参数1、下移TriggerDown2、已按下TriggerPressed3、已松开TriggerRel…

新手深入浅出理解PyTorch归一化层全解析

目录 torch.nn子模块normal层详解 nn.BatchNorm1d BatchNorm1d 函数简介 函数工作原理 参数详解 使用技巧与注意事项 示例代码 nn.BatchNorm2d BatchNorm2d 函数简介 函数工作原理 参数详解 使用技巧与注意事项 示例代码 nn.BatchNorm3d BatchNorm3d 函数简介 参…

为什么在国内考CISP比CISSP好?

在国内考CISP比CISSP好的原因主要有以下几点&#x1f447; 1️⃣国内认证认可度高 &#x1f48e;CISP是国内信息an全领域的重要认证&#xff0c;得到了国内政fu、企业和行业的高度认可。 2️⃣国内考试难度相对较低 由于CISP的考试内容与国内信息an全领域的实际情况更加贴近&am…

MySQL 8.0.32 双写参数和innodb_redo

版本为mysql 8.0.32 数据库内存和磁盘架构 #ib_16384_0.dblwr #ib_16384_0.dblwr和#ib_16384_2.dblwr 这两个文件有什么区别 从架构图中&#xff0c;不难看出这两个文件是双写buffer文件。 双写缓冲区是一个存储区域&#xff0c;在 InnoDB将页面写入 InnoDB数据文件中的正确…

C#上位机与欧姆龙PLC的通信10----开发专用的通讯工具软件(WPF版)

1、介绍 上节开发了一个winform版的通讯测试工具&#xff0c;这节再搞个wpf版的&#xff0c;wpf是什么&#xff1f;请自行百度&#xff0c;也可以看前面的博客&#xff0c;WPF真入门教程&#xff0c;wpf的界面效果是比winform漂亮&#xff0c;因为wpf使用了web项目中的css样式…

使用qtcreator创建qml项目(图解)

接下来就一直点继续&#xff0c;最后完成项目&#xff0c;如下图。 下面对项目进行一些基本的描述 &#xff08;1&#xff09;qt项目文件使用pro后缀&#xff0c;是qt项目的配置文件&#xff0c;它用于指定项目的各种参数&#xff0c;包括源文件、头文件、库依赖、编译选项等&a…