【AI】人类视觉感知特性与深度学习模型（2/2）

二、人类视觉感知特性对深度学习模型的启发

2.1 视觉关注和掩盖与调节注意力模型的关系

1.视觉关注和掩盖

2. 注意力机制模型

2.2 对比敏感度与U形网络的联系

2.3 非局部约束与点积注意力的联系

续上节

【AI】人类视觉感知特性与深度学习模型（1/2）-CSDN博客

二、人类视觉感知特性对深度学习模型的启发

上次我们讨论了人类视觉感知的4个特性，这4个特性，对深度学习模型，都有重要的影响，主要体现在以下几个方面。

2.1 视觉关注和掩盖与调节注意力模型的关系

视觉关注（Visual Attention）和掩盖（Masking）与调节注意力模型（Attentional Modulation Models）在视觉认知和神经科学领域中紧密相关。这些概念共同探讨了人类和机器如何处理大量视觉信息，特别是在资源有限的情况下如何优先处理最重要的信息。

1.视觉关注和掩盖

视觉关注是指视觉系统在处理信息时选择性地集中于场景中的某些部分，而忽视其他部分的过程。这种选择性关注有助于高效地处理复杂的视觉场景，因为它允许有限的认知资源被优先分配给最相关或最显著的信息。

掩盖是一种视觉现象，其中一个刺激（掩盖刺激）的存在使得另一个同时或相近时间出现的刺激（目标刺激）变得难以被察觉或识别。掩盖效应可以在空间上（例如，两个刺激相邻时）或时间上（例如，两个刺激相继出现时）发生。掩盖可以影响视觉关注的分配，因为被掩盖的刺激可能不会被视觉系统优先处理。

调节注意力模型试图解释视觉关注是如何在场景中分布的，以及这种分布是如何根据任务需求、刺激特性和内部状态进行调节的。这些模型通常涉及计算场景中不同位置的显著性（Saliency），然后基于这些显著性值来分配注意力。

2. 注意力机制模型

调节注意力（Attentional Modulation）。调节注意力是一种机制，通过它，神经系统可以根据当前的目标或任务需求来调整其对不同刺激的敏感性。这种调节可以在多个层面上发生，包括感知、认知和运动层面。在感知层面，调节注意力可以影响刺激的视觉显著性和神经表征的强度。

点积注意力（Dot-Product Attention）。点积注意力是深度学习领域中的一种注意力机制，特别是在Transformer架构中得到了广泛应用。在这种机制中，输入的每个元素都会与一个查询（Query）进行点积运算，生成一个分数，这个分数反映了输入元素与查询的相关性。然后，这些分数会被归一化（通常使用Softmax函数），并用于加权输入元素，从而生成一个加权的上下文向量。这个过程可以被看作是一种软性的信息选择机制，其中每个输入元素都对输出有一定的贡献，但贡献的大小取决于其与查询的相关性。

视觉关注和掩盖都与注意力的分配和调节密切相关。当一个刺激被另一个刺激掩盖时，它可能不会被视觉系统优先关注，因为掩盖效应降低了其显著性。调节注意力模型试图解释这种注意力的分配过程，并预测在不同条件下哪些刺激会被优先关注。

点积注意力等注意力机制模型为理解和实现这种选择性关注提供了计算工具。在深度学习模型中，这些注意力机制可以被用来模拟人类的视觉关注过程，从而提高模型在处理复杂视觉任务时的性能。例如，在图像分类或目标检测任务中，模型可以学会将更多的注意力分配给图像中最相关或最显著的部分，从而更准确地识别和分类对象。

挤压激励(SE)模块使用全局平均池化和一个线性层来计算每个通道的比例因子，然后相应地强化有效通道而弱化无意义通道。因此，SLA有效地刻画了人类视觉的视觉关注和视觉掩盖两个感知特性，如下图。

2.2 对比敏感度与U形网络的联系

对比敏感度说明，人类视觉系统非常关注物体的边缘，往往通过边缘信息获取目标物体的具体形状、解读目标物体等。U型网络通过跳接结构，将能够表达边缘、纹理的细节信息传递到高阶特征中，从而帮助解码器更好地修复目标的细节。U型网络的这种特性，反映的是物体的边缘、形状、纹理等信息对于人类视觉信息理解的重要性，因此，U型网络在一定程度上刻画了人类视觉对比敏感度的特征。

对比敏感度，作为视觉感知的关键指标之一，描述了人眼或图像传感器在不同对比度下区分亮度变化的能力。在视觉科学中，对比敏感度通常与空间频率相关联，反映了视觉系统对快速变化的图像特征的响应能力。这种感知机制对于理解图像中的细节、边缘以及纹理至关重要。

近年来，深度学习领域的发展推动了各种新型网络结构的设计，其中U形网络（U-Net）在图像处理和分析任务中尤为突出。U形网络得名于其特殊的U形架构，这种架构包括一个收缩的路径来捕获上下文信息，以及一个对称的扩展路径来实现精确的定位。这种设计使得U形网络在处理分割、去噪、超分辨率等任务时表现出色。

对比敏感度与U形网络之间的联系，在于它们共同关注图像中的细节信息和特征差异。对比敏感度作为人类视觉系统的一个基本属性，启发了计算机视觉算法在处理图像时需要考虑不同对比度下的特征变化。而U形网络通过其独特的架构设计，有效地结合了上下文信息和定位精度，使得在像素级别的图像处理任务中能够更好地保留和利用这些细节信息。

在实际应用中，利用对比敏感度的概念可以指导U形网络的设计和优化。例如，在网络训练过程中引入对比度变化的数据增强技术，可以帮助网络学习在不同对比度条件下鲁棒的特征表示。此外，U形网络的性能评估也可以参考对比敏感度的指标，以量化其在处理不同对比度图像时的性能差异。

对比敏感度和U形网络在视觉信息处理方面有着紧密的联系。通过将人类视觉系统的感知特性与深度学习网络的设计原则相结合，可以进一步推动计算机视觉技术的发展和应用。

2.3 非局部约束与点积注意力的联系

大量人类视觉研究发现，人脑处理视觉信息时并不是仅局限于局部区域的信息。人眼对全局的、语义的、简单结构的形状整体更容易产生印象，而非局部细节信息。

DPA 通过点积计算形式，获得询问特征向量任意一个位置与键(key)特征向量中全部位置之间的相关性:从而捕获位置与位置之间(像素与像素之间)的长距离依赖关系，实现全局上下文信息的建模。同时，学习到的全局上下文信息通过softmax 得到空间上的注意力图，也可以起到对有效信息增强强和无效信息弱化的作用。

DPA的全局上下文建模在一定程度上体现了人眼视觉关注、视觉掩盖和非局部约束等多个特征。

点积注意力，作为注意力机制的一种，是通过计算输入序列中各个位置之间的点积相似度来确定注意力权重的方法。在点积注意力中，输入序列中的每个元素都会被赋予一个查询（Query）、键（Key）和值（Value），通过计算查询与键的点积相似度，再经过Softmax函数归一化得到权重，最后对值进行加权求和得到注意力输出。点积注意力可以看作是一种软性的信息选择机制，其中每个输入元素都对输出有一定的贡献，但贡献的大小取决于其与查询的相关性。

非局部约束和点积注意力之间的联系主要体现在它们都是用来捕捉全局信息或长距离依赖性的方法。非局部约束通过考虑图像或数据中更广泛区域的信息来提供全局上下文感知，而点积注意力则通过计算输入序列中各个位置之间的点积相似度来确定全局的注意力权重。在实际应用中，非局部约束和点积注意力可以相互结合，共同提高模型在复杂任务中的性能。例如，在视觉问答、图像生成或视频理解等任务中，可以利用非局部约束来捕捉全局上下文信息，同时利用点积注意力来关注与问题或任务最相关的部分。

需要注意的是，非局部约束和点积注意力虽然有一定的联系，但它们在具体实现和应用上可能存在差异。在实际使用时，需要根据具体任务和数据特点选择合适的方法或结合使用多种方法来提高模型的性能。