”is the taking possession by the mind, in clear and vivid form, of one out of what seem several simultaneously possible objects or trains of thought. It implies withdrawal from some things in order to deal effectively with others“,William James (1890)
William James定义“注意力是指头脑以清晰而生动的形式,从似乎同时存在的几个可能的对象或思路中选择一个。它意味着为了有效地处理其他事情而放弃一些事情 ”
Chapter 1 Why Do Computers Need Attention?
1.1 Why Care About Attention and Attention Modelling?
1.1.1 First Step in Perception of Living Beings
Attention is the first step of perception: it analyses the outer real world and turns it into an inner conscious representation. Even during dreams and REM sleep (Rapid Eye Movements), eye movement activity suggests that attentional mechanism is at work
注意是感知的第一步:它分析外部真实世界,并将其转化为内在的意识表征。即使在做梦和快速眼动(REM)睡眠期间,眼动活动也表明注意力机制在起作用
1.1.2 From Foetus to Death, Awake and During Dreams
This shows the importance of attention: it cannot be dissociated from perception
and consciousness. Even when a person is sleeping without dreaming and the eyes
are not moving, a person can be awakened by important stimuli. Attention is never
turned off; it can only be reduced to a standby mode (excepting drug-induced states
when consciousness is altered or eliminated as in coma). It is thus safe to say that if
there is conscious life in a body, there is attention.
注意可能在胚胎发育期间与感觉系统同时出现。注意力的发展可能与胎儿发育的第六个月左右开始的第一个快速眼动梦有关。这种机制是最早建立的认知过程之一,而吸烟、吸毒、酗酒甚至怀孕期间的压力等因素都可能导致后来的注意力障碍,甚至更有可能发展为精神病理。在自闭症或精神分裂症等认知障碍中,注意力过程受到了高度影响,研究表明,患者和对照组之间的眼球追踪痕迹可能非常不同。注意过程早在产前就建立起来了,在婴儿做梦的时候就已经开始运作了。直到死亡,它发生在一天中的每一个时刻,当人们醒着的时候,也发生在梦中。
这显示了注意力的重要性:它不能与知觉和意识分离。即使一个人在睡觉时没有做梦,眼睛也不动,一个人也会被重要的刺激唤醒。注意力永远不会被关闭;它只能减少到待机模式(除了药物引起的意识被改变或消除的状态,如昏迷)。因此,我们可以肯定地说,如果身体里有有意识的生命,就会有注意力。
1.1.3 Attention Is the Gate to Consciousness
Everybody knows what attention is”. Attention is so natural and self-evident, so linked to life and partly unconscious, so obvious that : : : nobody really noticed it until recently
作为外部世界和内部经验之间的意识意识的门户,注意力可以是有意识的(注意)和无意识的(前注意),它是生存的关键。注意力也是计算能力有限的标志。视觉、听觉、触觉、嗅觉或味觉,都为大脑提供了大量的信息。每秒钟都有千兆字节的粗略感官数据流入大脑,使大脑的连贯思考和反应能力超负荷。注意力为大脑提供了选择相关信息和优先处理任务的能力。虽然有很多关于注意力的定义和观点,但无论学科、方法或直觉如何,证明注意力的一个核心思想是“信息简化”。
直到19世纪,随着现代实验心理学的出现,注意力才开始被科学地研究。在笛卡儿和马勒布兰奇的著作中可以找到一些与注意力有关的思想和概念,但直到心理学家开发出量化感知和运动表现的工具之后,才有了严谨而深入的科学研究。
自古以来的哲学家们怎么会在这么长时间里忽视了注意力这样一个关键的概念呢?心理学之父威廉·詹姆斯(William James)在他对注意力的著名定义中给出了部分答案:“每个人都知道注意力是什么”。注意力是如此自然和不言而喻,它与生活紧密相连,部分是无意识的,如此明显,以至于直到最近才有人真正注意到它。
1.1.4 Attention in Computers Might Be a First Step
• It will be faster and more efficient in terms of memory storage due to its ability to process only part of the input data.
• It will be able to find regularities and irregularities in the input signal and thus be able to detect and react to unexpected or abnormal events.
• It will be able to optimize data prediction by describing novel patterns, and depending on the information reduction result (how efficient the information reduction was), it will be capable of being curious, bored or annoyed. This curiosity which constantly pushes to the discovery of more and more complex patterns to better reduce information is a first step towards creativity.
然而,渐渐地,一个新的横向研究领域围绕着“注意力”的概念聚集在一起,首先是心理学家,然后是神经科学家,自20世纪90年代末以来,工程师和计算机科学家也聚集在一起。虽然涵盖整个关于注意力的研究需要一系列的书籍,但这里的主题缩小到关注建模,这是走向更广泛的人工智能的关键一步。
事实上,这个关键的注意力过程目前很少在计算机中使用。和大脑一样,计算机是一个处理单元。与大脑一样,它的计算能力和记忆能力有限.与人脑一样,计算机也需要分析大量的数据。但与大脑不同的是,它们不会集中注意力。经典计算机在量化整个输入数据时会更加精确,而细心的计算机会自动关注最“有趣”的数据,这有几个优势:
•由于它只处理部分输入数据的能力,它将在内存存储方面更快,更有效。
•它将能够发现输入信号中的规律和不规则性,从而能够检测并应对意外或异常事件。
•它将能够通过描述新的模式来优化数据预测,并根据信息减少的结果(信息减少的效率),它将能够感到好奇,无聊或烦恼。这种好奇心不断推动人们发现越来越复杂的模式,以更好地减少信息,这是迈向创造力的第一步。
1.1.5 To Real Artificial Intelligence
对人类来说,注意力是通往觉知和意识的大门;在计算机中,注意力可以导致超越经典预编程机器的新涌现的计算范式。为了自主执行任务,机器必须能够选择和优先处理信息。虽然自编程计算机的道路仍然很长,但计算注意力正以指数级增长的速度发展,让越来越多的应用程序从中受益。
1.2 Who Should Read This Book and Why?
If you already work in the field as an engineer, you will find a quick introduction
to psychological and biological approaches to attention, and you will be able to go
deeper in the concepts linked to attention modelling and the brain.
If you already work in the field as a neuroscientist, you will find engineering
approaches to exponentially improve attention models and implement them into
real-life applications. Some of the concepts used by engineers are clearly inspired
from biological facts, but other much less. The latter models are also interesting
because if they achieve good results in predicting human gaze, maybe part of the
concepts they use might be found as relevant in the brain.
If you work in industry and focus on perception, images or sound, you might
find here your next innovation. From video surveillance to ads optimisation passing
by compression, robotics and computer graphics, many domains can benefit from
attention models.
本书的第一点是,在一个学科之间几乎没有交流的世界里,我们有一种多学科的注意力建模方法。对于工程学和认知心理学/神经科学来说尤其如此.从那时起,新的模型出现了,其中一些与科赫和乌尔曼的生物学考虑相去甚远。尽管存在这种多样性,工程师和计算机科学家还是喜欢“认知”或“受生物学启发”的标签,即使他们并不真正知道“认知模型”应该是什么。尽管如此,很少有工程师花时间阅读和理解神经科学中关于注意力建模的论文。
另一方面,神经科学家也意识到在工程领域存在注意力模型,但往往不跟随该领域的快速发展。本书的主要目标之一是向每个社区展示一些关于其他社区所做的事情和他们所取得的成就的见解,因为我们认为对相同问题有不同的看法有助于提高两个社区的知识和进步。
这本书的第二点是,章节的复杂性是混合的,所以他们可以是有趣的学生和专家。遵循同样的想法,理论和实践方法之间也有一个平衡,导致对注意力的更深入理解和快速测试和改进现有模型的能力。这本书的目的是让各种各样的人都能读懂。学生可以很容易地阅读一些章节,并可以逐步深入的主题与其他人。专家可以直接关注更复杂的章节,但他们也可以从其他人的实际评论中受益。
本书的第三点是详尽的应用程序回顾和未来的研究途径,可以帮助读者有效地定位他的研究或应用程序开发。专注于人类感知相关应用的行业人士或研究人员可以通过整合注意力相关算法来改进他们的应用。有时我们意识到一些应用程序可以通过使用注意力或显著性模型来改进,但是文献非常少,因为在这个社区工作的人还没有意识到注意力模型可以给他们带来什么。
如果你是一名工程专业的学生,同时也是一名神经科学专业的学生,甚至是对研究注意力建模领域感兴趣的心理学学生,这本书是你快速有效地开始所需要的一切。您可以快速获得注意力建模的最新技术,但也可以看到实用和详尽的评论。
如果你已经在这个领域工作,作为一名工程师,你会发现一个关于注意力的心理学和生物学方法的快速介绍,你将能够更深入地了解与注意力建模和大脑相关的概念。
如果你已经在这个领域工作,作为一个神经科学家,你会发现工程方法可以成倍地提高注意力模型,并将其应用到现实生活中。工程师们使用的一些概念显然是受到生物学事实的启发,但其他的则少得多。后一种模型也很有趣,因为如果它们在预测人类凝视方面取得了很好的结果,也许它们使用的部分概念可能在大脑中被发现是相关的。
如果你在工业界工作,专注于感知、图像或声音,你可能会在这里找到你的下一个创新。从视频监控到通过压缩、机器人技术和计算机图形学进行的广告优化,许多领域都可以从注意力模型中受益。
1.3 Book Structure
在这本书中,综合了什么是注意力,如何测量和建模,并概述了当前和新兴的应用。结构由三部分组成:
第一部分侧重于基础知识,是对注意力建模的全面介绍。这些章节试图回答人们在建模注意力之前可能会遇到的基本问题:为什么在计算机中建模注意力,什么是注意力,或者更准确地说,什么是注意力,如何测量注意力以及它在大脑中的位置。
第二部分是关注模型本身。它从信号检测和神经生理学的实践指南开始,从单个神经元的研究到视觉表现。然后介绍了工程和计算机科学中的注意力建模。在两章介绍了在计算机科学中最常见的静态图像的自下而上的注意力模型之后,另一章介绍了视频序列的注意力建模。四个章节的设置遵循描述任何需要知道模型验证在计算机科学中,以评估模型可以预测人眼注视注意:作为地面真值的数据集,用于计算相似性的度量地面真理和卓越模型输出,几个参数的影响验证结果和验证本身的一系列最先进的模型静态图像和视频。
第三部分讨论了计算机科学中注意力建模的当前发展,其中包括3D显著性,多模态显著性以及显著性与原型对象之间的联系。最后,本部分对注意力建模的应用进行了详尽的回顾,随后在更深入的章节中介绍了一些在物体识别、视频质量和机器人技术方面的可能应用。
最后,在结论部分对该领域新的研究方向和可预见的发展趋势进行了讨论。
1.4 Summary
注意是最重要的:知觉的第一步,它是通往意识的大门。它从出生前一直活跃到死亡,在睡眠和醒着的时候都活跃。
•注意力是如此重要,也许是显而易见的,以至于直到最近才被认为是一个合理的研究对象。
•对注意力的研究已经从哲学和心理学扩展到神经科学和计算机科学。
•在追求人工智能的过程中,关注型计算机可以从关注机制的实现中受益匪浅。这本书的重点是注意力的计算方面。
•这里提出的多学科方法针对的是学生和研究人员(来自工程和神经科学社区)以及从事感知、视频或声音应用的行业开发人员。后者可能会在这里找到他们的下一个创新。
Chapter 2 What Is Attention?
2.1 The Study of Attention: A Transversal Approach
人类的注意力是一种不言而喻的心理现象,在意识的每一个时刻都很活跃。它首先在哲学中被研究,随后是实验心理学、认知心理学、认知神经科学,最后是人类和机器建模的计算机科学。这些研究是按顺序出现的,但他们在其他研究的基础上增加了一层,作为“注意力洋葱”的层(图2.1)。
由于注意力的应用非常多样化,很难找到一个精确而通用的定义。此外,关于注意力的观点随着时间和研究领域的变化而变化。本章分为两部分。在第一部分中,我们简要回顾了从哲学到认知心理学的相关研究的悠久历史,并补充了认知神经科学和计算机科学。本章的第二部分涵盖了注意力的不同方面,试图得出一个有效的定义.
2.2 A Short History of Attention
直到现代人们才开始关注这些著作。从古代到启蒙运动,为什么大多数哲学家都错过了这样一个关键概念?部分原因可能是注意力是生活中不言而喻的一部分,直到最近才有人注意到它。
2.2.1 Conceptual Findings: Attention in Philosophy
像亚里士多德这样的希腊哲学家简要地研究了选择性注意与精神或心灵的关系,这是注意和意识之间的早期联系。在四世纪,圣奥古斯丁谈到了认知兴趣的对象,它可以自动吸引一个人的注意力,从而推断出非自愿注意力的存在。17世纪的笛卡尔进一步阐述了自愿和非自愿注意之间的区别。他称前者为“关注”,后者为“钦佩”。他将赞美的概念与“惊奇”的概念联系在一起,这与一些现代计算注意力模型所使用的“惊奇”概念很接近。
尼古拉斯·马勒布兰奇(Nicolas Malebranche)对人类注意力进行了早期的重要研究,他是一位法国Oratorian牧师,也是哲学家和笛卡尔的追随者。在他1675年出版的《关于真理的探索》一书中,马勒布兰奇关注了注意力在场景理解和思想组织中提供结构的作用。他还认为注意力是自由意志的基础,他写道:“思想偶尔出现的原因是注意力:::而且很容易认识到,这是我们自由的原则”。因此,从一开始,注意力就被看作是与意志和意识相联系的。
在18世纪,G. W。莱布尼茨引入了“统觉”的概念,指的是将新的和过去的经验同化为当前的世界观。莱布尼茨的直觉是一种无意识的注意力形式(今天被称为“自下而上”或“刺激驱动”),这是感知事件成为意识所必需的。在这里,注意力被看作是通往意识的一扇反射性的、不自觉的大门。’
在19世纪,W。苏格兰形而上学家汉密尔顿挑战了先前关于注意力的观点,这种观点认为人类一次只能专注于单一的刺激。汉密尔顿注意到,当人们扔弹珠时,大约有七个弹珠的位置可以被记住。这一发现为“注意力分散”的概念开辟了道路。大约一个世纪后,G.A.米勒在1956年发表了著名的论文《神奇的数字7,正负2》。
2.2.2 Attention in Experimental Psychology
在第一次哲学研究之后,随着19世纪实验心理学的出现,注意力进入了一个科学阶段。
W. Wundt通过研究训练有素的天文学家通过望远镜判断天体凌日能力的个体差异,将意识和注意力的研究引入了心理学领域。他将这种观察错误解释为一个人自愿将注意力从一个刺激转移到另一个刺激所需的时间,并开始了一系列关于心理处理速度的研究。这是由F. Donders[6]提出的新的测量方法实现的。在这里,注意力与反射有关,而不仅仅是反射。
19世纪下半叶,h·冯·亥姆霍兹(H. Von Helmholtz)在他的《生理光学专著》(Treatise on Physiological Optics)中指出,尽管我们有以相同空间分辨率看到整个视觉环境的错觉,但人类需要在整个视野中移动他们的眼睛,“因为这是我们能够尽可能清楚地依次看到视野中所有单独部分的唯一方法。”虽然他的实验工作主要涉及眼球运动扫描路径(显性注意)的分析,但他也注意到隐性注意的存在,即在不移动眼睛的情况下专注于场景的不同部分的能力。Von Helmholtz将注意力的作用作为感兴趣的对象在哪里的答案。再加上反射注意和分散注意的概念,并行处理和串行处理的概念就产生了。
1890年,W. James出版了他的教科书《心理学原理》,再次指出注意力与意识和结构密切相关。根据詹姆斯的说法,注意力使人们感知、构思、区分、记忆,并缩短反应时间。他确实将注意力与数据压缩和内存的概念联系起来。他还提出了一种区分“被动”和“自愿”注意的注意力分类法。与V on Helmholtz相反,James更关注的是注意力应该回答“什么”是感兴趣的对象的问题。
2.2.3 Attention in Cognitive Psychology
从20世纪初到1949年,心理学的主流研究方法是行为主义,它几乎完全关注行为的外部原因。在这一时期,对心灵的研究几乎被认为是不科学的,在注意力领域也没有取得什么重要的进展。尽管对注意力的研究存在这个“漏洞”,但在所谓的干扰效应方面做了重要的工作。
其中一个最著名的例子,“Stroop效应”,是由J. R. Stroop报道的,他表明,当一个单一的刺激提供两个相互冲突的反应时,反应时间会大大延长,例如,阅读一个红色印刷的单词,如“GREEN”而不是报告印刷单词的墨水颜色。引起注意是解决反应冲突的一种手段。
第二次世界大战后,一个技术含量大大提高的世界出现了。信息论、统计决策理论,也许最重要的是,数字计算的进步带来了信息时代。从战场到工厂车间,人类在复杂环境中的表现成为人们关注的焦点。对注意力的研究又大获成功。行为主义观点认为,生物体的行为是由刺激-反应-结果关联控制的,而认知心理学则表明,行为可以通过注意力来调节。关注的复兴始于1953年C. Cherry对“鸡尾酒会”范式的研究。这种方法模拟了人们如何选择他们正在听的对话,而忽略其他对话。这个问题被称为“集中注意力”,而不是“分散注意力”。
在20世纪50年代末,D. Broadbent提出了一个“瓶颈”模型,其中他描述了注意力的选择性特性。他的想法是,注意力就像一个过滤器(选择器),根据基本特征(如图像的颜色或方向)筛选相关信息。如果输入的信息与过滤器匹配,则可以达到感知(有意识状态);否则将被丢弃。在那个时候,对注意力的研究似乎变得非常连贯,被称为“早期选择”。然而,在这短暂的积极时期之后,布罗德本特总结的大多数发现被证明是相互矛盾的。
第一个“攻击”来自Deutsch和Deutsch的替代模型,他们利用鸡尾酒会范式的一些特性引入了一个“晚期选择”模型,其中注意选择基本上是一个记忆加工和反应选择的问题。这个想法是,所有的信息都是获得的,但只有那些与语义或记忆相关的对象被选择来达到意识。这与Broadbent的观点相反,Broadbent声称在进一步处理之前对特征进行早期选择。
引入了新的模型,如a . Treisman的衰减滤波器模型,该模型是Broadbent瓶颈的软版本,它允许响应高于给定阈值的刺激通过滤波器,从而确定选择性注意的焦点。
后来,在1980年,Treisman和Gelade[14]提出了一个新的“特征整合”理论,其中注意发生在两个不同的步骤。首先,一个预先注意的并行轻松步骤分析对象并从这些对象中提取特征。在第二步中,这些特征被结合起来,以获得集中注意力的层次结构,从而将信息推向意识。
尽管具有重要意义,但特征积分理论也存在很大争议。其他理论如M. Posner [15] spotlight支持空间选择方法,D. Kahneman[16]和他的能力理论支持心理努力的观点。
在20世纪80年代后期,大量关于注意力的理论蓬勃发展,但没有一个理论能够解释之前的所有发现。H. Pashler[17]认为,经过几十年的认知心理学研究,更多的问题是提出的比给出的多。作为对詹姆斯一个世纪前提出的著名的“每个人都知道注意力是什么”的挑衅性反驳,帕什勒宣称“没有人知道注意力是什么”。
2.2.4 The Need for New Approaches: After the Late 1980s “Crisis”
注意处理认知资源的分配,优先考虑传入的信息,以使它们进入意识状态,更新场景模型和记忆,并影响行为。在意识、记忆和行为之间,注意力比最初预期的要复杂得多,有些人甚至质疑注意力是一个单一的概念,还是有几种不同形式的注意力。问题的数量和注意力本质的复杂性导致了一个有趣的举动,即把注意力研究从一个单一的群体分成两个不同的群体。
认知神经科学界的目标是利用简单的刺激进一步深入研究注意力的理论和生物学本质。先进工具的出现,如功能成像、脑电图、脑磁图或清醒行为受试者的单细胞记录,使他们在将神经记录与注意力的行为相关联系起来方面迈出了巨大的一步。
在注意力领域工作的计算机科学社区的部分目标是使概念与真实数据(如图像、视频、音频或3D模型)一起工作。从20世纪90年代末和第一个视觉注意力计算模型开始,认知神经科学和计算机科学方法并行发展,一个试图对生物大脑有更多的了解,另一个试图得到可以预测现实生活刺激和环境下的眼球运动和其他行为的结果。即使计算注意力社区导致了一些与已知大脑中发生的事情非常不同的模型,工程师们的创造力也令人印象深刻,对现实数据的结果开始变得重要,应用也层出不穷。
2.2.5 Attention in Cognitive Neuroscience
认知神经科学带来了一整套新的工具和方法。如果其中一些已经被用于认知心理学(如脑电图、眼球追踪设备),其他的则是提供大脑行为新见解的新工具:
•心理生理学方法:头皮记录EEG(脑电图:测量神经元的大规模电活动)和MEG(脑磁图:测量大脑中电流产生的磁场),它们在不同感兴趣的大脑区域的敏感性方面是互补的。
•神经成像方法:功能性核磁共振成像和PET扫描图像,它们都测量受试者执行任务时大脑中有强烈活动的区域(视觉,听觉等)。磁共振波谱可以提供特定神经递质的信息。
•电生理方法:单细胞记录,测量电生理反应的单个神经元使用微电极系统。虽然这个系统更加精确,但也更具侵入性。
•其他方法:TMS和TDCS(经颅磁刺激和经颅直流电刺激,可用于刺激大脑的一个区域,并测量人类特定大脑回路的活动)和多电极技术,允许同时研究许多神经元的活动,显示不同的神经元群体如何相互作用和协作。
利用这些技术,已经建立了两个主要的理论家族。
第一个也是最著名的模型是Desimone和Duncan[18]的偏见竞争模型。其中心思想是,在任何给定的时刻,环境中的信息都超过了可以处理的信息。相关信息总是与不相关信息竞争,从而影响行为。注意偏向这种竞争,增加行为相关信息的影响,减少不相关信息的影响。
Desimone明确提出了一种生理上合理的神经基础,它介导了视觉系统的这种竞争。神经元的接受野是通向外部世界的窗口。神经元只对这个窗口的刺激有反应,对其他区域的刺激不敏感。作者假设刺激之间的竞争发生在多个刺激共享同一感受野的情况下。
这种方法非常有趣,因为每个神经元本身都可以被视为一个过滤器,神经元的接受野可以从小而精确(如初级视觉皮层V1)到大到足以聚焦整个物体(如颞叶和顶叶的高级视觉区域)。这一基本理念以一种非常自然和优雅的方式提出了不同的注意力领域(基于位置、基于特征、基于对象、注意力瓶颈)。
此外,基于工作记忆中的注意模板的概念实现了与记忆的联系,工作记忆中的注意模板增强了依赖于先前获得的数据的神经元反应。这一思想体现在1995年Tsotsos的选择性调音模型中[19]。
第二类模型是由Laberge在20世纪90年代末开发的[20]。这是一个基于神经心理学发现和神经影像学研究数据的结构模型。Laberge推测至少有三个脑区同时参与注意力的控制:额叶区,特别是前额叶皮层和丘脑核,特别是枕核和后脑区,后顶叶皮层和顶叶间沟。Laberge提出,这些区域对于注意力是必要的,所有这些区域可能一起产生注意力控制。虽然认知神经科学为认知心理学带来了许多新的方法和信息,但人们对注意力的认识还远远不够,该领域正在进行大量的工作。
2.2.6 Attention in Computer Science
虽然认知神经科学专注于研究注意力的生物学本质,但随着计算能力的提高,20世纪80年代出现了一个不同的角度。在Treisman和Gelade[14]的特征整合理论的基础上,C. Koch和S. Ullman[21]提出,将有助于注意选择刺激的不同视觉特征(颜色、方向、运动等)组合成一个单一的地形图,称为“显著性图”。显著性映射将来自各个特征映射的归一化信息集成到一个全局度量中。自下而上的显著性是由刺激与其周围环境在几个尺度上的不同程度决定的。显著性图提供了视野中每个区域被关注的概率。这种显著性图的概念与Treisman和Gelade在特征整合理论中提出的“主图”的概念非常接近。
Koch和Ullman架构的第一个计算实现是由Laurent Itti在他的开创性工作中实现的[22]。这是注意力系统的第一个计算实现,它将任何图像作为输入,并将该图像的显著性图作为输出,同时采用赢家通吃的机制,模拟场景分析过程中的眼睛注视。从那时起,数百种模型首先用于图像,然后用于视频,最近还有一些用于音频甚至3D数据。
从最初的受生物学启发的模型开始,许多基于数学、统计学或信息论的模型进入了“显著性市场”,对人类注意力做出了越来越好的预测。
这些模型都是基于从信号中提取的特征(大多数时候是低级特征,但并非总是如此),比如亮度、颜色、方向、纹理、运动、物体的相对位置,甚至只是信号中的邻域或斑块。一旦提取了这些特征,所有现有的方法基本上都基于相同的原则:寻找“对比的、罕见的、令人惊讶的、新颖的、值得学习的、不可压缩的或信息最大化的”区域。所有这些术语实际上都是同义词,它们都相当于在给定的上下文中搜索一些不寻常的特征。这个上下文可以是局部的(通常是中心环绕的空间或时间对比)和全局的(整个图像或很长的时间历史),或者它可以是一个常态性模型(图像平均值,图像频率内容)。最近,学习越来越多地涉及计算显著性:首先,它主要是在给定精确任务的情况下调整模型系数;现在,像深度神经网络这样的复杂分类器开始被用于从信号中提取特征,并根据眼睛跟踪或鼠标跟踪数据获得的真实情况训练最显著的特征。
2.3 So What Is Attention?
注意力的跨学科性质自然导致了许多不同的定义。注意处理认知资源的分配,优先考虑传入的信息,以使它们进入意识状态,更新场景模型,更新记忆,并影响行为。但几个注意机制被强调,尤其是从樱桃的鸡尾酒会现象。
在分散注意和选择性注意之间出现了二分法。从那里开始,临床观察导致注意力分为五种不同“类型”的模型出现。人们还可以讨论不同类型的注意力,是否依赖于凝视,或者只使用图像特征与记忆和情感:虽然它的目的似乎是外部世界与内部意识、记忆和情感之间的关系,但注意力的临床表现往往表明可能存在几种注意力
2.3.1 Overt V ersus Covert: The Eye
公开注意和隐蔽注意的区别在注意心理学研究的一开始就被注意到了。显性注意表现为姿势的变化,使感觉受体为预期输入做好准备。眼球运动、头部运动、外耳(耳廓)运动、瞳孔大小的变化等等都是显性注意力的例子。隐蔽注意不会引起眼球运动或其他姿势的变化:它是捕捉(从而能够意识到)一个场景中没有被眼睛注视的区域的能力。
眼睛主要实现三种类型的运动,这是由于视网膜上接受细胞(视锥细胞和视杆细胞)的不均匀分布.提供高分辨率和颜色的视锥细胞主要集中在视网膜中部一个叫做“中央凹”的区域。这意味着,为了获得图像的良好空间分辨率,眼睛必须盯着这个精确的区域,使其与中央凹对齐。这种限制主要导致了三种类型的眼球运动:
1. 注视:凝视在大约相同的空间区域停留最小的时间。目光永不静止。即使凝视一个特定的位置,也可以检测到微扫视。微扫视是眼睛在注视某个区域时的微小运动。
2. 扫视:眼睛在两个注视点之间有一个弹道运动。他们从一种固定状态脱离然后很快地转移到另一种固定状态。在两次注视之间,没有获得视觉数据。
3. 平滑的追求:平滑的追求就像盯着一个移动的物体。眼睛会跟随一个移动的物体,将其保持在中央凹(视网膜的中心部分)。在平稳跟踪期间,可以进行更快速的小修正来纠正位置误差。
对显性注意力的建模试图预测人类注视的位置和眼睛的动态路径(称为眼睛“扫描路径”)。
2.3.2 Serial V ersus Parallel: The Cognitive Load
集中的、持续的和选择性的注意处理一系列的信息,交替的和分散的注意处理多个任务的并行处理。这些区别表明,注意力既可以串行处理信息,也可以并行处理信息。虽然在分散注意力期间并行处理的任务数量有限(大约五个任务),但在预先注意处理的情况下,可以进行大规模并行计算。一些概念,如“主旨”[23]似乎非常快,能够处理整个视野,对环境的背景有一个初步的、非常粗略的认识。这五种注意力遵循一个基于注意力程度的层次结构,从而实现注意力任务所需的认知负荷。这种方法有时被称为临床注意力模型:
1. 集中注意力:对特定的刺激做出反应(专注于一项精确的任务)。
2. 持续注意力:在长时间的连续活动中保持一致的反应(长时间保持注意力并关注同一个主题)。
3. 选择性注意:选择性地将认知资源维持在特定的刺激上(只关注给定的物体,忽略干扰物)。
4. 交替注意力:在多个任务之间切换(停止阅读去看一些东西)。
5. 注意力分散:同时处理多项任务(开车时说话)。
2.3.3 Bottom Up V ersus T op Down: Memory and Actions
注意的另一个基本属性需要考虑:注意是两种成分的混合,即自下而上(或外生)和自上而下(或内生)成分。自下而上的组件是基于反射的,并由采集的信号驱动。注意力被特定环境中某些特征的新颖性所吸引(空间局部,对比区域;空间全局,一个红点,而所有其他的是蓝色的;时间,一个缓慢的运动,而之前的运动是快速的)。它的主要目的是在意外或罕见的情况下发出警报,它与生存密切相关。注意力的第一个组成部分是计算机科学中最好建模的部分,因为信号特征是客观的线索,可以很容易地用计算的方式提取出来。
注意力的第二个组成部分(自上而下)涉及个人的主观感受。它与记忆、情感和个人目标有关。注意力的这一部分不太容易用计算机建模,因为它更主观,需要有关内部状态、目标、先验知识或情绪的信息。自上而下的注意力本身可以分为两个部分:
1. 目标/行动相关:根据个人当前的目标,某些特征或位置受到抑制,而其他特征或位置受到更多的重视。具有相同先验知识的同一个体,在面对不同的任务时,对相同刺激的反应是不同的。这个部分也被称为“意志”。
2。与记忆/情绪相关:这个过程与经验和先验知识(以及与之相关的情绪)有关。在这一类别中,玩家可以找到场景背景(游戏邦注:从之前观看过的具有相似空间布局或相似运动行为的场景中获得经验)或对象识别(游戏邦注:你首先在其他不认识的人中看到你的祖母)。注意力的这一部分是“自动的”,它不需要一个重要的认知负荷,它可以与意志注意力一起出现。另一种方式,意志自上而下的注意力,不能抑制与记忆相关的注意力,即使目标存在与否,它仍然会起作用。更一般地说,如果获得了强烈而不寻常的信号,自下而上的注意就不能被抑制。如果有人搜索他的钥匙(意志自上而下),他不会在意一辆经过的汽车。但如果他听到一种奇怪的声音(自下而上),然后认出了狮子(与记忆相关的自上而下的注意力),他就会停止寻找钥匙而逃跑。意志自上而下的注意力能够抑制注意力的其他组成部分,只要它们不是很强烈。
2.3.4 Attention V ersus Attentions: A Summary
对注意力的研究是一系列学科的积累,从哲学到计算机科学,再到心理学和神经科学。这些学科有时研究注意力的不同方面或观点,这导致了对注意力的单一和精确定义根本不可行的情况
•眼/颈机制和外部世界信息获取:注意“具体化”导致平行和连续注意(公开注意vs.隐蔽注意)。
•将认知资源分配给重要的传入信息:注意“过滤”是迈向数据结构(关注程度和临床注意模型)的第一步。
•对记忆和情绪的相互影响:将重要信息传递到意识状态,并从记忆和情绪中获得反馈(自下而上和与记忆相关的自上而下的注意)。
•行为更新:对新情况做出反应,但也要管理目标和行动(自下而上和意志自上而下的注意力)。
注意力起着至关重要的作用,部分是有意识的,部分是无意识的,从信号获取到行动计划,经过主要的认知步骤,或者只是有几个注意,而不是一个。在这个时间点上,这个问题仍然没有最终的答案。