Preface
本文旨在记录个人结合AI工具对IAA这个领域的一些了解,主要是通过论文阅读的方式加深对领域的了解。有什么问题,欢迎在评论区提出并讨论。
什么是IAA
Image Aesthetic Assessment(图像美学评估)是一种评估图像在视觉上的吸引力和美感的技术。它旨在量化和分析图像的美学质量,即图像给人的美感体验。以下是图像美学评估的一些关键点:
主观性与客观性:
主观性:图像的美学价值很大程度上取决于个人的感知和偏好,因此美学评估具有一定的主观性。
客观性:尽管如此,图像美学评估也试图通过识别图像中普遍被认为具有吸引力的特征(如色彩、构图、清晰度等)来实现一定程度的客观性。
评估方法:
基于内容的方法:分析图像内容,如场景、物体、人物表情等,以评估其美学价值。
基于特征的方法:提取图像的视觉特征(如颜色直方图、纹理、边缘等)并使用这些特征来评估美学。
基于深度学习的方法:使用卷积神经网络(CNN)等深度学习模型来学习图像美学的复杂模式。
挑战:
跨文化差异:不同文化背景的人可能对图像的美学有不同的评价标准。
多样性与复杂性:图像内容的多样性和复杂性使得美学评估成为一个具有挑战性的任务。
研究进展:
近年来,随着深度学习技术的发展,图像美学评估领域取得了显著进展,尤其是在使用深度卷积神经网络进行图像美学评分方面。
图像美学评估是一个跨学科领域,涉及计算机视觉、认知科学、心理学和艺术等多个学科,旨在更好地理解和自动化图像美学的评估过程。(from kimi.ai)
IAA和IQA的区别
Image Aesthetic Assessment(图像美学评估)和Image Quality Assessment(图像质量评估)是两个不同的概念,它们在目标和方法上有所区别:
目标差异:
Image Aesthetic Assessment(IAA):图像美学评估的目标是估计图像的美学价值,即评估图像在视觉上的吸引力和美感。它更多地关注图像是否令人愉悦和有艺术感,这通常涉及到主观感受和个人品味
。
Image Quality Assessment(IQA):图像质量评估的目标是评价图像的质量,这包括图像的清晰度、锐度、对比度、色彩保真度等客观属性。它更多地关注图像的技术质量,即图像是否接近原始无失真的状态
。
方法差异:
IAA:图像美学评估通常依赖于图像的主题,并在识别图像主题后再进行美学打分。它可能涉及到对图像内容的深层理解,包括颜色、构图、主题等元素的综合评价
。
IQA:图像质量评估方法可以分为全参考(Full-Reference)、半参考(Reduced-Reference)和无参考(No-Reference)三种。全参考方法需要一张清晰的参考图像来与失真图像进行比较;半参考方法只需要参考图像的部分信息;而无参考方法则完全不需要参考图像,直接对失真图像进行质量评价
。
应用差异:
IAA:图像美学评估在美学辅助图像搜索、自动照片增强、照片筛选和相册管理等领域有广泛应用
。
IQA:图像质量评估则在图像采集、编码压缩、网络传输等领域建立有效的图像质量评价机制中具有重要意义,它帮助比较不同图像处理算法的性能优劣以及优化系统参数
。
总结来说,图像美学评估更侧重于图像的主观美感,而图像质量评估更侧重于图像的客观技术质量。两者虽然都与图像的视觉感知有关,但关注的焦点和应用场景有所不同。(from kimi.ai)
Spearman rank order correlation coefficient (SRCC) 和 Pearson linear correlation coefficient (PLCC)
相关论文
NIMA: Neural Image Assessment
开山鼻祖
RELIC:Representationlearningofimagecompositionforaestheticprediction
**代码:**https://github.com/fei-aiart/ReLIC/blob/master/code/CPC/models/relic2_model.py
**动机:**图像审美与构图密切相关。然而,现有的作品很少考虑构图。此外,现有的构图特征通常是手工制作的。
**方法:**在本文中,我们提出了一种用于图像合成表示学习的新型端到端框架。特别地,我们基于卷积神经网络(CNN)的深度特征构建了一个完全连接的图。在图中,边缘属性(即不同位置的深层特征之间的相似性)用于表示图像构图。此外,我们使用图的全局属性来表示各种美学方面。最后,我们使用门单元将构图特征和各种美学特征组合起来进行美学预测。
简单解析:
图中的edge对应方法中的fully-connected graph,通过计算backbone最后输出特征的element-wise cos-dist 得到;图中的global则是通过gap来得到。我来自适应权衡两者的contribution,通过一个门控单元来实现
relic是用单个backbone
relic+是用两个backbone分别来提取 u&e
relic++再试在relic+基础上用上一个门控单元
TAVAR: Theme-Aware Visual Attribute Reasoning for Image Aesthetics Assessment
代码:https://github.com/yipoh/TAVAR
人们首先理解图像主题,然后分析视觉属性,如有趣的内容、良好的光照、鲜艳的颜色和景深等。最终,美学判断是通过复杂的推理完成的。
动机:人们通常根据视觉属性来评价图像的美感,例如有趣的内容、良好的光照、鲜艳的色彩等。此外,视觉属性的感知取决于图像主题。因此,视觉属性与图像主题之间的内在关系对于图像美学评估(IAA)至关重要,但这一问题尚未得到全面研究。
方法:出于这个动机,本文提出了一种基于主题感知视觉属性推理(TAVAR)的新IAA模型。其基本思想是通过进行双层推理来模拟人类在图像美学中的感知过程。具体来说,首先预训练视觉属性分析网络和主题理解网络,分别提取审美属性特征和主题特征。然后,构建第一级属性主题图(ATG)来研究视觉属性与图像主题之间的耦合关系。此外,引入灵活的美学网络来提取一般的审美特征,在此基础上我们构建了第二级属性美学图(AAG)来挖掘主题感知的视觉属性和审美特征之间的关系,产生最终的审美预测。
简单解析:分别训练主题预测,属性预测网络,方便分别提取主题特征特征。然后根据动机(人根据属性评价美感,而属性取决于主题),先拿到主题感知的视觉属性特征(以一个以主题特征为中心节点的GCN来实现),再将属性特征与美学特征融合(用一个以美学特征为中心节点的GCN实现),最后接一个FC预测美学分数。
TANet-Rethinking Image Aesthetics Assessment: Models, Datasets and Benchmarks
代码:https://github.com/woshidandan/TANet-image-aesthetics-and-quality-assessment
动机:图像美学评估(IAA)的挑战在于不同主题的图像对应不同的评估标准,直接从图像中学习美学而忽略主题变化对人类视觉感知的影响抑制了IAA的进一步发展;然而,现有的 IAA 数据集和模型忽略了这个问题。
方法:为了解决这个问题,我们证明了面向主题的数据集和模型设计对于 IAA 是有效的。具体来说,1)我们精心构建了一个新颖的数据集,称为 TAD66K,其中包含涵盖 47 个流行主题的 66K 图像,每张图像都由 1200 多人使用专门的主题评估标准进行密集注释。 2)其次,我们提出了一个基线模型,称为主题与美学网络(TANet),它可以保持恒定的审美感知,以有效处理注意力分散的问题。此外,TANet 可以根据识别的主题自适应地学习预测美学的规则。为了进一步提高每个主题的感知,我们提出了 RGB 分布感知注意网络(RGBNet)来帮助网络感知 RGB 空间中的颜色分布,并解决与标准注意的高复杂性相关的问题。
简单解析:
Theme Understanding Network–用一个backbone提特征然后用一个动态网络方式的自适应增强特征。
RGB-distribution-aware Attention Network–考虑到色彩分布和相似性的原始信息存在于更接近原始图像的低级特征中,这里先讲输入均匀分块,讲注意力计算限制在块内来降低计算开销。此外这里只是提取块内元素之间的关系。
Aesthetics Perceiving Network–提取美学特征,然后三者融合再去预测美学分数。
Prompt-DeT-Thinking Image Color Aesthetics Assessment: Models, Datasets and Benchmarks(IAA分支-ICAA)
我们对一项名为图像色彩美学评估(ICAA)的新任务进行了全面的研究,旨在评估基于人类感知的色彩美学。 ICAA 对于成像测量和图像分析等各种应用都很重要。然而,由于高度多样化的审美偏好和众多的颜色组合,ICAA 比传统的图像质量评估任务提出了更多的挑战。为了推进 ICAA 研究,1)我们提出了一个名为 Delegate Transformer 的基线模型,它不仅部署可变形变压器来自适应分配兴趣点,而且还通过专用模块学习人类颜色空间分割行为。 2)我们精心构建了一个面向颜色的数据集ICAA17K,包含17K张图像,涵盖30种流行的颜色组合、80种设备和50个场景,每张图像都有超过1500人的密集注释。此外,我们开发了包含 15 种方法的大规模基准测试,这是迄今为止基于 SPAQ 和 ICAA17K 两个数据集的最全面的基准测试。我们的工作不仅实现了最先进的性能,更重要的是为社区提供了探索 ICAA 解决方案的路线图。代码和数据集可在此处获得。
VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining
动机:评估图像的美感具有挑战性,因为它受到构图、颜色、风格和高级语义等多种因素的影响。现有的图像美感评估(IAA)方法主要依赖于人类标记的评分,这过于简化了人类感知的视觉美感信息。相反,用户评论提供了更全面的信息,是表达人类关于图像美学的意见和偏好的更自然的方式。
方法:有鉴于此,我们建议从用户评论中学习图像美学,并探索视觉语言预训练方法来学习多模态美学表示。具体来说,我们使用图像评论对预训练图像文本编码器解码器模型,使用对比和生成目标来学习丰富且通用的美学语义,而无需人类标签。为了有效地适应下游 IAA 任务的预训练模型,我们进一步提出了一种轻量级的基于排名的适配器,它使用文本作为锚点来学习美学排名概念。我们的结果表明,我们的预训练美学视觉语言模型优于 AVA-Captions 数据集上的图像美学字幕的先前工作,并且它对于美学任务(例如零样本风格分类和零样本 IAA)具有强大的零样本能力,超过许多监督基线。只需使用所提出的适配器模块进行最少的微调参数,我们的模型就可以在 AVA 数据集上实现最先进的 IAA 性能。
简单解析:
预训练–从图就可以了解清楚了
下游微调–用”good image“经过文本编码器得到的特征作为锚点;用一个adapter来实现PEFT;图像的美学分数则是通过计算视觉特征与文本特征的预先相似度得到。算一个rank loss。;
(感觉这样做没办法输出较为准确的分数,缺少对分数的监督)
AesCLIP: Multi-Attribute Contrastive Learning for Image Aesthetics Assessment
动机:最近,像 CLIP 这样的大型预训练视觉语言模型在各种视觉任务中表现出了令人印象深刻的性能。说到 IAA,一种直接的方法是使用美学图像来调整 CLIP 图像编码器。然而,如果不考虑美学领域多模态数据的独特性,这种方法只能取得有限的成功。人们通常根据色彩、光线和构图等细粒度美学属性来评估图像美学。然而,如何从基于 CLIP 的语义空间中学习美学感知属性,以前还没有人研究过。
方法:基于这一动机,本文提出了一种基于 CLIP 的 IAA 多属性对比学习框架,并将其命名为 AesCLIP。具体来说,AesCLIP 包括两个主要部分,即基于审美属性的评论分类和属性感知学习。前者将审美评论分为不同的属性类别。然后,后者通过对比学习来学习审美属性感知表示,旨在减轻从一般视觉领域到美学领域的领域转变。
简单解析:
预训练–数据:AVA-Comments通过名词/形容词筛选和统计,将评论划分为5类属性;训练:对于每一张图像,随选取两种不同的属性,然后溯源两条对应的评论。两条评论都经过文本编码器,其中一个与视觉特征融合,得到aesthetic-aware image embedding,与另外的一个评论特征作为正对,与其他图像的文本评论为负对
下游微调:预训练后只使用图像编码器+一个预测头
PARA:Personalized Image Aesthetics Assessment with Rich Attributes
动机:个性化图像美学评估(PIAA)由于其高度主观性而具有挑战性。人们的审美趣味取决于多种因素,包括形象特征和主体特征。现有的PIAA数据库在注释多样性方面受到限制,尤其是学科方面,已经不能满足PIAA研究日益增长的需求。
方法:为了解决这一困境,我们对个性化图像美学进行了迄今为止最全面的主观研究,并引入了一个新的具有丰富属性的个性化图像美学数据库(PARA),该数据库由 31,220 张图像和 438 个受试者的注释组成。 PARA具有丰富的标注,包括9个面向图像的客观属性和4个面向人的主观属性。此外,还提供脱敏的受试者信息,例如人格特质,以支持PIAA和用户画像的研究。提供了对注释数据的综合分析,统计研究表明审美偏好可以通过提出的主观属性来反映。我们还利用主题信息作为条件先验提出了一个条件 PIAA 模型。实验结果表明,条件PIAA模型可以优于对照组,这也是首次尝试展示图像美学和主体人物如何相互作用以产生复杂的图像美学个性化品味。我们相信该数据库和相关分析将有助于开展下一代 PIAA 研究。
Q-ALIGN: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels
动机:随着在线视觉内容激增,准确评估器变得至关重要。尽管大型多模态模型(LMM)表现出巨大潜力,但如何实现与人类评分的一致性仍是难题。
方法:我们提出用文本定义的离散评分级别而非直接分数来训练 LMM,模拟人类的主观评分过程。新方法 Q-ALIGN 在图像和视频质量及美学评估任务上达到了最先进性能,并通过教学大纲将这些任务统一为 ONEALIGN,展示了显著优于传统模型的效果。
简单解析–
发现:实验发现MLLM评级比评分更准确
做法:讲监督信号从分数转换成级别->训练模型->推理时讲级别转换成分数
Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models
动机:多模态大语言模型(MLLMs),如GPT-4V,推动了视觉感知和理解任务的变革,实现了多种能力的融合。然而,当前的MLLMs在低级视觉属性识别和图像质量评估方面虽具备基础能力,但提升精确度以减轻人类负担仍是关键需求。
方法:为此,我们构建了首个包含人类自然语言反馈的低级视觉数据集——Q-Pathway,涵盖58K条详细反馈,涉及18,973张多来源图像。通过GPT参与的转换,我们生成了丰富的200K条指令-响应对,称为Q-Instruct,显著提升了多种基础模型的低级视觉能力。实验表明,Q-Instruct有效增强了MLLMs在低级视觉任务上的表现,推动模型更好地辅助人类工作。
简单解析:模型上沿用现有的,主要是通过数据解决模型能力上的缺失。