[IAA系列] Image Aesthetic Assessment

news2025/1/17 4:08:51

Preface

本文旨在记录个人结合AI工具对IAA这个领域的一些了解,主要是通过论文阅读的方式加深对领域的了解。有什么问题,欢迎在评论区提出并讨论。

什么是IAA

Image Aesthetic Assessment(图像美学评估)是一种评估图像在视觉上的吸引力和美感的技术。它旨在量化和分析图像的美学质量,即图像给人的美感体验。以下是图像美学评估的一些关键点:

主观性与客观性:

主观性:图像的美学价值很大程度上取决于个人的感知和偏好,因此美学评估具有一定的主观性。
客观性:尽管如此,图像美学评估也试图通过识别图像中普遍被认为具有吸引力的特征(如色彩、构图、清晰度等)来实现一定程度的客观性。
评估方法:

基于内容的方法:分析图像内容,如场景、物体、人物表情等,以评估其美学价值。
基于特征的方法:提取图像的视觉特征(如颜色直方图、纹理、边缘等)并使用这些特征来评估美学。
基于深度学习的方法:使用卷积神经网络(CNN)等深度学习模型来学习图像美学的复杂模式。

挑战:

跨文化差异:不同文化背景的人可能对图像的美学有不同的评价标准。
多样性与复杂性:图像内容的多样性和复杂性使得美学评估成为一个具有挑战性的任务。
研究进展:

近年来,随着深度学习技术的发展,图像美学评估领域取得了显著进展,尤其是在使用深度卷积神经网络进行图像美学评分方面。
图像美学评估是一个跨学科领域,涉及计算机视觉、认知科学、心理学和艺术等多个学科,旨在更好地理解和自动化图像美学的评估过程。(from kimi.ai)

IAA和IQA的区别

Image Aesthetic Assessment(图像美学评估)和Image Quality Assessment(图像质量评估)是两个不同的概念,它们在目标和方法上有所区别:

目标差异:

Image Aesthetic Assessment(IAA):图像美学评估的目标是估计图像的美学价值,即评估图像在视觉上的吸引力和美感。它更多地关注图像是否令人愉悦和有艺术感,这通常涉及到主观感受和个人品味

Image Quality Assessment(IQA):图像质量评估的目标是评价图像的质量,这包括图像的清晰度、锐度、对比度、色彩保真度等客观属性。它更多地关注图像的技术质量,即图像是否接近原始无失真的状态

方法差异:

IAA:图像美学评估通常依赖于图像的主题,并在识别图像主题后再进行美学打分。它可能涉及到对图像内容的深层理解,包括颜色、构图、主题等元素的综合评价

IQA:图像质量评估方法可以分为全参考(Full-Reference)、半参考(Reduced-Reference)和无参考(No-Reference)三种。全参考方法需要一张清晰的参考图像来与失真图像进行比较;半参考方法只需要参考图像的部分信息;而无参考方法则完全不需要参考图像,直接对失真图像进行质量评价

应用差异:

IAA:图像美学评估在美学辅助图像搜索、自动照片增强、照片筛选和相册管理等领域有广泛应用

IQA:图像质量评估则在图像采集、编码压缩、网络传输等领域建立有效的图像质量评价机制中具有重要意义,它帮助比较不同图像处理算法的性能优劣以及优化系统参数

总结来说,图像美学评估更侧重于图像的主观美感,而图像质量评估更侧重于图像的客观技术质量。两者虽然都与图像的视觉感知有关,但关注的焦点和应用场景有所不同。(from kimi.ai)

Spearman rank order correlation coefficient (SRCC) 和 Pearson linear correlation coefficient (PLCC)

在这里插入图片描述
在这里插入图片描述

相关论文

NIMA: Neural Image Assessment

开山鼻祖
在这里插入图片描述

RELIC:Representationlearningofimagecompositionforaestheticprediction

**代码:**https://github.com/fei-aiart/ReLIC/blob/master/code/CPC/models/relic2_model.py

**动机:**图像审美与构图密切相关。然而,现有的作品很少考虑构图。此外,现有的构图特征通常是手工制作的。
**方法:**在本文中,我们提出了一种用于图像合成表示学习的新型端到端框架。特别地,我们基于卷积神经网络(CNN)的深度特征构建了一个完全连接的图。在图中,边缘属性(即不同位置的深层特征之间的相似性)用于表示图像构图。此外,我们使用图的全局属性来表示各种美学方面。最后,我们使用门单元将构图特征和各种美学特征组合起来进行美学预测。
在这里插入图片描述
在这里插入图片描述

简单解析:
图中的edge对应方法中的fully-connected graph,通过计算backbone最后输出特征的element-wise cos-dist 得到;图中的global则是通过gap来得到。我来自适应权衡两者的contribution,通过一个门控单元来实现
relic是用单个backbone
relic+是用两个backbone分别来提取 u&e
relic++再试在relic+基础上用上一个门控单元

TAVAR: Theme-Aware Visual Attribute Reasoning for Image Aesthetics Assessment

代码:https://github.com/yipoh/TAVAR
在这里插入图片描述

人们首先理解图像主题,然后分析视觉属性,如有趣的内容、良好的光照、鲜艳的颜色和景深等。最终,美学判断是通过复杂的推理完成的。

动机:人们通常根据视觉属性来评价图像的美感,例如有趣的内容、良好的光照、鲜艳的色彩等。此外,视觉属性的感知取决于图像主题。因此,视觉属性与图像主题之间的内在关系对于图像美学评估(IAA)至关重要,但这一问题尚未得到全面研究。
方法:出于这个动机,本文提出了一种基于主题感知视觉属性推理(TAVAR)的新IAA模型。其基本思想是通过进行双层推理来模拟人类在图像美学中的感知过程。具体来说,首先预训练视觉属性分析网络和主题理解网络,分别提取审美属性特征和主题特征。然后,构建第一级属性主题图(ATG)来研究视觉属性与图像主题之间的耦合关系。此外,引入灵活的美学网络来提取一般的审美特征,在此基础上我们构建了第二级属性美学图(AAG)来挖掘主题感知的视觉属性和审美特征之间的关系,产生最终的审美预测。

在这里插入图片描述
简单解析:分别训练主题预测,属性预测网络,方便分别提取主题特征特征。然后根据动机(人根据属性评价美感,而属性取决于主题),先拿到主题感知的视觉属性特征(以一个以主题特征为中心节点的GCN来实现),再将属性特征与美学特征融合(用一个以美学特征为中心节点的GCN实现),最后接一个FC预测美学分数。

TANet-Rethinking Image Aesthetics Assessment: Models, Datasets and Benchmarks

代码:https://github.com/woshidandan/TANet-image-aesthetics-and-quality-assessment
动机:图像美学评估(IAA)的挑战在于不同主题的图像对应不同的评估标准,直接从图像中学习美学而忽略主题变化对人类视觉感知的影响抑制了IAA的进一步发展;然而,现有的 IAA 数据集和模型忽略了这个问题。
方法:为了解决这个问题,我们证明了面向主题的数据集和模型设计对于 IAA 是有效的。具体来说,1)我们精心构建了一个新颖的数据集,称为 TAD66K,其中包含涵盖 47 个流行主题的 66K 图像,每张图像都由 1200 多人使用专门的主题评估标准进行密集注释。 2)其次,我们提出了一个基线模型,称为主题与美学网络(TANet),它可以保持恒定的审美感知,以有效处理注意力分散的问题。此外,TANet 可以根据识别的主题自适应地学习预测美学的规则。为了进一步提高每个主题的感知,我们提出了 RGB 分布感知注意网络(RGBNet)来帮助网络感知 RGB 空间中的颜色分布,并解决与标准注意的高复杂性相关的问题。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
简单解析:
Theme Understanding Network–用一个backbone提特征然后用一个动态网络方式的自适应增强特征。
RGB-distribution-aware Attention Network–考虑到色彩分布和相似性的原始信息存在于更接近原始图像的低级特征中,这里先讲输入均匀分块,讲注意力计算限制在块内来降低计算开销。此外这里只是提取块内元素之间的关系。
Aesthetics Perceiving Network–提取美学特征,然后三者融合再去预测美学分数。

Prompt-DeT-Thinking Image Color Aesthetics Assessment: Models, Datasets and Benchmarks(IAA分支-ICAA)

我们对一项名为图像色彩美学评估(ICAA)的新任务进行了全面的研究,旨在评估基于人类感知的色彩美学。 ICAA 对于成像测量和图像分析等各种应用都很重要。然而,由于高度多样化的审美偏好和众多的颜色组合,ICAA 比传统的图像质量评估任务提出了更多的挑战。为了推进 ICAA 研究,1)我们提出了一个名为 Delegate Transformer 的基线模型,它不仅部署可变形变压器来自适应分配兴趣点,而且还通过专用模块学习人类颜色空间分割行为。 2)我们精心构建了一个面向颜色的数据集ICAA17K,包含17K张图像,涵盖30种流行的颜色组合、80种设备和50个场景,每张图像都有超过1500人的密集注释。此外,我们开发了包含 15 种方法的大规模基准测试,这是迄今为止基于 SPAQ 和 ICAA17K 两个数据集的最全面的基准测试。我们的工作不仅实现了最先进的性能,更重要的是为社区提供了探索 ICAA 解决方案的路线图。代码和数据集可在此处获得。
在这里插入图片描述

VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining

动机:评估图像的美感具有挑战性,因为它受到构图、颜色、风格和高级语义等多种因素的影响。现有的图像美感评估(IAA)方法主要依赖于人类标记的评分,这过于简化了人类感知的视觉美感信息。相反,用户评论提供了更全面的信息,是表达人类关于图像美学的意见和偏好的更自然的方式。
方法:有鉴于此,我们建议从用户评论中学习图像美学,并探索视觉语言预训练方法来学习多模态美学表示。具体来说,我们使用图像评论对预训练图像文本编码器解码器模型,使用对比和生成目标来学习丰富且通用的美学语义,而无需人类标签。为了有效地适应下游 IAA 任务的预训练模型,我们进一步提出了一种轻量级的基于排名的适配器它使用文本作为锚点来学习美学排名概念。我们的结果表明,我们的预训练美学视觉语言模型优于 AVA-Captions 数据集上的图像美学字幕的先前工作,并且它对于美学任务(例如零样本风格分类和零样本 IAA)具有强大的零样本能力,超过许多监督基线。只需使用所提出的适配器模块进行最少的微调参数,我们的模型就可以在 AVA 数据集上实现最先进的 IAA 性能。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
简单解析:
预训练–从图就可以了解清楚了
下游微调–用”good image“经过文本编码器得到的特征作为锚点;用一个adapter来实现PEFT;图像的美学分数则是通过计算视觉特征与文本特征的预先相似度得到。算一个rank loss。;
(感觉这样做没办法输出较为准确的分数,缺少对分数的监督)
在这里插入图片描述

AesCLIP: Multi-Attribute Contrastive Learning for Image Aesthetics Assessment

动机:最近,像 CLIP 这样的大型预训练视觉语言模型在各种视觉任务中表现出了令人印象深刻的性能。说到 IAA,一种直接的方法是使用美学图像来调整 CLIP 图像编码器。然而,如果不考虑美学领域多模态数据的独特性,这种方法只能取得有限的成功。人们通常根据色彩、光线和构图等细粒度美学属性来评估图像美学。然而,如何从基于 CLIP 的语义空间中学习美学感知属性,以前还没有人研究过
方法:基于这一动机,本文提出了一种基于 CLIP 的 IAA 多属性对比学习框架,并将其命名为 AesCLIP。具体来说,AesCLIP 包括两个主要部分,即基于审美属性的评论分类和属性感知学习。前者将审美评论分为不同的属性类别。然后,后者通过对比学习来学习审美属性感知表示,旨在减轻从一般视觉领域到美学领域的领域转变
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
简单解析:
预训练–数据:AVA-Comments通过名词/形容词筛选和统计,将评论划分为5类属性;训练:对于每一张图像,随选取两种不同的属性,然后溯源两条对应的评论。两条评论都经过文本编码器,其中一个与视觉特征融合,得到aesthetic-aware image embedding,与另外的一个评论特征作为正对,与其他图像的文本评论为负对
下游微调:预训练后只使用图像编码器+一个预测头

PARA:Personalized Image Aesthetics Assessment with Rich Attributes

动机:个性化图像美学评估(PIAA)由于其高度主观性而具有挑战性。人们的审美趣味取决于多种因素,包括形象特征和主体特征。现有的PIAA数据库在注释多样性方面受到限制,尤其是学科方面,已经不能满足PIAA研究日益增长的需求。
方法:为了解决这一困境,我们对个性化图像美学进行了迄今为止最全面的主观研究,并引入了一个新的具有丰富属性的个性化图像美学数据库(PARA),该数据库由 31,220 张图像和 438 个受试者的注释组成。 PARA具有丰富的标注,包括9个面向图像的客观属性和4个面向人的主观属性。此外,还提供脱敏的受试者信息,例如人格特质,以支持PIAA和用户画像的研究。提供了对注释数据的综合分析,统计研究表明审美偏好可以通过提出的主观属性来反映。我们还利用主题信息作为条件先验提出了一个条件 PIAA 模型。实验结果表明,条件PIAA模型可以优于对照组,这也是首次尝试展示图像美学和主体人物如何相互作用以产生复杂的图像美学个性化品味。我们相信该数据库和相关分析将有助于开展下一代 PIAA 研究。
在这里插入图片描述
在这里插入图片描述

Q-ALIGN: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

动机:随着在线视觉内容激增,准确评估器变得至关重要。尽管大型多模态模型(LMM)表现出巨大潜力,但如何实现与人类评分的一致性仍是难题。

方法:我们提出用文本定义的离散评分级别而非直接分数来训练 LMM,模拟人类的主观评分过程。新方法 Q-ALIGN 在图像和视频质量及美学评估任务上达到了最先进性能,并通过教学大纲将这些任务统一为 ONEALIGN,展示了显著优于传统模型的效果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
简单解析–
发现:实验发现MLLM评级比评分更准确
做法:讲监督信号从分数转换成级别->训练模型->推理时讲级别转换成分数

Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

动机:多模态大语言模型(MLLMs),如GPT-4V,推动了视觉感知和理解任务的变革,实现了多种能力的融合。然而,当前的MLLMs在低级视觉属性识别和图像质量评估方面虽具备基础能力,但提升精确度以减轻人类负担仍是关键需求。

方法:为此,我们构建了首个包含人类自然语言反馈的低级视觉数据集——Q-Pathway,涵盖58K条详细反馈,涉及18,973张多来源图像。通过GPT参与的转换,我们生成了丰富的200K条指令-响应对,称为Q-Instruct,显著提升了多种基础模型的低级视觉能力。实验表明,Q-Instruct有效增强了MLLMs在低级视觉任务上的表现,推动模型更好地辅助人类工作。
在这里插入图片描述
在这里插入图片描述
简单解析:模型上沿用现有的,主要是通过数据解决模型能力上的缺失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2235986.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

leetcode 2043.简易银行系统

1.题目要求: 示例: 输入: ["Bank", "withdraw", "transfer", "deposit", "transfer", "withdraw"] [[[10, 100, 20, 50, 30]], [3, 10], [5, 1, 20], [5, 20], [3, 4, 15], [10, 50]] 输出&#xff…

一文了解Android SELinux

在Android系统中,SELinux(Security-Enhanced Linux)是一个增强的安全机制,用于对系统进行强制访问控制(Mandatory Access Control,MAC)。它限制了应用程序和进程的访问权限,提供了更…

Java链表及源码解析

文章目录 创建一个ILindkedList接口创建方法(模拟实现链表方法)创建MyLinkedList来实现接口的方法创建链表节点addFirst方法(新增头部属性)addLast方法(新增到末尾一个属性)remove方法(删除指定属性)addInd…

微服务系列四:热更新措施与配置共享

目录 前言 一、基于Nacos的管理中心整体方案 二、配置共享动态维护 2.1 分析哪些配置可拆,需要动态提供哪些参数 2.2 在nacos 分别创建共享配置 创建jdbc相关配置文件 创建日志相关配置文件 创建接口文档配置文件 2.3 拉取本地合并配置文件 2.3.1 拉取出现…

NoETL自动化指标平台为数据分析提质增效,驱动业务决策

直觉判断往往来源于多年的经验和专业知识,能够在复杂和不确定的环境中快速做出决策反应。但这种方式普遍存在主观偏见,缺乏合理的科学依据,无法全面、客观、精准地评估和识别市场趋势与用户需求,从而造成决策失误,给业…

使用亚马逊 S3 连接器为 PyTorch 和 MinIO 创建地图式数据集

在深入研究 Amazon 的 PyTorch S3 连接器之前,有必要介绍一下它要解决的问题。许多 AI 模型需要使用无法放入内存的数据进行训练。此外,许多为计算机视觉和生成式 AI 构建的真正有趣的模型使用的数据甚至无法容纳在单个服务器附带的磁盘驱动器上。解决存…

基于MATLAB的实现垃圾分类Matlab源码

⼀、垃圾分类 如何通过垃圾分类管理,最⼤限度地实现垃圾资源利⽤,减少垃圾处置量,改善⽣存环境质量,是当前世界各国共同关注的迫切问题之⼀。根据国家制定的统⼀标准,现在⽣活垃圾被⼴泛分为四类,分别是可…

硬件基础10 逻辑门电路——CMOS

目录 一、门电路类型 二、CMOS逻辑门 1、CMOS基础 2、MOS管开关电路 (1)、基础理论分析 (2)、开关动态特性 3、CMOS反相器 4、与非、或非门 三、逻辑门的不同输出结构与参数 1、CMOS的保护和缓冲 2、漏极开路与三态输出…

新手散户如何避免被割?有量化策略适应暴涨暴跌行情吗?|附代码

这是邢不行第 124 期量化小讲堂的分享 作者 | 邢不行 大A今年上半年的行情较为坎坷,市场持续下跌,导致诸多投资者风格大变,从倾向于高风险的进攻策略转为低风险的防御策略,尤以高股息策略和杠铃策略最为火爆。 本文给大家介绍一…

数据链路层Mac协议与ARP协议

Mac帧 ​ ​ 如何将有效载荷和报头分离? 根据固定大小 ​​ 报头固定大小,按报头大小分离 如何分用? ​​​​ 类型为0800,代表为IP报文,应该交给网络层IP协议 目的地址 原地址为Mac地址 局域网通信 ​ 局…

轮椅车、医用病床等康复类器具检测设备的介绍

康复类器具检测设备是指用于检测、评估和测试康复类器具的设备。康复类器具包括轮椅、助行器、假肢、矫形器等。这些器具在使用前需要经过检测和评估以确保其满足质量、性能、安全和有效性的要求。 康复类器具的测试项目及其设备主要包括以下几种: 1、力学测试设…

WiFi一直获取不到IP地址是怎么回事?

在当今这个信息化时代,WiFi已成为我们日常生活中不可或缺的一部分。无论是家庭、办公室还是公共场所,WiFi都为我们提供了便捷的无线互联网接入。然而,有时我们可能会遇到WiFi连接后无法获取IP地址的问题,这不仅影响了我们的网络使…

基于SSM+VUE儿童接种疫苗预约管理系统JAVA|VUE|Springboot计算机毕业设计源代码+数据库+LW文档+开题报告+答辩稿+部署教+代码讲解

源代码数据库LW文档(1万字以上)开题报告答辩稿 部署教程代码讲解代码时间修改教程 一、开发工具、运行环境、开发技术 开发工具 1、操作系统:Window操作系统 2、开发工具:IntelliJ IDEA或者Eclipse 3、数据库存储&#xff1a…

城镇住房保障:SpringBoot系统架构解析

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

软件测试—功能测试详解

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 一、测试项目启动与研读需求文档 (一) 组建测试团队 1、测试团队中的角色 2、测试团队的基本责任 尽早地发现软件程序、系统或产…

第十五届蓝桥杯C/C++B组题解——数字接龙

题目描述 小蓝最近迷上了一款名为《数字接龙》的迷宫游戏,游戏在一个大小为N N 的格子棋盘上展开,其中每一个格子处都有着一个 0 . . . K − 1 之间的整数。游戏规则如下: 从左上角 (0, 0) 处出发,目标是到达右下角 (N − 1, N …

【9695】基于springboot+vue的学生就业管理系统

作者主页:Java码库 主营内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取免费源码 项目描述 本学生就业管理系统以springboot作为框架&#xff…

Android使用scheme方式唤醒处于后台时的App场景

场景:甲App唤醒处于后台时的乙App的目标界面Activity,且乙App的目标界面Activity处于最上层,即已经打开状态,要求甲App使用scheme唤醒乙App时,达到跟从桌面icon拉起App效果一致,不能出现只拉起了乙App的目标…

centos7,yum安装mongodb

yum安装mongodb 1.配置MongoDB的yum源2.安装Mongodb3.启动Mongodb4.配置远程访问5.设置mongo密码 1.配置MongoDB的yum源 1.创建yum源文件,输入命令: vim /etc/yum.repos.d/mongodb-org-5.0.repo然后在文件中输入以下内容并保存: [mongodb-…

SpringBoot项目集成ONLYOFFICE

ONLYOFFICE 文档8.2版本已发布:PDF 协作编辑、改进界面、性能优化、表格中的 RTL 支持等更新 文章目录 前言ONLYOFFICE 产品简介功能与特点Spring Boot 项目中集成 OnlyOffice1. 环境准备2. 部署OnlyOffice Document Server3. 配置Spring Boot项目4. 实现文档编辑功…