[ACM MM 2024] AesExpert 面向图像审美知觉的多模态基础模型

[ACM MM 2024] AesExpert 面向图像审美知觉的多模态基础模型

news2026/2/15 16:55:51

AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception

GitHub

(arxiv.org)

动机

1. 要解决的问题

图像美学感知的高度抽象性：图像美学感知（IAP）的高度抽象性对当前的多模态大语言模型（MLLMs）提出了重大挑战。这些模型在理解图像的美学质量、属性（如颜色、光线、构图）、情感表达等方面存在显著不足。
缺乏标注的多模态美学数据：缺乏经过人类标注的多模态美学数据进一步加剧了MLLMs在美学感知能力上的不足。
MLLMs在美学任务上的局限性：尽管MLLMs在一般性的视觉和语言理解任务上取得了显著进展，但在高度抽象的图像美学感知任务上仍存在明显局限，包括图像美学评估（IAA）、细粒度美学属性评价、美学情感分析及图像美学描述等。
实际应用需求：提升MLLMs的美学感知能力对于智能摄影、相册管理、照片推荐和图像增强等实际应用至关重要。

2. 解决问题的策略

构建多模态美学指令调优数据集（AesMMIT）：通过收集人类对于图像美学的反馈并整理成指令形式的数据集，以此来训练MLLMs，使其更好地与人类的美学感知对齐。
基于AesMMIT数据集调优MLLMs：利用AesMMIT数据集对开源的通用基础模型进行调优，构建出具有多模态美学感知能力的AesExpert模型。

方法

1. AesMMIT数据集的构建

收集人类美学反馈：通过主观实验邀请人类受试者对图像进行美学感知和理解的直接反馈，反馈内容包括粗粒度美学评价、基于元素美学属性的细粒度推理和解释，以及更细粒度的美学感受描述。
- 具体步骤：
  - 粗粒度美学评价：例如，“这张图片看起来很漂亮/不吸引人。”
  - 细粒度推理和解释：基于元素美学属性（清晰度、颜色、光线、图像对象和构图等）的详细分析。
  - 细粒度情感描述：例如，“新颖的拍摄视角，有趣的内容以及表达的情感。”
- 数据量：共收集到21,904张多源图像和88K条人类自然语言反馈。
利用GPT细化反馈为指令数据：将人类反馈转化为指令跟随格式，包括开放性和多选式问答对。
- 指令覆盖维度：质量、属性、情感、解释、增强和上下文推理等。
- 问题类型：包括Yes-or-No、What、How、Why及其他开放式问题。
- 最终数据量：生成了包含409K条多类型指令的AesMMIT数据集。

2. AesExpert模型的构建

基于AesMMIT数据集的指令调优：采用指令调优方法，对开源的通用基础模型进行调优，使其不仅保留原有的通用知识，还具备美学感知能力。
模型性能评估：通过广泛的实验证明，AesExpert模型在美学感知性能上显著优于最先进的MLLMs，包括GPT-4V和Gemini-Pro-Vision。

总结

本文针对图像美学感知任务中MLLMs的局限性，通过构建AesMMIT多模态美学指令调优数据集，并基于该数据集对开源基础模型进行调优，成功构建了AesExpert多模态美学专家模型。该方法不仅解决了当前MLLMs在美学感知上的不足，还为未来的美学相关任务提供了新的研究思路和实践方向。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1988858.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Redis 7.x 系列【38】缓存预热、缓存雪崩、缓存穿透、缓存击穿

Redis 7.x 系列【38】缓存预热、缓存雪崩、缓存穿透、缓存击穿

有道无术，术尚可求，有术无道，止于术。本系列Redis 版本 7.2.5 源码地址：https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 缓存预热2. 缓存雪崩3. 缓存穿透4. 缓存击穿 1. 缓存预热关键词：预先加…

阅读更多...

某MDM主数据管理系统与蓝凌OA系统集成案例

某MDM主数据管理系统与蓝凌OA系统集成案例

一、项目背景某客户使用OA在集团中处于一个重要角色，集团内各流程业务数据都需要通过OA进行审批下发，同某MDM主数据之间进行数据的交互，员工、供应商、法人组织、会计科目等主数据流程，实现各业务板块系统间的业务联通&#x…

阅读更多...

动手学深度学习V2每日笔记（使用块的网络VGG）

动手学深度学习V2每日笔记（使用块的网络VGG）

本文主要参考沐神的视频教程 https://www.bilibili.com/video/BV1Ao4y117Pd/spm_id_fromautoNext&vd_sourcec7bfc6ce0ea0cbe43aa288ba2713e56d 文档教程 https://zh-v2.d2l.ai/ 本文的主要内容对沐神提供的代码中个人不太理解的内容进行笔记记录，内容不会特别严…

阅读更多...

postgregSQL配置vector插件

postgregSQL配置vector插件

1.下载vector 下载vector：https://pgxn.org/dist/vector/0.5.1/ 放在：C:\Program Files\PostgreSQL\vector-0.5.1 2.安装Visual Studio 2022 下载：https://visualstudio.microsoft.com/zh-hans/downloads/ 安装Visual Studio是为了C编译环…

阅读更多...

JL-杰理芯片-认识TA的SDK的第六天

JL-杰理芯片-认识TA的SDK的第六天

通过修改代码无法解决的错误解决问题的方法：从头开始一点点的配置，并运行。（配置的是标准SDK）将无法修改的错误打印到xshell中，去看看是什么原因，就算不能理解，也要看看他运行了几次。上电开机和按键开机1T1，2T1，一拖二

阅读更多...

Together规则引擎金融解决方案

Together规则引擎金融解决方案

目录 1.金融法规和期望正在发生变化,快速跟踪您的金融数字化变革！2.抵押贷款功能集（MFS）3.MFS 示例模型4.MFS 知识特点5.MFS特定功能 1.金融法规和期望正在发生变化,快速跟踪您的金融数字化变革！ ogether规则引擎使金融机构能够简…

阅读更多...

26.9 Django书籍管理练习

26.9 Django书籍管理练习

1. 搭建环境 1.1 创建数据库 Django本身不会自动创建数据库服务器或数据库实例, 这一步需要手动完成.可以使用Navicat可视化工具或者命令行创建library数据库, 编码格式为utf8_mp4.# 连接数据库 mysql -h localhost -P 3306 -u root -p123456# 创建library数据库并设置编码 c…

阅读更多...

面试题：Java 集合类的遍历方式，如何一边遍历一边删除？

面试题：Java 集合类的遍历方式，如何一边遍历一边删除？

问题一：你用过 Java 中的哪些集合类？ ArrayList, LinkedList, HashMap, HashSet, TreeSet, Stack, Queue, PriorityQueue等问题二：集合中遍历元素的方式？ Collection 接口实现子类 1. List 集合 // list 集合public static …

阅读更多...

【Linux】进程间通信（管道通信、共享内存通信）

【Linux】进程间通信（管道通信、共享内存通信）

一.什么是进程间通信进程间通信这五个字很好理解，就是进程和进程之间通信。那么为什么要有进程间通信呢？ 1.数据传输：一个进程需要将它的数据发送给另一个进程 2.资源共享：多个进程之间共享同样的资源 3.通知事件：一…

阅读更多...

如何制作自己的python .whl包（支持entry_points）

如何制作自己的python .whl包（支持entry_points）

目录代码目录结构如下截图所示：dir_test.py 源码如下：list/dir_list.py 源码如下：setup.py 文件源码生成.whl文件指令： 代码目录结构如下截图所示： dir_test.py 源码如下： import os import sys from pat…

阅读更多...

RunAsDate(时间限制工具)

RunAsDate(时间限制工具)

参考链接1 参考链接2 参考链接3 下载地址 ps：64位系统需要下载64的RunAsDate

阅读更多...

LAMP架构详解

LAMP架构详解

目录一、Apache详解 1.1 简介 1.2 Apache功能 1.3 apache特点 1.4 三种工作模式二、LAMP简介 2.1 LAMP平台概述 2.2 构建LAMP平台顺序 2.3 编译安装的优点 2.4 各组件的主要作用三、wget命令四、curl命令五、压力测试工具一、Apache详解 1.1 简介 Apache …

阅读更多...

vue2，v-for中动态渲染本地的图片

vue2，v-for中动态渲染本地的图片

一、描述如果是正常在img标签的src上使用本地的url地址，是可以正常被渲染的，但是我们通过for的形式，动态渲染的话，就会通过网络请求的方式进行渲染，这个形式反而渲染不出来。二、效果这个效果，毋庸置…

阅读更多...

LVS负载均衡集群部署之—NAT模式的介绍及搭建步骤

LVS负载均衡集群部署之—NAT模式的介绍及搭建步骤

一、环境准备 1.准备三台rhel9服务器服务器名称主机名 ip地址备注LVS调度服务器lvs.timinglee.org eth0:172.25.254.100（外网） eth1:192.168.0.100(内网) 关闭selinux和防火墙webserver2网站服务器webserver1.timinglee.orgeth0：192.168.…

阅读更多...

为什么高校开设微专业，建议搭建动作捕捉与数字人开发实训室？

为什么高校开设微专业，建议搭建动作捕捉与数字人开发实训室？

随着近年来虚拟现实技术产业与元宇宙产业不断发展，动作捕捉技术成为元宇宙、VR/AR、影视动画、游戏、艺术创作、虚拟偶像等行业相关不可或缺的技术之一。各大院校为了探索新的教学模式，纷纷积极开设“微专业”，相比传统的虚拟仿真实训室来说&…

阅读更多...

Linux进程调度与切换

Linux进程调度与切换

目录前言 Linux 2.6内核O(1)调度器调度过程调度算法 Linux 进程切换前言在Linux 2.6版本的内核中，进程调度器引入了O(1)调度器，这个调度器通过优先级队列、活跃队列和过期队列的机制来管理进程调度,虽然在现在已被更好的CFS调度器取代,但对于我…

阅读更多...

中仕公考：2024年空军专业技能类文职人员公开招考公告

中仕公考：2024年空军专业技能类文职人员公开招考公告

2024年空军专业技能类文职人员公开招考公告，有关事项公告如下： 一、招考岗位主要有保管员、司机、炊事员、文印员、汽车修理工兼司机等专业技能三级以下岗位。二、招考对象符合岗位资格条件的社会人员(含高校应届毕业生、退役军人)。根据军队有…

阅读更多...

理解栈（Stack）及其在 C++ 中的应用【栈、数据结构】

理解栈（Stack）及其在 C++ 中的应用【栈、数据结构】

在这篇博客中，我们将详细介绍栈（Stack）这一重要的数据结构，包括其基本概念、常用操作、C 中的实现，以及一些实际应用。什么是栈？ 栈是一种数据结构，它遵循“后进先出”（LIFO - La…

阅读更多...

上海AI Lab 搭台，36个大模型一起角逐长上下文建模能力

上海AI Lab 搭台，36个大模型一起角逐长上下文建模能力

现在的大模型论文简直像是在比长度，动不动就上百页！记得前阵子小编瞅见那份90页的Gemini技术报告，顿时脑袋嗡嗡作响。那会儿就幻想着：要是有个AI大脑来啃下这些"学术巨无霸"，那岂不是爽歪歪？ 没…

阅读更多...

SpringDoc：一个用于自动生成API文档的工具

SpringDoc：一个用于自动生成API文档的工具

SpringDoc的使用概述SpringDoc添加依赖配置 Springdoc创建 REST 控制器访问 API 文档添加注释和描述自定义配置常用注解详细示例创建模型类创建REST控制器查看Swagger UI与OpenAPI 安全策略类型概述HTTPAPIKEYOAUTH2OPENIDCONNECTMUTUALTLS 请求头配置认证token代码实现验证 …

阅读更多...

推荐文章

最新文章