Q-Align Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

news2024/12/28 20:12:54

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

TL; DR:教会多模态大模型用文本等级评价词(如 Good、Bad、Excellent 等)来评估视觉质量分。


图像美学质量评估是一个小方向,但是实际业务中很有用,比如可以用于图片优选、图片裁剪等。一般来说,我们期望模型给出图像(客观 / 美学)质量的标量分数值,如 1.2,2.3 等,然后进行排序筛选,可以看做是一个回归任务。那么,在大模型时代,该怎么评估利用多模态大模型的能力,来评估图像的质量呢?用户可以与多模态大模型自由地对话,但对于数字似乎还不够敏感和准确。直接通过 prompt 让模型输出分数不太可行。本文考虑到我们人类去评估图像质量的时候,其实也不是给出一个打分,而通常是一系列文本等级评价词(文中称为 discrete text-defined levels,如 Good、Bad、Excellent 等)来给出评价。

方法

训练方法

本文方法分为三个阶段,如下图所示。首先,是训练人类评分员,统一图像质量标准,分为五个等级,由差到好分别为 BAD,POOR,FAIR,GOOD,EXCELLENT;第二步,有人类评分员对图像进行标注,标注方法可以是直接选质量等级或者在质量等级条上选一个值,总之不是直接给出标量分数值,第三步,训练多模态大模型根据标注质量等级来训练。

在推理时,对模型为各质量等级生成的分数进行 softmax 转换成概率,作为权重加权计算出一个标量图像质量得分。

在这里插入图片描述

模型结构

Q-Align 的多模态大模型结构如下图所示,LLM 和 Visual Encoder 中间的 adapter 结构实际上是 Perceiver Resampler + Linear。其实,这就是 mPLUG-Owl-2 的模型结构。

在这里插入图片描述

总结

Q-Align 利用大模型对语言文本的理解能力,将图像质量打分工作转换为离散的质量等级词的生成,效果不错。大模型在图像质量评估方面的工作,可以关注一下 Q-Future,这个组一直深耕图像质量评估方向,在大模型时代,其发布的 Q-Bench、Q-Align 等工作都很不错。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1490747.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Jenkins 将shell脚本启动方式修改为bash

platform"arm x86" if [[ "$platform" ~ "arm" ]] thenecho "arm" fi最近在调试Jenkins实现的一些功能,发现在本地可以运行的脚本内容到了Jenkins里面就没办法运行了,不是提示unexpected operator就是提示[[ : …

鸿蒙Harmony应用开发—ArkTS声明式开发(通用属性:拖拽控制)

设置组件是否可以响应拖拽事件。 说明: 从API Version 10开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 ArkUI框架对以下组件实现了默认的拖拽能力,支持对数据的拖出或拖入响应,开发者只需要将这些组件…

商家转账到零钱申请时间要多久

商家转账到零钱是什么? 【商家转账到零钱】功能整合了微信支付之前的【企业付款到零钱】【批量转账到零钱】功能,支持批量对外转账,对有批量对用户付款需求的应用场景更友好,操作便捷。如果你的应用场景是单付款场景的话&#xf…

运维打工人,周末兼职送外卖的一天

运维打工人,周末兼职送外卖的一天 在那个不经意的周末,我决定尝试一份新的工作——为美团外卖做兼职配送员。这份工作对于一向规律生活的我来说,既是突破也是挑战。 早晨,空气中带着几分凉意和宁静。准备好出发时,线…

如何做代币分析:以 CRO 币为例

作者:lesleyfootprint.network 编译:Mingfootprint.network 数据源:CRO Token Dashboard (仅包括以太坊数据) 在加密货币和数字资产领域,代币分析起着至关重要的作用。代币分析指的是深入研究与代币相关…

Unity编辑器功能Inspector快捷自动填充数据

我们有时候可能需要在面板增加一些引用,可能添加脚本后要手动拖动,这样如果有大量的脚本拖动也是不小的工作量 实例 例如:我的脚本需要添加一个Bone的列表,一个个拖动很麻烦。 实现脚本 我们可以用这样的脚本来实现。 public…

鼠标右键没有git bash here,右键添加git bash here并增加图标

突然发现自己鼠标右键没有git bash here,或者安装之后就没有git bash here。后面那种情况多半是没有默认装在C盘。我们装在其他盘的时候就需要自己去配置。git gui目前用不上,这里只讲git bash here。网上一堆教程,说法不同大多不能用要么就很…

Vue router文件中本地路由配置使用i18n【解决tab名称出现undefined,导致i18n没有实现问题】

问题 点击按钮 跳转详情页后 tab名称出现错误,报 undefined ## 需求 点击工单详情按钮,跳转详情页面(新页面),新页面tab栏名称 还是为 工单出库,但要求工单出库文字配置为多语言,使用i18n来配置…

SPC 之 I-MR 控制图

概述 1924 年,美国的休哈特博士应用统计数学理论将 3Sigma 原理运用于生产过程中,并发表了 著名的“控制图法”,对产品特性和过程变量进行控制,开启了统计过程控制新时代。 什么是控制图 控制图指示过程何时不受控制&#xff…

中医舌苔笔记

舌诊时按照舌尖-舌中-舌根-舌侧的顺序进行观察。 先看舌体再看舌苔,30秒左右。 如果一次望舌判断不清,可令病人休息3~5分钟后,重新观察一次 舌诊脏腑部位分属图 舌体 胖嫩而边有齿痕为气虚、阳虚。 薄白而润为风寒; 薄白而燥…

RabbitMQ如何实现延迟消息?

RabbitMQ中是可以实现延迟消息的,一般有两种方式,分别是通过死信队列以及通过延迟消息插件来实现。 扩展: 死信队列 当rabbitMQ中的一条正常的消息,因为过了存活时间(TTL过期),队列长度超限&a…

【论文精读】Attention Bottlenecks for Multimodal Fusion 视频分类任务

本文并非逐句翻译,添加个人理解与疑惑,如有需要,请自行阅读原文。 Attention Bottlenecks for Multimodal Fusion 多模态融合的注意力瓶颈 会议:NIPS2021 Benchmark:Audioset、Epic Kitchens和VGGSound等 Backbone&…

白酒:原料的预处理技术对白酒品质的影响

在豪迈白酒的酿造过程中,原料的预处理技术对白酒的品质起着至关重要的作用。预处理技术包括原料的选择、清洗、破碎、润料等环节,这些环节的处理方式直接影响着白酒的口感、香气和品质。云仓酒庄在原料的预处理技术方面进行了深入研究和探索,…

图扑数字孪生水电站,水力发电可视化运维

自水轮机的早期发明被用于农业灌溉,到 18 世纪末期的工业革命促使水轮机技术的改良,再到 19 世纪末水利发电的崛起,直至今日,智慧水电站数字孪生技术正处于蓬勃发展之中。通过整合物联网、大数据、云计算等现代信息技术&#xff0…

Python图像处理【21】基于卷积神经网络增强微光图像

基于卷积神经网络增强微光图像 0. 前言1. MBLLEN 网络架构2. 增强微光图像小结系列链接 0. 前言 在本节中,我们将学习如何基于预训练的深度学习模型执行微光/夜间图像增强。由于难以同时处理包括亮度、对比度、伪影和噪声在内的所有因素,因此微光图像增…

vscode设置打开浏览器

安装这个插件 Open Browser Preview

linemap | 这样好看的山峦地图真的可以快速绘制啦~~

上一次介绍了Python绘制svg的优秀可视化库Pygal,今天我们介绍一下一个优秀的R地图可视化绘制包-linemap包,顾名思义,该包是是为了绘制由线组成的地图,其官网如下:https://github.com/rCarto/linemap。该包主要拥有两个…

鸿蒙实战开发:【SIM卡管理】

概述 本示例展示了电话服务中SIM卡相关功能,包含SIM卡的服务提供商、ISO国家码、归属PLMN号信息,以及默认语音卡功能。 样例展示 基础信息 介绍 本示例使用sim相关接口,展示了电话服务中SIM卡相关功能,包含SIM卡的服务提供商、…

Android Studio Iguana | 2023.2.1版本

Android Gradle 插件和 Android Studio 兼容性 Android Studio 构建系统基于 Gradle,并且 Android Gradle 插件 (AGP) 添加了一些特定于构建 Android 应用程序的功能。下表列出了每个版本的 Android Studio 所需的 AGP 版本。 如果特定版本的 Android Studio 不支持…

pandas数据分析42——读取和写入stata和spss的数据格式

python就是胶水语言,啥文件基本都能读取,而且pandas作为数据分析最好用的包,其功能自然也很多,可以读取各种数据文件。 本次就来演示一下怎么读取stata文件,和spss文件,他们不仅储存了数据和变量&#xff…