Q-Align Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

Q-Align Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

news2026/2/11 13:41:27

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

TL; DR：教会多模态大模型用文本等级评价词（如 Good、Bad、Excellent 等）来评估视觉质量分。

图像美学质量评估是一个小方向，但是实际业务中很有用，比如可以用于图片优选、图片裁剪等。一般来说，我们期望模型给出图像（客观 / 美学）质量的标量分数值，如 1.2，2.3 等，然后进行排序筛选，可以看做是一个回归任务。那么，在大模型时代，该怎么评估利用多模态大模型的能力，来评估图像的质量呢？用户可以与多模态大模型自由地对话，但对于数字似乎还不够敏感和准确。直接通过 prompt 让模型输出分数不太可行。本文考虑到我们人类去评估图像质量的时候，其实也不是给出一个打分，而通常是一系列文本等级评价词（文中称为 discrete text-defined levels，如 Good、Bad、Excellent 等）来给出评价。

方法

训练方法

本文方法分为三个阶段，如下图所示。首先，是训练人类评分员，统一图像质量标准，分为五个等级，由差到好分别为 BAD，POOR，FAIR，GOOD，EXCELLENT；第二步，有人类评分员对图像进行标注，标注方法可以是直接选质量等级或者在质量等级条上选一个值，总之不是直接给出标量分数值，第三步，训练多模态大模型根据标注质量等级来训练。

在推理时，对模型为各质量等级生成的分数进行 softmax 转换成概率，作为权重加权计算出一个标量图像质量得分。

在这里插入图片描述

模型结构

Q-Align 的多模态大模型结构如下图所示，LLM 和 Visual Encoder 中间的 adapter 结构实际上是 Perceiver Resampler + Linear。其实，这就是 mPLUG-Owl-2 的模型结构。

在这里插入图片描述

总结

Q-Align 利用大模型对语言文本的理解能力，将图像质量打分工作转换为离散的质量等级词的生成，效果不错。大模型在图像质量评估方面的工作，可以关注一下 Q-Future，这个组一直深耕图像质量评估方向，在大模型时代，其发布的 Q-Bench、Q-Align 等工作都很不错。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1490747.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Jenkins 将shell脚本启动方式修改为bash

Jenkins 将shell脚本启动方式修改为bash

platform"arm x86" if [[ "$platform" ~ "arm" ]] thenecho "arm" fi最近在调试Jenkins实现的一些功能，发现在本地可以运行的脚本内容到了Jenkins里面就没办法运行了，不是提示unexpected operator就是提示[[ : …

阅读更多...

鸿蒙Harmony应用开发—ArkTS声明式开发（通用属性：拖拽控制）

鸿蒙Harmony应用开发—ArkTS声明式开发（通用属性：拖拽控制）

设置组件是否可以响应拖拽事件。说明： 从API Version 10开始支持。后续版本如有新增内容，则采用上角标单独标记该内容的起始版本。 ArkUI框架对以下组件实现了默认的拖拽能力，支持对数据的拖出或拖入响应，开发者只需要将这些组件…

阅读更多...

商家转账到零钱申请时间要多久

商家转账到零钱申请时间要多久

商家转账到零钱是什么？ 【商家转账到零钱】功能整合了微信支付之前的【企业付款到零钱】【批量转账到零钱】功能，支持批量对外转账，对有批量对用户付款需求的应用场景更友好，操作便捷。如果你的应用场景是单付款场景的话&#xf…

阅读更多...

运维打工人，周末兼职送外卖的一天

运维打工人，周末兼职送外卖的一天

运维打工人，周末兼职送外卖的一天在那个不经意的周末，我决定尝试一份新的工作——为美团外卖做兼职配送员。这份工作对于一向规律生活的我来说，既是突破也是挑战。早晨，空气中带着几分凉意和宁静。准备好出发时，线…

阅读更多...

如何做代币分析：以 CRO 币为例

如何做代币分析：以 CRO 币为例

作者：lesleyfootprint.network 编译：Mingfootprint.network 数据源：CRO Token Dashboard （仅包括以太坊数据） 在加密货币和数字资产领域，代币分析起着至关重要的作用。代币分析指的是深入研究与代币相关…

阅读更多...

Unity编辑器功能Inspector快捷自动填充数据

Unity编辑器功能Inspector快捷自动填充数据

我们有时候可能需要在面板增加一些引用，可能添加脚本后要手动拖动，这样如果有大量的脚本拖动也是不小的工作量实例例如：我的脚本需要添加一个Bone的列表，一个个拖动很麻烦。实现脚本我们可以用这样的脚本来实现。 public…

阅读更多...

鼠标右键没有git bash here，右键添加git bash here并增加图标

鼠标右键没有git bash here，右键添加git bash here并增加图标

突然发现自己鼠标右键没有git bash here，或者安装之后就没有git bash here。后面那种情况多半是没有默认装在C盘。我们装在其他盘的时候就需要自己去配置。git gui目前用不上，这里只讲git bash here。网上一堆教程，说法不同大多不能用要么就很…

阅读更多...

Vue router文件中本地路由配置使用i18n【解决tab名称出现undefined，导致i18n没有实现问题】

Vue router文件中本地路由配置使用i18n【解决tab名称出现undefined，导致i18n没有实现问题】

问题点击按钮跳转详情页后 tab名称出现错误，报 undefined ## 需求点击工单详情按钮，跳转详情页面（新页面），新页面tab栏名称还是为工单出库，但要求工单出库文字配置为多语言，使用i18n来配置…

阅读更多...

SPC 之 I-MR 控制图

SPC 之 I-MR 控制图

概述 1924 年，美国的休哈特博士应用统计数学理论将 3Sigma 原理运用于生产过程中，并发表了著名的“控制图法”，对产品特性和过程变量进行控制，开启了统计过程控制新时代。什么是控制图控制图指示过程何时不受控制&#xff…

阅读更多...

中医舌苔笔记

中医舌苔笔记

舌诊时按照舌尖-舌中-舌根-舌侧的顺序进行观察。先看舌体再看舌苔，30秒左右。如果一次望舌判断不清，可令病人休息3~5分钟后，重新观察一次舌诊脏腑部位分属图舌体胖嫩而边有齿痕为气虚、阳虚。薄白而润为风寒； 薄白而燥…

阅读更多...

RabbitMQ如何实现延迟消息?

RabbitMQ如何实现延迟消息?

RabbitMQ中是可以实现延迟消息的，一般有两种方式，分别是通过死信队列以及通过延迟消息插件来实现。扩展： 死信队列当rabbitMQ中的一条正常的消息，因为过了存活时间（TTL过期），队列长度超限&a…

阅读更多...

【论文精读】Attention Bottlenecks for Multimodal Fusion 视频分类任务

【论文精读】Attention Bottlenecks for Multimodal Fusion 视频分类任务

本文并非逐句翻译，添加个人理解与疑惑，如有需要，请自行阅读原文。 Attention Bottlenecks for Multimodal Fusion 多模态融合的注意力瓶颈会议：NIPS2021 Benchmark：Audioset、Epic Kitchens和VGGSound等 Backbone&…

阅读更多...

白酒：原料的预处理技术对白酒品质的影响

白酒：原料的预处理技术对白酒品质的影响

在豪迈白酒的酿造过程中，原料的预处理技术对白酒的品质起着至关重要的作用。预处理技术包括原料的选择、清洗、破碎、润料等环节，这些环节的处理方式直接影响着白酒的口感、香气和品质。云仓酒庄在原料的预处理技术方面进行了深入研究和探索，…

阅读更多...

图扑数字孪生水电站，水力发电可视化运维

图扑数字孪生水电站，水力发电可视化运维

自水轮机的早期发明被用于农业灌溉，到 18 世纪末期的工业革命促使水轮机技术的改良，再到 19 世纪末水利发电的崛起，直至今日，智慧水电站数字孪生技术正处于蓬勃发展之中。通过整合物联网、大数据、云计算等现代信息技术&#xff0…

阅读更多...

Python图像处理【21】基于卷积神经网络增强微光图像

Python图像处理【21】基于卷积神经网络增强微光图像

基于卷积神经网络增强微光图像 0. 前言1. MBLLEN 网络架构2. 增强微光图像小结系列链接 0. 前言在本节中，我们将学习如何基于预训练的深度学习模型执行微光/夜间图像增强。由于难以同时处理包括亮度、对比度、伪影和噪声在内的所有因素，因此微光图像增…

阅读更多...

vscode设置打开浏览器

vscode设置打开浏览器

安装这个插件 Open Browser Preview

阅读更多...

linemap | 这样好看的山峦地图真的可以快速绘制啦~~

linemap | 这样好看的山峦地图真的可以快速绘制啦~~

上一次介绍了Python绘制svg的优秀可视化库Pygal，今天我们介绍一下一个优秀的R地图可视化绘制包-linemap包，顾名思义，该包是是为了绘制由线组成的地图，其官网如下：https://github.com/rCarto/linemap。该包主要拥有两个…

阅读更多...

鸿蒙实战开发：【SIM卡管理】

鸿蒙实战开发：【SIM卡管理】

概述本示例展示了电话服务中SIM卡相关功能，包含SIM卡的服务提供商、ISO国家码、归属PLMN号信息，以及默认语音卡功能。样例展示基础信息介绍本示例使用sim相关接口，展示了电话服务中SIM卡相关功能，包含SIM卡的服务提供商、…

阅读更多...

Android Studio Iguana | 2023.2.1版本

Android Studio Iguana | 2023.2.1版本

Android Gradle 插件和 Android Studio 兼容性 Android Studio 构建系统基于 Gradle，并且 Android Gradle 插件 (AGP) 添加了一些特定于构建 Android 应用程序的功能。下表列出了每个版本的 Android Studio 所需的 AGP 版本。如果特定版本的 Android Studio 不支持…

阅读更多...

pandas数据分析42——读取和写入stata和spss的数据格式

pandas数据分析42——读取和写入stata和spss的数据格式

python就是胶水语言，啥文件基本都能读取，而且pandas作为数据分析最好用的包，其功能自然也很多，可以读取各种数据文件。本次就来演示一下怎么读取stata文件，和spss文件，他们不仅储存了数据和变量&#xff…

阅读更多...

推荐文章

最新文章