Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels
TL; DR:教会多模态大模型用文本等级评价词(如 Good、Bad、Excellent 等)来评估视觉质量分。
图像美学质量评估是一个小方向,但是实际业务中很有用,比如可以用于图片优选、图片裁剪等。一般来说,我们期望模型给出图像(客观 / 美学)质量的标量分数值,如 1.2,2.3 等,然后进行排序筛选,可以看做是一个回归任务。那么,在大模型时代,该怎么评估利用多模态大模型的能力,来评估图像的质量呢?用户可以与多模态大模型自由地对话,但对于数字似乎还不够敏感和准确。直接通过 prompt 让模型输出分数不太可行。本文考虑到我们人类去评估图像质量的时候,其实也不是给出一个打分,而通常是一系列文本等级评价词(文中称为 discrete text-defined levels,如 Good、Bad、Excellent 等)来给出评价。
方法
训练方法
本文方法分为三个阶段,如下图所示。首先,是训练人类评分员,统一图像质量标准,分为五个等级,由差到好分别为 BAD,POOR,FAIR,GOOD,EXCELLENT;第二步,有人类评分员对图像进行标注,标注方法可以是直接选质量等级或者在质量等级条上选一个值,总之不是直接给出标量分数值,第三步,训练多模态大模型根据标注质量等级来训练。
在推理时,对模型为各质量等级生成的分数进行 softmax 转换成概率,作为权重加权计算出一个标量图像质量得分。
模型结构
Q-Align 的多模态大模型结构如下图所示,LLM 和 Visual Encoder 中间的 adapter 结构实际上是 Perceiver Resampler + Linear。其实,这就是 mPLUG-Owl-2 的模型结构。
总结
Q-Align 利用大模型对语言文本的理解能力,将图像质量打分工作转换为离散的质量等级词的生成,效果不错。大模型在图像质量评估方面的工作,可以关注一下 Q-Future,这个组一直深耕图像质量评估方向,在大模型时代,其发布的 Q-Bench、Q-Align 等工作都很不错。