文生图算法评价

news2025/4/6 5:58:34

1.sd_eval

stable diffusion模型评价框架_Kun Li的博客-CSDN博客文章浏览阅读418次。作者的思路我认为也是没问题，和我看法基本一致，生成式的sd不需要那么多定向的模型，提供强泛化能力的基础模型只需要几个就可以，而外挂的能力多可以通过lora、controlnet这样的工具去完成，因此评估主sd模型确实需要有一套体系，常规的一些指标确实很难衡量模型的生成能力，目前最主要的图像生成的指标还是FID/IS/Clip score，但是这些评价指标很多时候也无法充分反应图像的生成质量。1.模型的兼容性（画风，Lora，prompts等），2.生成图片的画面质量，3.模型的良图率。https://blog.csdn.net/u012193416/article/details/133243419?spm=1001.2014.3001.55012.hps

Human preference score:better aligning text-to-image models with human preference_Kun Li的博客-CSDN博客文章浏览阅读72次。提出了通过明确区分首选和非首选图像来适应生成模型，构建了另一个数据集，其中包括提示及其新生成的图像，并根据之前训练的人类偏好分类器将其分类为首选或非首选，对于非首选图像，我们通过在相应的提示前添加特殊前缀来修改它，通过lora来训练，增加了模型学习非首选图像概念的能力，其实就是dreambooth的做法，只不过这里多给了模型一个首选和非首选的图像概念，而数据集可以通过hps分类器构造。在sd的discord收集了一个关于生成图像的人类偏好数据集，用此数据集训练了一个人类偏好的评分，hps。https://blog.csdn.net/u012193416/article/details/133636351?spm=1001.2014.3001.5501Human preference score v2: a solid benchmark for evaluating human preferences of text-to-image synth-CSDN博客文章浏览阅读51次。包括了79.8w个图像对的人工比较注释，在数据集收集过程中，关注潜在的偏差问题，1.偏差来源于图像源，hpdv2包含了9个最新的文本到图像生成模型生成的图像，以及coco captions数据中的真实图像，2.文本提示偏差，用户编写的提示，例如diffusiondb中的提示，通常遵循描述加上几个样式词的组织方式，其中样式词经常包含矛盾之处，让标注着难以理解，使用chatgpt去除样式词并将提示组织成一个明确的句子。我们雇佣了57个人来标注数据，其中50人负责图像排序，7负责质量控制。hpsv2指标更高。https://blog.csdn.net/u012193416/article/details/133696308?spm=1001.2014.3001.55013.ImageReward

https://github.com/THUDM/ImageRewardhttps://github.com/THUDM/ImageReward4.PickScore

https://github.com/yuvalkirstain/pickscorehttps://github.com/yuvalkirstain/pickscore6.dalle3的测评

1.CLIP score，测评数据集是从COCO2014中选出的4096个captions，2.采用GPT4V，测评数据集是imagen中所提出的DrawBench，共包括200个不同类型的prompt，将生成的图像和对应的text送入GPT4V，让模型判定图像和text是否一致，一致就正确。3.采用T2I-CompBench，包括6000个组合类型的text prompt，选择了color binding/shape binding/texture binding测评，通过BLIP-VQA model评分。

7.beautifulprompt测评