图像描述算法排位赛：SceneXplain 与 MiniGPT4 谁将夺得桂冠？

如果你对图像描述算法的未来感到好奇，本场“图像描述算法排位赛”绝对是你不能错过的！在这场较量中，SceneXplain 和 MiniGPT-4 将会比试，谁将摘得这场比赛的桂冠？

背景介绍

在上篇文章中，我们介绍了图像描述(Image Caption)，简单来说，你给模型输入一张图像，模型输出是一句能够描述图像场景的文本句子。

模型不仅要理解图片里的内容，还需要使用到自然语言来进行描述。因此它涉及到 对图像内容的理解 和 自然语言的生成。它链接了计算机视觉和自然语言处理两个领域的问题。

近年来，图像描述算法已经不止是生成简单的描述，它已经可以深入到场景分析，能够解释和解释复杂的视觉信息，并提供对图像的全面描述。

好的图像描述能够让开发者有机会完成更多有实际价值的应用，举个例子，在博物馆等领域，视障人士可以获得对艺术作品的准确描述；在电商领域，图像描述算法能够自动对数以千万的未标注图像生成描述，高效地实现分类检索。

在接下来的“图像描述算法排位赛”里，我们将会对市场上 5 种领先的图像描述算法进行全方位分析和比较。而在这场激烈的竞争中，SceneXplain 和 MiniGPT4 无疑是最新、最值得关注的两名选手。

我们的评估将重点考察这些算法的 细节度、话题度、事实准确性以及可读性，同时也会评估它们在复杂场景理解和解释方面的表现。最后的结果将为您提供权衡利弊、做出正确决策的依据。

参赛选手介绍

本次评估中选取了 5 种图像字幕算法：

SceneXplain 利用 GPT-4 等大型语言模型的强大功能为复杂的视觉内容生成复杂、详细且上下文丰富的文本描述。它致力于通过提供无与伦比的体验，在图像描述领域树立起新的基准。
MiniGPT4 把 BILP 2 的图像编码器与大型开源语言模型 Vicuna 整合起来，并且冻结了两者的大部分参数，只训练其中很少的一部分。此外，MiniGPT-4 还和 ChatGPT 合作创建了一个数据集，其中包含 3500 个高质量的图像和文本数据集来微调模型，显著提高了模型的生成可靠性和整体可用性。

Midjourney：最近发布的 /describe 功能，将图像转换为提示词(Prompt)，它能够分析图像的关键内容和图像的类型，如电影风格，油画风格等，用来激发创作者的灵感。
BLIP2：从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。它是一种通用的预训练框架，也就是说，你可以任意对接自己的模型。
CLIP Interrogator 2.1：一款专门设计给 Stable Diffusion 2.0 模型生成提示词的工具。它基于 ViT-H-14 OpenCLIP 模型，展示了图像描述领域的创新潜力。

评估指标

为了让图像描述算法的比较更加公正和全面，我们选择了一组评估指标，这些指标都非常注重生成描述的质量。我们的评估指标不仅侧重于描述的细节度、话题度和事实性，还注重描述的易读性，这样才能真正帮助我们了解每种算法的优缺点。

1. 细节度

“细节”指标关注算法是否能够准确地捕捉和描述图像中的每一处细节，并评估算法对视觉信息的理解和描述能力。通过评估生成的图像描述的粒度级别，确定算法理解和传达复杂视觉信息的能力。 alt

由 SceneXplain/Comet 给出（得分为 5）：在这个奇妙的场景中，一群人和动物聚集在一张桌子旁，参加一场愉快的茶话会。一个小女孩坐在她古怪的伙伴中间，其中包括一个穿着帽子和领结的时髦男子、一个带着好奇表情的猫和一个戴着蓝色领结的可爱兔子。桌子上摆满了茶杯和茶壶，增添了迷人的氛围。这幅迷人的插画将观众带入一个想象丰富的世界，在这里人类和拟人化的动物们聚在一起，品着热气腾腾的茶水，享受彼此的陪伴。

由 BLIP2 提供（得分为 1）：爱丽丝和兔子在茶会上的插图

2. 话题度

这个指标衡量算法在生成描述中识别和整合与当代事件、流行文化、知名人物或作品相关的内容的能力，这样的描述才能够与目标观众产生共鸣，具有吸引力。

由 SceneXplain/Bolt 给出（得分为 5）：在这个极富吸引力的画面中，小丑和蝙蝠侠正展开一场惊心动魄的对决，引起了人们的注意。小丑带着他标志性的笑容，手里拿着卡牌，和一个穿着蝙蝠侠服装的女人对時，他们之问的紧张气氛显而易见，但随着蝙蝠俠和猫女一起打牌，气氛出现了意想不到的转折。蝙蝠标志装饰在蝙蝠俠的头上，象征着他对正义的坚定。在这个耐人寻味的场景中，来自 DC 漫画的许多其他角色也出现在画面里，为它注入了一种兴奋和阴谋的感觉，让观众们坐立不安。

由 CLIP Interrogator 2.1 提供（得 1 分）：一组并排站立的漫画人物，灵感来自 Jim Lee，系列艺术，猫玩扑克，凯莉詹纳扮演猫女，头，尼尔亚当斯 | 居中

3. 事实性

Factuality 是图像描述领域中非常重要的一个指标，因为它涉及到生成描述的准确性和可信度。在生成图像描述时，算法需要考虑到图像中的各种元素，如物体、场景、颜色等，然后将这些元素转化为自然语言。如果算法生成的描述与图像不符，或包含 AI 幻觉(Hallucinations)，那么这个模型的 Factuality 分数就会降低。

由 SceneXplain/Dune 给出（得分为 5）：这张令人心碎的图像捕捉到了巴哈马卡特里娜飓风的毁灭性后果。曾经繁荣的城市景观现在是一片毁灭的景象，许多建筑物变成了废墟。鸟瞰图显示了一座受损的桥梁和一条被强大风暴破坏的道路。在废墟中，房屋变成了废墟，它们曾经坚固的结构现在只是飓风肆虐前的回忆。在这片荒凉中，大自然侵蚀了文明的残余，树木和树叶取代了一座孤零零地矗立在曾经繁华社区中的房子。这一场景尖锐地提醒人们，此类自然灾害的巨大威力和持久影响。

由 MiniGPT4 给出（得分为 1）：这张图片显示了一个沿海小镇的景色，岸边有房屋和建筑物。镇四面环水，水中有舟。这些房子是用木头建造的，有茅草屋顶。小镇四周绿树成荫，看不到人影。天空晴朗，没有云彩。该图像是从高空拍摄的，显示了整个城镇。

5. 困惑度

困惑度(Perplexity)是衡量生成文本易读性的一种指标，它与可读性密切相关，分数越低说明文本越好理解，也能说明算法提供的整体用户体验。

需要注意的是，我们没有把速度作为评估指标，因为它可能会受到 GPU 和基础设施等因素的影响，这些因素不在我们的比较范围内。我们着重关注于图像描述的质量，和对复杂场景的理解和解释的能力。

我们将使用 GPT-2 语言模型，并采用滑动窗口策略来评估一句话的困惑度。这意味着我们会反复滑动上下文窗口，以便模型在进行每个预测时具有更多的上下文信息。

为确保对每个图像字幕算法在我们选择的评估指标上的性能进行客观比较，我们实施了一个标准化的评分系统，利用外部人工标注者的专业知识。这些标注者熟悉图像字幕和场景理解领域，并受邀独立评估算法的性能。对于每个评估指标，即细节、主题相关性、Factuality 和 Perplexity，标注者在 1 到 5 的评分尺度上分配分数，其中 1 分最低，5 分最高。这种方法确保得分在各个指标上不仅一致，而且不受任何潜在偏见的影响，确保公平可靠地评估竞争算法。

为了确保公正地比较每个图像描述算法的表现，我们采用了一个标准化的评分系统，邀请了精通图像描述和场景理解领域的外部人工标注员，来独立评估算法的表现。对于这 4 个指标：细节、时事性、事实性和困惑性，每个标注者都会给出一个 1 到 5 的评分，其中 1 分最低，5 分最高。

为确保客观地在这些评估指标中比较每个图像字幕算法的性能，我们实施了一个标准化的评分系统，利用外部人工标注员的专业知识。这些精通图像字幕和场景理解领域的标注人员受邀对于四个指标中的每一个 细节、时事性、事实性和困惑性，每位标记者都会打出了一个 1 到 5 的分数，1 分最低，5 分最高。这种方法保证了分数不仅在各种指标之间保持一致，而且没有任何潜在的偏见，从而确保了对竞争算法进行公平可靠的评估。

深入分析实验结果

为了对图像描述算法进行全面并深入的评估，我们精心挑选了一组 33 张非常复杂的图像，这些图像涵盖了多种风格，包括真实场景、人工创作、油画、照片和漫画等。

我们已将评估的全部结果，包括每种算法生成的描述文本汇总在飞书表格里。感兴趣的小伙伴可以复制链接，深入地了解每个算法的表现，得出自己的结论。

表格：https://u84gxokzmi.feishu.cn/file/OLfObDxbuoYwvlxAZZvc19d7nJf

为了提供不同算法特征的更直观的可视化，我们还创建了一个雷达图，显示每个算法在各种指标上的性能。这种图形表示可以清楚地比较它们的优缺点，使读者更容易理解性能差异。为了图表看起来更清晰，雷达图没有包含(越小越好的)困惑度指标。现在，你可以根据每个算法在雷达图上的区域大小，来高效地判断出它们在细节、时事性和事实性方面的整体表现。

为了对上述实验结果展开洞察，理解影响算法表现的潜在因素，我们深入研究了图像描述和场景理解的挑战，以及不同算法性能差异背后的可能原因。