【多模态LLM】多模态理解评测标准（图生文）

note

评测图片识别、理解、分析、推理能力；评测多轮对话；扩大评测场景（日常生活、教育娱乐等）
SuperClue-V采用6个标准，即正确性、相关性、流畅性、知识延伸、输出样式多样化、多感官信息融合，来定量的评价模型在所构建的指标下的表现能力，其中正确性、相关性、流畅性这三个指标设置为基础等级，旨在区分头部模型与一般模型的能力，而知识延伸、输出样式多样化、多感官信息融合这三个指标设置为扩展等级，旨在进一步区分头部模型之间的能力

文章目录

note
一、图生文LLM评测标准
二、指标体系
- 维度一：粗粒度视觉认知
- 维度二：细粒度视觉认知
- 维度三：数理逻辑分析
- 维度四：多模态多轮回答
- 维度五：通用场景
- 维度六：常识问答
- 维度七：图像OCR识别与理解
- 维度八：中文元素理解和推理
三、评估方法与思路
- 1）测评集构建
- 2）评分方法
- 3）评分标准
Reference

一、图生文LLM评测标准

文章地址：www.CLUEbenchmarks.com/superclue_v.html
项目地址：https://github.com/CLUEbenchmark/SuperCLUE-V

在这里插入图片描述

二、指标体系

维度一：粗粒度视觉认知

该维度旨在不深入研究细节的情况下，理解和解释图像的总体特征和主题的能力。
1.图像描述：考察模型是否能准确全面的将图片所呈现的视觉能力用自然语言进行描述。
例如：请仔细观察以下图片，然后以一个摄影批评家的角度来分析这张照片。
图片

2.图像风格：考察模型对于图像的视觉表现特征的认识，这些特征包括图像的纹理、颜色、线条、形状等元素，以及它们之间的组合和布局。
例如：这张图片的主要颜色基调是什么?
图片

3.图像主题：考察模型对于图像所表达的中心思想、情感色彩的感知或认识。

例如：识别图像中女人的情绪?
中文描述：图中描述了一位失恋的女人。
图片

4.图像质量：考察模型能否处理不同分辨率和不同尺寸的图片。
例如：图片中的词语什么？
中文描述：该图是一位用户上课过程中拍下的照片，由字迹可知这应该是一个二字的中文词语。
图片
5.组合图像分析能力：考察模型能否对不同图像进行分类或挖掘组合图的主题。

例如1：下面这组系列图片描述了一个什么主题?
中文描述：图中描述了一个女孩通过悉心照顾，见证花朵从枯萎到盛开。
图片
例如2：帮我给下面这组图片生成一个朋友圈文案。

维度二：细粒度视觉认知

该维度涉及对图像的深入理解，专注于视觉内容的细节和微妙方面的考察。

1.文本理解：考察模型对于图像中出现的场景文字内容进行识别的能力。

例如：请分析这位用户在超市花了多少钱?
中文描述：图片描述的是一位用户在超市购物结束后的付款票据。
图片
2.特征定位：考察模型能否在图像中精准定位出中文prompt所指的对象。
例如：请用文本描述图片中所有的黑猫的位置。
中文描述：这张图片展示了五只猫整齐地坐在灰色台阶上，它们都静静地面向镜头，背景是浅色墙壁和门框，整个场景流露出宁静的氛围。
图片
3.对象计数：考察模型能否正确的数出中文prompt所指的对象数目。
例如：下面这张图片中一共出现了多少个橙子？
中文描述：这张图片展示了一盘新鲜的橙子，它们整齐地摆放在一个白色的圆形盘子里。每个橙子的表皮都光滑且色泽鲜艳，显示出它们的新鲜和多汁。
图片

维度三：数理逻辑分析

该维度旨在考察模型的逻辑推理能力，图像所给出的场景包括文本、表格、图形与数学。

1.场景推理：考察模型能否根据图片中所描述的场景，通过适当的推理，正确的回答出用户提出的问题。
例如：请分析这两个男人之间的手势是友好的还是具有侵略性的？
中文描述：这张图片展示了两个人在室内进行紧张的格斗训练，一人身着黑衣裤，另一人穿灰色T恤，正在模拟拳击或自卫动作，背景中的家具和墙壁增添了场景的氛围。
图片

2.图表推理：考察模型是否具备分析图表数据的能力。
例如：请用表格描述各年级的男女比例情况，并预测该学校该专业未来男女比例分布情况。
中文描述：图中描述的是某大学各年级教育学男女生人数分布情况柱形图。
图片
3.图形推理：考察模型是否具备图形推导的能力。
例如：从所给的四个选项中，选择最合适的一个填入问号处，使之呈现一定的规律性。
中文描述：这张图片是一张逻辑推理的图示，其中包含了四个选项，每个选项都展示了一个大正方形内部带有格子，以及一个小正方形位于大正方形的角落或边缘。

图片
4.数学计算：考察模型是否具备解决基础的代数、几何等数学问题的能力。

例如：未知数x的值是多少？
中文描述：图中所示的是一道一元一次方程相关的数学问题。
图片

维度四：多模态多轮回答

多模态多轮问答：考察模型能否基于用户给出的一张图片，解决用户提出的与该图片有关的一系列问题。
例如：第1轮交互问题：“这顿晚餐的营养均衡吗？”
第2轮交互问题：“有什么建议？”
中文描述：这这是一张晚餐的图片。
图片

维度五：通用场景

1.日常生活
例如：我想要添置一个衣架，请告诉我这个衣架放置在这个房间的哪个位置比较合理？
中文描述：这张图片展示了一个现代风格的温馨舒适的卧室。卧室中央是一张大床，床单洁白无瑕，与黑色的枕头形成了鲜明的对比，床头柜摆放整齐，上面放着一盏简约的台灯和一些精致的装饰品，房间的一侧矗立着一个书架，上面整齐地摆放着各类书籍，窗户旁边是一扇半开的窗帘，整体给人一种宁静、舒适、优雅的居住体验。
图片
2.办公与数据分析

例如：请基于该图表计算该小二每日的平均销售金额。请以表格的形式输出该小二本周销售业绩最好的那三天的详细数据？
图片
3.自动驾驶场景分析

例如：请问该用户此时是否能够直接驶向右车道。

图片
4.医学影像分析
例如：请帮我判断该患者的肺部是否正常，如果不正常请分析可能的病因？
中文描述：图中所示是一位患者的肺部X光图片，从图中可见该患者的左肺有清晰可见的黑色阴影。
图片
5.手机屏幕截图理解
例如：分析一下这张图片并判断手电筒是否开启。
图片
6.笑话与互联网meme
例如：你可以解释一下这个meme吗？
图片

维度六：常识问答

1.常见动植物
例如：图中有哪些动物？
图片

2.知名IP
例如：请问该图是哪家公司的logo？
图片

3.著名地标识别

例如：请问下图描述的是中国的哪一个著名建筑，并简要介绍一下该建筑？

图片

4.名人识别与描述
例如：请从左到右依次给出这四位人物的姓名
中文描述：图中描述的是指20世纪90年代香港非常受欢迎的四位男歌星。
图片

5.食物识别与描述
例如：请识别图中有哪些水果？

图片

维度七：图像OCR识别与理解

1.文字分析：图像中出现的一些文字，模型能够结合图像中出现的文字来描述图片。
例如：请分别描述每一位老师手中所举标语的内容。
图片
2.文本理解：上传纯文本图像，模型能够根据该pdf的内容回答用户的问题。
例如：根据如下图片，请给出SuperCLUE多轮开放式通用十大数据集中文科类别有哪些类别。
图片
3.代码处理与生成：修改图中代码的bug。

例如：我的代码出现了错误，请帮我分析一下我的代码，并帮我的错误进行纠正。

图片
4.公式识别

例如：图中所示的是微积分领域中的一道求极限的问题，请识别并计算该极限。
图片

维度八：中文元素理解和推理

1.中文特定场景理解
例如：请问图中的人们在庆祝什么节日？
图片
2.中文特色知识理解
例如：请用两句诗句描述下这张图片。

中文描述：图中描述了一位用户的作品。

图片
3.中文特色文化理解
例如：这张图片描述了什么内容？
图片

三、评估方法与思路

参考SuperCLUE文生图细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

1）测评集构建

中文prompt构建流程：1.参考现有prompt—>2.中文prompt撰写—>3.测试—>4.修改并确定中文prompt
参考当前已有工作，针对每一个维度构建专用的测评集。

2）评分方法

评估流程开始于模型与数据集的交互，模型需要基于提供的多模态信息进行理解和回应。

评估标准涵盖了理解准确性、回应相关性和推理深度等维度。

打分规则结合了定量评分与专家复核，确保评估的科学性和公正性。

此外：

自动化评分系统：引入高效的自动化评分系统，减少人工干预，提高评估效率。

动态评分机制（可选）：根据模型的回答质量动态调整难度和评分，使评估更加精准。

3）评分标准

SuperClue-V采用6个标准，即正确性、相关性、流畅性、知识延伸、输出样式多样化、多感官信息融合，来定量的评价模型在所构建的指标下的表现能力，其中正确性、相关性、流畅性这三个指标设置为基础等级，旨在区分头部模型与一般模型的能力，而知识延伸、输出样式多样化、多感官信息融合这三个指标设置为扩展等级，旨在进一步区分头部模型之间的能力，各标准具体含义见下表。

在这里插入图片描述