【多模态LLM】多模态理解评测标准(图生文)

news2024/9/24 17:19:51

note

  • 评测图片识别、理解、分析、推理能力;评测多轮对话;扩大评测场景(日常生活、教育娱乐等)
  • SuperClue-V采用6个标准,即正确性、相关性、流畅性、知识延伸、输出样式多样化、多感官信息融合,来定量的评价模型在所构建的指标下的表现能力,其中正确性、相关性、流畅性这三个指标设置为基础等级,旨在区分头部模型与一般模型的能力,而知识延伸、输出样式多样化、多感官信息融合这三个指标设置为扩展等级,旨在进一步区分头部模型之间的能力

文章目录

  • note
  • 一、图生文LLM评测标准
  • 二、指标体系
    • 维度一:粗粒度视觉认知
    • 维度二:细粒度视觉认知
    • 维度三:数理逻辑分析
    • 维度四:多模态多轮回答
    • 维度五:通用场景
    • 维度六:常识问答
    • 维度七:图像OCR识别与理解
    • 维度八:中文元素理解和推理
  • 三、评估方法与思路
    • 1)测评集构建
    • 2)评分方法
    • 3)评分标准
  • Reference

一、图生文LLM评测标准

文章地址:www.CLUEbenchmarks.com/superclue_v.html
项目地址:https://github.com/CLUEbenchmark/SuperCLUE-V

在这里插入图片描述

二、指标体系

维度一:粗粒度视觉认知

该维度旨在不深入研究细节的情况下,理解和解释图像的总体特征和主题的能力。
1.图像描述:考察模型是否能准确全面的将图片所呈现的视觉能力用自然语言进行描述。
例如:请仔细观察以下图片,然后以一个摄影批评家的角度来分析这张照片。
图片

2.图像风格:考察模型对于图像的视觉表现特征的认识,这些特征包括图像的纹理、颜色、线条、形状等元素,以及它们之间的组合和布局。
例如:这张图片的主要颜色基调是什么?
图片

3.图像主题:考察模型对于图像所表达的中心思想、情感色彩的感知或认识。

例如:识别图像中女人的情绪?
中文描述:图中描述了一位失恋的女人。
图片

4.图像质量:考察模型能否处理不同分辨率和不同尺寸的图片。
例如:图片中的词语什么?
中文描述:该图是一位用户上课过程中拍下的照片,由字迹可知这应该是一个二字的中文词语。
图片
5.组合图像分析能力:考察模型能否对不同图像进行分类或挖掘组合图的主题。

例如1:下面这组系列图片描述了一个什么主题?
中文描述:图中描述了一个女孩通过悉心照顾,见证花朵从枯萎到盛开。
图片
例如2:帮我给下面这组图片生成一个朋友圈文案。

维度二:细粒度视觉认知

该维度涉及对图像的深入理解,专注于视觉内容的细节和微妙方面的考察。

1.文本理解:考察模型对于图像中出现的场景文字内容进行识别的能力。

例如:请分析这位用户在超市花了多少钱?
中文描述:图片描述的是一位用户在超市购物结束后的付款票据。
图片
2.特征定位:考察模型能否在图像中精准定位出中文prompt所指的对象。
例如:请用文本描述图片中所有的黑猫的位置。
中文描述:这张图片展示了五只猫整齐地坐在灰色台阶上,它们都静静地面向镜头,背景是浅色墙壁和门框,整个场景流露出宁静的氛围。
图片
3.对象计数:考察模型能否正确的数出中文prompt所指的对象数目。
例如:下面这张图片中一共出现了多少个橙子?
中文描述:这张图片展示了一盘新鲜的橙子,它们整齐地摆放在一个白色的圆形盘子里。每个橙子的表皮都光滑且色泽鲜艳,显示出它们的新鲜和多汁。
图片

维度三:数理逻辑分析

该维度旨在考察模型的逻辑推理能力,图像所给出的场景包括文本、表格、图形 与数学。

1.场景推理:考察模型能否根据图片中所描述的场景,通过适当的推理,正确的回答出用户提出的问题。
例如:请分析这两个男人之间的手势是友好的还是具有侵略性的?
中文描述:这张图片展示了两个人在室内进行紧张的格斗训练,一人身着黑衣裤,另一人穿灰色T恤,正在模拟拳击或自卫动作,背景中的家具和墙壁增添了场景的氛围。
图片

2.图表推理:考察模型是否具备分析图表数据的能力。
例如:请用表格描述各年级的男女比例情况,并预测该学校该专业未来男女比例分布情况。
中文描述:图中描述的是某大学各年级教育学男女生人数分布情况柱形图。
图片
3.图形推理:考察模型是否具备图形推导的能力。
例如:从所给的四个选项中,选择最合适的一个填入问号处,使之呈现一定的规律性。
中文描述:这张图片是一张逻辑推理的图示,其中包含了四个选项,每个选项都展示了一个大正方形内部带有格子,以及一个小正方形位于大正方形的角落或边缘。

图片
4.数学计算:考察模型是否具备解决基础的代数、几何等数学问题的能力。

例如:未知数x的值是多少?
中文描述:图中所示的是一道一元一次方程相关的数学问题。
图片

维度四:多模态多轮回答

多模态多轮问答:考察模型能否基于用户给出的一张图片,解决用户提出的与该图片有关的一系列问题。
例如:第1轮交互问题:“这顿晚餐的营养均衡吗?”
第2轮交互问题:“有什么建议?”
中文描述:这这是一张晚餐的图片。
图片

维度五:通用场景

1.日常生活
例如:我想要添置一个衣架,请告诉我这个衣架放置在这个房间的哪个位置比较合理?
中文描述:这张图片展示了一个现代风格的温馨舒适的卧室。卧室中央是一张大床,床单洁白无瑕,与黑色的枕头形成了鲜明的对比,床头柜摆放整齐,上面放着一盏简约的台灯和一些精致的装饰品,房间的一侧矗立着一个书架,上面整齐地摆放着各类书籍,窗户旁边是一扇半开的窗帘,整体给人一种宁静、舒适、优雅的居住体验。
图片
2.办公与数据分析

例如:请基于该图表计算该小二每日的平均销售金额。请以表格的形式输出该小二本周销售业绩最好的那三天的详细数据?
图片
3.自动驾驶场景分析

例如:请问该用户此时是否能够直接驶向右车道。

图片
4.医学影像分析
例如:请帮我判断该患者的肺部是否正常,如果不正常请分析可能的病因?
中文描述:图中所示是一位患者的肺部X光图片,从图中可见该患者的左肺有清晰可见的黑色阴影。
图片
5.手机屏幕截图理解
例如:分析一下这张图片并判断手电筒是否开启。
图片
6.笑话与互联网meme
例如:你可以解释一下这个meme吗?
图片

维度六:常识问答

1.常见动植物
例如:图中有哪些动物?
图片

2.知名IP
例如:请问该图是哪家公司的logo?
图片

3.著名地标识别

例如:请问下图描述的是中国的哪一个著名建筑,并简要介绍一下该建筑?

图片

4.名人识别与描述
例如:请从左到右依次给出这四位人物的姓名
中文描述:图中描述的是指20世纪90年代香港非常受欢迎的四位男歌星。
图片

5.食物识别与描述
例如:请识别图中有哪些水果?

图片

维度七:图像OCR识别与理解

1.文字分析:图像中出现的一些文字,模型能够结合图像中出现的文字来描述图片。
例如:请分别描述每一位老师手中所举标语的内容。
图片
2.文本理解:上传纯文本图像,模型能够根据该pdf的内容回答用户的问题。
例如:根据如下图片,请给出SuperCLUE多轮开放式通用十大数据集中文科类别有哪些类别。
图片
3.代码处理与生成:修改图中代码的bug。

例如:我的代码出现了错误,请帮我分析一下我的代码,并帮我的错误进行纠正。

图片
4.公式识别

例如:图中所示的是微积分领域中的一道求极限的问题,请识别并计算该极限。
图片

维度八:中文元素理解和推理

1.中文特定场景理解
例如:请问图中的人们在庆祝什么节日?
图片
2.中文特色知识理解
例如:请用两句诗句描述下这张图片。

中文描述:图中描述了一位用户的作品。

图片
3.中文特色文化理解
例如:这张图片描述了什么内容?
图片

三、评估方法与思路

参考SuperCLUE文生图细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。

1)测评集构建

中文prompt构建流程:1.参考现有prompt—>2.中文prompt撰写—>3.测试—>4.修改并确定中文prompt
参考当前已有工作,针对每一个维度构建专用的测评集。

2)评分方法

评估流程开始于模型与数据集的交互,模型需要基于提供的多模态信息进行理解和回应。

评估标准涵盖了理解准确性、回应相关性和推理深度等维度。

打分规则结合了定量评分与专家复核,确保评估的科学性和公正性。

此外:

自动化评分系统:引入高效的自动化评分系统,减少人工干预,提高评估效率。

动态评分机制(可选):根据模型的回答质量动态调整难度和评分,使评估更加精准。

3)评分标准

SuperClue-V采用6个标准,即正确性、相关性、流畅性、知识延伸、输出样式多样化、多感官信息融合,来定量的评价模型在所构建的指标下的表现能力,其中正确性、相关性、流畅性这三个指标设置为基础等级,旨在区分头部模型与一般模型的能力,而知识延伸、输出样式多样化、多感官信息融合这三个指标设置为扩展等级,旨在进一步区分头部模型之间的能力,各标准具体含义见下表。

在这里插入图片描述

Reference

[1] SuperCLUE-V: 中文原生多模态理解测评基准

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1976118.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一键生成专业PPT:2024年AI技术在PPT软件中的应用

不知道你毕业答辩的时候有没有做过PPT,是不是也被这个工具折磨过。没想到现在都有AI生成PPT的工具了吧?这次我就介绍几款可以轻松生成PPT的AI工具吧。 1.笔灵AIPPT 连接直达:https://ibiling.cn/ppt-zone 这个工具我最早是用它来写一些专…

Selenium自动化测试入门:浏览器多窗口切换【建议收藏】

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 有时web应用会打开多个浏览器窗口,当我们要定位新窗口中的元素时,我们需要将webDriver的handle(句柄)指定到新窗口…

一篇了解:性能测试工具——JMeter的安装

一、下载 环境要求:Java版本在8及以上。 安装链接:JMeter安装链接 下载压缩包之后解压即可。 二、配置 解压之后进入到bin目录下,双击jmeter.bat即可进入到该软件。 但是有一种更方便的方式进入jmeter软件: 复制该文件的bin文件…

MySQL操作表

文章目录 1.增加表2.查看表3.修改表修改表名:插入数据:新增一列:修改一列类型:修改列名:删掉一列: 4.删除表 1.增加表 创建表语法: CREATE TABLE table_name ( field1 datatype, field2 datat…

深入理解Kubernetes中的Pod:为什么需要Pause Pod及其核心作用

引言 在Kubernetes这一强大的容器编排系统中,Pod作为最小的部署和管理单位,扮演着至关重要的角色。本文将进一步深入探讨Pod的定义、基本概念,特别是为什么需要Pause Pod,以及Pod内部容器如何共享资源,同时解释Kubern…

从核心到边界:六边形、洋葱与COLA架构的深度解析

文章目录 1 引言2 软件架构3 架构分类4 典型的应用架构4.1 分层架构4.2 CQRS4.3 六边形架构4.4 洋葱架构4.5 DDD 5 COLA架构设计5.1 分层设计5.2 扩展设计5.3 规范设计5.3.1 组件规范5.3.2 包规范5.3.3 命名规范 6 COLA架构总览7 小结 1 引言 软件的首要技术使命:管…

转世重生之当程序员从零开始,不可错过的Jupyter Notebook的详细安装教程 ♪(^∇^*)

一、前期准备工作 😉 Jupyter Notebook是基于Python的,因此首先需要确保您的计算机上安装了Python。建议安装Python 3.7或更高版本。Python下载网站链接:Python。 pip是Python的包管理工具,用于安装和管理Python包。在大多数情况下…

进程通信(7):互斥锁(mutex)和条件变量

互斥锁(mutex)用于互斥访问临界区,只允许一个线程访问共享变量。 条件变量可以让获取互斥锁 的线程在某个条件变量上等待,直到有其他线程把他唤醒。 互斥锁和条件变量通常一起使用实现同步。 互斥锁的操作 lock(mutex); // 获取锁&#xff…

达梦数据库:链接数据库报错:无效的模式名[xxx]

目录 简介达梦数据库驱动报错信息排查原因解决 简介 1、对接达梦数据库 2、链接数据库时报错 3、达梦数据开启了大小写敏感 达梦数据库驱动 <dependency><groupId>com.dameng</groupId><artifactId>DmJdbcDriver18</artifactId><version&…

C语言程序设计-[1] 基础语法

1、字符集 字符集&#xff1a;是ASCII字符集的一个子集。 注&#xff1a;基本上就是电脑键盘可以输入的一些字符。 2、标识符 标识符&#xff1a;用来命名程序中的一些实体&#xff0c;如&#xff1a;变量、常量、函数、数组名、类型名、文件名等。由一个或多个字符组成。 —…

设计模式-六大设计原则

1、单一职责原则&#xff08;Single Responsibitity Principle&#xff09; 一个类或者模块只负责完成一个职责&#xff1b; 【实例】 上面这个类&#xff0c;当此类只是用来展示用户信息&#xff0c;则设计符合单一职责&#xff1b;当此用户的地址经常需要使用&#xff0c;比…

20240803---特征选择与稀疏学习

1.特征选择&#xff1a;在机器学习任务中&#xff0c;通过样本的特征预测样本所对应的值。 &#xff08;1&#xff09;无关特征&#xff1a;通过空气的湿度、环境的温度、风力、当地人的男女比例来预测明天是否下雨。男女比例属于无关特征。 &#xff08;2&#xff09;冗余特征…

SSM学习11:springboot基础

教学视频 黑马程序员SpringBoot3Vue3全套视频教程&#xff0c;springbootvue企业级全栈开发从基础、实战到面试一套通关 springboot基础 搭建项目 修改配置文件 修改application.yml&#xff08;后缀名不对&#xff0c;可以改成这个&#xff09;&#xff0c;配置数据库 spr…

基础实验回顾

一、虚拟机网络设定 克隆一台node1 在node1上进行网络配置 进入网卡配置目录 # 红帽9网卡配置文件目录&#xff0c;其他版本不一样 [rootlocalhost ~]# cd /etc/NetworkManager/system-connections/网卡配置文件 [rootlocalhost system-connections]# vim ens160.nmconnect…

@Value获取值和@ConfigurationProperties获取值用法及比较(springboot)

目录 1. 简介1.1 value基本用法 1.2 ConfigurationProperties基本用法 2. 使用2.1 value的使用创建application.yml创建Person.java创建Dog类写一个测试类 2.2 ConfigurationProperties的用法创建Person2.javaDog类写测试类 3. 区别3.1 松散绑定例子 3.2 SpEL主要用途特点例子 …

240803-沉侵式翻译插件配置Ollama的API实现网页及PDF文档的翻译

1. 在插件中点击Options按钮 2. 在开发者模式中启动Enable Beta Testing Features 3 在General中进行设置 ## 4. 在Expand中设置API的URL 5. Qwen&#xff1a;0.5B网页翻译效果 6. Qwen&#xff1a;0.5BPDF翻译效果 7. 参考文献 gemma - 给沉浸式翻译插件配置本地大模型o…

剪画小程序:致敬奥运举重冠军:照片变成动漫风格!

在巴黎奥运会的赛场上&#xff0c;那些奥运冠军们的身影如同璀璨星辰&#xff0c;闪耀着无尽的光芒&#xff01; 看&#xff0c;举重冠军力拔山兮气盖世&#xff0c;那坚定的眼神中透露出无畏的勇气&#xff0c;爆发的力量更是震撼人心。 借助剪画&#xff0c;将这令人心潮澎湃…

【Vue】computed计算对象不生效问题?

问题描述 最近使用vuex来管理全局状态&#xff0c;遇到了computed计算state中数据却不生效的问题。 原因分析&#xff1a; 先看vue官网示例&#xff1a; computed接收的是一个getter函数&#xff0c;但是这个getter函数是懒加载并且有缓存的&#xff0c;当计算属性最终计算…

ORACLE和PG的饭圈文化

饭圈文化: 就是FANS! 饭圈&#xff0c;网络用语中指粉丝圈子的简称&#xff0c;另外“粉丝”一词的英文单词为“fans”&#xff0c;单词fans本身由fans构成&#xff0c;s一般表示多个&#xff0c;其中的fan可以直接音译为“饭”。 [1]粉丝群体叫“饭”&#xff0c;他们组成的…

特定领域软件架构-系统架构师(三十八)

软件架构复用 有三个阶段&#xff1a; 首先构造/获取可复用的软件资产其次管理这些资产&#xff08;构件库&#xff09;最后针对这些需求&#xff0c;从这些资产中选择可复用的部分&#xff0c;满足需求应用系统。 特定领域软件架构 DSSA&#xff08;Domain Specific softwa…