2024 年 5 月,上海人工智能实验室司南 OpenCompass 团队 与魔搭 ModelScope 联合推出了大模型评测平台——Compass Arena(大模型竞技场),为国内的大语言模型领域引入了一种全新的竞技模式。
今天,Compass Arena 迎来重磅更新,新增了多模态大模型竞技版块——Compass Multi-Modal Arena。在这个全新的竞技场,用户可以轻松体验和比较多款主流多模态大模型的效果,找到适合自己的多模态大模型。
Compass Multi-Modal Arena 官网:
https://opencompass.org.cn/arena?type=multimodal
ModelScope 页面:
https://modelscope.cn/studios/opencompass/CompassArena
HuggingFace 页面
https://huggingface.co/spaces/opencompass/CompassArena
OpenCompass 多模态评测工具开源链接:
https://github.com/open-compass/VLMEvalKit
目前平台已汇集了十余个主流多模态大模型,包括 InternVL2、MiniCPM-V2.5、LLaVANeXT、DeepSeek-VL 等开源模型,以及 Qwen-VL-Max、GLM-4v 等闭源模型。
平台使用方式简单,用户上传图像且输入问题后,两个不同的匿名多模态大模型会同时根据输入内容进行答案生成。在结束对话后,用户可以根据自己对生成内容质量的主观判断,自由评估并选择哪个大模型的能力更为出色。在评估完成后,用户可以看到回答问题的模型名称。
特色题库
除了支持用户自主上传问题外,平台中也内置了特色题库,可以方便用户在不便上传图像时随机使用题库中的问题测试模型能力。
在题库的构建方面,平台侧重选取了更为 "主观" 的视觉问答,而非具有明确答案的视觉感知任务(这类任务普遍可以由客观基准进行评测)。目前构建的题库问题包括 迷因理解、艺术品赏析、摄影作品赏析 等类型。
示例如下:
迷因理解
艺术品赏析
摄影作品赏析
愿景
Multi-Modal Arena 致力于构建一个开放、公平、透明的多模态大模型评估体系,用以评估多模态大模型在主观任务上的性能以及主观体验。在题库构建、用户反馈收集等层面,我们欢迎来自各个高校、企业以及社区用户的参与与贡献。
我们将基于收集到的多模态大模型匿名对战数据进行分析,并向全社区共享我们定性或定量的分析结论。同时,在收集到足够的对战数据后,我们也将清洗并开源对战数据本身以回馈社区。
参与 Compass Multi-Modal Arena 的建设
接入新的模型:
如果您有新的多模态大模型希望接入 Multi-Modal Arena 进行评估,欢迎致信 opencompass@pjlab.org.cn,我们将与您进行后续沟通。
请注意以下事项:
-
一般而言,每家厂商最多接入 1 个模型
-
如厂商希望接入 Multi-Modal Arena,需向 OpenCompass 侧提供相应的 API key 及调用方式
-
为保证榜单的科学合理,当新模型上线时,需累计到一定有效票数才会在 Arena 榜单上进行更新
接入新的题库:
为便于用户对模型进行比较,Compass Multi-Modal Arena 中内嵌了不同类型的题库,以供用户随机挑选。如您希望为题库贡献新的题目类型,也欢迎致信 opencompass@pjlab.org.cn,我们将在后续的工作中对此类贡献进行致谢。
请注意以下事项:
-
我们倾向于选择复杂、主观、或是任务导向的题目纳入题库。不倾向于选择过于简单,存在对应客观评测覆盖的题目
-
如您希望新增题库的大类 (如现有的迷因、艺术欣赏、摄影欣赏等),您需要提供至少一百对符合对应类型的图像-问题对
-
如您希望向 Multi-Modal Arena 贡献新的图像-问题对,您需要确保相应图像可被用于此类科研目的