Compass Arena 上新啦!新增双多模态模型匿名对战

news2024/12/29 10:54:32

2024 年 5 月,上海人工智能实验室司南 OpenCompass 团队 与魔搭 ModelScope 联合推出了大模型评测平台——Compass Arena(大模型竞技场),为国内的大语言模型领域引入了一种全新的竞技模式。

今天,Compass Arena 迎来重磅更新,新增了多模态大模型竞技版块——Compass Multi-Modal Arena。在这个全新的竞技场,用户可以轻松体验和比较多款主流多模态大模型的效果,找到适合自己的多模态大模型

Compass Multi-Modal Arena 官网:

https://opencompass.org.cn/arena?type=multimodal

ModelScope 页面:

https://modelscope.cn/studios/opencompass/CompassArena

HuggingFace 页面

https://huggingface.co/spaces/opencompass/CompassArena

OpenCompass 多模态评测工具开源链接:

https://github.com/open-compass/VLMEvalKit

目前平台已汇集了十余个主流多模态大模型,包括 InternVL2、MiniCPM-V2.5、LLaVANeXT、DeepSeek-VL 等开源模型,以及 Qwen-VL-Max、GLM-4v 等闭源模型。

平台使用方式简单,用户上传图像且输入问题后,两个不同的匿名多模态大模型会同时根据输入内容进行答案生成。在结束对话后,用户可以根据自己对生成内容质量的主观判断,自由评估并选择哪个大模型的能力更为出色。在评估完成后,用户可以看到回答问题的模型名称。

特色题库

除了支持用户自主上传问题外,平台中也内置了特色题库,可以方便用户在不便上传图像时随机使用题库中的问题测试模型能力。

在题库的构建方面,平台侧重选取了更为 "主观" 的视觉问答,而非具有明确答案的视觉感知任务(这类任务普遍可以由客观基准进行评测)。目前构建的题库问题包括 迷因理解、艺术品赏析、摄影作品赏析 等类型。

示例如下:

迷因理解

 艺术品赏析

 摄影作品赏析

愿景

Multi-Modal Arena 致力于构建一个开放、公平、透明的多模态大模型评估体系,用以评估多模态大模型在主观任务上的性能以及主观体验。在题库构建、用户反馈收集等层面,我们欢迎来自各个高校、企业以及社区用户的参与与贡献。

我们将基于收集到的多模态大模型匿名对战数据进行分析,并向全社区共享我们定性或定量的分析结论。同时,在收集到足够的对战数据后,我们也将清洗并开源对战数据本身以回馈社区。

参与 Compass Multi-Modal Arena 的建设

接入新的模型:

如果您有新的多模态大模型希望接入 Multi-Modal Arena 进行评估,欢迎致信 opencompass@pjlab.org.cn,我们将与您进行后续沟通。

请注意以下事项:

  1. 一般而言,每家厂商最多接入 1 个模型

  2. 如厂商希望接入 Multi-Modal Arena,需向 OpenCompass 侧提供相应的 API key 及调用方式

  3. 为保证榜单的科学合理,当新模型上线时,需累计到一定有效票数才会在 Arena 榜单上进行更新

接入新的题库:

为便于用户对模型进行比较,Compass Multi-Modal Arena 中内嵌了不同类型的题库,以供用户随机挑选。如您希望为题库贡献新的题目类型,也欢迎致信 opencompass@pjlab.org.cn,我们将在后续的工作中对此类贡献进行致谢。

请注意以下事项:

  1. 我们倾向于选择复杂、主观、或是任务导向的题目纳入题库。不倾向于选择过于简单,存在对应客观评测覆盖的题目

  2. 如您希望新增题库的大类 (如现有的迷因、艺术欣赏、摄影欣赏等),您需要提供至少一百对符合对应类型的图像-问题对

  3. 如您希望向 Multi-Modal Arena 贡献新的图像-问题对,您需要确保相应图像可被用于此类科研目的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1995496.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM知识总结(G1收集器)

文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ G1收集器 G1**(Garbage First)是一款面向服…

Mocaverse「Enter MOCALAND」上线!

我们很高兴宣布 Mocaverse 和 The Sandbox 将开展一项新合作——「Enter MOCALAND!」 继 “Into the Unknow” Game Jam 成功举办之后,我们的创作者们在此基础上创作出了近 50 款未来派多人游戏,我们很高兴能继续与社区一起庆祝共同创作&…

Redis与DataBase保持数据一致性

文章目录 1. 读取数据2. 写数据2.1 先操作缓存2.2 先操作数据库 在我们系统中缓存最常用的策略是:服务端需要同时维系DB和Cache,并且是以DB的结果为准, Cache-Aside Pattern(缓存分离模式、旁路缓存)。 1. 读取数据 当…

高质量翻译对中国移动应用在国外市场推广的影响

在移动应用的竞争格局中,打入国外市场对中国开发商来说既是机遇也是挑战。决定中国移动应用程序在海外成功的最关键因素之一是其翻译质量。高质量的翻译在有效推广该应用程序、确保其与当地用户产生共鸣,并最终推动新市场的采用和增长方面发挥着关键作用…

嵌入式全栈开发学习笔记---数据结构(广度优先算法)

目录 过程分析 代码实现 queue_maze.c 上节我们讲完了队列,本节开始学习广度优先算法! 之前我们用深度优先算法找出从迷宫出来的所有路径,本次我们要用广度优先算法找出最短路径。 过程分析 广度优先算法也叫广度优先搜索。 这种算法就相当…

Qwen2-Math 开源 AI 模型发布;阿里云推出首个域名 AI 大模型应用丨 RTE 开发者日报

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思…

vscode用快捷键一键生成vue模板

项目中有些代码模块是固定的,如下面的代码所示,为了不重复写这些相同的代码,我们可以使用快键键一键生成模板。 流程: 中文:首选项-> 用户代码片段 -> 输入框中输入vue,找到vue.json文件(没有vue.j…

如意AI健康管理开放域自然对话算法分析报告

一、算法全周期行为分析 1. 算法安全 信息内容安全:通过意图识别和实体抽取技术,确保生成的内容不涉及违法或不当信息。 信息源安全:数据采集环节采用安全措施,保护数据不被非法访问。 2. 算法监测 信息安全监测:实施实…

国产芯上运行TinyMaxi轻量级的神经网络推理库-米尔基于芯驰D9国产商显板

本篇测评由优秀测评者“短笛君”提供。 本文将介绍基于米尔电子MYD-YD9360商显板(米尔基于芯驰D9360国产开发板)的TinyMaxi轻量级的神经网络推理库方案测试。 算力测试 TinyMaix 是面向单片机的超轻量级的神经网络推理库,即 TinyML 推理库&a…

重头开始嵌入式第十六天(结构体,共用体)

目录 结构体 结构体定义 结构体初始化 结构体赋值 结构体调用 结构体大小 在 C 语言中,结构体内存对齐规则主要遵循以下原则: 共用体 共用体定义 共同体赋值,初始化 共用体大小 结构体与共用体的区别 结构体 在 C 语言中,…

vuex properties of undefined (reading ‘getters‘)

前言: 最近打算用vue 写个音乐播放器,在搞 vuex 的时候遇到一个很神奇报错;vuex 姿势练了千百次了,刚开始的时候我一直以为是代码问题,反复检查了带了,依旧报错。 Error in mounted hook: "TypeError:…

PHP全方位多功能投票小程序系统源码

🌟【全民参与,决策更精彩】全方位多功能投票小程序大揭秘!🎉 🚀 开篇引入:投票新风尚,尽在指尖 Hey小伙伴们,你是否厌倦了传统的投票方式,觉得它们既繁琐又不够灵活&am…

历代文学-技术生态-总体介绍

1. 历代文学简介 历代文学(https://literature.sinhy.com/#/literature?__c1000,微信小程序可直接搜索“历代文学”)是一个由两个人(一个后端和一个前端)开发的文学网站,是一个收录从古到今、以及古今中外…

C++之运算符重载系列深入学习:从入门到精通!

为什么需要对运算符进行重载 C预定义中的运算符的操作对象只局限于基本的内置数据类型,但是对于我们自定义的类型是没有办法操作的。但是大多时候我们需要对我们定义的类型进行类似的运算,这个时候就需要我们对这么运算符进行重新定义,赋予其…

智能家居中高性能联网通信方案,乐鑫ESP32-S3/C3无线Wi-Fi蓝牙应用

随着科技的飞速发展,智能家居已经不再是科幻小说中的概念,而是走进了千家万户的现实生活。 智能家居是广泛的系统性产品概念,以住宅为载体,运用物联网、网络通信和人工智能等技术,接收信号并判断,提供更加…

美股全线反弹,市场情绪回暖

一、市场概况 昨夜美股三大股指全线收涨,市场情绪明显回暖。道琼斯工业平均指数上涨1.76%,纳斯达克综合指数上涨2.87%,标普500指数则上涨2.3%。美债市场方面,美国十年期国债收益率上涨1.141%,报3.99%,两年…

[ Python ]使用Charles对Python程序发出的Get与Post请求抓包-解决Python程序报错问题

目录 一、前言 二、Charles 三、抓取Python请求 3.1 正常运行 3.2 程序报错 3.2.1 报错信息 3.2.2 解决方法 3.3 取消警告信息 四、总结 一、前言 在Python开发中,网络请求是常见的操作之一。无论是使用内置的urllib库还是第三方库requests,都可…

Java小白入门到实战应用教程-Scanner类及IO流讲解

Java小白入门到实战应用教程-Scanner类及IO流讲解 Scanner类 我们前面写的很多例子都是程序独自执行的,但是我们做编程写代码的目的是要实现能人和代码去交互的。 现在我们就来了解一个知识点,去实现最简单的人和程序的交互。 在java中通过Scanner类…

MySQL第3讲--数据类型和表的修改和删除

文章目录 前言数据类型数值类型整数类型浮点数和定点数 字符串类型字符类型:文本类型:二进制数据类型 日期和时间类型实例分析 表的操作添加字段修改字段删除字段修改表名删除表 DDL总结DDL数据库操作DDL表操作 前言 上一节在MySQL第2讲–关系型数据库以…

kubernetes 管理平台 Pod管理多容器 与嵌入式脚本

资源清单文件 模板与帮助信息 管理资源对象 多容器 Pod 管理多容器 Pod 自定义任务 容器保护策略 宽限期策略 Pod调度策略