SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

news2024/11/16 0:34:30

本文是LLM相关的文章,针对《SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension》的翻译。

SEED-基准:用生成理解对多模式LLM进行基准测试

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 SEED-Bench

摘要

基于强大的大型语言模型(LLM),近年来生成的多模态大型语言模型作为一个关键的研究领域,在理解和生成方面表现出了非凡的能力。在这项工作中,我们通过引入一个名为SEED Bench的基准,将MLLMs中生成理解的评估作为对生成模型进行全面评估的初步步骤。SEED Bench由19K多项选择题组成,具有准确的人工注释(比现有基准大×6),涵盖12个评估维度,包括对图像和视频模态的理解。我们开发了一个高级管道,用于生成针对特定评估维度的多项选择题,集成了自动过滤和手动验证过程。多选题具有源自人工注释的基本事实选项,可以客观有效地评估模型性能,从而消除评估过程中人工或GPT干预的需要。我们进一步评估了18个模型在所有12个维度上的性能,涵盖了空间和时间理解。通过评估结果揭示现有MLLM的局限性,我们的目标是SEED Bench为激励未来的研究提供见解。我们将推出并持续维护排行榜,为社区提供评估和调查模型能力的平台。

1 引言

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2 相关工作

3 SEED-Bench

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/855526.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【SpringBoot框架篇】33.优雅集成i18n实现国际化信息返回

文章目录 1.简介2.MessageSource配置和工具类封装2.1.配置MessageSource相关配置2.2.配置工具类2.3.测试返回国际级文本信息 3.不优雅的web调用示例(看看就行,别用)4.优雅使用示例4.1.错误响应消息枚举类4.2.ThreadLocal工具类配置4.2.1.ThreadLocal工具类数据封装4…

不再限制CPU,这才是Win11完全体的样子嘛

从 Win11 刚问世时,微软就宣称将给其许多 Win10没有也不会支持的新功能。 其中 Android 子系统的支持算得上是最期待,但结果难免有些失望的部分。 先不说使用怎么样,光是安装就困难重重。 绕过限制升级了 Win11 ,但没想到安装 W…

idea双击启动无效,idea卡顿问题

idea双击启动无效:大概率是关机时没有正确关闭idea,再次开机导致无法正常启动idea 1.通过任务管理器杀死idea进程后重启idea 2.需要修改配置 打开 (以各自电脑实际为准)C:\Program Files\JetBrains\IntelliJ IDEA 2020.3.1\bin&am…

LabVIEW使用图像处理检测显微图像中的白血病

LabVIEW使用图像处理检测显微图像中的白血病 人体最重要的部分是血液,因为它使人活着。它执行许多重要功能,例如转移氧气,二氧化碳,矿物质等。血液量不足会极大地影响新陈代谢,如果不及早治疗,这可能是非常…

接口自动化测试框架及接口测试自动化主要知识点

接口自动化测试框架: 接口测试框架:使用最流行的Requests进行接口测试接口请求构造:常见的GET/POST/PUT/HEAD等HTTP请求构造 接口测试断言:状态码、返回内容等断言JSON/XML请求:发送json\xml请求JSON/XML响应断言&…

c语言经典例题讲解(输出菱形,喝汽水问题)

目录 一、输出菱形 二、喝汽水问题 方法1:一步一步来 方法二:直接套公式 一、输出菱形 输出类似于下图的菱形: 通过分析:1、先分为上下两部分输出 2.在输出前先输出空格 3.找规律进行输出 可知,可令上半部分lin…

Python Opencv实践 - 图像属性相关

import numpy as np import cv2 as cv import matplotlib.pyplot as pltimg cv.imread("../SampleImages/pomeranian.png", cv.IMREAD_COLOR) plt.imshow(img[:,:,::-1])#像素操作 pixel img[320,370] print(pixel)#只获取蓝色通道的值 pixel_blue img[320,370,0]…

openwrt dns ssh相关问题

DHCP/DNS中 的技术叫dnsmasq 可配置hosts和 自定义挟持域名配置 image.png image.png 拦截优先级为挟持域名最高,另外需要重启服务方可生效,在系统,启动项中重启dnsmasq ssh 使用root用户SSH登录服务器出现Access Denied错误 只输入root就出现…

Python-OpenCV中的图像处理-图像金字塔

Python-OpenCV中的图像处理-图像金字塔 图像金字塔高斯金字塔拉普拉斯金字塔 金字塔图像融合 图像金字塔 同一图像的不同分辨率的子图集合,如果把最大的图像放在底部,最小的放在顶部,看起来像一座金字塔,故而得名图像金字塔。cv2…

C语言的动态分配空间C++的动态分配空间问题

动态分配空间 C:1、malloc 2、calloc C:new运算符 一 malloc malloc(): 这个函数用于分配一块指定大小的内存块,并返回一个指向该内存块的指针。语法如下: void* malloc(size_t size); 示例: int* ptr …

欧拉操作系统添加磁盘

1、查看磁盘空间 fdisk -l 2、创建新磁盘分区 fdisk /dev/vda 欢迎使用 fdisk (util-linux 2.37.2)。 更改将停留在内存中,直到您决定将更改写入磁盘。 使用写入命令前请三思。 This disk is currently in use - repartitioning is probably a bad idea. Its r…

(力扣)用两个栈实现队列

这里是栈的源代码:栈和队列的实现 当然,自己也可以写一个栈来用,对题目来说不影响,只要符合栈的特点就行。 题目: 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作(push、pop、pe…

c++(空间配置器)[32]

空间配置器 一级空间配置器 || 二级空间配置器 默认先走二级然后判断 二级空间配置器 一个指针指向start_free然后start_free向后移动,相当于哈希桶的头删和头插 8byte:切大补小 C的二级空间配置器按照8字节(或者更大的倍数)切分…

《流浪地球3》预告片流出?!网友整活竟被郭导翻牌、央视点赞!

年初《流浪地球2》掀起了一股“科幻热”,而这股热潮直至今日还只增不减。这不,一位名叫“数字生命卡兹克”的博主已经开始“整活”了!他利用AI技术,自制了《流浪地球3》的预告片,并迅速火遍全网。 更牛的是&#xff0c…

apple pencil二代值不值得买?好用的苹果平替笔推荐

自从苹果的Pencil系列问世以来,在国内电容笔市场的销量大增,而苹果的Pencil系列,其的售价更是贵的让人望而却步。现在市面上有很多平替的电容笔,都能取代苹果的Pencil,用来做笔记、做批注、写写字都绰绰有余了。在这里…

【Vue+Element-plus】记录后台首页多echart图静态页面

一、页面效果 二、完整代码 Index.vue <template><div><div><DateTime /><!-- {{username}} --></div><el-row :gutter"20"><el-col :span"8"><div class"grid-content bg-purple"><P…

Python-OpenCV中的图像处理-图像轮廓

Python-OpenCV中的图像处理-图像轮廓 轮廓什么是轮廓查找轮廓绘制轮廓 轮廓特征图像的矩轮廓面积轮廓周长&#xff08;弧长&#xff09;轮廓近似凸包轮廓边界矩形 轮廓 什么是轮廓 轮廓可以简单认为成将连续的点&#xff08;连着边界&#xff09;连在一起的曲线&#xff0c;具…

分布式 - 服务器Nginx:一小时入门系列之动静分离

文章目录 1. 动静分离的好处2. 分离静态文件3. 修改 Nginx 配置文件 1. 动静分离的好处 Apache Tocmat 严格来说是一款java EE服务器&#xff0c;主要是用来处理 servlet请求。处理css、js、图片这些静态文件的IO性能不够好&#xff0c;因此&#xff0c;将静态文件交给nginx处…

os.listdir()读取文件夹下特定命名的文件并合并保存

import pandas as pd from tqdm import tqdm import os # 合并振动信号的所有数据 path D:/code/data/Learning_set/Bearing1_1 acc_csv_files os.listdir(path)acc_data pd.DataFrame() temp_data pd.DataFrame() # 逐个读取并合并CSV文件 # tqdm的作用是显示进度条&#…

【PNC】AStar及常用规划算法原理与实现

&#x1f60f;★,:.☆(&#xffe3;▽&#xffe3;)/$:.★ &#x1f60f; 这篇文章主要介绍AStar规划算法原理与实现。 学其所用&#xff0c;用其所学。——梁启超 欢迎来到我的博客&#xff0c;一起学习&#xff0c;共同进步。 喜欢的朋友可以关注一下&#xff0c;下次更新不迷…