《多模态大规模语言模型基准》综述

news2024/11/15 11:03:21

论文链接:https://arxiv.org/pdf/2408.08632

MLLM:Multimodal Large Language Models

评估多模态大型语言模型(MLLMs)的重要性体现在以下几个方面:

1. 理解模型能力:通过评估,研究人员和开发者可以更好地理解MLLMs的优势和局限性。例如,某些模型可能在理解全局图像内容方面表现出色,但在理解物体间的空间关系方面则表现较差。这种理解有助于指导未来的研究和模型改进。

2. 跨领域应用:MLLMs在多个领域都有潜在的应用,包括医学、工业和自动驾驶等。通过在不同场景下评估MLLMs,可以为这些领域的实际应用提供有价值的指导,从而推动MLLMs在实际问题解决中的发展和应用。

3. 安全性和可靠性:尤其是在对安全性要求较高的领域,如医疗和自动驾驶,评估MLLMs的鲁棒性、安全性和可靠性至关重要。确保模型在面对错误输入或极端情况时仍能正常工作,对于保护用户安全和建立用户信任非常关键。

4. 性能比较和模型选择:一个全面和客观的基准测试对于比较不同MLLMs的性能至关重要。它可以帮助研究人员和企业选择最适合特定任务或应用需求的模型。

5. 指导未来设计:评估结果可以激发对未来MLLM设计的思考,推动模型架构、训练方法和应用接口的创新。

6. 用户友好性:评估MLLMs在处理长文本上下文和准确遵循指令方面的能力,有助于提高模型的用户友好性,使其更易于集成到各种应用程序中。

7. 促进技术进步:通过评估和比较不同模型,可以激发健康的竞争,推动整个领域技术的进步。

8. 伦理和社会影响:评估MLLMs在处理敏感数据和执行可能对社会产生重大影响的任务时的表现,有助于确保技术的负责任使用,避免偏见和歧视。

综述的总体目标:

通过审查当前的评估协议来提高社区对 MLLM 评估重要性的认识。

perception & understanding:从多模态数据中接收和提取特征并进行跨模态分析的能力。评估MLLM是否能够感知视觉表征、识别视觉细节、掌握图像传达的意义和情感以及正确回答相关问题。

Cognition and Reasoning:认知能力涉及处理和操纵信息以将其转化为知识,推理能力侧重于得出逻辑结论和解决问题

Specific domains:

Key capabilities:用户体验

Other modalities:包括视频、音频和3D点云

标准的MLLM框架:主要包括三个部分

视觉编码器 g 负责接收和处理视觉输入、预先训练的语言模型(用于管理接收到的多模态信号并执行推理)、视觉语言投影仪 P(充当协调两种模式的桥梁)

MLLM预训练过程:

1.预训练的目标:预训练阶段的目标是在嵌入空间中对齐不同的模态,使得语言模型能够接受来自各种模态的输入。这有助于模型在后续的任务中更好地理解和生成跨模态的信息。

2. 数据类型:预训练主要使用大规模的文本配对数据,通常是image-caption。这种数据形式可以帮助模型学习如何将视觉信息与语言描述关联起来。

3. 数据转换:image-caption对(X, Y)被扩展成单轮对话(X_instruct, X_a),其中X_instruct包含图像X_v和一个从指令集中随机抽取的问题X_q,要求助手简要描述图像;X_a是原始的图像描述。这种转换有助于模型在对话的上下文中学习图像描述。

4. 模型训练:给定这样的对话,模型被训练为自回归地预测图像描述。这是通过最大化在给定图像X_v和指令X_instruct条件下,预测图像描述X_a的概率来实现的。

5. 损失函数:使用标准的交叉熵损失函数来优化模型参数θ。

6. 避免灾难性遗忘:为了更好地对齐不同模态的知识并避免在预训练阶段发生灾难性遗忘(即模型完全忘记了之前学到的知识),模型参数θ通常只包括一个可学习的模态接口,即vision-language projector。这个接口负责将视觉信息转换为模型可以理解的语言表示。

Instruction-tuning

在模型pre-training之后,让模型针对特定任务进行微调

3.1Comprehensive Evaluation:有一系列的评价指标

3.2Fine-grained Perception:有一系列的评价指标

Visual Grounding and Object Detection:。。。。。。。

Fine-grained Identification and Recognition:

GVT-bench、MagnifierBench、视觉编码器、CV-Bench、P2GB、VisualCoT这几个都是评价的指标

Nuanced Vision-language Alignment:。。。。。。。。

3.3Image Understanding

Multi-image Understanding:

Implication Understanding:

Image Quality and Aesthetics Perception:

等等

论文中的接下来的内容,都是对上面五个类别分别的评价指标进行说明

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2084767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

攀高行为检测识别摄像机

攀高行为检测识别摄像机 是一种结合了图像识别技术和智能算法的设备,旨在监测和识别人员在高空作业中的攀高行为,及时发现潜在的安全隐患并提供预警。这种摄像机可以有效提高工作场所的安全管理水平,减少高空作业事故的发生。 攀高行为检测识…

微软CEO谈AI平台范式转移、AI发展趋势及资本市场动态

为大家整理编辑了近期微软CEO萨提亚纳德拉 (Satya Nadella)著名科技KOLBen Thompson播客采访的精华内容。 在采访中,萨提亚纳德拉 (Satya Nadella)畅谈了人工智能平台范式转移、与Open AI等合作伙伴的关系、AI未来五年的发展方向、以及资本市场的趋势。 萨提亚纳德…

VUE3生命周期钩子

生命周期 vue2的生命周期钩子 beforeCreate:开始初始化事件和生命周期,但还没有data、methods、computed、watch属性,也就是vue实例的挂载元素$el和数据对象data都为undefined,还未初始化。 created:实完成数据挂载、…

PowerBi 柱形图,数据标签无法显示在端外

如图 即使设置了“数据标签”显示“端外“,仍然不作用。 原因其实是因为Y轴的数据范围设置不当,如图,当前Y轴范围是0到自动 只需要修改为最大和最小值都是自动即可,选中0 按backspace键删除,然后,鼠标在任意…

Parade Series - 3D Modeling

FBX FBX(Filmbox)文件格式是一种广泛使用的三维模型和动画文件格式,由Autodesk开发和维护。 FBX格式支持多种3D数据类型,包括几何、材质、纹理、动画、骨骼、灯光和摄像机等;OBJ MTL OBJ文件格式是一种用于表示三维几何形状的标…

OpenAI 神秘模型「草莓」预计今秋推出,ChatGPT 将迎重大升级|TodayAI

有外媒报道指出,OpenAI 内部代号为「Strawberry(草莓)」的 AI 模型即将在今年秋季面世。这一消息引发了业内广泛关注,被认为可能会为 ChatGPT 带来今年最重要的升级。 「草莓」模型的强大能力与应用潜力 据《The Information》报…

EPLAN中绘制黑盒的具体方法

EPLAN中绘制黑盒的具体方法 对于某些电气元件没有EDZ部件库时,可以自己绘制黑盒来解决,具体方法可参考以下内容: 如下图所示,打开EPLAN软件,在项目中新建一页多线原理图, 如下图所示,点击插入----盒子/连接点/安装板--------黑盒, 设置所需的参数和属性,然后放置在图框绘制…

算法入门-深度优先搜索1

第六部分:深度优先搜索 144.二叉树的前序遍历(简单) 题目:给你二叉树的根节点 root ,返回它节点值的 前序 遍历。 示例 1: 输入:root [1,null,2,3] 输出:[1,2,3] 第一种思路&am…

AtCoder Beginner Contest 366(D~E题解)

闲来无事去vp了一下之前放假没打的比赛,感觉需要总结的也就这两题吧,a,c都是水题,b只不过是实现有一点难,并不是很难写,d是一个需要自己推的三维前缀和,e也是一种前缀和,我当时没想到…

WEB渗透Win提权篇-白名单提权

提权工具合集包(免费分享): 夸克网盘分享 往期文章 WEB渗透Win提权篇-提权工具合集-CSDN博客 WEB渗透Win提权篇-RDP&Firewall-CSDN博客 WEB渗透Win提权篇-MSSQL-CSDN博客 WEB渗透Win提权篇-MYSQL-udf-CSDN博客 WEB渗透Win提权篇-Acc…

什么是代码审查(Code Review)?它有什么好处?

代码审查(Code Review)是软件开发过程中一个至关重要的环节,它指的是团队成员之间相互检查、评估代码的过程。这一过程不仅涉及对代码质量的把控,更是提升团队整体编程能力、确保软件安全性的重要手段。在本文中,我们将…

CSRF 概念及防护机制

概述 CSRF(Cross-Site Request Forgery),即跨站请求伪造,是一种网络攻击方式。在这种攻击中,恶意用户诱导受害者在不知情的情况下执行某些操作,通常是利用受害者已经登录的身份,向受害者信任的…

我是如何在一分钟之内,不用多次交互AI,就完成了指定任务

本文背景 为什么我的AI不听话? 为什么我用AI写知乎文、视频文案、豆瓣影评、工作日报、论文、商业策划案、标书、代码都一直得不到想要的效果? 为什么我的AI生成的都是没有价值的口水文? 大象经过大量的AI实战经验,给出了这些问题…

ESP32-C3在MQTT访问时出现“Last error code reported from esp-tls: 0x8001”和问题的分析(3)

接前一篇文章:ESP32-C3在MQTT访问时出现“Last error code reported from esp-tls: 0x8001”和问题的分析(2) 上一回讲解了所遇问题log中的“esp-tls: couldnt get hostname for :iot-emqx-pre.nanshe-tech.com: getaddrinfo() returns 202, addrinfo=0x0”,再来回顾一下。…

USB:物理接口

USB:物理接口 物理接口 从高级概述角度来看,USB 的物理接口具有两个组件:线缆和连接器。这些连接器将设备连接到主机上。 一个 USB 线缆包含由一个绝缘套保护的多个组件。该绝缘套下面是一个包含了一个带有铜面的外部扩展板。 外部扩展板内包…

为什么现在人工智能大部分都用python而不是其他软件呢?

大部分人都选择使用Python而不是其他软件,主要是因为Python具有多方面的优势,这些优势使其在众多编程语言中脱颖而出,成为许多领域,特别是IT和人工智能领域的首选。以下是几个主要原因: 1. 简单易学 Python的语法简洁…

PMP备考3A的心得分享

首先,每一位报考的都会收到一份学习计划表,一定要仔细阅读这张表,并与自己的时间结合起来,看是否会有很大的冲突,如果有,那么可以找老师帮忙解决。一般来说,学习计划表的时间安排是非常恰当的&a…

下载淘宝的短视频(通过第三方插件)

目录: 1、通过插件插件下载短视频 1)获取“Microsoft Edge扩展” 2)搜索“aix智能下载器” 3)将插件钉在浏览器上 4)嗅控并下载视频 2、从其他来源安装插件 1、通过插件插件下载短视频 1)获取“M…

(二)Kafka离线安装 - Zookeeper下载及安装

一、下载 下载ZooKeeper之前,需要根据下载的Kafka版本,来确定ZooKeeper的版本。 Kafka官方地址:Apache Kafka 1、先下载源码版本,下载完后解压,在kafka-3.8.0-src\gradle目录下找到dependencies.gradle文件&#xff…

从 0 到 1 的Prompt 教程,来自Claude 官方,不会写 prompt的看这个足够

Claude 的强大,最近得到了很多网友的验证,甚至效果上面大有超越 GPT的许多声音。 所以从优秀的 Claude 中学习,将会是一个很好的起点。 这里,Claude 的开发者们提供了一个相当详细的 Prompt Engineering 教程。 这个教程能够全面…