LLaVA 简介:一种多模式 AI 模型

news2025/1/19 12:53:41

LLaVA 简介:一种多模式 AI 模型

LLaVA 是一个端到端训练的大型多模态模型,旨在根据视觉输入(图像)和文本指令理解和生成内容。它结合了视觉编码器和语言模型的功能来处理和响应多模态输入。

LLaVA 简介:一种多模式 AI 模型

图 1:LLaVA 工作原理的示例。

LLaVA 的输入和输出:连接视觉和文本领域:

LLaVA 的输入有两个方面:

  1. 视觉输入:模型可以查看和分析以提取视觉特征和上下文信息的图像。
  2. 文本指令:文本输入,可以是问题或命令,指导模型关注什么或执行关于视觉输入的什么样的任务。

LLaVA 的输出基于文本,并且可以根据任务而变化:

  1. 描述性文本:如果任务是描述视觉内容,LLaVA 可以输出图像的详细描述,识别对象、动作和场景。
  2. 问题的答案:对于问答任务,LLaVA 会生成有关视觉输入的问题的答案,可能涉及基于图像内容的推理和推断。
  3. 后续行动:对于需要采取行动的指令,例如编辑图像或检索更多信息,LLaVA 可以提供适当的文本响应,表明已采取的行动或建议应该做什么。

比较分析:LLaVa 与当代多模态模型

随着 CLIP、BLIP 和最近推出的 LLaVa 等创新技术的出现,多模态 AI 领域正在迅速发展。本小节将 LLaVa 的独特架构和方法与这些当代模型进行比较,重点介绍其优势和独特之处。

CLIP:开创性的多模式理解

CLIP(对比语言-图像预训练)是多模态人工智能的革命性进步,在各种视觉任务中提供了强大的性能。它在自然语言描述背景下理解图像的能力为该领域树立了新的标杆。CLIP 通过一种大规模预训练方法实现这一目标,该方法将图像与文本描述对齐,使模型能够对一系列视觉任务进行零样本学习。然而,CLIP 主要关注高层次上图像和文本之间的关联,本身并不具备深入推理或对话参与的能力。

BLIP:连接语言和图像感知

BLIP(引导式语言图像预训练)在 CLIP 的基础上,通过采用引导式预训练策略扩展了多模态模型的功能。这种方法通过不断从自身预测中学习来完善模型的视觉理解,有助于提高语言和视觉内容之间的一致性。BLIP 在需要更精确的视觉识别和语言理解的任务上表现出色。

相比之下,LLaVa 则采取了不同的方式,利用 GPT-4 的语言生成功能来整理其指令遵循数据。这不仅可以生成一个能够捕捉更广泛的类人交互的数据集,而且还使 LLaVa 能够进行更复杂的推理和深入的对话能力。

LLaVa 的与众不同之处:是模型架构还是其他什么?

我们认为,LLaVA 的优势主要在于其数据管理能力,而不是其架构选择。LLaVA 标志着一次重大飞跃,这主要归功于它利用 GPT-4 进行数据管理。与传统的静态数据集不同,LLaVA 使用 ChatGPT-4 生成动态、有指导意义的数据,并在各种视觉和文本场景中积极地将数据纳入训练过程。

通过使用 GPT-4,LLaVA 生成的数据集与自然语言和视觉感知非常相似,与传统的手动数据集生成方法不同。这种创新方法不仅使人工智能能够理解和推理,而且使其更接近准确反映人类智能。

LLaVa 中的数据管理策略

LLaVA 简介:一种多模式 AI 模型

图 2:一个示例来说明指令遵循数据。顶部块显示用于提示 GPT 的上下文(例如标题和框),底部块显示三种类型的响应。

大型语言和视觉助手 LLaVa 不仅因其先进的神经架构而脱颖而出,还因其突破性的数据管理方法而脱颖而出。通过利用 GPT-4,它彻底改变了传统的数据准备方法,制作了一个反映现实世界复杂性的数据集。

LLaVa 中的数据管理从图像及其对应的标题开始,然后使用 GPT-4 生成一组查询。这些查询引导 AI 以精确和相关的方式探索和描述图像内容。

为了有效地为 GPT-4 等基于文本的人工智能翻译视觉数据,LLaVa 使用字幕来提供视觉场景的不同视角,并使用边界框来提供空间背景和焦点。

  1. 对话数据:LLaVa 模仿人类互动,组织对话,让模型扮演助手,回答有关图像各个方面的问题。这些问题的范围从识别物体和动作到辨别它们的数量、位置和相对位置,确保模型能够处理具有明确答案的查询。
  2. 详细的描述性数据:LLaVa 力求全面理解图像。为了实现这一目标,它促使 GPT-4 提出问题,旨在理解图像的丰富和详细描述。这些提示鼓励模型深入研究,提供一个能够完整捕捉视觉内容精髓的叙述。
  3. 复杂推理数据:LLaVa 超越了单纯的描述,用需要分层推理过程、逻辑性和对因果关系理解的问题来挑战模型。这类数据训练模型构建合理的反应,这些反应由逻辑思维序列支持。

LLaVa 的建筑:视觉与语言的融合

LLaVa 模型整合了视觉和语言,利用以下核心组件:

LLaVA 简介:一种多模式 AI 模型

图3:LLaVA网络架构。

  1. 视觉编码器:LLaVa 架构的基础是预训练的 CLIP 视觉编码器,具体来说是 ViT-L/14 变体。该组件通过 Transformer 层处理输入图像 (Xv) 以提取特征 (Zv),使模型能够有效地理解视觉信息。
  2. 语言模型 (Vicuna):LLaVa 的语言能力依赖于 Vicuna,它是大型语言模型 (LLM) 的变体,用 fϕ 表示。Vicuna 根据输入语言指令 (Xq) 理解并生成语言响应 (Xa),补充视觉编码器的功能。
  3. 线性投影:此组件由可训练矩阵 (W) 表示,充当视觉特征 (Zv) 和语言模型的嵌入空间之间的桥梁。它将视觉特征转换为视觉标记 (Hv),并将其与语言模型的词嵌入空间对齐,以促进多模态对话

训练和微调 LLaVA:

LLaVA 的训练过程分为两阶段,每个阶段侧重于提高模型解释和响应视觉和文本数据融合的能力。

第一阶段:特征对齐的预训练

LLaVA 训练的初始阶段是特征对齐的预训练。在此阶段,模型专注于将图像中的视觉特征与语言模型中的相应文本特征对齐。这是通过将大型数据集过滤为一组精炼的图像-文本对来实现的,LLaVA 使用这些图像-文本对来学习两种模态之间的相关性。

在此阶段,视觉编码器(例如 CLIP 视觉编码器 ViT-L/14)处理图像以提取视觉特征,然后使用投影矩阵 (W) 将这些特征映射到语言模型的词嵌入空间中。LLaVA 中使用的语言模型是 Vicuna,它以强大的语言理解和生成能力而闻名。

第二阶段:端到端微调

在对齐视觉和语言特征后,LLaVA 会经历端到端微调过程。尽管保持视觉编码器的权重不变,但此阶段允许模型联合微调投影矩阵和语言模型的权重。目标是根据提供的多模态数据最大化目标答案的可能性。

此阶段对于将 LLaVA 适应特定用例场景(例如多模式聊天、科学问答等)至关重要。它确保模型不仅能在一般描述背景下理解图像,还能在被提示与图像相关的特定问题时进行复杂的对话、提供详细的解释和推理问题。

性能和基准测试:VQA 模型中的 LLaVa

LLaVA 简介:一种多模式 AI 模型

图 4:示例提示比较了 LLaVA、GPT-4、BLIP-2 和 OpenFlamingo 在理解幽默方面的视觉推理能力。BLIP-2 和 OpenFlamingo 未能遵循用户的指示。LLaVA 和 GPT-4 都解释了模因及其幽默,而 GPT-4 给出了更简洁的答案。

LLaVA-Bench (COCO) 性能洞察

LLaVA 简介:一种多模式 AI 模型

表 1:使用不同训练数据在 LLaVA-Bench (COCO) 上进行消融。

LLaVA-Bench (COCO) 提供了一个强大的框架,通过精心设计的 90 个问题来评估 LLaVA 的能力,这些问题来自 30 张选定的图像,用于对话、详细描述和复杂推理。结果如下:

  • 指令调校功效:配备指令调校后,LLaVA 对用户命令的遵守率提高了 50 多分。
  • 问题多样性的影响:虽然包含的详细而复杂的推理问题很少,但总体能力提高了 7 个百分点。这种提升还对对话式问题的回答产生了积极影响,展现了多样化训练集的好处。
  • 最佳数据组合:三种问题类型的组合带来了最高的性能飞跃,LLaVA 达到了 85.1% 的基准分数,强调了综合数据集在提高多模式 AI 能力方面的实力。

LLaVA 简介:一种多模式 AI 模型

表 2:使用 LLaVA-Bench (In-theWild) 上的相对分数比较指令遵循能力。

LLaVA 在 LLaVA-Bench 上的表现

  • 在对话任务中,LLaVA 的准确率达到了 57.3%,明显高于 BLIP-2 的 54.6%,也大大超过 OpenAI 的 Flamingo(19.3%)。
  • 在提供详细描述方面,LLaVA 得分为 52.5%,展示了其从视觉线索生成丰富、全面内容的能力。
  • 该模型的优势在复杂的推理问题上表现得最为明显,其成功率达到了 81.7%,表明其具有先进的推理和推理能力。

LLaVA 在所有类别中的总分为 67.3%,比 BLIP-2 高出 29%,比 Flamingo 高出 48%。

局限性和问题:

LLaVA 的定量评估:

使用 GPT-4 作为评判标准来评估 LLaVA 的性能,在对 AI 能力进行基准测试的框架内提出了一个微妙的挑战。一方面,GPT-4 的高级理解和生成能力使其能够批判性地评估 LLaVA 等候选模型产生的响应质量。这种评估涵盖了有用性、相关性、准确性和细节等因素,这些因素对于衡量模型对多模态数据的指令遵循能力至关重要。然而,另一方面,使用 GPT-4 作为评估评判标准引发了人们对基准测试过程公正性的担忧。

问题的关键在于,LLaVA 的数据管理过程与 GPT-4 有着根本的联系。由于 GPT-4 在训练 LLaVA 方面发挥了重要作用(通过生成模型经过微调的指令跟踪数据),因此存在循环推理的固有风险。本质上,LLaVA 可能倾向于生成与 GPT-4 训练数据中固有的模式或偏差相一致的响应。这种倾向可能会扭曲评估,导致理论上限反映与 GPT-4 方法的兼容性,而不是通用性能的真实衡量标准。

此外,依赖 GPT-4 为其评估提供全面解释会带来一定程度的主观性,这种主观性源于语言模型自身对什么是高质量响应的“理解”。这种理解是由 GPT-4 训练所用的数据集塑造的,而这些数据集可能无法完全涵盖现实世界中多模态交互的多样性和复杂性。

欢迎前往我们的公众号,资讯

创作不易,觉得不错的话,点个赞吧!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2059626.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大型语言模型(LLM)历史简介

在 DALL-E 2 中生成的图像。 介绍 当我们谈论大型语言模型 (LLM) 时,我们实际上指的是一种能够以类似人类的方式进行交流的高级软件。这些模型具有理解复杂上下文并生成连贯且具有人情味的内容的惊人能力。 如果您曾经与 AI 聊天机器人或虚拟助手聊天&#xff0c…

搜维尔科技:【研究】Haption Virtuose外科手术触觉视觉学习系统的开发和评估

Haption面临挑战 除此之外,外科医生有时会对骨组织进行非常复杂的手术,其中一个例子是人工耳蜗的手术植入。重要的是要避免神经或血管等危险结构受伤,并尽可能轻柔地进行手术。在外科医生能够安全、无差错地进行此类手术之前,需要…

WKWebView加载项目中网页的资源图片路径异常

问题原因,将含有html的文件通过如下方式引入到工程中: 这种处理方式,当应用程序变以后,引入的文件会被全部放在Resources目录下,而忽略你原本的文件路径信息。因此导致出问题。 解决方案: 采用如下方式引…

输入一个列表,返回手动反转后的新列表

import math def deverseHanshu(*nums):listAlist(nums)for i in range(0,math.ceil(len(listA)/2)): #math.ceil(3.14) #4clistA[-(i1)]listA[-(i1)]listA[i]listA[i]creturn listA print(deverseHanshu(45,3,89,45,56,2,22,10))#方法2 def getReverse(listAttr):resultList[…

第133天:内网安全-横向移动域控提权NetLogonADCSPACKDC永恒之蓝

案例一:横向移动-系统漏洞-CVE-2017-0146 这个漏洞就是大家熟悉的ms17-010,这里主要学习cs发送到msf,并且msf正向连接后续 原因是cs只能支持漏洞检测,而msf上有很多exp可以利用 注意msf不能使用4.5版本的有bug 这里还是反弹权…

国自然放榜在即!用这种方法或可抢先查询...

【SciencePub学术】本期热点 国自然 昨日国自然网站提示:系统将于8月20日12:00-12:30进行维护,请您避开该时间段使用,由此给您造成的不便,敬请谅解。 根据往年的经验,这预示着基金评审结果即将公布,应该就…

Apache Dolphinscheduler Standalone 部署教程

Standalone 仅适用于 DolphinScheduler 的快速体验. 如果你是新手,想要体验 DolphinScheduler 的功能,推荐使用Standalone方式体检。 如果你想体验更完整的功能,或者更大的任务量,推荐使用伪集群部署。如果你是在生产中使用&…

安卓开发:基础返回按钮代码

我们在大部分页面都会配一个返回按钮。虽然实现起来非常简单&#xff0c;但是很多开发者不想动这个脑筋。这边给出通用的基础代码&#xff0c;可以直接复制粘贴使用。 <androidx.appcompat.widget.Toolbarandroid:id"id/<>"android:layout_height"wra…

Java中“final、finally、finalize”三者的区别

Java中的"final"、"finally"和"finalize"是三个不同的关键字&#xff0c;它们各自有不同的用途和含义&#xff1a; 1. final - 用于声明一个变量、方法或类是不可变的。 - 被声明为final的变量一旦被初始化后&#xff0c;其值不能被改变。 …

5、并发锁机制之synchronized

并发锁机制之synchronized i/i--引起的线程安全问题分析原因分析i的JVM字节码指令i--的JVM 字节码指令结论 解决方案 synchronized的使用加锁方式使用synchronized解决之前的共享问题方式一方式二 synchronized底层实现原理分析查看synchronized的字节码指令序列重量级锁实现之…

国富基金入股的关联性与奇瑞依赖症,大昌科技业务独立性引关注

《港湾商业观察》廖紫雯 日前&#xff0c;安徽大昌科技有限公司&#xff08;以下简称&#xff1a;大昌科技&#xff09;更新招股书并完成三轮问询&#xff0c;公司冲刺深交所创业板得到进一步进展。此前&#xff0c;2023年6月&#xff0c;大昌科技IPO获深交所受理&#xff0c;…

Qt使用开发板上的按键-思维导图-学习笔记-基于正点原子阿尔法开发板

Qt使用开发板上的按键 出厂内核设备树中注册的按键 I.MX6U设备树路径为arch/arm/boot/dts/imx6ull-14x14-evk.dts 如何看这个按键的键值对应键盘中的按键 键值宏定义是在<linux/input.h>头文件中 资源简介 ALPHA 开发板的 KEY0 按键原理图 应用实例 按键注册 正点…

浅谈【网络编程】之Unix与多路复用

目录 1、Unix域协议 2、多路复用 select poll / epol 谢谢帅气美丽且优秀的你看完我的文章还要点赞、收藏加关注 没错&#xff0c;说的就是你&#xff0c;不用再怀疑&#xff01;&#xff01;&#xff01; 希望我的文章内容能对你有帮助&#xff0c;一起努力吧&#xff01;…

Spring理论知识(Ⅰ)——Spring分层结构,Spring模块数据访问与继承

1. Spring是什么&#xff1f; Spring是于2003 年兴起的一个轻量级的Java开发框架&#xff0c;由Rod Johnson在其著作Expert One-On-One J2EE Development and Design中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层…

C和C++实现互调的方法

先解释一下C和C为什么不能直接互相调用&#xff1a; C支持函数重载&#xff0c;所以在编译的时候&#xff0c;函数名会发生变化。C语言不存在这个问题。那么在调用的时候&#xff0c;C找的是变化后的函数名&#xff0c;而C语言找的是原始的函数名。所以两者不能直接调用。 举个…

浅析KHD-厨帽检测算法从源码到实际应用的方案

厨帽检测算法&#xff0c;作为计算机视觉技术在食品安全领域的一项重要应用&#xff0c;其实际应用过程涉及多个方面。 厨帽检测算法主要基于深度学习技术&#xff0c;特别是卷积神经网络&#xff08;CNN&#xff09;和目标检测框架&#xff08;如YOLO、Faster RCNN等&#xff…

部署webdav工具alist

1、下载部署包&#xff08;根据自己的环境下载对应包&#xff09; #进到指定目录下 cd /usr/local #下载部署包 wget https://github.com/alist-org/alist/releases/download/v3.35.0/alist-linux-arm64.tar.gz #加压包 tar zxf alist-linux-arm64.tar.gz2、进行部署安装 # 授…

海莲花活跃木马KSRAT加密通信分析

1.概述 自2023年8月至今&#xff0c;海莲花组织多次利用KSRAT远控木马对我国发起攻击。KSRAT通过HTTP协议与C&C服务器进行通信&#xff0c;每个样本都使用了不同的URL。其心跳包采用XOR算法进行加密&#xff0c;而控制指令包和数据回传包则使用了XOR以及“XORAES-128-CBC”…

Gaussian Splatting 在 Ubuntu22.04 下部署

代码:graphdeco-inria/gaussian-splatting (github) 论文:[2308.04079] 3D Gaussian Splatting for Real-Time Radiance Field Rendering (arxiv.org) 1. 禁用自带驱动 Nouveau Ubuntu 自带的显卡驱动,是非 Nvida 官方版。在后面装 CUDA 的时候,会报驱动不兼容问题。 1.…

浅析海思 3520DNVR源代码和网络硬盘录像机NVR全套源码方案

通过海思3520D实现NVR&#xff08;网络视频录像机&#xff09;芯片方案及硬盘录像机的算法功能&#xff0c;主要依赖于海思3520D芯片的强大性能和丰富的功能特性。 基于海思3520D芯片的NVR芯片方案&#xff0c;主要实现了以下功能&#xff1a; 视频接入与存储&#xff1a; 支…