多模态大模型调研BLIP、BLIP2、InstructBLIP

news2024/12/26 15:34:02

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
ITC:图像向量与文本向量对齐在同一特征空间
ITM:二分类任务。负样本构建:前方ITC分错的地方,在对比学习的基础上,更细粒度的对其特征。
LM:GPT的生成任务,将文本重新进行预测。

BLIP另一个贡献在于弱监督图文数据清洗方面,通过训练模型剔除了图文匹配度差以及对部分图文生成了更好的文本标注。

在这里插入图片描述
在这里插入图片描述

BLIP2
分两个阶段进行操作,首先是训练表征学习器。

在这里插入图片描述
Q-Former:桥梁,要训练的参数,将表征向量与文本向量进行对齐。
在这里插入图片描述
Learned Queries:可以学习的矩阵,不是我们输入的。
三个任务:
对比学习:更细粒度的分类
图文匹配:使用来自对比学习的负样本
图文生成:图像生成decoder。

图文匹配注意力:不存在遮挡,图片能看到文本,文本能看到图片。
文本生成任务注意力:存在遮挡
对比学习注意力:文本看不到图像,图像看不到文本。

在这里插入图片描述
BLIP2:微调Q-Former即可。

在这里插入图片描述

国产
在这里插入图片描述

BLIP2 +SAM
在这里插入图片描述

InstructBLIP:可以处理更复杂的视觉处理。
在这里插入图片描述
在这里插入图片描述
这张图片展示了不同任务(Tasks)下的Instruction Templates(指令模板)。这些任务包括Image Captioning(图像描述)、VQA(视觉问答),以及VQG(视觉问题生成)。表格中给出了每个任务对应的指令模板,用来生成或指导大模型执行特定任务。下面是每个部分的详细解释:

1. Image Captioning(图像描述)

任务:给定一幅图像,模型生成该图像的文字描述。

  • 指令模板中提供了许多变体,都是在要求模型描述图像内容。模板使用了类似的短语,包括:
    • “A short image caption:”(简短的图片标题)
    • “Provide a description of what is presented in the photo.”(描述图片中展示的内容)
    • “Please provide a short depiction of the picture.”(请简短描述图片)
    • “Use a few words to illustrate what is happening in the picture.”(用几句话描述图片中发生的事情)

这些指令引导模型生成图像的简要描述,主要任务是让模型理解图片的内容并生成相关文本。

2. VQA (Visual Question Answering, 视觉问答)

任务:给定一幅图像和一个问题,模型需要基于图像回答问题。

  • 指令模板使用了各种方法来呈现问题,例如:
    • “ {Question}”(图片加问题)
    • “Q: {Question} A:”(问题与回答)
    • “Given the image, answer the following question with no more than three words: {Question}”(给定图像,使用不超过三个词语回答下列问题)
    • “What is the answer to the following question? {Question}”(问题的答案是什么?)

这些模板要求模型基于图像信息回答所提出的问题,且有时会限制回答的字数。

3. VQG (Visual Question Generation, 视觉问题生成)

任务:给定一幅图像和一个答案,模型需要基于图像生成相应的问题。

  • 指令模板引导模型生成问题,指令中通常包含答案提示:
    • “Given the image, generate a question whose answer is: {Answer}. Question:”(给定图片,生成答案为{Answer}的问题)
    • “Based on the image, provide a question with the answer: {Answer}.”(基于图片,生成答案为{Answer}的问题)
    • “Taking the image into account, generate a question that has the answer: {Answer}.”(基于图片,生成答案为{Answer}的问题)

这些模板指引模型生成与图片相关的、能得到指定答案的问题,目的是测试模型生成合适问题的能力。

总结

这张表格总结了在不同任务(如图像描述、视觉问答、视觉问题生成)中,如何向大语言模型提供不同形式的指令模板。每个任务的指令稍有不同,以适应任务要求。例如,图像描述任务要求生成简短的描述,视觉问答则要求根据图像回答问题,而视觉问题生成任务则要求模型根据图像和预设答案生成问题。

这些指令模板有助于增强模型的多任务处理能力,使其能够更好地理解和执行不同的视觉相关任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2196678.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学习threejs,模拟窗户光源

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言二、🍀绘制任意字体模型…

棒球运动物体检测系统源码分享

棒球运动物体检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

应用界面编写(十四)

一. 介绍QT 接下来我们会在Qt Creater来进行界面的编写,并且在荔枝派中运行。那么我们有必要了解一下Qt到底是什么呢?它又为什么可以在荔枝派中运行呢? QT是一个跨平台的应用程序和用户界面框架,用于开发具有图形界面的软件。而…

【最新版】Stable Diffusion4.9(AI绘画)下载及安装教程(附软件安装包)!

随着技术的迭代,目前 Stable Diffusion 已经能够生成非常艺术化的图片了,完全有赶超人类的架势,已经有不少工作被这类服务替代,比如制作一个 logo 图片,画一张虚拟老婆照片,画质堪比相机。 最新 Stable Di…

日常物品实例分割系统源码&数据集分享

日常物品实例分割系统源码&数据集分享 [yolov8-seg-dyhead-DCNV3&yolov8-seg-SPPF-LSKA等50全套改进创新点发刊_一键训练教程_Web前端展示] 1.研究背景与意义 项目参考ILSVRC ImageNet Large Scale Visual Recognition Challenge 项目来源AAAI Globa…

Maven - 依赖管理

依赖配置 在pom.xml的project标签内添加dependencies标签&#xff0c;之后添加依赖配置。 <dependencies><dependency><groupId>ch.qos.logback</groupId><artifactId>logback-classic</artifactId><version>1.4.5</version>…

Acwing 记忆化搜索

Acwing 901.滑雪 输入样例&#xff1a; 5 5 1 2 3 4 5 16 17 18 19 6 15 24 25 20 7 14 23 22 21 8 13 12 11 10 9 输出样例&#xff1a; 25 实现思路&#xff1a; 状态表示f[i][j]&#xff0c;表示从点(i,j)出发的最长路径长度集合划分可分为四种情况&#xff1a;从点(i,j)出…

Mybatis框架梳理——更新中

Mybatis框架梳理 前言1.ORM2.模块划分2.1 ORM的实现2.2 SQL的映射2.3 插件机制2.4 缓存机制2.5 其他2.5.1 用到的设计模式 3. 愿景 前言 如果让我聊一聊mybatis&#xff0c;我该怎么说呢&#xff1f;开发中时时刻刻都在用它&#xff0c;此时此刻&#xff0c;脑海中却只浮现ORM框…

揭秘:ARM 工业计算机缘何替代树莓派

工业自动化、物联网以及嵌入式系统等领域对高性能、稳定可靠的计算设备的需求日益增长。国产 ARMxy工业计算机的出现&#xff0c;为这些领域带来了新的机遇和选择。特别是那些采用国产芯片如全志、瑞芯微等&#xff0c;并支持 Ubuntu 系统的工业计算机&#xff0c;展现出了令人…

微信公众号菜单栏----第⑦篇

如果你是新手小白&#xff0c;请从微信公众号开发第一篇看起&#xff1a;微信公众号开发-接口配置信息&#xff08;第①篇&#xff09;_微信公众号 接口配置信息怎么设置-CSDN博客 代码&#xff1a; <?php// 获取菜单配置数据$menuConfig array(button > array(array(…

认知战认知作战:激发认知战战术分享热情的秘诀

认知战认知作战&#xff1a;激发认知战战术分享热情的秘诀 认知战认知作战&#xff1a;激发认知战战术分享热情的秘诀 关键词&#xff1a;认知战, 认知作战, 创造独特体验, 融入社交元素, 情感共鸣策略, 分享激励机制, 战略形象塑造, 个性化内容推荐,认知作战,新质生产力,人类…

Observability:使用 OpenTelemetry 自动检测 Go 应用程序

作者&#xff1a;来自 Elastic Damien Mathieu 使用 OpenTelemetry 检测 Go 应用程序可以深入了解应用程序的性能、依赖项和错误。我们将向你展示如何使用 Docker 自动检测 Go 应用程序&#xff0c;而无需更改应用程序代码。 在快节奏的软件开发领域&#xff0c;尤其是在云原生…

网络资源模板--Android Studio 通讯录App

目录 一、项目演示 二、项目测试环境 三、项目详情​编辑 四、完整的项目源码 一、项目演示 网络资源模板--通讯录App 二、项目测试环境 三、项目详情 首页 package com.example.addressbook.activity;import androidx.appcompat.app.AppCompatActivity; import androidx.c…

Qwen变体新成员加一,英伟达训练 NVLM-D-72B 视觉大模型

今天&#xff08;2024 年 9 月 17 日&#xff09;&#xff0c;我们推出了前沿级多模态大语言模型&#xff08;LLM&#xff09;系列 NVLM 1.0&#xff0c;它在视觉语言任务上取得了最先进的结果&#xff0c;可与领先的专有模型&#xff08;如 GPT-4o&#xff09;和开放存取模型&…

2024高校网络安全管理运维赛 wp

0x00 前言 本文是关于“2024高校网络安全管理运维赛”的详细题解&#xff0c;主要针对Web、Pwn、Re、Misc以及Algorithm等多方向题目的解题过程&#xff0c;包含但不限于钓鱼邮件识别、流量分析、SQLite文件解析、ssrf、xxe等等。如有错误&#xff0c;欢迎指正。 0x01 Misc 签到…

纯干货!一个白帽子挖漏洞经验细致分享_白帽子找漏洞一天能多少

不知道是不是很多人和我一样&#xff0c;每天刷着漏洞&#xff0c;看着自己的排名一位一位的往上提升&#xff0c;但是&#xff0c;但是。总感觉怪怪的&#xff0c;为什么别人刷的漏洞都是现金&#xff0c;而自己刷的漏洞都是给库币。别人一天为什么提交那么多漏洞&#xff0c;…

winform appconfig

文章目录 添加一个appconfig配置文件的结构读取写入 这是wiform自带的配置文件&#xff0c;格式为xml 其位置在程序根目录下 添加一个appconfig 首先默认情况下&#xff0c;winform会自动创建一个名叫appconfig的配置文件&#xff0c;位于程序根目录下 如果需要手动创建更多…

【路径规划】基于球面向量的粒子群优化算法(SPSO)

摘要 本文提出了一种基于球面向量的粒子群优化算法&#xff08;Spherical Vector-based Particle Swarm Optimization, SPSO&#xff09;用于解决路径规划问题。该算法通过球面坐标系表示粒子的位置更新&#xff0c;增强了搜索空间的探索能力和全局优化性能。通过与遗传算法&a…

浅析基于双碳目标的光储充一体化电站状态评估技术

摘要&#xff1a;全国碳市场拉开了我国能源结构加速转型的大幕&#xff0c;催生了光伏、储能和新能源汽车等一批绿色产业的兴起&#xff0c;同时随着利好政策扶植和消费者的青睐&#xff0c;光伏、储能和新能源汽车市场均加快发展。但传统的充电桩和光伏电站都是分开建设&#…