LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

news2024/9/21 16:31:21

发表时间:2 Feb 2024

论文链接:https://arxiv.org/pdf/2306.17107 作者单位:Georgia Tech

Motivation指令调整增强了大型语言模型 (LLM) 与人类交互的能力。此外,最近的指令跟踪数据集包括图像作为视觉输入,收集基于图像的指令的响应。然而,当前的视觉指令调整模型不能很好地理解图像中的纹理细节

解决方法:这项工作使用文本丰富的图像(例如电影海报、书籍封面等)增强了当前的视觉指令调整管道。具体来说,我们首先使用公开可用的 OCR 工具从 LAION 数据集中收集 422K 文本丰富图像的结果(第一阶段使用)。此外,我们使用识别的文本和图像标题提示纯文本 GPT-4 以生成 16K 个对话(第二阶段使用),每个对话都包含用于文本丰富图像的问答对。

实现方式

文中用DiT作为骨架网络、RVL-CDIP数据集作为训练集训练了一个图像分类模型,对LAION-5B的图片进行了分类,把图片分为包含丰富文本信息、不包含文本信息的两部分,即把预测概率大于0.8同时满足p(watermark)<0.8 和 p(unsafe)<0.5 的图片作为一个候选集合。为了进一步清洗数据,文中随机选择了50K的图片应该是选了好多次才得到后面的422K文本信息丰富的图片),同时基于CLIP-ViT-B/32模型输出的视觉特征,把50K图片聚为100个cluster,然后把14个cluster选了出来(包含丰富文本的图片,包括海报、封面、广告、教育资料以及商标等)。

收集了两个数据集:

  1. Noisy Instruction-following Data(第一阶段使用,与 LlaVA 的 595K 预训练数据一起使用)

基于聚类模型,把422K文本信息丰富的图片划分到14个cluster里面同时为了保证样本类别均衡,每一个cluster的样本不超过52K。挑选的图片用PaddleOCR识别里面的单词,同时基于一些规则将识别的单词转换为文本,然后生成单轮的对话数据集。每一轮对话包括:从下面的表格中随机选择的指令作为输入,识别的文本作为输出。

  1. 基于GPT-4的高质量指令微调数据集(GPT-4-based Instruction-following Data)(第二阶段使用,指令微调数据集),用OCR识别的结果以及图片的caption作为GPT-4的提示词,生成高质量指令微调的数据集。 首先从生成带噪声的指令微调数据集的14个cluster中选择4个cluster,然后从每一个cluster随机选择4K图片(与上面的指令微调数据集的图片不重复),共16K图片。接下来,将OCR识别结果和图像caption作为提示词,基于GPT-4生成对话结果。生成的问题作为指令微调数据集的指令,每一个问题的答案作为输出。

模型结构和训练方式与LLaVA基本相同:

视觉编码器:CLIP-ViT-L/14 for 224*224 resolution and CLIP-ViT-L/14-336 for 336*336 文本编码器: Vicuna-13B

训练:遵循 LLaVA 的两阶段训练设计(图 3)。两个阶段的训练目标相同:generate output responses (<res>) for the input instructions (<ins>). (i) 在第一个预训练阶段,只训练投影矩阵 W 进行特征对齐。由于解码器 D 被冻结,训练可以容忍噪声数据。在预训练阶段,我们将 LlaVA 的 595K 预训练数据与我们的 422K 噪声指令跟踪数据相结合。 (ii) 第二阶段:投影矩阵 W 和语言解码器 D 在微调阶段都进行训练,我们将 16K 指令跟踪数据合并到来自 LlaVA 的 158K 指令跟踪数据中作为训练集。 请注意,视觉编码器在整个训练过程中被冻结,这可能会限制文本识别性能,因为 CLIP 是针对通用文本图像对齐进行训练的。 更好的视觉编码器或CLIP-ViT微调的选择可能会进一步有利于视觉理解能力,我们将其留待未来的工作。

实验text-based VQA datasets: ST-VQA [ 45], OCR-VQA [ 32], TextVQA [ 46 ], and DocVQA

结论使用 LAION 数据集中的文本丰富图像,我们仅使用 OCR 结果收集 422K 噪声指令跟踪示例,以及基于纯文本 GPT-4 的 16K 高质量指令跟踪数据。这两组数据被用来相应地增强 LLAVA 的预训练阶段和微调阶段。

在未来的工作中,我们鼓励探索 :

(i) 更好的图像选择标准或域重新加权策略

(ii) 更多数据高效和计算效率高的方法来增强具有多模态能力的指令跟随模型,尤其是在高分辨率场景中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1984640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从古代驿站体系看软件安全管控@安全历史04

在古代&#xff0c;车、马都很慢&#xff0c;信息传递很不顺畅&#xff0c;中央的政令又是如何传达至地方的呢&#xff1f;实际上&#xff0c;很多朝代都有专门的驿站制度&#xff0c;可以保障全国各地的信息传递&#xff0c;对于维护统治和稳定有着关键作用。 若将国家比作一个…

jvm方法返回相关指令ireturn,areturn,return等分析

正文 看图&#xff1a; 做的事情如下: 1:弹出当前的方法栈帧 2:获取上一个方法 3:从当前方法的操作数栈中获取执行结果,并推送到上一个方法的操作数栈中对应的伪代码&#xff1a; Override public void execute(Frame frame) {Thread thread frame.thread();Frame curren…

使用Go语言实现基于泛型的Jaccard相似度算法

基本原理 跳表&#xff1a; jaccard相似度&#xff1a; jaccard相似度的代码实现&#xff1a; 时间复杂度分析&#xff1a; 快速jaccard算法&#xff1a; 代码实现&#xff0c;这个要求两个集合都是有序的&#xff1a; Jaccard相似度算法的基本实现 算法&#xf…

【Rabbitmq的消息模型】

消息队列的特性 durable&#xff1a;队列持久化。如果设置持久化&#xff0c;那么无论RabbitMQ在关闭时&#xff0c;就会将队列存储到本地磁盘&#xff0c;无论宕机还是重启&#xff0c;队列也不会删除&#xff1b;如果设置不持久化&#xff0c;那么在RabbitMQ关闭时&#xff…

发送邮箱API的性能指标有哪些,如何评估?

发送邮箱API的安全性措施&#xff1f;使用邮箱API的注意事项&#xff1f; 无论是用于事务性邮件、营销邮件还是通知邮件&#xff0c;发送邮箱API的性能直接影响用户体验和业务效果。AokSend将详细探讨这些问题&#xff0c;帮助您更好地理解和优化发送邮箱API。 发送邮箱API&a…

Shodan:互联网连接设备与漏洞分析的搜索引擎

前言 在当今数字化时代&#xff0c;互联网连接设备的数量急剧增长&#xff0c;从个人设备到企业服务器再到物联网&#xff08;IoT&#xff09;设备&#xff0c;这些设备构成了我们日常生活和工作的基础。然而&#xff0c;这些设备的连接也带来了潜在的安全风险&#xff0c;因为…

【算法 02】一题学习BFS和DFS算法

一题学习BFS和DFS算法 洛谷题目解析&#xff1a;【深基18.例3】查找文献 题目背景 小K热衷于在洛谷博客上阅读文章并探索其中的知识。每篇文章都可能包含指向其他博客文章的参考文献链接。小K的求知欲非常强&#xff0c;如果他阅读了某篇文章&#xff0c;他一定会去查看这篇文…

分享一个基于微信小程序的智慧校园服务平台(源码、调试、LW、开题、PPT)

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人 八年开发经验&#xff0c;擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等&#xff0c;大家有这一块的问题可以一起交流&…

LLM可解释性的未来希望?稀疏自编码器是如何工作的,这里有一份直观说明

点击访问我的技术博客https://ai.weoknow.comhttps://ai.weoknow.com 简而言之&#xff1a;矩阵 → ReLU 激活 → 矩阵 在解释机器学习模型方面&#xff0c;稀疏自编码器&#xff08;SAE&#xff09;是一种越来越常用的工具&#xff08;虽然 SAE 在 1997 年左右就已经问世了&am…

keil工程一下子跳出来非常多错误的原因可能

1.没有选择c99编译模式 2.没有选择优化模式为编码时合适的模式 3.start文件有问题 4.路径没有引用

用模方软件做单体化建模,修图时需要用哪种软件?可以用Photoshop吗

联动单体可以用草图大师、3Dmax&#xff1b;修纹理可以联动使用Photoshop。 模方是一款针对实景三维模型的冗余碎片、水面残缺、道路不平、标牌破损、纹理拉伸模糊等共性问题研发的实景三维模型修复编辑软件。模方4.1新增自动单体化建模功能&#xff0c;支持一键自动提取房屋结…

一芯解锁「看家」新体验,航芯高性价比猫眼智能锁方案,让安全看得见!

随着智能门锁市场规模逐年递增&#xff0c;行业“内卷”也持续激烈。伴随着一路加码的功能卖点&#xff0c;智能门锁制造商正面临着产品功能芯片增多和成本优化的双重挑战。消费者不仅追求易用性、智能化和美观性&#xff0c;更期待产品具有良好的性价比。 而在智能门锁的众多…

ICML 2024 论文解析:解读量化感知的 Transformer 模型密态推理

导语&#xff1a;ICML 国际机器学习大会&#xff08;International Conference on Machine Learning&#xff0c;简称 ICML&#xff09;是机器学习领域最重要和最有影响力的学术会议之一。《Ditto: Quantization-aware Secure Inference of Transformers upon MPC&#xff08;量…

【中项】系统集成项目管理工程师-第10章 项目整合管理-10.2制订项目管理计划

前言&#xff1a;系统集成项目管理工程师专业&#xff0c;现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。 软考同样是国家人社部和工信部组织的国家级考试&#xff0c;全称为“全国计算机与软件专业技术资格&#xff08;水平&#xff09;考试”&…

【YashanDB数据库】大事务回滚导致其他操作无法执行,报错YAS-02016 no free undo blocks

问题现象 客户将一个100G的表的数据插入到另一个表中&#xff0c;使用insert into select插入数据。从第一天下午2点开始执行&#xff0c;到第二天上午10点&#xff0c;一直未执行完毕。 由于需要实施下一步操作&#xff0c;客户kill重启了数据库&#xff0c;之后数据库一直回…

《清远折叠》,数智广东第一个SPN政务专网故事

今天&#xff0c;越来越多物理世界中的产业&#xff0c;正在与数字世界完成交汇&#xff0c;改变着我们习以为常的生活方式。 比如政务专网&#xff0c;就通过一张专用网络&#xff0c;将物理世界的政府部门与城市居民&#xff0c;在数字世界中“折叠”到一起&#xff0c;让人们…

Weblogic 漏洞

1.弱口令 访问默认用户名&#xff1a;weblogic 密码&#xff1a; Oracle123 点击安装 点击上载文件 将jsp木马打包&#xff0c;改为war,上传&#xff0c;一直下一步&#xff0c;最后点完成&#xff0c;访问99/99.jsp 使用工具连接 2.CVE-2017-3506 使用工具检测&#xff0c…

static的注意事项

总结 /*** ClassName Student* author gyf* Date 2024/8/5 23:48* Version V1.0* Description : */ public class Student {String name;int age;static String tecname;// 这个this 是虚拟机默认的public void show(Student this){System.out.println(this);System.out.prin…

ASP.NET Core 基础 - Razor Pages Web 应用

目录 一. 创建项目 二. 检查项目文件 三. 添加模型 四. 添加数据 五. 基架 六. 使用数据库 七. 总结 一. 创建项目 新建项目 点击运行 二. 检查项目文件 Pages 文件夹 包含 Razor 页面和支持文件。 每个 Razor 页面都是一对文件&#xff1a; 一个 .cshtml 文件&#xf…

如何白手起家?

作者:明王 日期:2016-07-1121:19 白手起家第一步&#xff0c;不是开公司&#xff0c;是脱离原生家庭&#xff0c;白手起家第二步&#xff0c;不是开公司&#xff0c;是挑个上升行业。白手起家第三步&#xff0c;不是开公司&#xff0c;是攒启动资金&#xff0c;白手起家笔四步&…