arXiv2024.8.6 | LLaVA-OneVision:Easy Visual Task Transfer

news2024/11/15 18:02:14

Comment: Project Homepage: https://llava-vl.github.io/blog/2024-08-05-llava-onevision/

论文标题:LLaVA-OneVision:Easy Visual Task Transfer

论文地址:https://arxiv.org/abs/2408.03326

GitHub:https://llava-vl.github.io/blog/llava-onevision

一、模型架构

目标:

其中Xv是视觉特征,Xq<i, Xa<i是前面对话中的指令和答案token

Visual Representations

对于高分辨率的图像,采用Higher AnyRes with Biliear Interpolation,高分辨率会带来性能提升,但是也会导致模型的token数激增,因此做了一个取舍:To strike a balance of performance and cost, we observe that the scaling of resolution is more effective than that of token numbers, and recommend an AnyRes strategy with pooling.

AnyRes策略:将图像切分为a*b个crop,每个crop大小一致,假设每个crop有T个token,视觉token数为L=(a*b+1)*T,其中的+1是原始图像resize后的整体image图。为缩减token数,设置一个阈值t,超过阈值使用双线性插值进行缩减:

不同策略:

单图:使用较大的spatila configuration (a,b) ,使用长序列表示高清晰度的图像,促进图像到视频理解更平滑的能力转移(因为视频是帧,需要处理长序列)

多图:考虑基本分辨率,消减高分辨率图对其多次裁剪。

视频:每帧采用基本分辨率,并采用双线性插值减少token数量,从而允许通过减少每帧的token考虑加入更多的帧。

二、数据

1、High-Quality Knowledge

通过优先考虑数据质量,可以最大限度地提高计算效率。从三个方面考虑:

“Re-Captioned Detailed Description Data”:使用LaVA-NeXT-34B为COCO118K,BLIP558K,CC3M,一共3.5M,

“Document / OCR Data” :利用了 UReader 数据集中的文本阅读子集,总计 100K。使用SynDOG EN/CN 。总共1.1M。

“Chinese and Language Data.” :使用原始的ShareGPT4V图像,并利用GPT-4V API生成92K image caption数据,并从 Evo-Instruct 数据集中收集了 143K。

几乎所有(占99.8%)的高质量知识数据都是合成的。

2、Visual Instruction Tuning Data

Data Collection and Curation. 从三个角度考虑:vision, instruction, and response.

Vision input:single-image,mutil-image,video

Language Instruction:  通用QA、通用OCR,文档/图表/屏幕,数学推理,语言。

Language Response: 分为free-form和fixed-form,free-form是使用gemini/GPT4V-o生成(同时保留原始答案,怎么组织?),fixed-form是收集的数据集(并手动更正)。将指令分为两类:单图场景 + 所有视觉场景,

单图数据:

视觉场景数据:

三、训练策略

三个阶段:“Language-Image Alignment” 、“High-Quality Knowledge Learning” 、“Visual Instruction Tuning” 。

四、实验

 

1、Single-Image Benchmarks

Chart, Diagram, and Document Understanding:AI2D, ChartQA , DocVQA , and InfoVQA

Perception and Multi-discipline Reasoning:MME, MMBench, and MMVet, MathVerse, MathVista , and MMM

Real-world Understanding and Visual Chat:RealworldQA , Vibe-Eval , MM-LiveBench, and LLaVA-Bench-Wilder

2、Multi-Image Benchmarks

域内与域外的评估

五、任务迁移涌现能力

1、Joint understanding of diagram and chart (Transfer from single-image to multi-image)

2、GUI for multi-modal agent (Transfer from single-image and multi-image)

3、Set-of-mark Prompting (Transfer from single-image task composition).

set-of-marks (SoM) reasoning

4、Image-to-Video Editing Instruction (Transfer from single-image and video)

5、Video-to-Video Difference (Transfer from multi-image and video)

6、Multi-camera Video Understanding in Self-driving (Transfer from single-image and multiimage to video)

7、Composed Sub-video Understanding (Transfer from multi-image to video)

8、Visual prompting in video (Task transfer from single-image to video).

9、Visual Referring in Image in Video Understanding.

llava系列依旧是简单、高效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1992428.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4岁小孩孤独症的表现

在儿童的成长过程中&#xff0c;孤独症&#xff08;也称自闭症&#xff09;的早期识别与干预至关重要。对于4岁的孩子而言&#xff0c;孤独症的表现可能已经开始显现&#xff0c;家长和教育者需保持高度敏感&#xff0c;以便及时采取措施。 社交互动障碍&#xff1a;4岁孤独症儿…

Stable Diffusion绘画 | 图生图-上传重绘蒙版

上传重绘蒙版&#xff0c;可以弥补局部重绘的缺点&#xff0c;能够更精细的修改画面中的指定区域 使用PS制作的蒙版图片为耳朵下方区域&#xff0c;可以为图片中的女生带上不同款式的耳环。 参数配置&#xff1a; 调整提示词&#xff1a; 生成图片如下所示&#xff1a; 调整提…

龙腾CMS downloadFile接口任意文件读取漏洞复现 [附POC]

文章目录 龙腾CMS downloadFile接口任意文件读取漏洞复现 [附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现龙腾CMS downloadFile接口任意文件读取漏洞复现 [附POC] 0x01 前言 免责声明:请勿利用文章内的相关技术从事非…

分享一个基于数据可视化的交通感知与车辆检测协同系统(源码、调试、LW、开题、PPT)

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人 八年开发经验&#xff0c;擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等&#xff0c;大家有这一块的问题可以一起交流&…

【SQL】产品销售分析 I

目录 题目 分析 代码 题目 销售表 Sales&#xff1a; -------------------- | Column Name | Type | -------------------- | sale_id | int | | product_id | int | | year | int | | quantity | int | | price | int | ---------------…

【省流】入网,继续更!

大家好&#xff0c;我是一名默默学习的计算机小菜菜 在几分钟前我决定继续学习计算机知识和写博客 在这之前我已经停写了很久了&#xff0c;因为我真的找不到相关工作啊啊啊&#xff0c;有点萎靡&#xff0c;经常性精神内耗&#xff0c; 而之所以我死灰复燃&#xff08;可能不…

NeRF的代码复现以及人工智能入门

&#x1f3c6;本文收录于《CSDN问答解惑-专业版》专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收…

Effective-Java-Chapter4

https://github.com/clxering/Effective-Java-3rd-edition-Chinese-English-bilingual/tree/dev/Chapter-4 准则一 减少类和成员的可访问性 如果一个方法覆盖了超类方法&#xff0c;那么它在子类中的访问级别就不能比超类 [JLS, 8.4.8.3] 更严格非零长度的数组总是可变的&am…

3、pnpm yarn npm

项目里实际上就只有这些依赖 node module 里却有很多的包 原因&#xff1a; 比如说vue&#xff0c;vue内部有依赖了其余的包。工具又依赖了别的依赖 造成的问题&#xff1a;我可以直接去用这个包&#xff0c;但是这个包在package.json中却没有看到-----幽灵依赖 那如果说别…

Python 绘图入门

数据可视化的概念及意义 数据可视化有着久远的历史&#xff0c;最早可以追溯至10世纪&#xff0c;至今已经应用和发展了数百年。不知名的天文学家是已知的最早尝试以图形方式显示全年当中太阳&#xff0c;月亮和行星的位置变化的图。 图1 数据可视化的发展历程 什么是数据可视…

就医陪诊小程序项目开发功能介绍

陪诊小程序通常是指一种通过智能手机应用程序提供陪同就医服务的平台。其主要功能可以包括 预约挂号服务&#xff1a; 用户可以通过小程序预约医院或特定科室的就诊时间&#xff0c;避免排队等待。 陪同就医&#xff1a; 提供专业的陪诊员工作&#xff0c;陪同用户到医院就诊&…

如何理解 Java 中的阻塞队列:从基础到高级的深度解析

提到阻塞队列&#xff0c;许多人脑海中会浮现出 BlockingQueue、ArrayBlockingQueue、LinkedBlockingQueue 和 SynchronousQueue。尽管这些实现看起来复杂&#xff0c;实际上阻塞队列本身的概念相对简单&#xff0c;真正挑战在于内部的 AQS&#xff08;Abstract Queuing Synchr…

javaweb_04:SpringBoot

一、SpringBoot快速入门 官网&#xff1a;https://spring.io/ spring提供了若干个子项目&#xff0c;每个项目用于完成特定的任务。 1、创建springboot工程&#xff0c;并勾选web开发相关依赖。 注意这里type要选成maven: 2、定义helloController类&#xff0c;添加方法h…

QT多语言工具实现支持生成ts文件,ts文件和xlsx文件互转

一. 工具介绍 1.如果你是Qt项目,为多语言发愁的话,看到这篇文件,恭喜你有福啦!工具截图如下:​ 2.在项目开发的过程中,尽量将所有需要翻译的文本放在一个文件中,qml翻译用一个文件,cpp用一个,如下: test.h #pragma once /******************************************…

Python:jupyter 模型可视化(VS)

step1:打开vs安装扩展 安装后重新启动vs 建立可视化模型 import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn import treemusic_data pd.read_csv(music.csv)Xmusic_data.drop(columns[genre]) Ymusic_data[genre]modelDecisionTreeClassifie…

吴恩达机器学习 笔记四十 寻找相关特征 协同过滤的限制

寻找相关特征&#xff1a; 要找到其他和 x(i) 相关的项&#xff0c;即找到一个 item k&#xff0c; x(k) 与 x(i) 相似。x 是一个向量&#xff0c;判断相似用的是下图中的式子 &#xff0c;即 x(k) 和 x(i) 之间的平方距离&#xff0c;有时也写成下面那种形式。 协同过滤的缺点…

openfoam中为什么一个单元用27个点表示,代表什么图形(由27个节点组成的三维立方体单元,在有限元方法(FEM)中被称为“三次立方体单元”)

问题: 近期在做openfoam项目的时候,发现openfoam中固体的点为什么一个单元用27个点表示,想着代表什么图形呢?如果以顶点表示的话好像图形就复杂了,然后查询一下资料,结果如下 解答: 在OpenFOAM中,使用27个点来表示一个单元通常指的是一种高阶单元。这种单元类型在有…

PSINS工具箱|天文导航cns和卫星导航gps的对比|MATLAB源代码

文章目录 介绍运行结果CNS观测的姿态曲线滤波后的状态曲线轨迹曲线对比三轴位置曲线误差CDF(累计概率密度函数)图像函数源码介绍 天文导航(cns)+ins组合导航和gps+ins导航的结果对比,MATLAB的源代码,基于psins工具箱。 工具箱介绍:PSINS工具箱是一个开源的惯性导航系统…

odoo17 搜索栏升级的真是太方便了

odoo&#xff11;&#xff17; 搜索栏升级的真是太方便了 几行代码&#xff0c;惊人效果 代码&#xff1a; <!-- 搜索--><record model"ir.ui.view" id"bzglsp.jiancexm_search"><field name"name">搜索</field><…

文件销毁,硬盘销毁,数据销毁,巴黎奥运会:一场GDPR大考,硬盘文件数据销毁

巴黎奥运会在使用智能设备和系统的情况下&#xff0c;如何满足欧盟严格的数据保护要求&#xff1f; 2024年夏季&#xff0c;巴黎迎来备受瞩目的奥运盛会&#xff0c;预计将吸引上百万游客到访。为保障这一全球性体育盛会的顺利进行&#xff0c;法国政府启用了一系列智能系统和…