Arxiv AI 综述列表(2024.05.27~2024.05.31) VLM

news2025/2/28 21:44:28

公众号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

每周末更新,完整版进群获取。

Q 群在群文件,VX 群每周末更新。

目录

1. An Introduction to Vision-Language Modeling

1.1 摘要

1.2 VLM 家族

1.3 训练

1.4 评估

1.5 将 VLM 扩展到视频


 

1. An Introduction to Vision-Language Modeling

1.1 摘要

随着大型语言模型(LLM)近来的流行,人们已经尝试将它们扩展到视觉领域。从拥有可视化助手指导我们穿越陌生环境到仅使用高级文本描述生成图像的生成模型,视觉语言模型(VLM)的应用将显著影响我们与技术的关系。然而,有许多挑战需要解决,以提高这些模型的可靠性。虽然语言是离散的,但视觉在一个更高维度的空间中演化,其中概念并不总是容易离散化的。为了更好地理解将视觉映射到语言背后的机制,我们介绍了这个视觉语言模型(VLM)的简介,希望能帮助任何希望进入该领域的人。首先,我们介绍了什么是 VLM,它们是如何工作的,以及如何训练它们。然后,我们介绍和讨论了评估 VLM 的方法。虽然这项工作主要集中在将图像映射到语言上,但我们也讨论了将 VLM 扩展到视频的可能性。 

1.2 VLM 家族

  • 对比训练(Contrastive training)是一种常用的策略,它使用正负样本对。VLM 在预测正样本时被训练为预测相似的表示,而在预测负样本时则被训练为预测不同的表示。
  • 掩蔽(Masking)是另一种策略,给定一个未掩盖的文本标题,可以通过重构缺失的补丁来训练 VLM。类似地,通过在标题中掩盖单词,给定一个未掩盖的图像,可以训练 VLM 来重构这些单词。
  • 生成式 VLM。尽管大多数这些方法利用中间表示或部分重构,但生成式 VLM 是以这样一种方式进行训练的:它们可以生成整个图像或非常长的标题。鉴于这些模型的性质,它们通常是训练成本最高的。
  • 预训练骨干。基于预训练骨干的 VLM 通常利用开源 LLM(如 Llama)来学习图像编码器(也可以是预训练的)与 LLM 之间的映射关系。重要的是要强调这些范例并不是相互排斥的;许多方法依赖于对比、掩盖和生成标准的混合。

1.3 训练

训练 VLM 时需要考虑的重要因素。

  • 数据。是训练 VLM 最重要的方面之一。拥有多样化和平衡的数据集对于学习能够涵盖足够概念的良好世界模型至关重要。删除大规模数据集中经常出现的重复数据也很重要,这将节省大量计算时间并减轻记忆风险。此外,修剪数据也是一个重要组成部分,因为我们希望确保标题确实与图像内容相关。最后,提高标题质量对于增强 VLM 的性能至关重要。
  • 接地(Grounding)。对 VLM 进行接地是确保 VLM 正确将单词与特定概念关联的另一个重要步骤。两种常见的接地方法利用边界框或负标题。
  • 对齐(alignment)是一个必不可少的步骤,以确保模型产生符合人类期望的答案。 

1.4 评估

评估 VLM 的不同方法。

  • 视觉问答(VQA)一直是最常见的方法之一,尽管通过精确字符串匹配比较模型和地面实况答案可能会低估模型性能。
  • 推理(Reasoning)包括给予 VLM 一个标题列表,并使其在此列表中选择最可能的一个。在这个类别中,两个流行的基准是 Winoground [Diwan等人,2022] 和 ARO [Yuksekgonul等人,2023]。
  • 对齐。密集的人类注释(Dense human annotations)可以用来评估模型将标题映射到图像正确部分的能力 [Urbanek等人,2023]。
  • 稳健性。可以使用合成数据,如PUG [Bordes等人,2023],生成不同配置的图像,以评估 VLM 对特定变化的稳健性。

1.5 将 VLM 扩展到视频

到目前为止,我们的重点已经放在了在静态视觉数据上训练和评估的 VLM 上,即图像。然而,视频数据带来了新的挑战,以及模型可能具有的新能力,例如理解物体的运动和动态,或者在空间和时间中定位物体和动作。很快,文本到视频检索、视频问答和生成等任务被认为是基本的计算机视觉任务 [Xu等,2015年,Tapaswi等,2016年,Brooks等,2024年]。

以帧速率为因素(例如,一个 24 帧每秒的视频需要 24 倍的存储/处理,如果每帧被视为一个图像),视频的时间空间挑战了存储、GPU 内存和训练。这需要在视频的 VLM 中进行权衡,例如

  • 以压缩形式的视频(例如 H.264 编码)与数据加载器中的即时视频解码器;
  • 从图像编码器初始化视频编码器;
  • 视频编码器具有空间/时间池化/掩蔽(spatial/temporal pooling/masking)机制 [Fan等,2021年,Feichtenhofer等,2022年];
  • 非端到端的 VLM(离线提取视频特征并训练模型,这些模型接受视频特征而不是像素帧作为输入)

与图像文本模型类似,早期的视频文本模型使用自监督标准从头开始训练视觉和文本成分 [Alayrac等,2016年]。但与图像模型相反,对比视频文本模型并不是首选方法,而是更偏向视频和文本的早期融合和时间对齐 [Sun等,2019年],因为在表示中更多的时间粒度比计算视频的全局表示更有趣。

最近,观察到了与图像语言模型类似的趋势,即视频语言模型:预训练的 LLM 与视频编码器对齐,增强了 LLM 对视频理解的能力。现代技术,如视觉指导调整,也常用于视频,并适应了视频。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1719016.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Semaphore信号量限制访问

文章目录 什么是Semaphore使用Semaphoreacquire函数release函数 什么是Semaphore Semaphore是一个计数信号量,用于控制同时访问特定资源的线程数量,以维护资源的访问控制和确保系统的线程安全。Semaphore可以被视为一个包含若干许可(permit&a…

网络分层与各层网络协议介绍

一.OSI七层模型 1.OSI(Open Systems Interconnection)七层模型是由国际标准化组织(ISO)提出的一种网络通信协议的参考模型,用于标准化网络通信的过程。 OSI模型将网络通信分为七个层次,每个层次负责不同的…

ChatGPT产品创意,直接出概念图

直接问,“给我一个创意点子” AI7号 它推荐我做一个智能家居植物管理系统,嗯,很小众的样子。直接让它出一张概念图吧。 像模像样,一张图太单薄了,再来5张。 呃...做了4张,下面还有每张图的说明。 你觉得怎…

SpringBoot-世界杯足球赛网站-28567

Springboot世界杯足球赛网站 摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对世界杯足球赛…

zabbix事件告警监控:如何实现对相同部件触发器告警及恢复的强关联

有一定Zabbix使用经验的小伙伴可能会发现,接收告警事件时,其中可能包含着大量不同的部件名,同一部件的事件在逻辑上具有很强关联性,理论上应保持一致的告警/恢复状态,但Zabbix默认并未对它们进行关联,直接后…

HarmonyOS鸿蒙学习笔记(27)resources目录说明

resources目录说明 目录结构目录说明base目录rawfile目录resfile目录资源组目录 参考资料 目录结构 在HarmonyOS的项目结构中,有resources目录,用于存放应用/服务所用到的资源文件,如图形、多媒体、字符串、布局文件等。关于资源文件&#x…

DAQmx Connect Terminals (VI) 信号路由作用及意义

DAQmx Connect Terminals是一个LabVIEW虚拟仪器(VI),用于配置和连接数据采集系统中的物理终端或虚拟终端。这一功能在配置复杂的数据采集(DAQ)系统时非常重要,因为它允许用户在不改变硬件连接的情况下&…

使用Spring Boot自定义注解 + AOP实现基于IP的接口限流和黑白名单

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

德人合科技——天锐绿盾内网安全管理软件 | -文档透明加密模块

天锐绿盾文档加密功能能够为各种模式的电子文档提供高强度加密保护,丰富的权限控制以及灵活的应用管理,帮助企业构建更严密的立体保密体系。 PC地址: https://isite.baidu.com/site/wjz012xr/2eae091d-1b97-4276-90bc-6757c5dfedee ————…

VSCODE 常用快捷键

快捷按键 注释 CTRL /CTRL KSHIFT ALT A取消注释 CTRL /CTRL KSHIFT ALT A搜索文件 Ctrl P移动到某一行 Ctrl g打开一个新窗口 Ctrl Shift N关闭窗口 Ctrl Shift W新建文件 Ctrl N文件间切换 Ctrl Tab全部文件搜索 Ctrl Shift F全屏 F11 打开文件出现中文乱码 文件右下角…

极验4点选逆向 JS逆向分析 最新版验证码

目录 声明! 一、请求流程分析 二、加密参数w与payload 三、参数w生成位置 四、结果展示: 原创文章,请勿转载! 本文内容仅限于安全研究,不公开具体源码。维护网络安全,人人有责。 声明! 本文章…

268 基于matlab的模拟双滑块连杆机构运动

基于matlab的模拟双滑块连杆机构运动,并绘制运动动画,连杆轨迹可视化输出,并输出杆件质心轨迹、角速度、速度变化曲线。可定义杆长、滑块速度,滑块初始位置等参数。程序已调通,可直接运行。 268 双滑块连杆机构运动 连…

Dinky DorisCDC 整库同步到 Doris

doris flinkcdc语法参考 Flink Doris Connector - Apache Doris 参考: Doris Flink DolphinScheduler Dinky 构建开源数据平台_dinky dolphinscheduler flink-CSDN博客

【SpringMVC】_SpringMVC实现用户登录

目录 1、需求分析 2、接口定义 2.1 校验接口 请求参数 响应数据 2.2 查询登录用户接口 请求参数 响应数据 4、服务器代码 5、前端代码 5.1 登录页面login.html 5.2 首页页面index.html 6、运行测试 1、需求分析 用户输入账号与密码,后端校验密码是否正确&a…

使用opencv 进行车牌位置检测的源代码

效果: 这一个车牌识别系统中的预处理函数,其主要目的是对输入的车牌图片进行一系列的图像处理操作,以便后续的车牌识别算法能够更准确地识别出车牌。 整个函数的流程是:读取图像 -> 缩放 -> 灰度化 -> 去噪 -> 边缘检测 -> 形态学操作 -> 轮廓检测 ->…

科普健康短视频:成都鼎茂宏升文化传媒公司

科普健康短视频:引领健康知识新潮流 在数字化时代的浪潮中,短视频以其短小精悍、直观易懂的特点,迅速成为大众获取信息的重要渠道。其中,科普健康短视频更是凭借其科学、权威、实用的内容,吸引了大量关注健康的观众。…

【C++ ——— 继承】

文章目录 继承的概念即定义继承概念继承定义定义格式继承关系和访问限定符继承基类成员访问方式的变化 基类对象和派生类对象的赋值转换继承中的作用域派生类中的默认成员函数继承与友元继承与静态成员菱形继承虚继承解决数据冗余和二义性的原理继承的总结继承常见笔试面试题 继…

Unity中模拟生成正态分布的一种方式

using System; using System.Collections; using System.Collections.Generic; using Unity.Mathematics; using UnityEngine;public class MathFunction : MonoBehaviour {private void Start(){//key 范围 0-99 表示 0% 到 99%Dictionary<int,uint> m new Dictionary&…

Jmeter性能测试-【关联,提取器】

新知识点 关联&#xff1a; 正则表达式提取器 边界提取器 XPath提取器 JSON提取器 梳理框架 1. Jmeter基础 定义&#xff1a;Jmeter是一个开源的性能测试工具&#xff0c;主要用于Web应用和各种服务的性能测试。 主要功能&#xff1a;可以模拟多用户并发访问&#xff0c;测…

【Python】解决Python报错:AttributeError: ‘str‘ object has no attribute ‘xxx‘

&#x1f9d1; 博主简介&#xff1a;阿里巴巴嵌入式技术专家&#xff0c;深耕嵌入式人工智能领域&#xff0c;具备多年的嵌入式硬件产品研发管理经验。 &#x1f4d2; 博客介绍&#xff1a;分享嵌入式开发领域的相关知识、经验、思考和感悟&#xff0c;欢迎关注。提供嵌入式方向…