【VLM小白指北 (1) 】An Introduction to Vision-Language Modeling

news2024/11/15 8:34:46

开一个新坑Vision-Language Modeling (VLM) ,原文76页,慢慢更,for beginners,但也不能之前啥都不会啊。

原文链接:An Introduction to Vision-Language Modeling


Introduction

  • 存在的问题:将语言与视觉相结合的问题并未完全解决。例如,大多数模型在理解空间关系或计数时仍存在困难,这需要依赖额外数据标注的复杂工程开销。许多VLM也缺乏对属性和顺序的理解。它们常常忽略输入提示的一部分,导致需要大量的提示工程努力才能产生期望的结果。有些模型还可能产生既不必要也不相关的幻觉内容。因此,开发可靠的模型仍然是研究领域的热点。

The Families of VLMs

VLM家族作者分为四类,如下:
在这里插入图片描述

  1. Contrastive:使用正负对。训练为:正例对的相似表示,负例对表示相离。
  2. Masking:通过给定未遮蔽文本标题,重建缺失图像块。同样地,通过在标题中遮蔽单词,可以训练VLM在给定未遮蔽图像的情况下重建这些单词。
  3. Generative:图生文,文生图。通常是最昂贵的训练方式。
  4. Pretrained backbones:基于Pretrained backbones的VLM通常利用开源的LLMs,如Llama,来学习图像编码器(也可能预训练)与LLM之间的映射map。

这些范式并不是相互排斥的;许多方法依赖于对比、遮蔽和生成标准的混合。


基于Transformer的VLMs早期工作

最早是LLM中的BERT表现出很好的性能,基于此,出现了结合image的visual-BERT和ViLBERT。这些模型基于两个目标进行训练:1)一个经典的mask重建任务,旨在预测给定输入中的缺失部分;2)一个句子到图像的预测任务,旨在预测一个标题是否实际描述了图像内容。


基于对比的VLMs

这里首先要对“对比学习”有一定了解。我的理解是,与NCE不同的是,InfoNCE损失不是预测二进制值,而是利用在模型表示空间中计算的距离度量,比如余弦相似度。这需要计算正对样本和所有负对样本之间的距离。该模型通过softmax学习预测在表示空间中最接近的最有可能的一对示例,同时将较低的概率与所有其他对负示例关联起来。InfoNCE损失函数:
在这里插入图片描述


InfoNCE引出了一个重要工作:CLIP

一种常用的对比方法,使用InfoNCE损失的是对比语言-图像预训练(CLIP)。正例对定义为一张image及其对应的真实标题,而负例定义为相同的image,但与之配对的是包含在mini-batch中的描述其他图像的所有其他标题。CLIP的一个新颖之处在于训练一个模型,以在共享的表示空间中融合视觉和语言。CLIP训练随机初始化的视觉和文本encoder,以使用对比损失将图像及其标题的表示映射到相似的embedding。原始的CLIP模型在网络上收集的4亿个text-image对上进行训练,展示了显著的零样本分类迁移能力。具体来说,一个ResNet-101 CLIP模型与监督式ResNet 模型(达到76.2%的零样本分类准确率)的性能相匹配,并在几个鲁棒性基准测试中超过了它。

另外两个工作:

SigLIP:与 CLIP 类似,不同之处在于它使用基于二元交叉熵的原始NCE损失,而不是使用 CLIP 基于InfoNCE的多类目标。这种改变使得 SigLIP 在小于 CLIP 的批量大小上能够实现更好的零样本性能。
Llip:潜在语言图像预训练(Llip)考虑到一张图像可以用多种不同的方式来描述。它提出通过一个交叉注意力模块,根据目标标题来条件化图像的编码。考虑标题的多样性增加了表示的表达性,并且通常提高了下游零样本迁移分类和检索性能。


具有mask的VLMs


更不动了明天再更

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2156152.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

制造解法 Manufactured Solutions 相关的论文的阅读笔记

Verification of Euler/Navier–Stokes codes using the method of manufactured solutions https://doi.org/10.1002/fld.660 粘性项与扩散项之间的平衡 For the Navier–Stokes simulations presented herein, the absolute viscosity is chosen to be a large constant va…

java8 常用操作案例【经典版】超赞!

目录 一 案例 1.1 对象转list 1.2 过滤对象 1.3 排序 1.4 匹配 1.5 最大值最小值 1.6 拼接字符串 1.7 求和 1.8 分组 1.9 分组求和 1.10 综合案例 一 案例 1.1 对象转list /*** author admin对象转map ; mapper层实体类获取,到业务层转换为DTO,* return void…

当你在Linux系统中使用MySQL命令行工具查询数据库时,如果中文显示为问号(?)或其他乱码,简单解决办法。(2)

文章目录 1、问题出现2、解决办法 1、问题出现 2、解决办法 mysql -u [username] -p --default-character-setutf8 [database_name]rootab66508d9441:/# mysql -uroot -p123456 --default-character-setutf8 tingshu_album mysql: [Warning] Using a password on the command …

【时时三省】(C语言基础)指针笔试题3

山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 笔试题3 首先创建了一个数组 数组里面放了1 2 3 4 &a取出的是数组的地址 数组地址加1 如下图 直接从1跳到了四后面 然后强制类型转换成了int* 转换成int*之…

分布式锁优化之 使用lua脚本改造分布式锁保证判断和删除的原子性(优化之LUA脚本保证删除的原子性)

文章目录 1、lua脚本入门1.1、变量:弱类型1.2、流程控制1.3、在lua中执行redis指令1.4、实战:先判断是否自己的锁,如果是才能删除 2、AlbumInfoApiController --》testLock()3、AlbumInfoServiceImpl --》testLock() 1、lua脚本入门 Lua 教程…

STM32F407单片机编程入门(十四) 内部RTC实时时钟详解及实战含源码

文章目录 一.概要二.RTC基本介绍三.STM32单片机RTC内部结构图四.CubeMX配置一个RTC时间例程五.CubeMX工程源代码下载六.小结 一.概要 RTC(Real-Time Clock)是一种用于追踪和记录实际时间的时钟系统。在STM32中,RTC通常用于提供实时时钟和日期…

【python】修改字典的内容

person {"name": "John", "age": 30, "city": "New York"} print("最开始的信息:",person)def process_person_info(person):# 检查对象中是否包含所有必要的键if name in person and age in person …

MySQL缓冲池详解

Buffer Pool 本文参考开源项目:小林coding在线文档; 01-缓冲池概述 ​ 在MySQL查询数据的时候,是通过存储引擎去磁盘做IO来获取数据库中的数据,这样每次查询一条数据都要去做一次或者多次磁盘的IO,无疑是非常慢的。…

(C++23) expected 基础使用

文章目录 ⭐前言⭐expected🎛️基础使用🎛️单子操作 (Monadic operations)🎚️and_then & or_else🎚️transform & transform_error ⭐END🌟跋🌟交流方式 ⭐前言 在 C17 中,提出了 op…

量化交易backtrader实践(二)_基础加强篇(4)_交易设置与自定义绘图

这一节我们来深入实践交易的设置以及自定义绘图。 01_交易设置 参考文档: Backtrader系列教程④:交易篇(上)_backtrader撤单操作-CSDN博客量化投资之工具篇一:Backtrader从入门到精通(8)-交易…

记软件开发者画图(UML),使用WPS应用制图

目录 前言 一、什么是UML 二、使用什么画图工具 三、示例 ​四、IntelliJ IDEA 2021快速生成UML图 前言 做软件开发的从写第一个示例程序到最后写项目程序避不开的需要设计画图,所以今天我们就来梳理一下‌UML(统一建模语言)图形需要画…

《深度学习》卷积神经网络CNN 原理及其流程解析

目录 一、CNN图像原理 1、了解图像的原理 2、举例 二、CNN图像识别 1、画面不变性 2、主要表现 1)平移不变性 2)尺度不变性 3)旋转不变性 3、传统神经网络识别 1)数据预处理 2)特征提取 3)搭建神经网…

C++基础(8.继承_多态)

目录 继承: 继承的概念: 继承的定义: 基类和派生类对象赋值转换 : 继承中的作用域: 派生类的默认成员函数: 例题: ​编辑​编辑​编辑 继承与友元: 继承与静态成员&#xff1…

图片马赛克处理(Java)

1.需求 给图片的指定区域打码给整张图片打码马赛克方格取色支持中心点取色和随机取色马赛克支持灰度处理 2.源码 package com.visy.utils;import javax.imageio.ImageIO; import java.awt.*; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOE…

Rabbitmq消息队列,安装,使用,三种工作模式

产品 消息队列技术介绍 消息队列概述 消息队列中间件是分布式系统中重要的组件,主要解决应用耦合、异步消息、流量削锋等问题。实现高性能、高可用、可伸缩和最终一致性架构。是大型分布式系统不可缺少的中间件。 目前在生产环境,使用较多的消息队列有…

基于51单片机的汽车倒车防撞报警器系统

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 本课题基于微控制器控制器, 设计一款汽车倒车防撞报警器系统。 要求: 要求:1.配有距离, 用于把车和障碍物之间的距离信号送入控制器。 2.配有报警系…

2024AI做PPT软件如何重塑演示文稿的创作

现在AI技术的发展已经可以帮我们写作、绘画,最近我发现了不少ai做ppt的工具!不体验不知道,原来合理使用AI工具可以有效的帮我们进行一些办公文件的编写,提高了不少工作效率。如果你也有这方面的需求就接着往下看吧。 1.笔灵AIPPT…

内网穿透out了?黑群晖+IPv6+NAS公网助手的访问体验

科技宅最带折腾黑群晖,这不,尝试一下ipv6动态域名解析,远程访问群晖NAS的方法千千万,这个方法我早就想到了,今天终于体验了一把,把经验分享一下: 目录 黑群晖的魅力 IPv6的加入:无…

Python办公自动化教程(003):PDF的加密

【1】代码 from PyPDF2 import PdfReader, PdfWriter# 读取PDF文件 pdf_reader PdfReader(./file/Python教程_1.pdf) pdf_writer PdfWriter()# 对第1页进行加密 page pdf_reader.pages[0]pdf_writer.add_page(page) # 设置密码 pdf_writer.encrypt(3535)with open(./file/P…

上位机图像处理和嵌入式模块部署(linux小系统开发)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 和若干年前相比较,现在嵌入式linux开发要简单得多。稍微贵一点的有树莓派,国产的有各种水果派,基本上都可以按照…