14k字综述视觉大模型

news2025/1/23 15:05:43

目录

  • 0.导读
  • 1.背景介绍
    • 1.1基础架构
    • 1.2目标函数
      • 1.2.1对比式学习
      • 1.2.2生成式学习
    • 1.3预训练
      • 1.3.1预训练数据集
      • 1.3.2微调
      • 1.3.3提示工程
  • 2.基于文本提示的基础模型
    • 2.1基于对比学习的方法
      • 2.1.1基于通用模型的对比方法
      • 2.1.2基于视觉定位基础模型的方法
    • 2.2基于生成式的方法
    • 2.3基于对比学习和生成式的混合方法
    • 2.4基于对话式的视觉语言模型
  • 3.基于视觉提示的基础模型
    • 3.1视觉基础模型
      • 3.1.1 CLIPSeg
      • 3.1.2 SegGPT
      • 3.1.3 SAM
      • 3.1.4 SEEM
    • 3.2 SAM的改进与应用
      • SAM for Medical Segmentation
      • SAM for Tracking
      • SAM for Remote Sensing
      • SAM for Captioning
      • SAM for Mobile Applications
    • 3.3 通才模型
      • Painter
      • VisionLLM
      • Prismer
  • 4.综合性基础模型
    • 4.1基于异构架构的基础视觉模型
      • 4.1.1 CLIP 与异构模态的对齐
      • 4.1.2 学习共享表示的多模态模型
      • 4.1.3 视频和长篇幅文本的处理
    • 4.2 基于代理的基础视觉模型
      • 4.2.1 机器人操控
      • 4.2.2 持续学习者
      • 4.2.3 导航规划
  • 5.总结
  • 参考文献

0.导读

众所周知,视觉系统对于理解和推理视觉场景的组成特性至关重要。这个领域的挑战在于对象之间的复杂关系、位置、歧义、以及现实环境中的变化等。作为人类,我们可以很轻松地借助各种模态,包括但不仅限于视觉、语言、声音等来理解和感知这个世界。现如今,随着 Transformer 等关键技术的提出,以往看似独立的各个方向也逐渐紧密地联结到一起,组成了“多模态”的概念。

今天,我们主要围绕Foundational Models,即基础模型这个概念,向大家全面阐述一个崭新的视觉系统。例如,通过 SAM,我们可以轻松地通过点或框的提示来分割特定对象,而无需重新训练;通过指定图像或视频场景中感兴趣的区域,我们可以与模型进行多轮针对式的交互式对话;再如李飞飞团队最新展示的科研成果所示的那样,我们可以轻松地通过语言指令来操作机器人的行为。
在这里插入图片描述

该术语首次由Bommasani等人在《Stanford Institute for Human-Centered AI》中引入。基础模型定义为“通过自监督或半监督方式在大规模数据上训练的模型,可以适应其它多个下游任务”。

具体地,我们将一起讨论一些典型的架构设计,这些设计结合了不同的模态信息,包括视觉、文本、音频;此外,我们还将着重讨论不同的训练目标,如对比式学习和生成式学习。随后,关于一些主流的预训练数据集、微调机制以及常见的提示模式,我们也将逐一介绍。

最后,希望通过今天的学习让大家对基础模型在计算机视觉领域的发展情况,特别是在大规模训练和不同任务之间的适应性方面的最新进展有一个大致的认知。共勉。

1.背景介绍

近年来,基础模型取得了显著的成功,特别是通过大型语言模型(LLMs),主要归因于数据模型规模的大幅扩展。例如,像GPT-3这样的十亿参数模型已成功用于零/少样本学习,而无需大量的任务特定数据或模型参数更新。与此同时,有5400亿参数的Pathways Language Model(PaLM)在许多领域展现了先进的能力,包括语言理解、生成、推理和与代码相关的任务。

反观视觉领域,诸如CLIP这样的预训练视觉语言模型在不同的下游视觉任务上展现了强大的零样本泛化性能。这些模型通常使用从网络收集的数百上千万图像-文本对进行训练,并提供具有泛化和迁移能力的表示。因此,只需通过简单的自然语言描述和提示,这些预训练的基础模型完全被应用到下游任务,例如使用精心设计的提示进行零样本分类。
在这里插入图片描述

除了此类大型视觉语言基础模型外,一些研究工作也致力于开发可以通过视觉输入提示的大型基础模型。例如,最近 META 推出的 SAM 能够执行与类别无关的分割,给定图像和视觉提示(如框、点或蒙版),指定要在图像中分割的内容。这样的模型可以轻松适应特定的下游任务,如医学图像分割、视频对象分割、机器人技术遥感等。

当然,我们同样可以将多种模态一起串起来,组成更有意思的管道,如RAM+Grounding-DINO+SAM:
在这里插入图片描述
这里我们用 RAM 提取了图像的语义标签,再通过将标签输入到 Grounding-DINO 中进行开放世界检测

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/877161.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

考公-判断推理-逻辑判断

且和或 只能有一个人是我老婆,要么小红,要么小丽,不可能都是我老婆,虽然有些人心里是这么想的 虽然,但是,且 虽然我很丑,但是我很温柔 或的翻译,否一推一 例题 例题 德摩根 例题…

数据可视化工具的三大类报表制作流程分享

电脑(pc)、移动、大屏三大类型的BI数据可视化报表制作步骤基本相同,差别就在于尺寸调整和具体的报表布局。这对于采用点击、拖拉拽方式来制作报表的奥威BI数据可视化工具来说就显得特别简单。接下来,我们就一起看看不这三大类型的…

全网最全360无死角编写软件测试用例模板【建议收藏】

总体编写策略: 对于测试用例编写来说,常用的四种方法基本就够用了,等价类、边界值、正交实验法、错误推断法,辅以场景测试法、需求/设计转换法、探索式测试思想,可以应付绝大多数产品的测试。个别的产品还需要在某一点…

nestjs 基础、使用 passport 来进行鉴权

回顾一些定义 NestJS 部分 Module 模块结构 模块是一个图状引用关系。 模块的实例化有三种模式。默认情况是 singletones 模式,也就是模块可能被引用,但不同的引用处拿的是同一个共享实例,也就是说一个进程有一个唯一的实例被共享。 模块&a…

动态设备状态监测:智能化生产的关键利器

动态设备状态监测正引领着工业生产的智能化转型。本文将深入探讨动态设备状态监测的意义、PreMaint在其中的角色,以及如何实现智能化生产,提高生产效率和可靠性。 1. 动态设备状态监测的重要性 随着制造业的发展,设备的状态监测变得至关重要…

小程序制作教程:从零开始搭建企业小程序

在如今的数字化时代,企业介绍小程序成为了企业展示与推广的重要工具。通过企业介绍小程序,企业可以向用户展示自己的品牌形象、产品服务以及企业文化等内容,进而提高用户对企业的认知度和信任度。本文将介绍如何从零开始搭建一个企业介绍小程…

基于深度信念网络的西储大学轴承故障分类识别,基于EMD+DBN的西储大学轴承故障识别,LCD+DBN,LMD+DBN

目录 背影 DBN神经网络的原理 DBN神经网络的定义 受限玻尔兹曼机(RBM) (EMD,LCD,LMD)+DBN的深度信念网络的西储大学轴承故障分类识别 基本结构 主要参数 数据 MATALB代码 结果图 展望 背影 DBN是一种深度学习神经网络,拥有提取特征,非监督学习的能力,是一种非常好的分类…

都说go协程性能好,这次我们来试试java协程

java 协程原理 在Java中,协程(Coroutine)是一种轻量级的线程解决方案,它可以在代码中实现类似于多线程的并发操作,但不涉及线程的创建和切换开销。 在传统的Java多线程编程模型中,线程的切换开销较大&…

18.本地存储

18.1本地存储分类- localStorage 1.作用: 可以将数据永久存储在本地(用户的电脑),除非手动删除,否则关闭页面也会存在 2.特性: ●可以多窗口(页面)共享(同一浏览器可以共享) ●以键值对的形式存储使用,键值除了数字型都要加引号 3.语法 存…

一站式自动化测试平台-Autotestplat

3.1 自动化平台开发方案 3.1.1 功能需求 3.1.3 开发时间计划 如果是刚入门、但有一点代码基础的测试人员,大概 3 个月能做出演示版(Demo)进行自动化测试,6 个月内胜任开展工作中项目的自动化测试。 如果是有自动化测试基础的测试人员,大概 …

【C# 基础精讲】抽象类与接口

抽象类(Abstract Class)和接口(Interface)是面向对象编程中两种重要的概念,它们用于定义类的结构、行为和关系,是实现多态性、代码复用和系统设计的关键手段。在C#及其他面向对象编程语言中,抽象…

一生一芯3——ubuntu下显示器扩展

刚进ubuntu时不知道如何完成屏幕扩展,查阅后发现是显卡驱动问题,这里需要调整内置显示器的驱动 打开附加驱动 选择显卡驱动如上(其他没试过) 应用更改 -> 下载后重启 重启完成后扩展显示器上就有显示了 在设置中调整显示屏顺…

kriging-contour前端克里金插值

先看效果: 本项目在kriging-contour插件基础上进行了封装,增加了自定义区域插值,gitbub地址。

财报解读:上半年营收净利双增长,珀莱雅已成为真正的国货之光?

夏季炎热,防晒类产品的销量暴涨。根据千牛数据,防晒衣今年5月全网搜索人数同比增长15%,加购人数同比增长29.8%,访问人数同比增加42%。消费者狂热的防晒需求,孕育着巨大的商机,许多企业开始瞄准这一机会。而…

汇编指令练习

1.大小比较(循环) start: /*mov r0,#0x9mov r1,#0xfb LoopLoop:cmp r0,r1beq stopsubhi r0,r0,r1subcc r1,r1,r0b Loop stop:b stop.end 仿真图 2. 1到100之和 start:mov r0,#0x1mov r1,#0x0b sum sum:add r1,r1,r0add r0,r0,#0x1cmp r0,#0x65beq sto…

l2行情推送接口执行步骤,(sinal2接口)需要哪些开发源码?

L2行情推送接口是一种实时行情数据接口,用于获取股票市场深度行情数据(Level 2行情数据)。下面是L2行情推送接口的一般过程: 1. 接口订阅:开发者需要先与数据服务提供商或股票交易所建立连接,并订阅L2行情…

msvcp120.dll怎么重新安装方法?msvcp120.dll丢失一招修复

msvcp120.dll是许多应用程序和游戏所依赖的文件,因此它的缺失或损坏可能会导致这些程序无法正常运行。这使得修复msvcp120.dll问题变得非常重要,尤其是对于经常使用这些应用程序的用户来说。修复msvcp120.dll错误的方法多种多样,包括重新安装…

Java SE 学习笔记(十)—— 正则表达式

目录 1 引言2 常用匹配规则2.1 字符类2.2 预定义的字符类2.3 贪婪的量词 3 正则表达式匹配的 API4 正则表达式应用4.1 正则表达式常见应用案例4.2 正则表达式在字符串方法中的使用4.3 正则表达式爬取信息 1 引言 😍 正则表达式可以用一些规定的字符来制定规则&#…

四步搭建自己的专属 ChatGPT(附开源代码)

在未来,ChatGPT将成为人工智能应用领域的支柱,推动人机交互、智能客服和在线教育等领域的发展。使用ChatGPT能够轻松应对各种语言任务,提高工作效率,带来更多的便利和创新。 软件架构 java后台技术采用renren框架:spr…