视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾

news2024/9/27 12:13:01

导读

6 月 9 日下午,智源大会「视觉与多模态大模型」专题论坛如期举行。随着 stable diffusion、midjourney、SAM 等爆火应用相继问世,AIGC 和计算机视觉与大模型的结合成为了新的「风口」。本次研讨会由智源研究院访问首席科学家颜水成和马尔奖获得者曹越共同担任论坛主席,由北京交通大学教授魏云超主持。本论坛邀请了来自南洋理工大学、NVIDIA、智源研究院等国内外知名研究机构的顶尖学者共聚一堂,报告的内容涵盖生成模型、3D 视觉、通用视觉模型设计。以下是核心内容整理:

Drag Your GAN: Interactive Point-based Manipulation 

on the Generative Image Manifold

潘新钢 | 南洋理工大学计算机科学与工程系助理教授

图像编辑(Image Manipulation)一直以来火热的研究方向,而且具有很广泛的应用场景。现有的图像编辑主要有以下四类:

(1)基于全监督学习的模型,如InterfaceGAN;

(2)基于语义分割图的模型,如SPADE;

(3)基于人体关键点的模型,如HumanGAN;

(4)基于文本引导的模型,如Imagic。然而现有的这些模型缺乏对空间属性编辑的灵活性,准确性,通用性。以皮影戏为例,通过控制皮影人物的关键点,可以做出各种各样的动作。

6686ee8e152d584060d81299f906015a.png

为了让模型在具有利用关键点能力的同时,并可以在编辑图像时推理出被遮挡的区域,潘新钢教授团队提出了一种基于生成对抗网络(Generative Adversarial Networks,GAN)的实时交互式图像编辑模型Drag Your GAN。用户在图像上确定抓取点(Handle Point)和目标点(Target Point),将图像与点信息一起输入到生成器中获取隐向量(Latent Code),该模型通过使用多步式迭代并在每一步迭代过程中使用动态监督损失函数,逐步优化隐向量,直至抓取点逐步移动到目标点。此外,用户可以选择修改区域,只编辑区域内的部分。通过在多个数据集上验证,展现了Drag Your GAN模型强大的图像编辑能力。

4d6502b7c3f05d3570de10b6e944c9d0.jpeg

该报告介绍了通过交互式关键点拖拽的方式来编辑图像的生成式模型Drag Your GAN,改模型的核心为关键点动态监督和关键点跟踪。最后,潘新钢教授表示,通过文本引导和拖拽关键点相结合的方式将会引领图像编辑领域的未来。

将机器学习用于 3D 内容生成

高俊 | NVIDIA 研究科学家

7e13d72a4d88cba7dc63661d93ee9ead.png

人类生活在三维世界中,创作三维的虚拟数字世界,有助于人类更好地理解世界、解决现实生活中无法解决的问题。

生成的三维虚拟场景需要满足以下要求:

(1)物体数量足够多

(2)物体类型多样

(3)质量高,包含几何信息、纹理信息

工业界现有的依赖人工的三维世界创建方案要消耗大量人力物力,对操作者的能力要求较高,难以大规模扩展。Dreamfusion 等基于深度学习的三位视觉生成方法在几何和纹理细节生成方面仍有很大提升空间。 

三维生成模型主要面临两点挑战:

(1)构建适用于机器学习的三维表征,易在下游任务中使用,具有灵活多样的拓扑结构、纹理、材质

(2)构建高效、高质量、可控的三维生成模型,能够广泛利用二维数据

554523b1ce803b379366d7d91f3b7f06.png

「DMTet」提出了一种将神经场等隐函数与 mesh 网格表征相对应的方法,构建了可微的 iso surface,在利用 mesh 高精度、拓扑灵活、适合实时渲染等特性的同时,可以进行形状编辑,避免了离散化操作,利用深度学习生成方法得到了高质量 mesh 表征。 

在 3D 生成模型方面,为了借鉴 2D GAN 的成功,「Get3D」实现了基于光栅化的可微渲染,构建了强大的判别器;通过 Tri-Plane 技术构建了高质量的 3D 表征;将 DMTet 与 Nvdiffrast 结合,实现了高效的训练。

「Magic3D」将文本 prompt 作为输入,构建了一个由粗到精的生成框架。粗生成阶段使用低分辨率扩散模型,通过 InstantNGP 生成初始化几何特征;精细生成阶段使用高分辨率扩散模型通过 DMTet 实现 Mesh 渲染。该模型利用预训练好的 2D 图像扩散模型的知识,将其评分函数用于引导图像生成,使用可微渲染构建了 3D 和 2D 之间的桥梁,实现了高效、高精度、局部可控的 3D 图像生成。

高俊博士指出,未来研究者们可以探究如何将单个类别的物体生成扩展到多类别、通用物体生成;从物体生成扩展到场景生成;从静态内容生成扩展到动态内容生成。

通用视觉模型初探

王鑫龙 | 智源研究院研究员

对通用视觉智能的探索可以分为两个部分:

(1)视觉表征。抽象出视觉信号,并学习通用表征。

(2)视觉通才模型。训练可以解决开放场景下各类任务(例如,分类、检测、分割)的视觉通才模型。

「EVA」 模型是目前具有 billion 级别参数的最好的预训练模型,它将 CLIP 与 MIM 方法相结合,遮盖输入图像的一部分,并重建被遮盖部分的 CLIP 特征,通过 CLIP 特征提供高级别语义,通过掩码建模提供结构空间信息。

3e4ed8b7bc627f30899aeb2ee961396d.png

王鑫龙博士指出,扩展模型规模的目的在于使其具有以下三种能力:在经典任务(例如,ImageNet、ADE20k、COCO)上取得新的性能突破;解决以往难以解决的任务(例如,LVIS长尾识别);带来新的能力(例如,帮助 CLIP 更好地训练)。 

「EVA-CLIP」使用 EVA 预训练模型初始化图像编码器,通过 LAMB 优化器使模型训练收敛更快,并通过 FLIP 提升了训练效率。EVA-CLIP 5B 在 ImageNet-1K 上取得了 82% 的零样本分类精度,是当前最强的开源CLIP模型。

「Painter」旨在将分类、检测、分割、关键点检测、底层视觉等任务统一为输入图像输出图像的任务,在无需模型微调的情况下自动完成任务,并展现出新的能力,探索了一种通用的视觉任务借口,具备上下文视觉学习能力。该模型的架构为 ViT,通过回归损失监督训练。

「SegGPT」基于 Painter 实现了「分割一切」的能力,是对通用分割模型的探索。王鑫龙博士团队将语义分割、实例分割等各种分割数据汇聚起来,统一成小样本提示的上下文视觉训练样例。

32a7639c592bb4d5f33dd3534d7b44d2.png

王鑫龙博士指出,上述工作背后的思想是「统一的学习方法+可扩展的数据+大模型」。其中,最困难的是构建可扩展的数据。

「Emu」是一个能接收多模态输入、产生多模态输出的大模型,进行统一的多模态上下文学习。王鑫龙博士团队将图像、文本、交错图文、交错视频文本等数据统一成相同形式,进行多模态上下文学习,完成感知、推理、生成等任务。

Image, Video, and 3D Content Creation with Diffusion Models

Karsten Kreis | NVIDIA 高级研究科学家

Huan Ling | NVIDIA 研究科学家

扩散模型是一类基于评分的生成模型,近年来取得了令人瞩目的效果。目前,已有研究人员将扩散模型用于「文-图」、「文-3D」、「文-视频」生成,「3D 形状合成」、「3D 场景生成」等任务。

c34947d3667f037da134c0fc1c354798.png

「eDiff-I」使用集成的专家去噪器实现「文-图」生成扩散模型,它利用 T5 和 CLIP 作为文本编码器、利用 CLIP 作为图像编码器,并且在基础扩散模型之上添加了 2 个超分辨率模型,包含 9.1B 的参数。该模型在不同的合成阶段使用专家去噪器。

5a0609d6303eeb5c5bdba6cfe0ea02ec.png

「Magic3D」实现了高分辨率的「文-3D」内容生成。该模型使用Instant NGP 根据 2D 扩散模型实现了由粗到精的 3D 形状蒸馏。在第一个阶段,模型首先低分辨率先验优化神经场表征,从而得到粗模型。在第二阶段,模型进一步可微地根据强度和颜色场提取纹理 3D mesh,使用高分辨率潜扩散模型进行微调。

a9b5a5bc276813c739b99767c5a848a5.png

「LION」是一种层次化的基于点云的 3D 形状生成隐式点扩散模型。它首先通过扩散模型生成形状隐变量,再使用另一个以形状为条件的扩散模型生成隐式的点,进而将隐式点解码为点云,还可以通过将点构成形状重建平滑 mesh。

885d50ade8a5849beeeee60853a93645.png

「NeuralDield-LDM」使用层次化的隐扩散模型生成场景,它训练了一个场景的自编码器,通过使用强度和特征 voxel 在神经场中考虑相机姿态、深度编码场景的 RGB 图像。该模型训练了一个层次化的隐自编器,可以将神经场的 voxel 表征压缩到更小的隐空间,在隐自编码器的隐空间中拟合了一个层次化的隐扩散模型。

cec9f0cb181543ae17dbf15d1cb36940.png

「Align Your Latents」介绍了使用隐扩散模型生成高分辨率视频。在扩散模型中,去噪是一个随机过程。该工作通过视频微调在时序上对齐了图像 LDM,并降低了计算开销。在模型方面,该工作在空间层后加入了时序层。

 圆桌论坛

bbbb8798631e9e3975af26d38105c478.jpeg

魏云超 | 北京交通大学教授

王鑫龙 | 智源研究院研究员

潘新钢 | 南洋理工大学计算机科学与工程系助理教授

夏威 | 摩尔线程AI副总裁

高俊 | NVIDIA 研究科学家(连线)

  • 魏云超:针对当前的生成模型,Diffusion Model和GAN哪个模型表现更好?

潘新钢教授认为,两个模型各有优劣,但是Diffusion Model的上限更高,随着算力,硬件性能的提高,Diffusion Model的重要性会越来越大。

两个模型主要有以下三点不同:

1. 在计算需求方面,Diffusion Model需要很大的计算量,GAN虽然在生成质量上可能不比Diffusion Model,但是不要特别大的计算量,可以在硬件部署上达到实时生成。

2. 在图像分布连续性方面,由于Diffusion Model的迭代式计算带来的高度非线性,所以在一些任务上,如视频编辑,会出现跳变和抖动。但是GAN是通过单步计算,生成的图像会表现得更加连续。

3. 在可编辑性方面,基于GAN所得到的隐空间表现出更具有上下文语义的特征。通过对该空间进行编辑,使得图像具有很强的可编辑性。但是Diffusion Model是从耦合了空间信息的随机噪声图生成图像, 因此在可编辑性上相对不易控制。

高俊博士认为,GAN目前最大的局限是难以扩展到大数据训练,相比之下,Diffusion Model对大数据训练更加友好。另外,相比于Diffusion Model这种去噪的训练过程,GAN通过对抗学习的训练方式,可以更好地捕获单视角(2D)图像生成多视角(3D)图像中的空间关系。

夏威博士认为,GAN由于可以在特征隐空间进行操作,具有更好地可编辑性,但是限制了其更加通用的生成能力。是否能将GAN的对抗学习方式和特征空间的对齐特性用到Diffusion Model的训练过程中,提高其训练速度和可编辑性。

  • 目前像ChatGPT等大语言模型已呈现出百花齐放的状态,在绘图方面Stable Diffusion也表现惊人。但是目前在计算机视觉任务,还没有看到类似ChatGPT这样现象级应用,视觉模型在未来有没有可预见的破圈的应用方式?

目前在视觉模型没有出现现象级应用,与会专家认为主要在以下几个原因:

(1)目前的视觉任务(如分割、检测、分类等)往往是一些实际应用(如机器人、自动驾驶等)的中间任务,普通人不太在意在这些视觉任务上模型性能的提升。

(2)从算法到应用落地还有很长的过程,要用应用层面去思考如何让视觉模型出圈。

(3)移动互联网火起来归功于智能手机的发展,而目前视觉模型缺乏像智能手机这样的硬件接入模式。

对于基于视觉模型破圈的应用,与会专家认为未来可能会在以下几个方向:

(1)修图软件,利用类似“Drag Your GAN”模型编辑照片;

(2)元宇宙,在元宇宙中人、场景、内容等几个要素之间的交互;

(3)3D内容的生成,如动画、电影、游戏等;

(4)与大语言模型结合,视觉语言交互。

  • 我们目前似乎没有看到通用大模型的大量的涌现,大家觉得通用视觉模型现在发展的瓶颈在哪里?以及未来的突破方向可能在哪? 

针对目前通用视觉模型的发展瓶颈,与会专家认为主要有以下几点:

(1)如何获取更有价值的数据,十分重要;

(2)现有的视觉模型评价指标需要更新,仅仅靠在基准数据集上刷点已不足以让模型获取新的能力;

(3)相较于语言数据,视觉数据的信息密度很低。在相同的训练数据量下,语言模型可能回更快地看到涌现的效果。

针对通用视觉模型未来的突破方向,与会专家认为会在以下几个方面:

(1)跟大语言模型进行结合,构建多模态大模型;

(2)探究不同的视觉任务(如分割、检测、分类等)之间的联系,构建任务间统一的范式;

(3)将视觉模型拓展到一个开放世界(Open World),构建起一个世界模型(World Model),每个个体小模型通过蒸馏的方式与世界模型进行交互学习;

(4)探究视觉模型在长尾分布问题上的解决方案。

7376fd6bb0dbbf9ab234ccc9010cb782.jpeg

  • 模型在学习过程中不可避免地会遇到灾难性遗忘的问题,面向模型演化连续学习传统的连续学习任务一般会让模型0开始不断积累知识,但是在有了视觉或多模态大模型之后,模型本身已经囊括了互联网上非常非常多的知识,在这个背景下,以大模型为基础的模型演化有哪些值得研究的方向?

针对以大模型为基础的模型演化,与会专家认为有以下几个值得研究的方向:

(1)在模型参数量(模型容量)固定的情况下,如何让模型容纳更多的信息;

(2)探究使用较少的数据达到与使用全部数据训练相当的性能,即数据集蒸馏;

(3)在模型数据足够大的前提下,设计更好的路径选取方式已适用于特定任务。

(4)大模型的稀疏优化。

  • 在当今计算资源消耗越来越大,未来几年在学术界,特别是针对大部分高校的老师和学生缺乏计算资源,他们研究重心应该是什么?

潘新钢教授认为,(1)方法在大部分情况下是通用的,可以在负担得起的计算资源上验证方法的有效性;(2)有些任务并不依赖大模型,而且并不是所有的问题都要从头开始训练模型;(3)在未来,校企合作可能会成为更广泛的研究方式。

夏威博士认为,(1)把一些优化算法(如分布式训练、节约显存操作等)集成到研究当中;(2)在模型设计中减少冗余计算。

高俊博士除了赞同目前还有很多任务不依赖大模型这一观点外,还认为可以把一个大的研究问题分解成多个易于解决的小问题,这些小问题可以用有限的计算资源去解决。另外一个方面要提升代码的高效性。

- 点击“查看原文” ,观看完整大会视频回放 -

bb4efcd59709ffc1a410b21e927d0c7d.jpeg

具身智能与强化学习前沿进展丨2023智源大会精彩回顾

5310bc038e1a6ac669a0797706265e28.jpeg

大模型与人类的未来丨基于认知神经科学的大模型论坛精彩回顾

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/688609.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在UE5编辑器环境中使用Python

UE有很多Python方案,本文所讲述的Python为UE5官方内嵌版本方案,并且只能在编辑器环境下使用,使用该功能可以编写编辑器下的辅助工具,提升开发效率。 1.调用Python的几种方式 讲一讲UE5中调用Python的几种方式,首先是…

rust abc(5): 常量

文章目录 1. 目的2. 基本用法2.1 说明2.2 运行结果 3. 不推荐或不正确用法3.1 不推荐用小写字母作为常量名字3.2 常量名称中含有小写字母就会报warning3.3 定义常量时,不指定数据类型会编译报错 4. const 和 immutable 的区别4.1 const 可以在函数外声明&#xff0c…

三、决策树 四、随机森林

三、决策树1.决策树模型的原理1)什么是决策树2)决策树模型原理3.构建决策树的目的4)决策树的优缺点 2.决策树的典型生成算法1)常用的特征选择有信息增益、信息增益率、基尼系数2)基于信息增益的ID3算法3)基…

JAVAWEB 30-

JAVAWEB 30- 快速入门DriverManagerConnectionresultsetPreparedStatement增删改查查询所有添加 修改 MAVEN坐标MyBatis代理开发mybatis查询条件查询添加删除参数传递 快速入门 public static void main(String[] args) throws Exception { /1.注册驱动 Class.forName("co…

【TA100】Bloom算法

一、什么是Bloom算法 1、首先看一下Bloom效果长什么样 2、什么是Bloom ● Bloom,也称辉光,是一种常见的屏幕效果 ● 模拟摄像机的一种图像效果,让画面中较亮的区域“扩散”到周围的区域中,造成一种朦胧的效果 ● 可以让物体具有…

[JVM]再聊 CMS 收集器

题目之所以是再聊,是因为以前聊过: [JVM]聊聊 CMS 收集器 最近又看了下这块的知识,打算把 CMS/标记-清除/GC Roots/引用 这些知识串起来 我依旧可能写的不是很好,降低下期待 GC 算法 CMS 是基于 标记-清除 算法来做的,那我们就先从 GC 算法开始聊 GC 算法有: 标记-清除 标…

一篇博客教会你使用Docker部署Redis哨兵

文章目录 主数据库配置文件启动实例容器虚拟IP 从数据库配置文件启动实例 主从数据库查看主数据库查看从数据库 哨兵配置文件启动哨兵查看哨兵 哨兵机制哨兵选举选举日志重启主数据库 今天我们学习使用 Docker 部署 Redis 的主从复制,并部署 Redis 哨兵,…

Linux学习之grub配置文件介绍

grub配置文件 /etc/default/grub这个文件里边有一些简单的grub配置。 可以看到/etc/default/grub文件里有GRUB_CMDLINE_LINUX"crashkernelauto rhgb quiet idlehalt biosdevname0 net.ifnames0 consoletty0 consolettyS0,115200n8 noibrs nvme_core.io_timeout429496729…

全网独家--【图像色彩增强】方法梳理和问题分析

文章目录 图像增强图像色彩增强问题可视化比较 难点色彩空间大,难以准确表征?不同场景差异大,难以自适应?计算量大,但应用场景往往实时性要求高? 方法传统方法深度学习逐像素预测3D LUT模仿ISP 个人思考批判…

2.数据的类型、数据的输入输出

2.数据的类型、数据的输入输出 2.1 数据类型-常量-变量(整型-浮点-字符)2.1.1 数据类型2.1.2 常量2.1.3 变量2.1.4 整型类型2.1.5 浮点型数据2.1.6 字符型数据字符型常量字符型变量 2.1.7 字符串型常量 2.2 混合运算-printf讲解 2.1 数据类型-常量-变量(整型-浮点-字符) 2.1.1…

shell脚本怎么获取当前脚本名称(获取脚本文件名)$(basename “$0“)(basename命令:去除字符串路径部分、去除后缀)

文章目录 shell脚本如何获取当前执行脚本名称解释:$(basename "$0")$0(当前脚本的名称,带脚本与工作目录之间的相对路径)basename(去除字符串路径部分)示例 拓展:basename命令的完整用…

项目引入多个连接池,导致使用其他连接池,maven分析学习

第一步在命令行中执行 mvn dependency:tree > excludeParentstart.log如果你的settings文件不是项目使用的setting配置,那么就使用下面的命令 mvn -gs 你的路径/apache-maven-3.8.2/conf/settings-person.xml dependency:tree > excludeParentstart.log然后…

Spring学习---上篇

文章目录 1、Spring1.1、简介1.2、优点1.3、Spring的组成1.4、拓展 2、IOC理论推导3、IOC的本质3.1、IOC概念3.2、IoC是Spring框架的核心内容 3、HelloSpring3.1、实现3.2、思考 4、IOC创建对象的方式5、Spring配置5.1、别名(alias)5.2、Bean的配置5.3、…

Multi-class classification without multi-class labels (ICLR 2019)

Multi-class classification without multi-class labels (ICLR 2019) 摘要 这项工作提出了针对多分类的新策略,不需要具体的类别标签,取而代之是利用样本之间的两两相似度,这是一种弱化的标注方式。所提方法称作元分类学习,为两…

ModaHub魔搭社区:向量数据库Milvus使用 MySQL 管理元数据教程

目录 使用 MySQL 管理元数据 常见问题 数据管理相关博客 使用 MySQL 管理元数据 Milvus 默认使用 SQLite 作为元数据后台管理服务,SQLite 内嵌于 Milvus 进程中,无需启动额外服务。但是在生产环境中,基于可靠性的考虑,我们强烈…

【数据库管理】十分钟了解啥是三级封锁协议、X锁和S锁

一.为什么要用锁 在多用户共享系统中,许多事务可能同时对同一数据进行操作,称为“并发操作”,此时数据库管理系统的并发控制子系统负责协调并发事务的执行,保证数据库的完整性不受破坏,同时避免用户得到不正确的数据。…

Spring框架概括

spring是什么? Spring是2003年兴起的,它是一个轻量级的,非侵入式的IOC和AOP的一站式框架,为简化企业级应用开发。 它的特点: 轻量级:指的是核心jar包比较小的。 非侵入式的:框架代码不会侵入…

Java——《面试题——MQ篇》

前文 java——《面试题——基础篇》 Java——《面试题——JVM篇》 Java——《面试题——多线程&并发篇》 Java——《面试题——Spring篇》 Java——《面试题——SpringBoot篇》 Java——《面试题——MySQL篇》​​​​​​ Java——《面试题——SpringCloud》 Java…

KingFusion3.6是什么?

哈喽,大家好,我是雷工! 今天继续学习KingFusion3.6,以下为学习笔记。 一、KingFusion3.6简介 1、管控一体化全组态平台KingFusion3.6是一款面向工业企业执行层的生产信息化管理系统。 2、KingFusion3.6基于“全组态”技术&#…

使用ROS功能包camera_calibration进行单目相机和双目相机的内参和外参标定

1.概述 本文总结使用ROS标定单目和双目相机的过程,同时提供生成棋盘格文件的方法。 参考链接: [1]使用ros标定相机的内参和外参 [2]ROS下采用camera_calibration进行双目相机标定 2.生成棋盘格文件 棋盘格可以自己买一个,或者打印一个粘在…