『2023北京智源大会』视觉与多模态大模型

news2025/7/14 7:27:45

『2023北京智源大会』视觉与多模态大模型

文章目录

一. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold | 潘新钢 | 南洋理工大学
- 1. Image Manipulation(图像编辑)背景
- 2. Drag Your GAN
二. Machine Learning for 3D Content Creation | 高俊 | NVIDIA 研究科学家
- 1. 整个背景介绍
- 2. 通用 3D 生成Pipeine
- 3. 我们的工作
- 4. 总结与展望
三. 通用视觉模型初探 | 王鑫龙 | 智源研究院研究员
四. Image, Video, and 3D Content Creation with Diffusion Models | Huan Ling | NVIDIA 研究科学家
参考文章

一. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold | 潘新钢 | 南洋理工大学

1. Image Manipulation(图像编辑)背景

拖动你的 GAN：生成图像流形上基于关键点的交互式操作(编辑)
图像的拖拽式编辑

在这里插入图片描述

Image Manipulation(图像编辑)

在这里插入图片描述

Photoshop - 液化

在这里插入图片描述

形状变形

在这里插入图片描述

2. Drag Your GAN

在这里插入图片描述

初步尝试：光流指导的运动监督

在这里插入图片描述

最终的方法

在这里插入图片描述

从视频演示上看效果很不错

在这里插入图片描述

匹配图像重建

在这里插入图片描述

点跟踪

在这里插入图片描述

局限：
1) 训练数据分布之外的一些编辑，当分布范围超出过大范围，产生失真的效果
2）关键点的选取有讲究，无纹理手柄点
3）最重要的一点，对真实图像的编辑，如果非常多物体，背景非常复杂效果损坏挺大

在这里插入图片描述

总结：

在这里插入图片描述

二. Machine Learning for 3D Content Creation | 高俊 | NVIDIA 研究科学家

1. 整个背景介绍

大模型在三维内容生成的场景：

在这里插入图片描述

我们可以用 3D 内容创作做什么？元宇宙(Metaverse)、自动驾驶(Autonomous Driving)

在这里插入图片描述

3D 内容创建的可扩展性，数量(Quantity)、多样性(Diversity)、质量(Quality)

在这里插入图片描述

在工业界的一些常见的三维创建流程，专业人、费时、费力

在这里插入图片描述

语言领域，chatgpt和GPT4取得了很大的成功

在这里插入图片描述

2D图像生成领域

在这里插入图片描述

那么3D图像内容生成呢？

在这里插入图片描述

机器学习如何做3D图像内容生成呢？

在这里插入图片描述

2. 通用 3D 生成Pipeine

在这里插入图片描述

挑战：①如何表示生成的3D物体；②如何搭建1个高效的三维生成模型；③数据有点少相比于2D。

在这里插入图片描述

可微等值面遇到可微渲染

在这里插入图片描述

3. 我们的工作

在这里插入图片描述

关键思想：
从预训练的 2D 图像扩散模型中利用知识！
评分功能以指导图像生成
使用可微分渲染将 3D 与 2D 连接起来

在这里插入图片描述

4. 总结与展望

在这里插入图片描述

三. 通用视觉模型初探 | 王鑫龙 | 智源研究院研究员

追求通用视觉智能
视觉表征：抽象视觉信号并学习通用表示
视觉通才：训练在野外解决各种任务的视觉通才模型

在这里插入图片描述

这是一个以视觉为中心的基础模型，旨在仅使用可公开访问的数据来探索大规模视觉表示的局限性。EVA 是一种经过预训练的普通 ViT，用于重建以可见图像块为条件的屏蔽掉的图像-文本对齐（image-text aligned）的视觉特征。通过这个前置任务，我们可以有效地将 EVA 扩展到 10 亿个参数，并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新记录，而无需大量监督训练。
EVA = CLIP (semantic) + Mased modeling (structure) + 1B Param (scaling)
十亿规模的最佳预训练模型

代码EVA: Visual Representation Fantasies from BAAI：https://github.com/baaivision/EVA
【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale：https://blog.csdn.net/YoooooL_/article/details/129044031

在这里插入图片描述