『2023北京智源大会』视觉与多模态大模型

news2024/12/23 23:41:08
『2023北京智源大会』视觉与多模态大模型

文章目录

  • 一. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold | 潘新钢 | 南洋理工大学
    • 1. Image Manipulation(图像编辑)背景
    • 2. Drag Your GAN
  • 二. Machine Learning for 3D Content Creation | 高俊 | NVIDIA 研究科学家
    • 1. 整个背景介绍
    • 2. 通用 3D 生成Pipeine
    • 3. 我们的工作
    • 4. 总结与展望
  • 三. 通用视觉模型初探 | 王鑫龙 | 智源研究院研究员
  • 四. Image, Video, and 3D Content Creation with Diffusion Models | Huan Ling | NVIDIA 研究科学家
  • 参考文章

一. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold | 潘新钢 | 南洋理工大学

1. Image Manipulation(图像编辑)背景

  • 拖动你的 GAN:生成图像流形上基于关键点的交互式操作(编辑)
  • 图像的拖拽式编辑

在这里插入图片描述

  • Image Manipulation(图像编辑)

在这里插入图片描述
在这里插入图片描述

  • Photoshop - 液化

在这里插入图片描述

  • 形状变形

在这里插入图片描述
在这里插入图片描述

2. Drag Your GAN

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 初步尝试:光流指导的运动监督

在这里插入图片描述

  • 最终的方法

在这里插入图片描述

  • 从视频演示上看效果很不错

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 匹配图像重建

在这里插入图片描述

  • 点跟踪

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 局限:
  • 1) 训练数据分布之外的一些编辑,当分布范围超出过大范围,产生失真的效果
  • 2)关键点的选取有讲究,无纹理手柄点
  • 3)最重要的一点,对真实图像的编辑,如果非常多物体,背景非常复杂效果损坏挺大

在这里插入图片描述

  • 总结:

在这里插入图片描述

二. Machine Learning for 3D Content Creation | 高俊 | NVIDIA 研究科学家

1. 整个背景介绍

  • 大模型在三维内容生成的场景:

在这里插入图片描述

  • 我们可以用 3D 内容创作做什么?元宇宙(Metaverse)、自动驾驶(Autonomous Driving)

在这里插入图片描述

  • 3D 内容创建的可扩展性,数量(Quantity)、多样性(Diversity)、质量(Quality)

在这里插入图片描述

  • 在工业界的一些常见的三维创建流程,专业人、费时、费力

在这里插入图片描述

  • 语言领域,chatgpt和GPT4取得了很大的成功

在这里插入图片描述

  • 2D图像生成领域

在这里插入图片描述

  • 那么3D图像内容生成呢?

在这里插入图片描述

  • 机器学习如何做3D图像内容生成呢?

在这里插入图片描述

2. 通用 3D 生成Pipeine

在这里插入图片描述

  • 挑战:①如何表示生成的3D物体;②如何搭建1个高效的三维生成模型;③数据有点少相比于2D。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 可微等值面遇到可微渲染

在这里插入图片描述
在这里插入图片描述

3. 我们的工作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 关键思想:
  • 从预训练的 2D 图像扩散模型中利用知识!
    评分功能以指导图像生成
  • 使用可微分渲染将 3D 与 2D 连接起来

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 总结与展望

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三. 通用视觉模型初探 | 王鑫龙 | 智源研究院研究员

  • 追求通用视觉智能
  • 视觉表征:抽象视觉信号并学习通用表示
  • 视觉通才:训练在野外解决各种任务的视觉通才模型

在这里插入图片描述

  • 这是一个以视觉为中心的基础模型,旨在仅使用可公开访问的数据来探索大规模视觉表示的局限性。EVA 是一种经过预训练的普通 ViT,用于重建以可见图像块为条件的屏蔽掉的图像-文本对齐(image-text aligned)的视觉特征。通过这个前置任务,我们可以有效地将 EVA 扩展到 10 亿个参数,并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新记录,而无需大量监督训练。
  • EVA = CLIP (semantic) + Mased modeling (structure) + 1B Param (scaling)
  • 十亿规模的最佳预训练模型
  • 代码EVA: Visual Representation Fantasies from BAAI:https://github.com/baaivision/EVA
  • 【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale:https://blog.csdn.net/YoooooL_/article/details/129044031

在这里插入图片描述

四. Image, Video, and 3D Content Creation with Diffusion Models | Huan Ling | NVIDIA 研究科学家

参考文章

  • 北京智源大会:https://2023.baai.ac.cn/schedule

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/649350.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实验篇(7.2) 14. 站对站安全隧道 - 多条隧道负载均衡(上)(FortiGate-IPsec) ❀ 远程访问

【简介】IPsec VPN虽然价廉物美,但是由运营商原因,经常会出访问慢、不稳定甚至断开的情况,好在现在大多数企业都有二条甚至更多条宽带,我们可以创建多条IPsec VPN,来保证正常访问。 实验要求与环境 OldMei集团深圳总部…

友盟分享之新浪微博站(签名apk下载)

适用环境: 1 单独集成新浪微博分享 2 友盟分享新浪微博 集成步骤: 1 注册新浪微博开发者账号 新浪微博开放平台-首页 2 选择要接入的应用类型 根据官网提示输入对应资料,进行申请 4 创建应用的时候,Android需要输入签名&#x…

NFC无源电子墨水屏

NFC电子纸造就无源可视 电子墨水标签 NFCE-paper For NFC Batteryless E-ink Tag 产品参数 产品型号 PN29_S 尺寸(mm) 95*46.4*5.4mm 显示技术 电子墨水屏 显示区域(mm) 29(H) * 66.9(V) 分辨率(像素) 296*128 像素尺寸(mm) 0.227*0.226 显示颜色 黑/白 视…

摩尔定律放缓后,AMD应如何引领自适应的风潮?

编者按:自适应计算如何为核心市场带来动力?近日,在AMD“自适应和嵌入式产品技术日”活动日上,AMD 全球副总裁唐晓蕾表示,创新是驱动发展的引擎,百行百业的数字化与智能化转型离不开创新输送的源源不断的强劲…

【监控】Zabbix:企业级开源监控解决方案

文章目录 一、zabbix的基本概述二、zabbix的构成三、zabbix的监控对象四、zabbix的常用术语五、zabbix的工作流程六、zabbix进程详解七、zabbix的监控框架7.1 三种架构模式的架构图如下:7.2 每个模块的工作职责: 八、zabbix源码安装及部署一、服务端安装…

电子工程师,一起来聊聊PCB板上的Mark点吧

在PCB设计中,电子工程师需要注意很多方面,新手工程师经常会忽略Mark点,但资深工程师们却对Mark点又爱又恨,甚至不得不花时间耗费在Mark点上,为什么Mark点如此重要?该如何设计Mark点? 一、Mark点…

Linux基础IO - 文件系统 | 软硬链接

之前的文章中我们与文件有关的内容谈论的都是被打开的文件,那么如果文件没有被打开呢?这样文件就一定不再内存中,只能在磁盘外设中存储,本文中我们就来讲述磁盘中文件的相关知识。 磁盘的物理存储结构 一个磁盘由多个盘片叠加而…

如何撰写高效且实用的Prompt

很多人说GPT并没有什么让人惊艳的地方,但实际上,他们并没有发挥好它的潜能。在很多情况下,他们往往没有使用恰当的prompt。一个恰到好处的prompt就如同魔法师在施展魔法时所需要吟唱的咒语,只有那些正确无误的咒语,才能…

Zstack实习-基础知识总结归纳-持续更新

什么是虚拟化? 虚拟化技术是一种将物理计算资源,如服务器、存储和网络等,转化成虚拟的逻辑资源的技术。通过虚拟化技术,可以将多个独立的操作系统运行在同一台物理计算机上,实现资源的共享,提高硬件的利用率…

商业智能之“道、法、器”——企业级BI能力构建指南

一个企业级BI项目看似简单,但实际建设难度却远超想象。如何从0到1搭建BI项目,有没有详细的实施步骤,有没有合适的BI工具推荐,这是很多企业在上BI系统前心中的疑问。因此,本文会详细探讨企业BI能力构建,到底…

【业务功能篇26】 ROW_NUMBER() 排名函数 给表单数据增加序列号

业务场景: 当业务在进行月报报表制作时,会有些模块是需要填充当前月的top问题单,那么这些问题单,在第一列就要给标记序列号从1开始的序号,所以这个序号是根据业务选择的问题单后,在根据当前问题单记录进行的…

BSN全球技术创新发展峰会在武汉举办,“延安链”正式发布

原标题:《第二届BSN全球技术创新发展峰会在武汉成功举行》 6月9日,由湖北省人民政府指导,湖北省发展改革委、国家信息中心联合主办,中国移动、中国电信、中国联通、武汉市江汉区人民政府、区块链服务网络(BSN&#xf…

Linux或Windows上实现端口映射

关注“云计算就该这么学”微信公众号,搜索“001”,即可获取氪肝整理的154页Linux学习笔记。 通常服务器会有许多块网卡,因此也可能会连接到不同的网络,在隔离的网络中,某些服务可能会需要进行通信,此时服务…

I.MX6ULL_Linux_驱动篇(38) 中断驱动

不管是裸机实验还是 Linux 下的驱动实验,中断都是频繁使用的功能,在裸机中使用中断我们需要做一大堆的工作,比如配置寄存器,使能 IRQ 等等。 Linux 内核提供了完善的中断框架,我们只需要申请中断,然后注册中…

Linux进程信号 | 信号保存

阻塞信号 信号其他相关常见概念 实际执行信号的处理动作称为信号递达(Delivery)信号从产生到递达之间的状态,称为信号未决(Pending)。进程可以选择阻塞 (Block )某个信号。被阻塞的信号产生时将保持在未决状态,直到进程解除对此信号的阻塞,才执行递达的动作.注意,阻塞和忽略是…

A Survey of Large Language Models

本文是LLM系列的第一篇文章,针对《A Survey of Large Language Models》的翻译。 大语言模型综述 摘要1 引言2 概述2.1 LLM的背景2.2 GPT系列模型 的技术演化 3 LLMs的资源3.1 公开可用的模型检查点或APIs3.2 常用的语料库3.3 库资源 4 预训练4.1 数据收集4.1.1 数…

图的企业应用-A*算法自动寻路

引言 MC想必大家都玩过,但鸡哥利用A*自动寻路算法来找箱子 箱子里有鸡你太美唱片,和准备好的篮球 当然在这是游戏中找到的宝箱 还得原石x5等一大堆的养成物品 ???等等 ,原神 玩家露出鸡脚了吧! 不应该是 有鸡你太美唱片,还有一条鱼并且给梅里猫的名叫荔枝的? 这…

【MyBatis学习】Spring Boot(SSM)单元测试,不用打包就可以测试我们的项目了,判断程序是否满足需求变得如此简单 ? ? ?

前言: 大家好,我是良辰丫,在上一篇文章中我们学习了MyBatis简单的查询操作,今天来介绍一下Spring Boot(SSM)的一种单元测试,有人可能会感到疑惑,框架里面还有这玩意?什么东东呀,框架里面是没有这的,但是我们简单的学习一下单元测试,可以帮助我们自己测试代码,学习单元测试可以…

SEO留痕霸屏技术原理实现分析

留痕效果 通常是查询某个关键词,出现大量搜索结果网页霸屏,而且都会引导到其他平台或者网站进行浏览和查看。留痕网站和指向网站或平台无关联。 示例图片: 原理分析 首先通过内容和链接很容易明白,本质上就是一个搜索页面&…

OpenAI API升级:新GPT-3.5 Turbo和GPT-4助力AIGC应用大放异彩

theme: orange 前言 北京时间2023年6月13日,OpenAI宣布对其领先的生成型AI模型GPT-3.5 Turbo和GPT-4进行一系列更新,以提高工作场所的人工智能能力。这些改进包括引入全新的函数调用功能、增强的可引导性、GPT-3.5 Turbo的扩展上下文,以及修订…