2023智源大会议程公开丨视觉与多模态大模型论坛

news2024/11/22 6:15:11

2af556d949f9e490f7cb25922ae90c85.png

f1dd568c7e1672b0da10505c8d445a2c.jpeg

6月9日,2023北京智源大会,将邀请AI领域的探索者、实践者、以及关心智能科学的每个人,共同拉开未来舞台的帷幕,你准备好了吗?与会知名嘉宾包括,图灵奖得主Yann LeCun、OpenAI创始人Sam Altman、图灵奖得主Geoffrey Hinton、图灵奖得主Joseph Sifakis、诺贝尔奖得主Arieh Warshel、未来生命研究所创始人Max Tegmark、2021年科学突破奖得主David Baker、2022吴文俊最高成就奖得主郑南宁院士以及中国科学院院士张钹等。目前已正式开放大会线上报名渠道。大会将同步向全球线上直播。

北京智源大会倒计时:5

视觉与多模态大模型丨6月9日下午

近年来,鳞次栉比的语言大模型、多模态大模型纷纷涌现,为研究者们开启了广阔的新舞台,深刻影响了人类社会。进入2023年,以SAM、SegGPT为代表的一系列「视觉大模型」相继问世,基于这些模型的后续工作也呈井喷式爆发。可以预见,「视觉大模型」将成为接下来一段时间计算机视觉领域无法绕开的重要课题。本论坛邀请了来自英伟达、南洋理工大学、北京交通大学、智源研究院、摩尔线程等知名校企和研究机构的杰出学者,将从3D视觉、AIGC、生成模型、通用视觉大模型等方面对「视觉大模型」的理论、技术、应用展开讨论,旨在传播知识、分享观点,共同打造「视觉大模型」生态圈,为该领域发展做出贡献。

论坛议程

4b3934c59735ca71bb8098fd8acb2265.jpeg

论坛主席

f8a1258f560beaf7d649feb055fd200c.jpeg

颜水成,智源研究院访问首席科学家

Prof. Yan is currently Visiting Chief Scientist at Beijing Academy of Artificial Intelligence (non-profit organization), and former Group Chief Scientist of Sea Group.

Prof. Yan Shuicheng is a Fellow of Singapore's Academy of Engineering, AAAI, ACM, IEEE, and IAPR. His research areas include computer vision, machine learning, and multimedia analysis. Till now, Prof Yan has published over 600 papers at top international journals and conferences, with an H-index of 130+. He has also been named among the annual World's Highly Cited Researchers eight times.

Prof. Yan's team received ten-time winners or honorable-mention prizes at two core competitions, Pascal VOC and ImageNet (ILSVRC), deemed the “World Cup” in the computer vision community. Besides, his team won more than ten best papers and best student paper awards, particularly a grand slam at the ACM Multimedia, the top-tiered conference in multimedia, including the Best Paper Awards thrice, Best Student Paper Awards twice, and Best Demo Award once.

主持人

521b02596adb2a29c4df4528b218ec98.jpeg

魏云超,北京交通大学教授、博导

曾在新加坡国立大学、美国伊利诺伊大学厄巴纳-香槟分校、悉尼科技大学从事研究工作。入选MIT TR35 China,百度全球高潜力华人青年学者、《澳大利亚人》TOP 40 Rising Star,国家重点研发计划青年科学家项目负责人,曾获教育部高等学校自然科学奖一等奖、中国图象图形学学会科技技术奖一等奖、计算机视觉世界杯ImageNet目标检测冠军及多项CVPR竞赛冠军,发表TPAMI、CVPR顶级期刊/会议论文100多篇,Google引用15000多次。主要研究方向包括面向非完美数据的视觉感知和多模态数据分析等。

演讲主题及嘉宾介绍

1、Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

议题简介:Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D model, which often lack flexibility, precision, and generality. In this talk, we will introduce a powerful yet much less explored way of controlling GANs, that is, to "drag" any points of the image to precisely reach target points in a user-interactive manner. To achieve this, we propose DragGAN, which consists of two main components including: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative GAN features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc. As these manipulations are performed on the learned generative image manifold of a GAN, they tend to produce realistic outputs even for challenging scenarios such as hallucinating occluded content and deforming shapes that consistently follow the object's rigidity.

31ed98dc77f9b18cd9a27dc96026c369.jpeg

潘新钢,南洋理工大学计算机科学与工程系助理教授

隶属于MMLab-NTU和S-Lab。他的研究方向是生成式人工智能与神经渲染,主要工作包括DragGAN,Deep Generative Prior,GAN2Shape等。加入南洋理工大学前,他曾马克斯普朗克计算机科学研究所Christian Theobalt教授组从事博士后研究。他在香港中文大学MMLAB获得博士学位,师从汤晓鸥教授,并在清华大学获得学士学位。

2、Machine Learning for 3D Content Creation

议题简介:With the increasing demand for creating large-scale 3D virtual worlds in many industries, there is an immense need for diverse and high-quality 3D content. Machine learning is existentially enabling this quest. In this talk, I will discuss how looking from the perspective of combining differentiable iso-surfacing with differentiable rendering could enable 3D content creation at scale and make real-world impact. Towards this end, we first introduce a differentiable 3D representation based on a tetrahedral grid to enable high-quality recovery of 3D mesh with arbitrary topology. By incorporating differentiable rendering, we further design a generative model capable of producing 3D shapes with complex textures and materials for mesh generation. Our framework further paves the way for innovative high-quality 3D mesh creation from text prompt leveraging 2D diffusion models, which democretizes 3D content creation for novice users.

fed71d26bb4f6abf2239498e7a0b3e3d.png

高俊,英伟达研究科学家

高俊是多伦多大学PhD, 以及NVIDIA的research scientist。他的研究方向是三维计算机视觉以及图形学,主要关注机器学习在large-scale 3D内容生成方向上的应用。他的代表工作包括GET3D,Magic3D,DefTet等,其中很多被集成于NVIDIA的产品,包括NVIDIA Picasso, GANVerse3D, Neural DriveSim 以及 Toronto Annotation Suite。他即将担任2023年NeurIPS领域主席。

3、通用视觉模型初探

fa27bbe8f54ad02b5a3a9f32d461faaf.png

王鑫龙,智源研究院研究员

王鑫龙,智源研究院视觉模型研究中心研究员,博士毕业于澳大利亚阿德莱德大学,研究领域为计算机视觉和基础模型,近年研究工作包括SOLO、SOLOv2、DenseCL、EVA、Painter和SegGPT等。获得奖项包括Google PhD Fellowship、国家优秀自费留学生奖学金、阿德莱德大学Doctoral Research Medal等。

4、Image, Video and 3D Content Creation with Diffusion Models

议题简介:Denoising diffusion-based generative models have led to multiple breakthroughs in deep generative learning. In this talk, we will provide an overview over recent works by NVIDIA on diffusion models and their applications for image, video, and 3D content creation. We will start with a short introduction to diffusion models and then discuss large-scale text-to-image generation. Next, we will highlight different efforts on 3D generative modeling. This includes both object-centric 3D synthesis as well as full scene-level generation. Finally, we will discuss our recent work on high-resolution video generation with video latent diffusion models. We turn the state-of-the-art text-to-image model Stable Diffusion into a high-resolution text-to-video generator and we also demonstrate the simulation of real in-the-wild driving scene videos.

ff72ab744d1d822193613523019b6fc1.png

Karsten Kreis,英伟达研究科学家

Karsten Kreis is a senior research scientist at NVIDIA’s Toronto AI Lab. Prior to joining NVIDIA, he worked on deep generative modeling at D-Wave Systems and co-founded Variational AI, a startup utilizing generative models for drug discovery. Before switching to deep learning, Karsten did his M.Sc. in quantum information theory at the Max Planck Institute for the Science of Light and his Ph.D. in computational and statistical physics at the Max Planck Institute for Polymer Research. Currently, Karsten’s research focuses on developing novel generative learning methods, primarily diffusion models, and on applying deep generative models on problems in areas such as computer vision, graphics and digital artistry, as well as in the natural sciences.

a1314d1329d80c7707b10af61154eefd.jpeg

凌欢,英伟达研究科学家

凌欢是Nvidia Toronto AI Lab的人工智能科学家,多伦多大学PhD,和多伦多Vector Institute成员。博士期间凌欢师从Sanja Fidler教授,发表顶会共10余篇并拥有多项相关专利。他的研究方向主攻大规模图像视屏生成模型,和生成模型在计算机视觉领域的应用。他的代表作包括PolyRNN++, DatasetGAN, EditGAN以及近期的Align Your Latents: VideoLDM.

5、圆桌讨论

圆桌论坛嘉宾:

 魏云超:北京交通大学教授

 潘新钢:南洋理工大学计算机科学与工程系助理教授

 高俊:英伟达研究科学家

 王鑫龙:智源研究院研究员

 夏威:摩尔线程AI副总裁

505c6eac7b5c2be340704352fa360243.jpeg

夏威,摩尔线程研发副总裁

新加坡国立大学博士,曾在松下新加坡研究院和欧洲Lund大学访问研究,先后在国际期刊和会议发表30多篇论文,有30多项美国专利,并多次获得Pascal VOC,Imagenet挑战赛的冠亚军。曾在硅谷参与创立人工智能公司Orbeus,推出Rekognition智能识别平台和美国市场第一款智能相册PhotoTime。后公司被亚马逊收购,在AWS AI担任首席科学家(Principal Scientist),负责AWS人工智能云服务Rekognition/Textract等产品的研发工作。在AWS期间和团队共同开创了机器学习模型兼容性的新研究领域。

扫码二维码或点击「阅读原文」报名线下参会&线上直播

ec0a2e4c138352999c5a7c5b1d9a37ea.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/614540.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

元组的学习笔记

列表 [] 单身什么是字典 {} 二人世界 python内置的数据结构之一,与列表一样是一个可变序列(可以增删改操作的) 以键值对的方式存储数据,字典是一个无序的序列 -> hash(key) 通过哈希函数来计算存储位置,key一定是不可变的字典的创建 使用花…

国内免费的ChatGPT镜像网址(ChatGPT国内镜像网站大盘点)

ChatGPT 以其强大的信息整合和对话能力惊艳了全球,在自然语言处理上面表现出了惊人的能力。这么强大的工具我们都想体验一下,那么今天就分享几个ChatGPT国内的镜像网址,大家可以直接使用! 1.AiChat 网址入口 多角色多功能可玩性高…

IIC协议——OLED屏幕

1.IIC协议介绍 IIC全称Inter-Integrated Circuit (集成电路总线) 简称I2C 是由PHILIPS公司在80年代开发的两线式串行总线,用于连接微控制器及其外围设备。IIC属于半双工同步通信方式 特点 简单性和有效性 由于接口直接在组件之上,因此IIC总线占用的空…

超好用万能提示词框架,ChatGPT效率翻三倍!

前几天写了几篇自己的AI实践: 《程序员,如何借力ChatGPT?》 《普通人,如何借力ChatGPT?》 《我认为,最好用的AI工具是它》 《如何借力AI工具做PPT》 很多朋友在后台留言,问我应该如何写高质量的…

云原生Docker网络管理

Docker网络 Docker 网络实现原理 Docker使用Linux桥接,在宿主机虚拟一个Docker容器网桥(docker0), Docker启动一个容器时会根据Docker网桥的网段分配给容器一个IP地址,称为Container-IP, 同时Docker网桥是每个容器的默认网关。 …

redis整合通过QQ邮箱发送验证码

目录 1.QQ开启服务 2.java中配置 2.1.导入依赖 2.2.yml配置 2.2.1 mail配置 2.2.2 redis配置(与mail同级,在spring下一级) 2.3.conroller层 2.3.1 在controller类上加上 2.3.2 生成验证码方法 2.3.3发送邮件接口 2.3.4 用户登录接口&…

【事件驱动微服务架构】专家组:事件驱动的大规模架构

赖斯:欢迎来到我们关于架构的专题小组,你们一直想知道轨道。该专题小组称为事件驱动的大规模架构。当您思考事件驱动架构时,您会想到什么?这是规模、性能和灵活性的好处吗?也许你想到了一个你可能经历过的特殊问题。也…

Web Audio API实现简单变声效果

前言 想在网页中实现实时音频变声效果该如何实现呢,之前遇到这种处理音视频的需求,可能会想到需要借助C代码实现。但是现在随着浏览器性能的提升、web API的丰富,通过浏览器原生的API也可以操作音频数据实现很多复杂的效果,为web音…

mitt用100行实现发布-订阅模式还收获了9k的Star

我们先了解什么是发布-订阅模式,发布-订阅模式它是一种对象间一对多的依赖关系,当一个对象的状态发生改变时,所有依赖它的对象都将得到状态的通知。 发布-订阅模式流程如下: 订阅者将自己想订阅的事件注册到调度中心;…

快手 Flink 的稳定性和功能性扩展

摘要:本文整理自快手技术专家刘建刚,在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为四个部分: 1. 快手 Flink 平台 2. 稳定性保障和智能运维 3. 复杂场景下的功能扩展 4. 批处理的定制优化 Tips:点击「阅读原文…

maven添加指定仓库和镜像

maven历史版本下载地址:https://archive.apache.org/dist/maven/maven-3/ maven版本和java版本的关系:https://maven.apache.org/docs/history.html 项目中添加仓库 有两种方式 1.在pom.xml中添加(优先级高) 2.在setting.xml中添…

【已解决】-Mac/Mac mini/Macbook上修改鼠标指针大小

问题: MacOS默认的鼠标指针太小了,平时很容易找不到在哪里。 解决办法: 在 Mac 上,点击苹果菜单 >“系统偏好设置”,然后点按“辅助功能” 。 点击“显示”,然后点击“指针”。 设定以下任一选项…

【SQL】Oracle实现远程访问

文章目录 前言1. 数据库搭建2. 内网穿透2.1 安装cpolar内网穿透2.2 创建隧道映射 3. 公网远程访问4. 配置固定TCP端口地址4.1 保留一个固定的公网TCP端口地址4.2 配置固定公网TCP端口地址4.3 测试使用固定TCP端口地址远程Oracle 前言 Oracle,是甲骨文公司的一款关系…

CDN和Web加速器之间的区别

在数字时代,网站、社交媒体、电子商务、内容流平台和超个性化网络体验激增。因此,需要实时可靠地为最终用户提供大量生成的内容,而不会出现延迟或崩溃,无论其位置、网络、设备或浏览器如何。为此,使用CDN和web加速器就…

【模电实验】运算放大器构成的温度闭环控制系统的研究

运算放大器构成的温度闭环控制系统的研究 —、实验目的 设计并连接运算放大器构成的温度闭环控制系统,测量并调试该闭环控制系统,初步形成闭环控制的概念。 二、温度闭环控制系统的工作原理 图1所示为温度闭环控制系统框图,各部分工作原理…

vue3中setup语法糖那些事儿

vue3中setup语法糖那些事儿 什么是语法糖&#xff1f;vue3相比于vue2有什么新的语法糖?refreactivewatch生命周期Teleport setup语法糖<script setup>与传统vue3有何不同传统vue3和setup语法糖&#xff0c;两者之间写法如何转换&#xff1f; 什么是语法糖&#xff1f; …

NodeJs性能分析工具

&#xff08;头等人&#xff0c;有本事&#xff0c;没脾气&#xff1b;二等人&#xff0c;有本事&#xff0c;有脾气&#xff1b;末等人&#xff0c;没本事&#xff0c;大脾气。——南怀瑾&#xff09; NodeJs内存分析的必要性 回顾过去&#xff0c;我们排查web应用问题的途径…

EasyRecovery16计算机电脑硬盘格式化数据恢复软件

EasyRecovery16是一款综合性的数据恢复工具&#xff0c;软件具备非常成熟的算法&#xff0c;适用于多种数据丢失情况&#xff0c;可以帮助用户快速恢复不同介质丢失的数据。easyrcovery软件共有三种版本&#xff0c;分别为个人版、专业版、企业版。这三种版本的软件都可以免费使…

市场类型与完全竞争市场

短期完全竞争市场 区分市场类型的几条标准&#xff1a; 生产者的数量商品的同质性&#xff08;差异化程度&#xff09;进出市场的障碍信息是否完全 市场类型&#xff1a; 完全垄断寡头垄断垄断性竞争完全竞争 完全竞争市场的特征&#xff1a; 企业&#xff1a;数目多&…

Python学习41:文本分析(1)——统计文件中的字符

描述‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬ open(name[, mode[, bufferi…