冷门研究冒险家同济陈涵晟:让科技帮助未来人类拓展艺术边界

news2024/11/22 17:41:33

原来他们是这样走过来的!

【AI红人荟】——这里是TechBeat人工智能社区为优秀的AI工作者开设的人物专访栏目。从膜拜“红人”到成为“红人”,TechBeat与你一起,在AI进阶之路上,升级打怪、完美通关~

本篇人物,是来自同济大学的研究生陈涵晟,去年他的团队获得了CVPR最佳学生论文奖,这是CVPR近十五年来,第一个中国高效的论文一作获得者。他的研究方向是3D计算机视觉,在研究生入学以来一直专注于研究基于图像的3D物体位姿估计问题,现已在CVPR发表两篇一作论文,其中一篇获得最佳学生论文奖。

以下为采访全文,欢迎阅读~

2022年的CVPR最佳学生论文奖(EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation),颁发给了来自同济大学的研究生陈涵晟及其团队。这是CVPR近十五年来,首次迎来来自中国高校的论文一作获奖者。即将进入斯坦福大学就读博士学位的陈涵晟,与我们聊了华丽标签背后,自己少年偏科、偏执3D建模学习、沉心做冷门基础研究的技术人经历,其中无不透露出他坚定于用视觉方式为世界创造美好的信仰理念。这份单纯执着的底气来自哪里?细聊之后,我们记录下他的非典型成长故事。

意料之中:典型偏科类选手顺理成章走上科研之路

一个经典问题,人是应该补足短板?还是应该发展长板?这个问题,不同性格、不同成长阶段,应该会给出不同的答案。

而陈涵晟在聊到自己小时候的兴趣时,非常坦荡甚至有些自信地承认:从小就是理工科和英语好,语文一直最差,一直没变过。

电脑是自己从小玩到大无可替代的最佳玩伴。“上小学时候就被爸爸带着玩游戏,他近视,但是也不担心我会近视。玩多了就觉得游戏本身给你提供的创造空间有限,然后我就想到:里面的一部分内容是可以通过自己学习建模去创造的。”

进入初中,陈涵晟开始琢磨起来怎么自学3D建模。但是,为什么非得是3D呢?

他说:“3D游戏,可以提供一个让你从现实生活中短暂抽离出来,进入一个虚拟世界的沉浸感。我觉得这是其他任何媒体都没办法提供的神奇体验,而且是交互式的。其他媒体,比方说电影,是被动地去接受,而游戏是主动交互。这种感觉让人很上瘾。十几年前的赛车游戏就可以做到画面非常逼真了,现在更不得了。像是虚幻5这样的引擎,非常了不起。”

“如果你把3D从我的研究中拿掉,我就没有任何东西了。”陈涵晟笃定地讲到。

后来进入高中,陈涵晟成为一名业余的游戏开发者,做了非常多第三方内容。这些从小的“童子功”,让他现在对3D渲染各自应用的操作非常熟练。

本科时候,陈涵晟更进一步,把3D和自己喜欢的赛车爱好联系到了一起,如今看来,也是非常具有交叉学科思维了。他加入赛车队,利用仿真和建模技术,与空气动力学、流体仿真相结合去设计赛车的3D外形。

TR18赛车宣传照

2018年日本比赛,陈涵晟所在的队伍拿到了油车总季军的好成绩,“感觉这么多年对赛车的热爱和付出都获得了回报!”如果从小习得的3D建模本领是手中的super power,那么这次高光时刻的经历,是他用自己的power实现技术落地的最有力证明,相信也是他科研自信的来源之一。

2018日本参赛合照

对一件事物感情的培养或许就在一朝一夕之间。从一个喜欢在外面疯玩的混小子,到逐渐能坐得下来搞开发工作的稚气青年,陈涵晟从高中到开始,一点点收敛自己的玩心,一点点释放对计算机学习的锐气。他自己都承认说,研究生期间,是自己最“宅”的阶段,没有想到自己能有这么多耐心做下来钻研课题。

意料之中,做科研完全符合陈涵晟的兴趣爱好。稚气青年在一段段“宅”下来的学习思考之后,也顺理成章地慢慢成为一名有专业思考和研究产出的AI科研者。

打破刻板印象:冷门方向也可以有大收获

另一个陈涵晟学生工作的高光时刻,莫过于去年拿到 CVPR 最佳学生论文奖的那一刻。

这是一篇关于 EPro-PnP 的论文,论文研究的问题是基于单张 2D 图像估计物体在 3D 空间中的位姿。陈涵晟团队从几何视觉算法出发,提出了 EPro-PnP 模块,其输出位姿的概率密度分布而非单一的位姿最优解,从而将不可导的最优位姿替换为了可导的概率密度,实现了稳定的端到端训练。

论文解读文章: 《CVPR 2022 最佳学生论文:单张图像估计物体在3D空间中的位姿估计》 Talk分享: https://www.techbeat.net/talk-info?id=685

陈涵晟介绍,如何在各种情况下(包括多模态歧义位姿情况下)把 PnP 变成一个端到端的模块,这个课题从本科毕业论文时候就着手做了。当时自学了很多基础书籍,比如《视觉Slam十四讲》等,里面就提到了这些经典问题。

“这本书把基础知识抛给你,问题提出来,但是具体怎么用?怎么解决?就要发挥自己的能动性,看你怎么去设计一个网络,并把它放到实际的应用问题里了。我们后来发现,在端到端训练这里,现有的方法确实存在理论缺陷,从理论上来看,肯定是有方法解决的。所以硕士期间一直在钻研这个问题,并最终通过提出EPro-PnP得到了一个比较圆满的解决方案。”

小范围的应用场景,包括自动驾驶领域当中,可以使用相机做3D的目标检测,或是机器人领域,利用相机来定位物体做抓取。从整个几何视觉领域来看,用概率方法来做一个可微分的位姿求解器,理论上会有更广泛的应用。

但是拿到 CVPR 最佳学生论文奖,实属是个意外。因为这个研究方向更偏基础几何视觉,其中需要调用到的数学内容比经验的东西要更多一些,所以对应的研究门槛也相对较高,相对来说得到的关注度就会低一点。在当下人工智能热点涌动的时代,EPro-PnP 显得非常冷门,相关论文很难成为一篇高引用的论文。

这次获奖的经历,陈涵晟倒是非常平常心,坦言:“整个CVPR会议都在家里远程参与,远程做分享、做报告。”但是,有一点让他受到了非常大的鼓励,就是:“关注度低的经典问题并不代表没有价值,这次经历说明埋头做冷板凳,也可以取得一些成就。这个对于做冷门方向的同学来说,是非常受到鼓舞的事情!”

最佳学生论文奖颁奖现场(由微软研究院Dr. Jianwei Yang在新奥尔良代领)

“几何视觉里还有很多等待解决的经典问题,包括3D重建、structure from motion这类问题。针对这些问题,也有很多新的解决方法,比方说nerf就是一种新的3D重建的方法。目前这个技术点非常热门,但它想解决的,实际上是计算机里非常经典的一个问题,非常值得深挖研究。包括现在的diffusion model,几年前研究的人也很少,但现在大家看到了好的效果,就都转身去关注它。但如果没有人做这些冷门的开创性的东西,可能就永远看不到技术创新的那一天。”陈涵晟分享道。

拿到 Best paper 这件事对陈涵晟的科研习惯也产生了影响。过去,陈涵晟倾向于独立完成工作,主动与外界发生连接、交流的动力也不是很足。但这次的获奖经历“强行”给了自己与前辈、牛人、同行在各种Talk、活动上交流的机会。他承认与外界交流,能够对打开自己的研究视野非常有帮助,是本次获奖很有意义的收获。陈涵晟也很期待10月份在巴黎的 ICCV 上能遇到更多切磋交流的伙伴。

今年秋天,陈涵晟即将进入斯坦福大学攻读计算机科学博士。细细想来自己申请博士的过程,陈涵晟总结,相比于硕士期间获得Best Paper的经历,自己3D建模+艺术+机械工程交叉领域的背景似乎更被申请学校的老师们看重。“老师们是可以看出你是真的从兴趣出发,有经验背景积累来做研究的,而不是为了名号、成绩、奖项这些。”

未来新人类:挑战者还是冒险家?

在登山圈中,有这样的任务分类:挑战(challenge)还是冒险(adventure)?挑战意味着,目前存在特定已知的艰难问题,等待大家去攻克,比方说这座山很高、很陡、地形复杂等等。而冒险则意味着,面前的路充满未知的风险,并不知道太多地形、气候变化等明确信息,需要登山者强大的驱动力和好奇心来解决前路面对的各种风险。两种任务同样都充满挑战,同样都不可或缺,同样会给登山者带来思考价值,但却对应了两种不同的探索态度、不同的求索风格。

在高速运转的计算机行业,哪些问题属于挑战?哪些属于冒险呢?

“挑战意味着challenging,你知道这个问题非常难,解决之后会给应用行业带来很大价值。比方说,我们同济大学汽车学院是做自动驾驶的,大家对未来的任务会有一个基本的规划,怎么去落地?怎么去设计方案?还有哪些板块需要攻克?这些都是非常具体、具有挑战性的工作。而冒险则意味着,你不去做,你就不知道这个问题未来会产生什么影响。如果去冒险,那么首先你要具备攻克很多挑战的能力和心态,去探索很少有人会去走的路。当有人证实了冒险的路可行之后,它就变成了一个challenge,可以不断优化细节、攻克更多可预见的难题的挑战任务。”陈涵晟聊到,创新领域的研究工作很多时候就是在做冒险。“我的重心不再放在应用层,而是希望有更大空间和资源来做之前没有人尝试过的idea。这个心态对基础研究来说,非常重要。”说到这里,陈涵晟语气十分坚定:“所有的研究课题都是自己proposal,不是别人给我的idea。”

如果目光放向未来,科技领域的工作更需要挑战还是冒险呢?陈涵晟认为,具体的挑战类型的工作,比方说需要编程来完成的工作,现在我们已经有了各种copilot,未来可能会有类似科幻电影《钢铁侠》里的JARVIS这样的通用AI助手,来协助完成基本工作。但是如果你想走得更远,做更多冒险工作,那么基础思维能力不可缺少。数学就是其中最重要的一环。这样基础的能力并不意味着可以直接拿来解决问题,而是可以提出新的问题,拓展人类的思维边界。这样的能力,短期来说AI还是很难实习,因此科技的进步仍然需要人类去推动。

​工作照

科技与艺术:未来,人人都可以当15分钟艺术家

成为在游戏、电影、娱乐、工程等方面利用3D建模技术进行设计的贡献者,是陈涵晟一直在做的事。技术与艺术的相融相生,从小时候起,就成为他观察世界的独特视角。“商业艺术,很大程度上是可以借助AIGC,来拓展更多应用场景,来迎合大众的需求。但是艺术的初衷并不是为了服务商业的,而是人类对美的表达和追求。审美的趋势、潮流的走向,从某种意义上来看,也是一种对未知的冒险,而非解决特定任务的挑战。这件事还是需要人类来引领,而非计算机可以实现。”

​赛车CFD仿真中对湍流的(艺术风格)可视化

当AI可以解放更多人的双手,帮助大家从机械性工作里抽身出来,大家会有更多的时间、精力,也有更多AI工具,去动手享受创作的乐趣。对艺术、对创作的感受和理解,毋庸置疑会成为每个人必选的一项课题。艺术家安迪·沃霍尔曾说:“在未来社会,每个人都可能出名15分钟。”而现在看来,每个人都有机会每天当15分钟艺术家。

电影,尤其是科幻电影,是陈涵晟特别喜欢的艺术审美(商业艺术)表达形式。电影中的沉浸感会延伸我们的感官系统,拓展了生命的可能性,跟随不同角色的视角,也给我们带来不一样的体验。

其中,陈涵晟最喜欢、最希望推荐给大家的是两位科幻电影导演——丹尼斯·维伦纽瓦和克里斯托弗·诺兰的作品。“从技术的角度来看,我最喜欢诺兰的《星际穿越》,他把硬科幻的视觉表现搬上了大荧幕,请诺奖级别的物理学家和graphics行业内顶尖的工作室把基于物理模拟的黑洞视觉效果呈现出来,是技术和科幻最好的结合范例。从内容的内核角度上看,我最喜欢维伦纽瓦的《降临》这部电影,没有大场面打斗,但是平淡之中利用技术手段记录一个第三类接触的故事细节,带给人非常真实的感受,构建了一个非常沉浸的世界观。”

​星际穿越电影海报

​降临电影海报

--

陈涵晟的研究执着,还来源于对前人工作的敬畏。他说:“在研究领域,我觉得很少会出现从0到1颠覆式突破的情况,因为很多研究都是循序渐进的,都需要站在巨人的肩膀上。每一篇paper都是建立在很多paper的基础之上,提出进一步的问题和更完善一点的解决方法。”这样的理智,让他更有前进的底气和动力,在未来AI新人类时代,成为更有信念的冒险家!

//

​嘉宾介绍陈涵晟

陈涵晟现为同济大学2020级硕士研究生,导师为熊璐教授,副导师为助理教授田炜。曾于2021年作为研究型实习生加入阿里巴巴达摩院,由王丕超博士指导。他的研究兴趣主要为3D计算机视觉,在研究生入学以来一直专注于研究基于图像的3D物体位姿估计问题,现已在CVPR发表两篇一作论文,其中一篇获得最佳学生论文奖。

个人网址:https://lakonik.github.io/engineering_art

-The End-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/748627.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

消息中间件RabbitMQ详解

一、 消息中间件 简介 消息中间件利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型,它可以在分布式环境下扩展进程间的通信。 使用环境 消息中间件适用于需要可靠的数据传送…

超细整理,接口自动化测试-DDT参数化驱动实战,一招打通...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 ddt说明 一般进行…

MySQL数据库——索引练习

一、练习题目 1、建立一个utf8编码的数据库test1 2、建立商品表goods和栏目表category(要求:按如下表结构创建表,并且存储引擎engine myisam 字符集charset utf8) 3、删除 goods 表中的 goods_desc 字段及货号字段,并增加 click…

JMeter中如何实现接口之间的关联?

关联是Jmeter工具中非常重要的一个技术。因为在测试过程过有些数据是经常发生变化的,要获取并使用这些数据,就要使用关联。 比如:用户登录后,session信息都不同,有些操作要使用session,就需要将这个动态的…

【国产复旦微FMQL45教程】-Procise应用流程

本教程采用 FMQL7045 FPGA开发板来完成整个试验,板卡照片如下: 具有丰富的接口资源,系统框图如下: 本教程用于完成基于Vivado的FMQL45的LED实验,目标是能够将这款开发板PL端先跑起来。 2 Procise工程建立 &#xff0…

AI绘画在线生成!推荐这个国产Midjourney平替

AI技术越来越成熟,不仅能生成文本,还能绘画。AI绘画软件层出不穷,很多人接触的是Midjourney。我之前也用过Midjourney,确实在作品精确度、图像细节等方面很出色。但用Midjourney需要有良好的网络,而且必须得是会员。 因…

Mysql常用存储引擎------MyISAM存储引擎

文章目录 一、MyISAM存储引擎1、1加锁与并发2、1修复3、1索引特性3、4 延迟更新索引键3、5 MyISAM 压缩表3、6 MyISAM 性能 二、MySQL 存储引擎 MyISAM 与 InnoDB 如何选择?一、InnoDB支持事务,MyISAM不支持,这一点是非常重要。事务是一种高级…

【嵌入式Qt开发入门】Qt如何网络编程——建立TCP通信服务端(附项目代码)

TCP 简介 TCP 协议(Transmission Control Protocol)全称是传输控制协议是一种面向连接的、可靠的、 基于字节流的传输层通信协议。 TCP 通信必须先建立 TCP 连接,通信端分为客户端和服务端。服务端通过监听某个端口来监听是否有客户端连接到来…

7.kafka+ELK连接

文章目录 kafkaELK连接部署Kafkakafka操作命令kafka架构深入FilebeatKafkaELK连接 kafkaELK连接 部署Kafka ###关闭防火墙systemctl stop firewalld systemctl disable firewalldsetenforce 0vim /etc/selinux/configSELINUXdisabled###下载安装包官方下载地址:ht…

python散记

"""字符串格式化的两种方法"""name"sans" age18 math_score90.56 english_score88.8print(f"这个学生的名字叫{name},年龄{age},数学分数是{math_score},总分是{math_scoreenglish_score}") print("这个学生的名字叫%s…

APP开发的未来:虚拟现实和增强现实的角色

移动应用程序越来越多地在我们的日常生活中发挥着重要作用。但是,随着技术的不断发展,未来的 APP开发会有什么新的发展方向呢?这是每个人都在关心的问题。在过去的几年中,移动应用程序领域发生了巨大变化。像 VR/AR这样的技术为人…

第63讲:Python编程案例之猴子吃桃

文章目录 1.需求描述以及分析2.递推方式实该该程序3.递归方式实现该程序 1.需求描述以及分析 需求描述: 猴子第一天摘了若干个桃子,第一天吃了若干个桃子中的一半,觉得不过瘾,又多吃了一个。 第二天早上又将第一天剩下的桃子吃…

Spring 项目创建和使用2 (Bean对象的存取)

目录 一、创建 Bean 对象 二、将Bean对象存储到 Spring容器中 三、创建 Spring 上下文(得到一个Spring容器) 1. 通过在启动类中 ApplicationContext 获取一个 Spring容器 2. 通过在启动类种使用 BeanFactory 的方式来得到 Spring 对象 (此…

MAYA粒子目标goalV和goalU详细应用

一下就填充到点 一个一个点填充 nParticleShape1.goalV0.5; nParticleShape1.goalU0.5; 粒子向中心移动 V方向使用渐变 删除U方向表达式 也使用渐变 使用圆角 nParticleShape1.goalUrand(0,1); nParticleShape1.goalUnParticleShape1.goalU0.02; nParticleShape1.goalUnPartic…

Excel-公式VLOOKUP 使用方法-小记

个人愚见 表示 MongoDB列中的任意一条数据 在 MySQL列 精确查找 和MongoDB列 中一模一样的数据,有的话返回MongoDB列数据,没有话返回#N/A 官方解释

redis 三种缓存更新策略

今天聊聊redis 三种缓存更新策略分别是: Cache Aside(旁路缓存)策略; Read/Write Through(读穿 / 写穿)策略; Write Back(写回)策略; 其中 Cache Aside策略…

php通过IP获取用户当前所在城市

php获取当前用户所在城市 php通过ip免申请api获取所在城市的代码包括省市区sql数据 <?php function getName($pinyin,$lv){$servername "localhost";$username "root";$password "root";$dbname "ttx";try {$conn new PDO(…

Blazor前后端框架Known-V1.2.4

V1.2.4 Known是基于C#和Blazor开发的前后端分离快速开发框架&#xff0c;开箱即用&#xff0c;跨平台&#xff0c;一处代码&#xff0c;多处运行。 Gitee&#xff1a; https://gitee.com/known/KnownGithub&#xff1a;https://github.com/known/Known 概述 基于C#和Blazor…

一款开源的Hitomi-Downloader视频下载工具,几乎支持所有主流视频网站

一款开源的Hitomi-Downloader视频下载工具&#xff0c;几乎支持所有主流视频网站 用过IDM的朋友可能知道IDM有个强大的功能就是可以嗅探网站各种视频、音频等资源&#xff0c;然后提供快捷下载&#xff0c;可不巧的是IDM是收费软件。对于不愿意付费购买IDM的朋友&#xff0c;能…

AssetBundle.Unload(true)无法卸载图集

1&#xff09;AssetBundle.Unload(true)无法卸载图集 ​2&#xff09;关于Unity 2D游戏地图预加载的问题 3&#xff09;Addressables能否支持某些资源不打Bundle直接加载源文件 这是第342篇UWA技术知识分享的推送&#xff0c;精选了UWA社区的热门话题&#xff0c;涵盖了UWA问答…