VALSE 2023 无锡线下参会个人总结 6月10日-1

news2026/2/11 6:31:27

VALSE2023无锡线下参会个人总结6月10日-1

会场照片
6月10日会议日程安排
大会主旨报告：
- 高文：特征编码与数字视网膜
- 焦李成：下一代深度学习的思考与若干问题
- 陈熙霖：计算机视觉-从孤立到系统性方法
企业宣讲环节（一）
年度进展评述（一）
- 吴建鑫：神经网络模型轻量化设计
- 刘烨斌：基于 NeRF 的三维视觉
- 张兆翔：类脑智能
- 夏勇：医学影像检测与分割
大会特邀报告
- 朱军：扩散概率模型的前沿进展
- 王井东：CV 大模型 VIMER
- 章国锋：基于隐式神经表示的三维重建、渲染与定位
- 刘偲：开放视觉感知
企业宣讲
- OPPO：罗俊：OPPO影像主张及技术创新的机遇与挑战
- AutoDL：余佳：破解用卡难复现难新方案
年度进展评述（二）
- 侯淇彬：开放域目标检测/识别
- 王利民：视频动作分析与识别
- 胡瀚：视觉自监督学习
- 程塨：遥感目标检测
- 邓伟洪：人脸感知计算
- 邓成：多模态融合感知
- 魏哲巍：图表示学习
- 刘成林：文档智能

写在前面

今年 VALSE 2023 的举办地刚好在博主目前就读学校的所在地，江苏无锡，欢迎各方学者前来参会。先预告下，今年的确是大模型的主场了，ChatGPTA、AGI 等等百花齐放。

会议持续3天（6月10-12日），7个特邀报告，12个APR报告，20场Workshop，186篇左右的顶会顶刊Poster。报告对比去年更多了，论文少了10几篇。

每篇博文的内容太多消化不了，请移步以下链接分别浏览：

[VALSE2023无锡线下参会个人总结6月10日-1]
[VALSE2023无锡线下参会个人总结6月11日-2]
[VALSE2023无锡线下参会个人总结6月12日-3]

PS：2023 年每周一篇博文阅读笔记，主页更多干货，欢迎关注。有问题私信或者留言都可，笔者看到后第一时间回复，期待 5 千粉丝有你呦 ~

会场照片

步入会场
会场中前方
会场前方
Poster展区
赞助商展区

6月10日会议日程安排

第一天没有 Workshop 的，所以大家都是同时看的一场报告。

大会主旨报告：

高文：特征编码与数字视网膜

高老师的报告主要围绕人眼中的视网膜如何与计算机视觉联系、编码等进行讲解，具体的可以搜索下卢老师相关文章，下面是一些现场的PPT照片。

请添加图片描述

请添加图片描述
整个报告就是 PPT 做的很深，但是高老师讲的内容还是容易理解的。PS：高老师并未来到现场，采用提前录屏的方式进行。

焦李成：下一代深度学习的思考与若干问题

请添加图片描述
在这里插入图片描述

从焦老师的报告开始就精彩起来了，分别从深度学习的起源和理论方面讲解现在、之后深度学习还有哪些亟待解决的问题。如果是在读博士，应该能读懂一些东西。其中模型的可解释性部分可以看下区间我的博客 VALSE2022天津线下参会个人总结8月22日-1，特邀报告2和3都涉及到模型的可解释性问题，需要了解相关知识的欢迎查看。

陈熙霖：计算机视觉-从孤立到系统性方法

请添加图片描述

陈老师一眼看上去就是位和蔼可亲的老师，PPT 所讲的内容也是切合实际。从一开始的计算机视觉引入，到目前计算机视觉的发展趋势：合久必分，分久必合（合的阶段：直接利用GPV模型去做下游任务）。未来一定是大模型的天下，也能够催生更多的产业应用。另一个重要的点是模型算法复杂度的思考：通用模型倾向于简单化，而专用模型可能进一步复杂化。最后两页的PPT非常重要，更多的是提问与回答，很多启示。

企业宣讲环节（一）

图森未来和华为，其中图森做自动驾驶的，方向不是太符合，所以没咋拍 PPT，于是接下来华为的：

请添加图片描述

捅破天！

请添加图片描述

这次上台演讲的是华为诺亚方舟实验的成员，前面几张PPT都是实验室的产出成果，看的出来非常厉害，接下来两张PPT是华为目前所面临的一些难点问题，感兴趣的朋友可以关注下。

年度进展评述（一）

吴建鑫：神经网络模型轻量化设计

请添加图片描述
吴老师的主页：https://cs.nju.edu.cn/wujx/index.htm，有模型轻量化方向的强烈建议关注下！
这次会议的进展回顾提纲和所涉及的论文：https://cs.nju.edu.cn/wujx/paper/RefinedFileInfo.html，能看出来是位非常严谨的老师。

请添加图片描述

刘烨斌：基于 NeRF 的三维视觉

这个不懂，欢迎关注我的一位小伙伴：杀生丸学AI，他的方向是 NeRF。我这里就只放出一些PPT，感兴趣的可以关注杀生丸学AI。

请添加图片描述

张兆翔：类脑智能

这个当时应该是去干饭了，没拍到，[!尴尬]。

夏勇：医学影像检测与分割

夏老师有点事情没到现场，由他的博士后学生报告。
请添加图片描述

大会特邀报告

朱军：扩散概率模型的前沿进展

这是下午的报告，不懂，拍了两张PPT。

请添加图片描述

王井东：CV 大模型 VIMER

请添加图片描述

章国锋：基于隐式神经表示的三维重建、渲染与定位

请添加图片描述

刘偲：开放视觉感知

请添加图片描述
刘偲老师在2020年的时候就听过她的报告，当时做的指代分割。去年在天津上作了人工智能+艺术的 workshop 报告以及优秀学生论坛的主席，基本上相当于 21-22 年发表论文的一个总结了。今年给我们讲的是开放视觉感知，很有意思。
请添加图片描述

企业宣讲

OPPO：罗俊：OPPO影像主张及技术创新的机遇与挑战

请添加图片描述

AutoDL：余佳：破解用卡难复现难新方案

和去年一样的标题，换人了，上新了新机器，确实牛批，价格学生都可以承受。官网指路：AutoDL。

年度进展评述（二）

侯淇彬：开放域目标检测/识别

请添加图片描述
开放域的问题是在之前目标检测与识别基础上衍生而来的，因为目前的这些基础任务很难再去设计新的模型结构了，只能在之前的方向上加限定条件。

请添加图片描述

今年没怎么大谈预训练了，这个坑估计被占满了。

王利民：视频动作分析与识别

请添加图片描述

请添加图片描述

最后一页PPT是论文链接，放不出来，手打下：

VideoMAE code & mode
https://github.com/MCG-NJU/VideoMAE
https://github.com/OpenGVLab/VideoMAEv2
https://github.com/OpenGVLab/InternVideo
https://github.com/OpenGVLab/Ask-Anything
Temporal and spatial action detection code
https://github.com/MCG-NJU/AdaMixer
https://github.com/MCG-NJU/STMixer
https://github.com/MCG-NJU/PointTAD
https://github.com/MCG-NJU/BasicTAD
实验室主页：
Multimedia Computing Group, Nanjing University
OpenGVLab