VALSE发起于2011年,是Vision And Learning SEminar的简写,取法语“华尔兹舞”之意,中文名称为视觉与学习青年学者研讨会。VALSE为计算机视觉、图像处理、模式识别与机器学习研究领域的华人青年学者提供了一个自由、平等、低成本的深度学术交流舞台。VALSE极大地促进了国内青年学者的思想交流和学术合作,从而使更多的青年学者在相关领域做出了重量级的学术贡献,提升了中国学者在国际学术舞台上的影响力。VALSE每年举办一次,在全国各地轮流举行。VALSE 2023于6月10日到12日在无锡举行。
本次大会包含了3个大会主旨报告、4个大会特邀报告、12个APR报告、4场Tutorial、20场Workshop、200+篇顶会顶刊Poster,由一百余位知名青年学者共同呈现了一场人工智能中的视觉与学习等领域的盛会。
本次大会究竟体现了近期人工智能的哪些研究热点?以下是个人的一些观点,可供参考。
1. 大模型
大模型无疑是人工智能近期的研究热点。特别是以ChatGPT为代表的大语言模型,开启了通用人工智能的新时代。很多行业和领域都会因此发生变革。以教育领域为例,一些以记忆、浅层理解为主的知识将会显得不再重要,这些知识可以非常方便地使用ChatGPT获得。这好比早期在做计算的时候人们使用算盘,后来有了计算器,那么算盘就不再重要了。因此,有了以ChatGPT为代表的大模型后,现有的教育模式和学习方式必然会发生改变,大模型技术会融入到教育领域,显著地改变教育的模式和学习的方式,提高学习的效率。大模型会加快自然科学领域的研究进展,改变现有的做科学研究的模式。在数学领域,大模型可以用于求解偏微分方程,可以进行复杂优化问题的求解等,从而解决数学领域以前无法解决的问题;在物理领域,大模型可以用于量子计算和模拟等;在生物领域,大模型可以用来预测蛋白质的结构等。总而言之,大模型不管对于研究人员还是普通大众来说,都是必然会用到的技术。
大模型技术未来的研究方向有哪些?现有的大模型是基于自然语言处理的,那么会不会出现基于图像和视频处理的大模型,会不会出现基于语音分析的大模型?这就涉及到多模态的大模型。也就是说,可以使用不同模态的数据去训练大模型,从而让大模型能够处理不同类型的任务,让其具有更加丰富的功能。此外,大模型与小模型的协同与合作,也可能是未来的研究热点。类似于去搜索广播电台,先粗调然后再微调,在完成特定的任务时,可以使用大模型先得到初步的结果,然后再使用专门训练的小模型对得到的结果进行精细化的调整,从而得到更优的结果。
2. 多模态
本次VALSE会议上有多个关于多模态的workshop,这也显示了多模态学习的研究热度。多模态学习是一种机器学习方法,它使用多种不同模态的数据来训练模型,从而提高模型的性能。 不同模态的数据包括文本、图像、音频、视频等。为了让模型具有更加丰富的功能,能够完成不同的任务,多模态学习将会显得非常重要。例如,可以使用文本、图像、语音等更加丰富的数据去训练大模型,从而让大模型具有更加丰富的功能。
3. 具身智能
具身智能强调智能的物理实现基础,认为智能存在于身体与环境的相互作用之中,而不仅仅局限于大脑或心灵。具身智能是本次VALSE上的热点之一,也是人工智能一个比较新的研究方向。
4. 面向开放域的视觉
近些年,面向开放域的视觉受到了研究者的高度关注。面向开放域的物体识别的目的是在标签空间和数据分布存在较大域差异的情况下,为每个目标样本分配一个特定的标识。大多数现有方法都依赖于关于源域和目标域之间标签集关系的大量先验信息,这对其在实际应用中的应用是一个很大的限制。因此,研究面向开放域的物体识别非常重要。此外,面向开放域的目标检测也是研究的热点之一。
5. 扩散模型
扩散模型是一类生成模型,具有其强大的生成能力,是生成模型中的研究热点之一。扩散模型分为前向阶段和逆向阶段,在前向阶段中逐步向数据中添加噪声,直至数据变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声中还原为原始数据。扩散模型已经被应用于计算机视觉、语音生成、生物信息学和自然语言处理等领域。可以预见,扩散模型将会在其它更为广泛的领域获得应用。
6. 持续学习
持续学习,也称为增量学习,它建立在不断学习外部世界的理念之上,以实现更复杂的技能和知识的自主、渐进式发展。人类学习知识就是一个不断学习的过程,与之类似,机器要获得足够的智能也需要持续学习。当面对的任务发生改变或者数据的特性发生改变的时候,使用已经训练好的模型可能无法获得满意的效果,这就需要机器继续进行学习。对于实现大模型性能的持续改进,持续学习将是一种重要的方法。