2024年10月18日至10月20日,第七届中国模式识别与计算机视觉大会(The 7th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2024)在新疆乌鲁木齐的新疆国际会展中心举办,是国内顶级的模式识别和计算机视觉领域学术盛会。PRCV 2024由中国自动化学会(CAA)、中国图象图形学学会(CSIG)、中国人工智能学会(CAAI)和中国计算机学会(CCF)联合主办,新疆大学承办,新疆维吾尔自治区科学技术协会、中科视拓(南京)科技有限公司和中国计算机学会(CCF)乌鲁木齐分部协办。视觉计算实验室的四位小伙伴也来到了会议现场,根据会议议程和研究方向,各自选择了自己感兴趣的报告或论坛,并做了相关的记录和总结。
图1:参会合影留念
讲习班:场景感知:从生物视觉机理到类脑视觉模型
讲者:邢大军(北京师范大学)、杨开富(电子科技大学)
两位讲者从视觉认知方面的研究员,为我们解释了人类的视觉系统是如何感知视觉信息的,以及计算机系统又该如何模拟人脑的这一过程。
邢大军教授的分享主题是“生物视觉感知机理”,他重点介绍了人类的视觉系统的是如何对视觉感知信息(如亮度、颜色、运动等信息)进行加工处理,大脑皮层和视觉感知之间存在怎样的关系,大脑皮层的神经冲动是如何产生的以及相关的作用。
杨开富老师的分享主题是“视觉计算模型与应用”,他重点介绍了视觉感知信息的形成原理,视觉感知信息会带来的错觉,计算机系统又该如何加工处理视觉信息,类脑图像处理中重要的计算方法等。
两位讲者的讲述内容让参会者针对视觉信息有了从生理学到计算科学的全面了解,为图像处理和感知识别的研究前景和方向提供了另一种理论依据和实践尝试。
在这里插入图片描述
图2:场景感知:从生物视觉机理到类脑视觉模型讲习班
讲习班:多模态基础模型的结构设计与优化
讲者:周奕毅(厦门大学)、郭龙腾(中国科学院自动化研究所)、王文海(香港中文大学)
三位讲者分享了当下的多模态模型,尤其是大语言模型的成功和前景,并由浅入深地讲述了如何通过整合多模态信息(视觉、声音、文字、自然感知信息等)来设计具有理解、推理、学习能力的通用人工智能基础模型。
周奕毅教授分享的主题是“机遇与挑战—多模态语言大模型研究进展介绍”,为尚未了解多模态语言大模型的参会者简要介绍了它的发展历程、主要模型架构、国内外研究差距、应用场景、存在的不足之处和未来的研究方向和发展趋势,帮助我们推开了认识多模态大模型的大门。
郭龙腾老师分享的主题是“多模态预训练模型的构建与应用”,从引入多模态模型预训练的需求开始,层层深入,逐步介绍多模态预训练模型的构建方法和实施过程,再引申到多模态的理解与生成,并分析了多模态预训练模型所面临的技术挑战与未来展望。
王文海博士分享的主题是“视觉与语言的交汇—图文多模态大模型的研究与实践”,他从检测识别、姿态估计、语义生成等实际应用场景出发,讲述了图文大模型相较于单一大模型的优势,以及跨领域大模型的协调和迁移。
图3:多模态基础模型的结构设计与优化讲习班
专题论坛:视觉基础模型及其前沿应用
讲者:郑伟诗(中山大学)、王兴刚(华中科技大学)、叶茫(武汉大学)、任文琦(中山大学)、王文海(上海人工智能实验室)
在大规模基础模型取得重大进展的推动下,计算机视觉领域经历了深刻的变革。计 算机视觉领域的变革浪潮前沿是视觉模型,例如VisionTransformer(ViT),通过自注意力机制来理解图像,引领了图像理解范式的转变。同时,跨语言图像预训练(CLIP)框架提出了一种新的方法,通过利用图像-文本对数据集来促进视觉-语言理解。此外,SegmentAnything Model(SAM)和 GPT-4V 为视觉模型赋予了交互式语义分割的功能。
这些进展不仅突显基础模型理论的重要性,而且还提供了具体的实现路径,重塑计算机视觉的格局。然而,视觉基础模型的研究方兴未艾,如何在实际应用场景中产生更大的价值,值得我们进一步探索。基于此,中国图象图形学学会主办的英文学术期刊 Visual Intelligence 将在本次大会上组织“视觉基础模型及其前沿应用”专题论坛,旨在将领域内相关研究者聚集在一起,交流目前视觉基础模型研究和技术应用的最新进展和未来发展趋势,对其中一些共性、难点问题进行交流和深入探讨。
图4:视觉基础模型及其前沿应用专题论坛
讲习班:医疗大模型
讲者:何晖光(中国科学院自动化研究所)、陈浩(香港科技大学)、陈俊颖(华南理工大学)、杨二昆(西安电子科技大学)、房钰棋(南京大学)
近年来,人工智能技术的飞速发展推动了医疗行业的智能化转型。其中,大模型凭 借其强大的语义理解和生成能力,正在成为智慧医疗领域的关键技术之一。大模型是指通过对广泛数据进行预训练而能够适应多种任务的模型,能够帮助医疗机构实现医疗影像分析、辅助诊断、疾病发展趋势预测、个性化治疗方案制定等智能化应用,为临床决策提供重要支持,有助于打破有限的人工智能模型难以满足多样化医疗实践需求的矛盾,使更广泛的医疗场景受益于医疗大模型的发展,从而提升智慧医疗服务的水平。
本场讲习班的五位教授分别讲述了“多模态大模型在脑信息编解码中的应用”、“大模型赋能计算病理”、“大模型赋能临床疾病诊断”、“噪声标签学习及其在医学和大模型中的应用”、“大模型赋能影像智能诊疗技术”,从不同角度带领参会者领略了医疗大模型的前沿技术和具体实现。
图5:医疗大模型讲习班
讲习班:AIGC 在生物特征识别与安全中的应用
讲者:朱翔昱(中国科学院自动化研究所)、彭勃(中国科学院自动化研究所)、李琦(中国科学院自动化研究所)、赵健(西北工业大学)
AIGC即人工智能生成内容,是指利用人工智能技术模拟人类的创作过程,来自动生成文章、音乐、图片、视频等多种形式的内容。但在生物特征识别领域,AIGC也可能用来生成虚假的生物特征,例如指纹、声音、动作、人脸等,因此AIGC的信息生成和识别对抗成为其在生物特征识别领域中的重点。
在本场讲习班中,四位讲者便围绕着上述研究点展开了讲述,包括但不限于生物特征数据的增强与模拟、活体检测技术、对抗攻击防御、伪造生物特征检测,他们针对此研究点的介绍和讨论也引发了参会者对于“AIGC+生物特征识别”的研究兴趣和伦理思考。
图6:AIGC 在生物特征识别与安全中的应用讲习班
讲习班:SfM:大规模场景三维重建的基石
讲者:申抒含(中国科学院自动化研究所)、崔兆鹏(浙江大学)、崔海楠(中国科学院自动化研究所)、高翔(中国科学院自动化研究所)
Structure-from-Motion(SfM)是一种计算机视觉和计算机图形学领域的技术,其核心思想是从一系列图像中恢复出三维场景的结构和相机的运动信息。该技术基于多视图几何原理,通过匹配不同图像中的特征点,确定它们在不同图像中的对应关系,进而估计相机的位置和姿态,并使用三角测量技术估计三维点的位置。重复上述过程,模型就能逐渐构建出三维点云,以此表示场景中的物体。
在本场讲习班中,几位讲者分别介绍了“三维重建与SfM基础”、“经典SfM框架”、“混合SfM框架”、“隐式SfM框架”。此外,他们还介绍了三维计算机视觉理论与应用,例如大规模场景三维重建、智能机器人三维环境感知、场景三维语义理解,并讲述了当下SfM的经典技术框架、前沿研究进展及其基本原理。
图7:SfM:大规模场景三维重建的基石讲习班
专题论坛:女科学家论坛
讲者:张艳宁(西北工业大学)、董晶(中国科学院自动化研究所)、杨欣(华中科技大学)、张铭津(西安电子科技大学)、王路(哈尔滨工程大学)
在模式识别和计算机视觉领域,一代代优秀的女科学家们坚持不懈,凭着坚韧、细 致、认真的工作态度,勇敢迎接科研领域的新挑战,发掘科研领域的新机遇,在科技攻关中彰显女性力量,突破障碍,取得显著成就。本论坛邀请了5位在模式识别和计算机视觉领域取得突出成绩的优秀女科学家们分享她们的创新研究成果,共同探讨女科学家的成长之路。
本场讲习班中,五位女科学家依次分享了“以文为媒:高阶语义知识引导的视觉重建、感知与理解”、“数字内容生成与可信鉴伪研究浅析”、“视觉空间计算方法及应用”、“跨域推理赋能的智能图像处理”、“海杂波耦合情况下舰船尾迹检测技术”,展现了女科学家的科研风采。
图8:女科学家专题论坛