PRCV 2024 - Day 1

news2024/11/29 13:41:12

2024年10月18日至10月20日,第七届中国模式识别与计算机视觉大会(The 7th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2024)在新疆乌鲁木齐的新疆国际会展中心举办,是国内顶级的模式识别和计算机视觉领域学术盛会。PRCV 2024由中国自动化学会(CAA)、中国图象图形学学会(CSIG)、中国人工智能学会(CAAI)和中国计算机学会(CCF)联合主办,新疆大学承办,新疆维吾尔自治区科学技术协会、中科视拓(南京)科技有限公司和中国计算机学会(CCF)乌鲁木齐分部协办。视觉计算实验室的四位小伙伴也来到了会议现场,根据会议议程和研究方向,各自选择了自己感兴趣的报告或论坛,并做了相关的记录和总结。
在这里插入图片描述

图1:参会合影留念
讲习班:场景感知:从生物视觉机理到类脑视觉模型
讲者:邢大军(北京师范大学)、杨开富(电子科技大学)

两位讲者从视觉认知方面的研究员,为我们解释了人类的视觉系统是如何感知视觉信息的,以及计算机系统又该如何模拟人脑的这一过程。

邢大军教授的分享主题是“生物视觉感知机理”,他重点介绍了人类的视觉系统的是如何对视觉感知信息(如亮度、颜色、运动等信息)进行加工处理,大脑皮层和视觉感知之间存在怎样的关系,大脑皮层的神经冲动是如何产生的以及相关的作用。

杨开富老师的分享主题是“视觉计算模型与应用”,他重点介绍了视觉感知信息的形成原理,视觉感知信息会带来的错觉,计算机系统又该如何加工处理视觉信息,类脑图像处理中重要的计算方法等。

两位讲者的讲述内容让参会者针对视觉信息有了从生理学到计算科学的全面了解,为图像处理和感知识别的研究前景和方向提供了另一种理论依据和实践尝试。
在这里插入图片描述

图2:场景感知:从生物视觉机理到类脑视觉模型讲习班
讲习班:多模态基础模型的结构设计与优化
讲者:周奕毅(厦门大学)、郭龙腾(中国科学院自动化研究所)、王文海(香港中文大学)

三位讲者分享了当下的多模态模型,尤其是大语言模型的成功和前景,并由浅入深地讲述了如何通过整合多模态信息(视觉、声音、文字、自然感知信息等)来设计具有理解、推理、学习能力的通用人工智能基础模型。

周奕毅教授分享的主题是“机遇与挑战—多模态语言大模型研究进展介绍”,为尚未了解多模态语言大模型的参会者简要介绍了它的发展历程、主要模型架构、国内外研究差距、应用场景、存在的不足之处和未来的研究方向和发展趋势,帮助我们推开了认识多模态大模型的大门。

郭龙腾老师分享的主题是“多模态预训练模型的构建与应用”,从引入多模态模型预训练的需求开始,层层深入,逐步介绍多模态预训练模型的构建方法和实施过程,再引申到多模态的理解与生成,并分析了多模态预训练模型所面临的技术挑战与未来展望。

王文海博士分享的主题是“视觉与语言的交汇—图文多模态大模型的研究与实践”,他从检测识别、姿态估计、语义生成等实际应用场景出发,讲述了图文大模型相较于单一大模型的优势,以及跨领域大模型的协调和迁移。

图3:多模态基础模型的结构设计与优化讲习班
专题论坛:视觉基础模型及其前沿应用
讲者:郑伟诗(中山大学)、王兴刚(华中科技大学)、叶茫(武汉大学)、任文琦(中山大学)、王文海(上海人工智能实验室)

在大规模基础模型取得重大进展的推动下,计算机视觉领域经历了深刻的变革。计 算机视觉领域的变革浪潮前沿是视觉模型,例如VisionTransformer(ViT),通过自注意力机制来理解图像,引领了图像理解范式的转变。同时,跨语言图像预训练(CLIP)框架提出了一种新的方法,通过利用图像-文本对数据集来促进视觉-语言理解。此外,SegmentAnything Model(SAM)和 GPT-4V 为视觉模型赋予了交互式语义分割的功能。

这些进展不仅突显基础模型理论的重要性,而且还提供了具体的实现路径,重塑计算机视觉的格局。然而,视觉基础模型的研究方兴未艾,如何在实际应用场景中产生更大的价值,值得我们进一步探索。基于此,中国图象图形学学会主办的英文学术期刊 Visual Intelligence 将在本次大会上组织“视觉基础模型及其前沿应用”专题论坛,旨在将领域内相关研究者聚集在一起,交流目前视觉基础模型研究和技术应用的最新进展和未来发展趋势,对其中一些共性、难点问题进行交流和深入探讨。
在这里插入图片描述

图4:视觉基础模型及其前沿应用专题论坛
讲习班:医疗大模型
讲者:何晖光(中国科学院自动化研究所)、陈浩(香港科技大学)、陈俊颖(华南理工大学)、杨二昆(西安电子科技大学)、房钰棋(南京大学)

近年来,人工智能技术的飞速发展推动了医疗行业的智能化转型。其中,大模型凭 借其强大的语义理解和生成能力,正在成为智慧医疗领域的关键技术之一。大模型是指通过对广泛数据进行预训练而能够适应多种任务的模型,能够帮助医疗机构实现医疗影像分析、辅助诊断、疾病发展趋势预测、个性化治疗方案制定等智能化应用,为临床决策提供重要支持,有助于打破有限的人工智能模型难以满足多样化医疗实践需求的矛盾,使更广泛的医疗场景受益于医疗大模型的发展,从而提升智慧医疗服务的水平。

本场讲习班的五位教授分别讲述了“多模态大模型在脑信息编解码中的应用”、“大模型赋能计算病理”、“大模型赋能临床疾病诊断”、“噪声标签学习及其在医学和大模型中的应用”、“大模型赋能影像智能诊疗技术”,从不同角度带领参会者领略了医疗大模型的前沿技术和具体实现。

在这里插入图片描述

图5:医疗大模型讲习班
讲习班:AIGC 在生物特征识别与安全中的应用
讲者:朱翔昱(中国科学院自动化研究所)、彭勃(中国科学院自动化研究所)、李琦(中国科学院自动化研究所)、赵健(西北工业大学)

AIGC即人工智能生成内容,是指利用人工智能技术模拟人类的创作过程,来自动生成文章、音乐、图片、视频等多种形式的内容。但在生物特征识别领域,AIGC也可能用来生成虚假的生物特征,例如指纹、声音、动作、人脸等,因此AIGC的信息生成和识别对抗成为其在生物特征识别领域中的重点。

在本场讲习班中,四位讲者便围绕着上述研究点展开了讲述,包括但不限于生物特征数据的增强与模拟、活体检测技术、对抗攻击防御、伪造生物特征检测,他们针对此研究点的介绍和讨论也引发了参会者对于“AIGC+生物特征识别”的研究兴趣和伦理思考。
在这里插入图片描述

图6:AIGC 在生物特征识别与安全中的应用讲习班
讲习班:SfM:大规模场景三维重建的基石
讲者:申抒含(中国科学院自动化研究所)、崔兆鹏(浙江大学)、崔海楠(中国科学院自动化研究所)、高翔(中国科学院自动化研究所)

Structure-from-Motion(SfM)是一种计算机视觉和计算机图形学领域的技术,其核心思想是从一系列图像中恢复出三维场景的结构和相机的运动信息。该技术基于多视图几何原理,通过匹配不同图像中的特征点,确定它们在不同图像中的对应关系,进而估计相机的位置和姿态,并使用三角测量技术估计三维点的位置。重复上述过程,模型就能逐渐构建出三维点云,以此表示场景中的物体。

在本场讲习班中,几位讲者分别介绍了“三维重建与SfM基础”、“经典SfM框架”、“混合SfM框架”、“隐式SfM框架”。此外,他们还介绍了三维计算机视觉理论与应用,例如大规模场景三维重建、智能机器人三维环境感知、场景三维语义理解,并讲述了当下SfM的经典技术框架、前沿研究进展及其基本原理。

在这里插入图片描述

图7:SfM:大规模场景三维重建的基石讲习班
专题论坛:女科学家论坛
讲者:张艳宁(西北工业大学)、董晶(中国科学院自动化研究所)、杨欣(华中科技大学)、张铭津(西安电子科技大学)、王路(哈尔滨工程大学)

在模式识别和计算机视觉领域,一代代优秀的女科学家们坚持不懈,凭着坚韧、细 致、认真的工作态度,勇敢迎接科研领域的新挑战,发掘科研领域的新机遇,在科技攻关中彰显女性力量,突破障碍,取得显著成就。本论坛邀请了5位在模式识别和计算机视觉领域取得突出成绩的优秀女科学家们分享她们的创新研究成果,共同探讨女科学家的成长之路。

本场讲习班中,五位女科学家依次分享了“以文为媒:高阶语义知识引导的视觉重建、感知与理解”、“数字内容生成与可信鉴伪研究浅析”、“视觉空间计算方法及应用”、“跨域推理赋能的智能图像处理”、“海杂波耦合情况下舰船尾迹检测技术”,展现了女科学家的科研风采。
在这里插入图片描述

图8:女科学家专题论坛

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2218595.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

专家系统简介

本文对基于规则的专家系统进行简介,举例专家系统的结构类似 MYCIN 系统,同时串联介绍专家系统的各种思想。需要注意的是,本文所述仅是专家系统的一种实现途径,其依赖规则进行知识表示和推理,另外还有基于语义网络、框架…

详解23种设计模式——第一部分:概述+创建型模式

目录 1. 概述 2. 创建型模式 2.1 简单(静态)工厂模式 2.1.1 介绍 2.1.2 实现 2.2 工厂模式 2.3 抽象工厂模式 2.4 单例模式 2.4.1 饿汉模式 2.4.2 懒汉模式 2.4.3 线程安全的懒汉式 2.4.4 DCL单例 - 高性能的懒汉式 2.5 建造者模式 2.6 原…

linux模拟:chrony同步时间

实验材料: 服务器:linux,红帽-9.1 客户端:linux,乌班图-18.4 Server/client; 安装chrony yum install -y chrony 查看chrony的状态: systemctl status chronyd 服务器: 在/etc/chrony.conf文件里面…

理解VSCODE基于配置的设置,避免臃肿

这节课我们讲两点: (一)下载、安装、汉化及美化 VSCODE; (二)理解VSCODE中基于配置(Profiles)的设置(Settings),让 VSCODE 保持清爽。 &#xff0…

无极低码课程【redis windows下服务注册密码修改】

下载Windows版本的Redis linux环境 (自行下载) 1.打开官网https://redis.io/downloads/ windows环境 1.打开github https://github.com/microsoftarchive/redis/releases 然后选择你喜欢的版本zip或msi下载 2.这里下载zip版,解压后后,打开安装目录 3.双击redis-server…

学习莫烦python---神经网络

一、卷积神经网络区别 1、“卷积” 和 “神经网络”. 卷积也就是说神经网络不再是对每个像素的输入信息做处理了,而是图片上每一小块像素区域进行处理, 这种做法加强了图片信息的连续性. 使得神经网络能看到图形, 而非一个点. 这种做法同时也加深了神经网络对图片的理解 –翻译…

快充协议有哪些,都有哪些特点

什么是PD协议 PD协议是一种充电协议,全称为“USB Power Delivery(USB PD)”,是由USB-IF(USB Implementers Forum)组织制定的一种标准协议‌。它是一种基于USB接口的快速充电技术,可以实现高达1…

【无人机设计与控制】基于环形拓扑的多目标粒子群优化算法(MO_Ring_PSO_SCD)求解无人机

摘要 本文提出了一种基于环形拓扑的多目标粒子群优化算法 (MO-Ring-PSO-SCD) 用于解决无人机的三维路径规划问题。该算法同时优化了无人机路径的路径成本和威胁成本,通过粒子群算法的多目标优化能力实现路径选择。实验结果表明,与传统算法相比&#xff…

RFID在半导体天车的问题解决方案

RFID在半导体天车的问题解决方案 目前苏州某科技公司的半导体天车目前现阶段存在问题: (1)传统8寸晶圆加工过程中涉及几十道工序,目前都是采用人工搬运,容易产生污染物导致晶圆损坏,速度也比较慢&#xf…

自动驾驶系列—自动驾驶测试前的必备流程:车辆准备平台深度解析

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中…

Java笔试04

采用FIFO(先进先出)页面置换算法,可能会产生 抖动现象:抖动现象是指频繁地进行页面置换,导致系统资源大部分时间用于页面置换而不是实际的计算工作。FIFO算法由于其简单的先进先出特性,可能会导致频繁的页面…

消费即赚,循环购物模式引领潮流

在电商界,一种全新的购物模式正悄然兴起——循环购物模式。听起来有些不可思议?消费满额还能获得高额返利,甚至每日领取现金?这背后究竟隐藏着怎样的秘密? 一、循环购物模式初印象 想象一下,您在某个电商平…

【OpenGL】创建窗口/绘制图形

需要云服务器等云产品来学习Linux可以移步/-->腾讯云<--/官网&#xff0c;轻量型云服务器低至112元/年&#xff0c;新用户首次下单享超低折扣。 目录 一、创建窗口 1、代码流程图 2、运行结果 3、代码 二、三角形 1、顶点缓冲对象&#xff1a;Vertex Buffer Object…

Redis --- 第四讲 --- 常用数据结构 --- Hash、List

一、Hash哈希类型的基本介绍。 哈希表&#xff1a;之前学过的所有数据结构中&#xff0c;最最重要的。 1、日常开发中&#xff0c;出场频率非常高。 2、面试中&#xff0c;非常重要的考点。 Redis自身已经是键值对结构了。Redis自身的键值对就是通过哈希的方式来组织的。把…

行业认可 | 钛铂数据喜获2024爱分析 · 数据智能优秀厂商奖

近日&#xff0c;TapData 凭借在数据智能领域的卓越表现&#xff0c;成功入选2024爱分析数据智能优秀厂商榜单。 9月13日&#xff0c;2024爱分析第六届数据智能高峰论坛圆满举办。作为此次论坛的重磅环节&#xff0c;正式公布了“2024爱分析数智卓越企业奖”“2024爱分析数据智…

汽车建模用什么软件最好?汽车建模渲染建议!

在汽车建模和渲染领域&#xff0c;选择合适的软件对于实现精确的设计与高质量的视觉效果至关重要。那么不少的汽车设计师如何选择合适的建模软件与渲染方案呢&#xff0c;一起来简单看看吧&#xff01; 一、汽车建模用软件推荐 1、Alias Autodesk旗下的Alias系列软件是汽车设…

代理 IP 在 AI 爬虫中的关键应用

现如今&#xff0c;人工智能&#xff08;AI&#xff09;的发展日新月异&#xff0c;而数据作为驱动 AI 发展的关键要素&#xff0c;其重要性不言而喻。AI 爬虫作为获取大量数据的重要工具&#xff0c;在数据收集过程中发挥着至关重要的作用。而代理 IP 在 AI 爬虫中有着广泛而重…

flutter实现头像覆盖轮播滚动组件

效果如下: 支持自定义图片大小 支持设置覆盖比例 支持设置最大展示数量 支持设置缩放动画比例 支持自定义动画时长、以及动画延迟时长 支持当图片List长度小于或者登录设置的最大展示数量时禁用滚动动画。 import ../../library.dart;class CircularImageList extends Sta…

2024全网最详细CTF入门指南、CTF夺旗赛使用工具及刷题网站

2024年最新的CTF&#xff08;Capture The Flag&#xff0c;夺旗赛&#xff09;入门指南如下&#xff0c;涵盖了入门思路、常见题型及练习网站推荐&#xff0c;帮助你逐步了解并提升在CTF中的解题技巧。 如果你对网络安全入门感兴趣&#xff0c;我给大家整理好了相关资料&#…

基于SpringBoot+Vue的蜗牛兼职网的设计与实现(带文档)

基于SpringBootVue的蜗牛兼职网的设计与实现&#xff08;带文档) 开发语言:Java数据库:MySQL技术:SpringBootMyBatisVue等工具:IDEA/Ecilpse、Navicat、Maven 该系统主要分为三个角色&#xff1a;管理员、用户和企业&#xff0c;每个角色都有其独特的功能模块&#xff0c;以满…