多媒体领域顶会ACM MM 2023 获奖论文一览

news2024/12/29 9:22:37

ACM 国际多媒体会议是计算机科学领域中多媒体领域的顶级会议,属于CCF A类。今年的ACM MM 2023 已于2023年10月29日至11月2日在加拿大渥太华举行。

ACM MM会议专注于推动多媒体研究和应用,其研究领域广泛涉及触觉、视频、VR/AR、音频、语音、音乐、传感器和社交数据等多个新兴领域。该会议的热门研究方向包括大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。想发paper的同学们冲起。

我这次帮大家整理了今年ACM MM 2023的获奖论文,并且做了简单的介绍,原文及源码需要的同学看文末

最佳论文奖

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

标题:CATR:面向音视频分割的组合依赖音频查询Transformer

作者:Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao

简述:音视频分割(AVVS)旨在生成图像帧内产生声音的对象的像素级映射,并确保该映射准确地遵循给定的音频。现有方法存在两个限制:1)它们分别处理视频时间特征和音视频交互特征,忽略了组合音频和视频的内在时空依赖性;2)它们在解码阶段不充分引入音频约束和对象级信息,导致分割结果不符合音频指令。为了解决这些问题,本文提出了一种解耦的音视频转换器,从各自的时间和空间维度中结合音频和视频特征,捕捉它们的组合依赖性。

最佳学生论文奖

Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error

标题:Cal-SFDA:基于可微期望校准误差的无源域自适应语义分割

作者:Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang

简述:本文提出了一种名为Cal-SFDA的新型标定引导的无源领域自适应语义分割框架。该框架的核心思想是估计分割预测的期望校准误差(ECE),作为模型对未标记目标领域的泛化能力的强指示器。反过来,估计的ECE分数有助于模型训练和公平选择源训练和目标适应阶段。在源域上的模型预训练期间,作者通过利用LogSumExp技巧并使用ECE分数来选择最好的源检查点来进行适应,确保了ECE目标的可微性。

荣誉提名奖

RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection

标题:refinetad:用于时间动作检测的无学习建议细化

作者:Yue Feng, Zhengye Zhang, Rong Quan, Limin Wang, Jie Qin

简述:本文提出了一种无提议细化方法RefineTAD,用于时间动作检测任务中精细边界定位。该方法通过提出多级细化模块和偏移聚焦策略来逐步改进预测结果,从而在三个具有挑战性的数据集上显著提高了最先进的时间动作检测方法的性能。

创新创意奖

Semantics2Hands: Transferring Hand Motion Semantics between Avatars

标题:Semantics2Hands:在化身之间传递手部动作语义

作者:Zijie Ye, Jia Jia, Junliang Xing

简述:本文提出了一种名为Anatomy-based Semantic Matrix (ASM)的新颖方法,用于在多个化身之间传输手势语义。该方法通过将手势语义编码到ASM中,并使用基于解剖学的语义重构网络(ASRN)来获得源ASM到目标手关节旋转的映射函数,从而实现精确的手势重定向。作者在Mixamo和InterHand2.6M数据集上使用半监督学习策略训练了ASRN,并在域内和跨领域的手势重定向任务中进行了评估。

开源奖

Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research

标题:情感识别工具包(ERTK):标准化情感识别研究的工具

作者:Aaron Keesing, Yun Sing Koh, Vithya Yogarajan,Michael Witbrock

简述:本文介绍了一种Python库:情感识别工具包(ERTK),用于情感识别。ERTK包括处理情感数据集的脚本、特征提取器的标准接口以及使用声明性配置文件定义实验的框架。ERTK是模块化和可扩展的,可以轻松地集成其他模型和处理器。当前版本的ERTK主要关注情感语音,但可以轻松扩展到其他模态,这是未来的计划。

最佳演示奖

Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing

标题:Open-RoadAtlas:利用VLMs进行道路状况调查和实时移动审计

作者:Djamahl Etchegaray, Yadan Luo, Zachary FitzChance,Anthony Southon, Jinjiang Zhong

简述:道路测量对于地方政府有效管理道路网络至关重要,但目前的方法存在成本高、耗时且不准确的问题。本文提出了一种自动测量平台,支持杂草、缺陷和资产监控,并利用视觉语言模型提高灵活性。对于特定领域的类别,如路面裂缝和坑洞,该平台通过训练检测器并使用VLMs来减少误报。该系统通过移动应用程序使管理人员直接参与,实现捕捉、上传、实时监控和开放词汇检测等功能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“ACMMM”领取全部获奖论文及源码

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1221325.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

23届计科,想找Java开发之类,真的是很难吗?

23届计科,想找Java开发之类,真的是很难吗? 你的投递信息(投递多少家,如何跟hr打招呼,已读不回如何应对等)都亮- -下才能知道问题出在 哪。最近很多小伙伴找我,说想要一些Java的资料,然后我根据…

asp.net在线考试系统+sqlserver数据库

asp.net在线考试系统sqlserver数据库主要技术: 基于asp.net架构和sql server数据库 功能模块: 首页 登陆 用户角色 管理员(对老师和学生用户的增删改查),老师(题库管理 选择题添加 选择题查询 判断题添加…

电商野路子:非标品中转仓项目

相信很多人之前都做过拼多多电商,抖音直播电商,淘宝虚拟电商,也做过淘宝传统电商,在童话看来,这些平台都已严重内卷,已经不再适合普通人进场了。凭你一没经验,二没背景,三没资源&…

成功解决:文档根元素 “mapper“ 必须匹配 DOCTYPE 根 “null“

文章底部有个人公众号:热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享? 踩过的坑没必要让别人在再踩,自己复盘也能加深记忆。利己利人、所谓双赢。 文章目录 前言错误信息解决方法 前言 错误…

vscode 配置 lua

https://luabinaries.sourceforge.net/ 官网链接 主要分为4个步骤 下载压缩包,然后解压配置系统环境变量配置vscode的插件测试 这里你可以选择用户变量或者系统环境变量都行。 不推荐空格的原因是 再配置插件的时候含空格的路径 会出错,原因是空格会断…

零代码编程:用ChatGPT批量转换多个视频文件夹到音频并自动移动文件夹

有很多个视频文件夹: 要全部转成音频,然后复制到另一个文件夹。 在ChatGPT中输入如下提示词: 你是一个Python编程专家,要完成一个批量将Mp4视频转为Mp3音频的任务,具体步骤如下: 打开文件夹:…

基于JavaWeb+SpringBoot+掌上社区疫苗微信小程序系统的设计和实现

基于JavaWebSpringBoot掌上社区疫苗微信小程序系统的设计和实现 源码获取入口前言主要技术系统设计功能截图Lun文目录订阅经典源码专栏Java项目精品实战案例《500套》 源码获取 源码获取入口 前言 随着我国经济迅速发展,人们对手机的需求越来越大,各种…

PaddleClas学习2——使用PPLCNet模型对车辆朝向进行识别(python)

使用PPLCNet模型对车辆朝向进行识别 1. 配置PaddlePaddle,PaddleClas环境2. 准备数据2.1 标注数据格式2.2 标注数据3. 模型训练3.1 修改配置文件3.2 训练、评估4 模型预测1. 配置PaddlePaddle,PaddleClas环境 安装:请先参考文档 环境准备 配置 PaddleClas 运行环境。 2. 准…

计算机毕设 深度学习 大数据 股票预测系统 - python lstm

文章目录 0 前言1 课题意义1.1 股票预测主流方法 2 什么是LSTM2.1 循环神经网络2.1 LSTM诞生 2 如何用LSTM做股票预测2.1 算法构建流程2.2 部分代码 3 实现效果3.1 数据3.2 预测结果项目运行展示开发环境数据获取 最后 0 前言 🔥 这两年开始毕业设计和毕业答辩的要…

leetcode刷题日志-14最长公共前缀

编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀,返回空字符串 “”。 示例 1: 输入:strs [“flower”,“flow”,“flight”] 输出:“fl” 示例 2: 输入:strs [“dog”,“raceca…

PHPStorm PHP-CS-Fixer

我用的是brew安装: brew install php-cs-fixer phpstorm配置: setting搜索fixer 指定安装php-cs-fixer的目录: https://github.com/PHP-CS-Fixer/PHP-CS-Fixer/blob/master/doc/installation.rst 图文详解PHPStorm实现自动执行代码格式化-…

Salmon-超快速、准确的基因丰度计算

文章目录 Salmon简介文章引用及适用物种获取转录组并建立索引比较salmon和coverm定量差异 Salmon简介 Salmon 是一款速度极快的程序,能从 RNA-seq 数据中生成高精度的转录本水平的量化估计值。Salmon 通过一系列不同的创新实现了其准确性和速度,包括使用…

算法竞赛备赛进阶之状态机模型训练

目录 1.大盗阿福 2.股票买卖IV 3.股票买卖V 4.设计密码 算法状态机(ASM)图是一种描述时序数字系统控制过程的算法流程图,其结构形式类似于计算机中的程序流程图。 ASM图是用一些特定符号按规定的连接方式来描述数字系统的功能。应用ASM图…

分形图案是什么?fpmarkets这样进入市场

分形图案的构造相对简单。市场在某个时间段内,会呈现单向的变动,要么持续上涨,要么持续下跌。观察这种趋势,并预测市场将呈现上涨态势后,过了一段时间,当所有有意向的买家都已经完成购买行为(即在价格上涨过…

Mysql数据库 16.SQL语言 数据库事务

一、数据库事务 数据库事务介绍——要么全部成功要么全部失败 我们把完成特定的业务的多个数据库DML操作步骤称之为一个事务 事务——就是完成同一个业务的多个DML操作 例: 数据库事务四大特性 原子性(A):一个事务中的多个D…

【java学习—十五】经典例题:生产者/消费者问题(7)

文章目录 1. 题目2. 答案 1. 题目 生产者 (Productor) 将产品交给店员 (Clerk) ,而消费者 (Customer)从店员处取走产品,店员一次只能持有固定数量的产品 ( 比如 4 ),如果生产者试图生产更多的产品,店员会叫生产者停一下…

2023年腾讯云服务器限时特惠,2023年腾讯云服务器最新优惠汇总

亲爱的朋友们,如果你正在考虑购买腾讯云服务器,那么你一定需要了解近期腾讯云服务器的限时特惠活动。本文将为你提供2023年腾讯云服务器的最新优惠汇总,并详细介绍几款值得购买的优惠云服务器。 首先为大家介绍的是轻量2核2G3M服务器&#x…

【Python入门五】第三方库(包)介绍

Python第三方库/包介绍 前言安装方法 2 数据分析和处理netCDF4numpyxarray 3参考 前言 Python 的库分为2类。 标准库:不需要安装,需要导入。第三库:需要安装、需要导入。 Python的标准库中提供了许多有用的模块和功能,如字符串…

千梦网创:实现自动化“挂机躺盈”的三种方法

在互联网众多行业中,有很多人一直在寻找所谓的“挂机躺盈”的项目,在理财领域这种收入被称为“被动收入”。 天上不会掉馅饼这是一句讲烂掉的话了,躺在家里吃白食等着钱进账是一件不可能的事情。 然而如果你看到身边有“被动收入”的例子&a…

【深度学习】pytorch快速得到mobilenet_v2 pth 和onnx

在linux执行这个程序: import torch import torch.onnx from torchvision import transforms, models from PIL import Image import os# Load MobileNetV2 model model models.mobilenet_v2(pretrainedTrue) model.eval()# Download an example image from the P…