CVPR 2023 | 计算机视觉顶会亮点前瞻

news2024/11/22 21:19:47

在知识和技术都迅速更新迭代的计算机领域中,国际计算机视觉与模式识别会议(CVPR)是计算机视觉方向的“顶级流量”,引领着学科及相关领域的研究潮流。今天我们为大家带来5篇微软亚洲研究院被 CVPR 2023 收录的论文,主题涵盖手语识别与检索、多模态生成、图像编辑、视频理解任务等。

4月,微软亚洲研究院举办了 CVPR 2023 论文分享会,点击链接直达精彩论文分享回顾。

  • Session1:Visual Generation
  • Session2:Visual Foundation Model
  • Session3:Visual+X

CiCo:基于跨语言对比学习的域可感知手语检索

论文链接:https://arxiv.org/pdf/2303.12793.pdf

代码链接:https://github.com/FangyunWei/SLRT

最近,手语理解领域中提出了全新的手语检索任务,包含文本-手语视频检索、手语视频-文本检索两个子任务。与传统的视频文本检索不同,手语视频不仅包含视觉信号,作为一种自然语言,它还承载着丰富的语义信息。对此,微软亚洲研究院的研究员们将手语检索同时定义为视频文本检索问题和跨语言检索问题,提出了基于跨语言对比学习的域可感知手语检索算法 CiCo。

根据手语和自然语言的语言特性,CiCo 通过对比学习的方式将文本和手语视频映射至联合嵌入空间,同时学习识别细粒度的手语到单词的跨语言映射。另外,为了缓解手语检索任务的数据稀缺问题,研究员们引入了在大规模手语视频数据集上预训练的域无关手语编码器,并生成了伪标签标注来微调编码器,从而获得适用于目标域的域可感知手语编码器。CiCo 在多个数据集上显著超越了现有方法,例如,在 How2Sign 数据集上取得了 T2V+22.4 和 V2T+28.0 的 R@1 提升。研究员们希望 CiCo 可以成为手语检索中可靠的基准模型。

图1:CiCo 的模型框架

自然语言辅助的手语识别

论文链接:https://arxiv.org/abs/2303.12080

代码链接:https://github.com/FangyunWei/SLRT

广泛应用于聋哑人群体的手语是一种通过视觉信号传递信息的语言。然而,大量视觉上相似的手势极大地限制了手语识别模型的准确率。虽然这些手势难以只凭眼力区分,但它们的文本标签(通常为一个单词)却可以提供更多有用的信息。因此,研究员们提出了自然语言辅助的手语识别模型(NLA-SLR)。

首先,对于语义相似的手势,研究员们提出了自然语言感知的标签平滑。如图2(a)所示,在训练过程中计算当前手势标签与词汇表中每个标签的语义相似度,并根据相似度向量生成软化标签作为优化目标。这一技术能够有效正则化模型,降低训练难度。其次,对于语义差别大的手势,研究员们提出了跨模态混合,如图(b)所示通过将训练过程中模型的视觉特征与词汇表中的文本特征一一混合,并设计相应的跨模态混合标签,能够在自然语言的帮助下提高手势的可分性,从而提升模型性能。最后,经过三个广泛使用的标准数据集中的验证, NLA-SLR 均达到了最高的识别准确率。

图2:(a)基于语义相似性的标签平滑;(b)跨模态特征混合。

MM-Diffusion:生成音视频的双模态扩散模型

论文地址:https://arxiv.org/abs/2212.09478

代码地址:https://github.com/researchmm/MM-Diffusion

近年来,扩散模型已经在图像、视频、音频等领域取得了显著的成果。但是目前的研究主要聚焦在视觉或听觉的单模态生成,这样生成出来的内容与真实网络世界的视频依然有较大差距,不符合人们的视听习惯。同时,从研究的角度出发,视频和音频在时序上也是天然对齐的。因此,这篇工作旨在探索音视频双模态同时生成的新方法。研究员们提出了基于双流 U 形网络的多模态扩散模型 MM-Diffusion。该方法不仅在音视频单模态质量的对比超过了当前的最佳方法,还在同步生成视频-音频任务中验证了能提高声、画各自模态的生成质量。

图3:视频-音频生成样例

MM-Diffusion 首先将只能构建单个分布的扩散模型机制扩展到构建多个分布(如图4所示)。由于音视频分布的形状不同、模态差异较大,前向扩散过程的加噪处理需要独立进行,但由于音视频的相关性,反向逆扩散过程则采取了一个统一的音视频模型同时降噪双模态。

图4:MM-Diffusion 示意图

为了构建适配音视频的统一降噪模型,研究员们提出了双流 U 形网络。如图5所示,双流 U 形网络由音频子网络和视频子网络构成。音频子网络以空洞卷积为主要结构,对音频一维波形数据进行长时序建模;视频子网络采用二维一维卷积层和二维一维注意力机制,对视频三维数据进行时空建模。之后,在若干相交节点对两支子网络做跨模态对齐。然而由于音视频两个模态的像素空间都非常巨大,直接使用跨模态注意力机制对齐并不现实。为此,研究员们设计了基于随机偏移的注意力机制,用局部的注意力机制的运算类推,进而起到全局对齐的效果。

图5:双流 U 形网络模型图

研究员们在不同的数据集上验证了 MM-Diffusion。实验证明,不论是客观指标还是主观评测,MM-Diffusion 均超过了之前可复现单模态生成的 SOTA。该工作同时还证明了对比单模态生成,两个模态同时生成质量会更高,除此之外,研究员们进一步验证了 MM-Diffusion 具备 zero-shot 条件生成的能力(输入视频生成对应音频或反之)。

基于样例的图像编辑

论文链接:https://arxiv.org/pdf/2211.13227.pdf

代码链接:https://github.com/Fantasy-Studio/Paint-by-Example

许多最新的研究成果在基于文本的图像编辑领域都取得了巨大成功。然而,就像俗语所说“一图胜千言”,相比文本,图像能够更加形象、直接地表达用户所期待的图像编辑结果。因此,研究员们首次探索了基于参考图像的图像编辑任务,以实现更精确的图像编辑。

为了实现这个目标,研究员们通过自监督的训练方式解耦和重组原始图像与参考图像。然而,直接重组会导致生成结果含有明显的伪影。研究员们分析了出现伪影的原因,并且提出了一个压缩瓶颈和强大的数据增广策略,以避免网络直接复制和粘贴参考图像。同时,为了保证编辑过程的可控性,研究员们为参考图像设计了一个任意形状的掩膜,并利用 Classifier-free guidance 来提升生成结果与参考图像的相似度。在使用时,整个框架仅需要一次扩散模型的去噪过程,无需任何迭代优化。研究员们证明了该方法性能的优越,且能够在真实世界的图像上进行可控的高保真编辑。

图6:根据示例进行编辑可自动地将参考图像融合到源图像中,从而达到高质量的编辑效果

流式视频模型

论文链接:https://arxiv.org/abs/2303.17228

代码地址:https://github.com/yuzhms/Streaming-Video-Model

视频理解包含基于序列(sequence-based)和基于帧(frame-based)两类任务,它们通常分别采用两种独立架构进行建模。基于序列的视频任务(如动作识别)使用视频主干网络直接提取时空特征,而基于帧的视频任务(如多目标跟踪,MOT)则依赖于图像主干网络提取空间特征。相较之下,研究员们提出了一个统一了视频理解任务的新颖的流式视频架构(Streaming Video Model),该架构既解决了视频主干网络因显存消耗无法处理长视频的问题,又弥补了图像主干网络在时序建模方面的不足。

具体而言,本文的流式视频模型由一个时序感知空间编码器(temporal-aware spatial encoder)和一个与任务相关的时序解码器(temporal decoder)组成。编码器为每个视频帧提取包含时序信息的空间特征,而解码器则负责将帧级特征转换为基于序列任务的特定输出。与使用图像主干网络的基于帧的架构相比,流式视频模型的时序感知空间编码器利用了来自过去帧的附加信息,提升了特效的强度和稳健性。与使用视频主干网络的基于片段的架构相比,流式视频模型分离了帧级特征提取与片段级特征融合,减轻了计算压力,同时适用于更灵活的使用场景,如长视频推理或在线视频推理。本文的模型基于视觉 Transformer 构建,其中帧内使用自注意力(self-attention)以提取空间信息,帧间使用跨注意力(cross-attention)以融合时序信息。

文章中提出的流式视频模型在 Kinetics400, Something-Something v2 等动作识别数据集上取得了 SOTA 的性能,在 MOT17 多目标跟踪数据集上也取得了有竞争力的结果。这些实验都证明了流式视频模型在两类任务上的通用性和有效性。

图7:流式视频模型的示意图(左侧),以及与传统的基于帧的架构和基于片段的架构进行的比较(右侧)

随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个需要攻坚的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推进人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/652788.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】MySQL数据库 (一)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 MySQL数据库 一、数据库的基本概念二、数据库系统发展史1.第一代数据库2.第二代数据库3.第三代数据库 三、当今主流数据库介绍1.关系数据库2.非关系数据库 四、MySQL数据库管…

浅谈中移链中插件的功能及使用

中移链是在满足我国信息化监管需求、合规可控的前提下,打造的中国移动区块链服务平台。它允许使用插件来扩展其功能,以适应各种不同的使用场景。 什么是中移链插件呢?如果把中移链比作一个操作系统,那么插件就类比于操作系统上的…

chatgpt赋能python:Python编写选择题程序

Python编写选择题程序 Python是一种高级编程语言,由于其简洁、易读、易懂和易学的特性,使得Python成为了目前最流行的编程语言之一。Python的强大功能也使得它可以轻松地编写各种类型的程序,包括选择题程序。本文将介绍如何使用Python编写选…

SpringBoot全局异常页面处理学习

首先我们先在控制器中写一个异常,默认情况下我们的SpringBoot异常页面是这个样子的。 示例代码如下: import org.springframework.web.bind.annotation.GetMapping; import org.springframework.web.bind.annotation.RestController;/*** author qinxun* date 202…

mov、mvn、cmp等ARM汇编指令集数据处理类指令(三星2440A)

文章目录 前言一、为什么要学习汇编?二、2440下常用汇编指令1. 汇编指令集合2. 2440编译(汇编)工程框架 三、汇编指令详解1. mov指令2. mvn3. add、sub、mul、rsb(算术运算)4. and、orr、eor、bic5. cmp、teq、tst5.1 …

视频会议需要什么设备?视频会议软硬件介绍

视频会议系统简介 视频会议系统是一种通过网络技术实现远程音视频通信的系统。它可以让不同地点的人们在同一时间进行实时的视音频交流,从而实现远程会议、远程教育、远程医疗以及最近比较新兴的直播等应用场景。 视频会议系统组成 视频会议系统通常包括摄像头、…

chatgpt赋能python:Python中如何精确到小数点

Python中如何精确到小数点 Python作为一种高级编程语言,被广泛应用于数据科学、网站开发、人工智能等领域。在处理数字时,精度一直是一个非常重要的问题。本文将介绍如何在Python中精确到小数点,并给出实例演示。 为什么需要精确到小数点 …

C++11学习笔记(4)——通用工具(下)

太长了,分两篇写吧 书接上回 4.数值极值 std::numeric_limits 是 C 标准库中定义的一个模板类,位于 头文件中。它提供了关于各种数值类型的属性和极值的信息。这些信息可以帮助我们在程序中进行数值处理时,了解特定类型的数值范围、精度以及…

Flutter如何获取屏幕的分辨率和实际画布的分辨率

Flutter如何获取分辨率 在Flutter中,你可以使用MediaQuery来获取屏幕的分辨率和实际画布的分辨率。 要获取屏幕的分辨率,你可以使用MediaQuery.of(context).size属性,它返回一个Size对象,其中包含屏幕的宽度和高度。下面是一个获…

Redis中常见的一些问题

缓存穿透问题 什么是缓存穿透? 例如当我们根据id查询一个数据的时候,但是这个数据本身不存在或者已经被删除之后,缓存中不存在,就会去查询数据库,但是不存在的数据不会缓存到数据库中,那么一旦大量的这个请…

层序遍历的应用——判断二叉树是否为完全二叉树

思维导图: 一,完全二叉树的特点 假如我们现在有一颗完全二叉树,那它应该长什么样呢? 它应该长这样: 这样: 这样: 如果不是一…

6 种方式读取 Springboot 的配置,老鸟都这么玩(原理+实战)

大家好,我是小富~ 从配置文件中获取属性应该是SpringBoot开发中最为常用的功能之一,但就是这么常用的功能,仍然有很多开发者在这个方面踩坑。 我整理了几种获取配置属性的方式,目的不仅是要让大家学会如何使用&#…

Exiv2 —— exiv2介绍及下载搭建环境(Vs2017)

Exiv2介绍 Exiv2 是一个跨平台C库和一个命令行实用程序,用于管理图像元数据。它提供对Exif,IPTC和XMP元数据以及ICC配置文件的快速简便的读写访问。 嵌入到各种格式的数字图像中。 Exiv2 作为免费软件提供,用于许多项目 包括KDE和Gnome Deskt…

chatgpt赋能python:Python自动化脚本编写——让工作更高效

Python自动化脚本编写——让工作更高效 在当今的工作中,自动化脚本已经成为了一个不可或缺的工具。而Python作为一门脚本语言,它的开源、易用以及强大的库使得它成为了很多人使用自动化脚本的首选语言。 在本文中,我们将会探讨如何使用Pyth…

ChatGPT 指南:角色扮演让回答问题更专业

让 ChatGPT 进行角色扮演 Act as ...,比如,律师、内科医生、心理医生、运动教练、哲学家、翻译、平面设计师、IT 工程师等等,从而才能让 ChatGPT 从这个角色角度来分析我们的问题,不然,它的回答可能会过于广泛。 下面以…

Vue中如何进行自动化测试与端到端测试(E2E测试)

Vue中如何进行自动化测试与端到端测试(E2E测试) Vue.js是一种流行的前端JavaScript框架,用于构建现代的单页应用程序。在Vue.js中,测试是一个非常重要的主题。测试可以确保代码的正确性,使代码更加可靠和可维护。在这…

p-tuing和Lora的区别

一、前言 自从chatgpt的爆火,也同时引发了国内大模型的热潮,像百度出了文心一言、阿里出了通义千问等,但是这些大模型并未开源,国内外开源的中等规模的模型有meta的LLaMA,斯坦福基于LLaMA微调的Alpaca,国内…

小程序开发的前沿趋势和技术

在过去的一年里,小程序已成为移动互联网行业最热门的话题之一。小程序已经改变了许多行业。那么,下一个小程序开发趋势是什么?下面我们就来分析一下。 随着微信小程序的开放和推广,小程序开发企业正在大力发展并逐渐从技术方面进…

【2023最新版】黑客零基础入门(全网最全)从零基础到进阶,学完这一篇就够了

学前感言 1.这是一条需要坚持的道路,如果你只有三分钟的热情那么可以放弃往下看了。2.多练多想,不要离开了教程什么都不会,最好看完教程自己独立完成技术方面的开发。3.有问题多google,baidu…我们往往都遇不到好心的大神,谁会无…

【Qt】使用libmodbus实现ModBusTcp

这里写目录标题 下载编译使用DemoQModbusTcpClient Demo:参照:Qt自带QModbusTcpClient,换个电脑就不好使了,换libmodbus 下载 可以去github下载 链接: https://pan.baidu.com/s/13lgEZ59Dt5M7zmTJNpfKvg?pwd=yzfm 提取码: yzfm 下载libmodbus 并解压 编译 进入该目录下…