CVPR上新 | 从新视角合成、视频编解码器、人体姿态估计,到文本布局分析,微软亚洲研究院精选论文

news2024/12/28 18:40:39

编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。

本周,人工智能领域最具学术影响力的顶级会议之一,CVPR 大会在美国西雅图举办。因此,这期的“科研上新”为大家带来了四篇微软亚洲研究院入选 CVPR 2024 的精选论文解读,涉及领域涵盖新视角图像合成、3D 人体姿态估计、视频编解码器、文本布局分析等多个相关主题。


本期内容速览

01. CVPR 2024 Highlight论文CoPoNeRF:统一对应点估计、相机姿态估计和神经辐射场重建,实现端到端双视图新视角合成

02. DCVC-FM:基于特征调制的视频编解码器

03. MVGFormer:用于3D人体姿态估计的多视角几何Transformers

04. 文本分组适配器:将文本布局分析能力装配在任意文本检测器上

CoPoNeRF:统一对应点估计、相机姿态估计和神经辐射场重建,实现端到端双视图新视角合成 (CVPR 2024 Highlight论文)

new-arrival-in-research-12-1

论文链接:https://arxiv.org/abs/2312.07246

在使用相机拍摄的多张二维图像进行三维神经辐射场(NeRF)建模和新视角渲染的过程中,传统的处理流程往往将其细分为三个子任务:图像特征点匹配、相机姿态估计与神经辐射场建模,并为每个子任务设计不同的算法模块以实现该子任务的目标。然而,由于每个算法模块都是独立设计的,每个子任务可能会引入不同的偏差,这就导致整个流程存在潜在的不一致风险。尤其在拍摄图片数量有限、相机姿态变化较大的情况下,该流程往往会使得最终新视角渲染效果欠佳。

针对这一问题,微软亚洲研究院的研究员们认识到,三个子任务之间共同追求的核心目标是从二维图像数据中精确解释并重建三维几何,因此,它们间的统一性和协同性亟待加强。在仅有两幅图像作为输入的情况下,研究员们提出了一个名为 CoPoNeRF 的创新框架。该框架无缝整合了二维图像对应点匹配、相机相对姿态估计与神经辐射场渲染,并利用这个具有统一性的框架,增强了各子任务间的协同性。CoPoNeRF 框架的设计强调的是三个任务共享一个统一的表征,且整个框架采用端到端的方式进行训练,旨在提升子任务间的协同性和整体模型的精度。

研究员们在真实世界的两个多样化室内和室外场景数据集上,对 CoPoNeRF 框架进行了广泛的评估。实验结果表明,该方法相较于先前的方法取得了明显改进,特别是在两幅图像视点变化较大、相机姿态难以精确获得的情况下新视角渲染效果获得极大提高。

图1:给定两幅可能存在极端视点变化的图像,CoPoNeRF 框架可以端到端地协同执行三个任务(2D 对应点估计、相机姿态估计和神经辐射场渲染),从而实现高质量的新视角图像合成。

图1:给定两幅可能存在极端视点变化的图像,CoPoNeRF 框架可以端到端地协同执行三个任务(2D 对应点估计、相机姿态估计和神经辐射场渲染),从而实现高质量的新视角图像合成。

DCVC-FM:基于特征调制的视频编解码器

new-arrival-in-research-12-3

论文链接:https://arxiv.org/abs/2402.17414

项目链接:https://github.com/microsoft/DCVC

相较于常用的基于残差编码的视频编解码器,基于条件编码的模型展现出了巨大的潜力,并在这几年取得了显著的发展。但在其向实用化迈进的过程中,仍存在两个亟待解决的关键问题:1. 考虑到不同带宽和存储的需求,如何设计一个能够支持可变码率的单一模型,且该码率范围需要足够大;2. 视频编解码器通过挖掘时域相关性以减小视频冗余,但这往往容易导致时域上的误差传播。因此,如何避免该误差传播造成的重建质量衰减。针对这两个问题,研究员们通过设计特征调制技术,提出了相应的解决方案。

为了实现大范围的可变码率,研究员们提出使用可学习的量化缩放器来调整每帧的隐特征(如图2右图所示)。在训练的过程中,研究员们设计了一种均匀的量化参数采样机制,以使得编解码器应对不一样的率失真权衡。

图2:DCVC-FM 的主框架图(左)和帧编码框架图(右)

图2:DCVC-FM 的主框架图(左)和帧编码框架图(右)

该训练机制可以帮助学习细粒度,并优化可调节的量化缩放器,从而能在一个很大的码率范围内,根据用户需求调节视频编码质量——可调的视频质量范围将从之前的3.8 dB增长到11.4 dB。另外,DCVC-FM 能够动态调节视频中的每帧质量,该功能也使得模型可以应对复杂易变的网络带宽环境,图3便展示了 DCVC-FM 在应对变化带宽方面的能力。

图3:码率控制示意

图3:码率控制示意

针对时域误差传播问题,已有的模型普遍采用频繁插入高质量帧内编码帧的方法来切断误差传播。尽管该方法可以有效遏制误差的扩散,但由于帧内编码的效率极低,整体的视频编码效率将显著降低。为此,研究员们设计了一种特征更新机制——当相邻帧的特征在时域传播时,研究员们将周期性地使用辅助性的特征提取器去调整并更新被传播的特征。这一机制使得 DCVC-FMDCVC-FM 在处理非常长的视频时仍能保持极高的压缩效率。如图4所示,DCVC-FM 在压缩性能方面已经超过了正在研发的下一代传统视频编码器标准的原型 ECM。

图4:压缩性能对比

图4:压缩性能对比

MVGFormer:用于3D人体姿态估计的多视角几何Transformers

new-arrival-in-research-12-7

论文链接:https://arxiv.org/abs/2311.10983

项目链接:https://github.com/XunshanMan/MVGFormer

在计算机视觉和机器学习领域,3D 人体姿态估计是一项具有挑战性的任务,因为它要求算法能够从图像或视频中准确地预测出人体关节的 3D 空间位置。这项技术对于深入理解人类行为、增强现实、虚拟现实、游戏动画以及人机交互等领域具有重要的应用潜力。然而,现有的基于深度学习的方法在处理多视角数据时,常常面临遮挡问题和视角变化所带来的挑战,特别是在准确解析几何信息方面仍显不足。

尽管目前的研究已经通过使用神经网络,在 3D 人体姿态估计上取得了进步,但这些方法在多视角设置中,尤其是在训练阶段未遇到的新视角和环境条件下,其性能表现往往不尽如人意。此外,现有的基于 Transformers 的端到端学习方法虽然能够处理遮挡问题,但在新场景下的泛化性能往往较差。因此,如何在保持端到端学习优势的基础上,提升模型对于新视角和遮挡情况的泛化能力,是当前研究面临的关键课题。

为了解决这个问题,研究员们提出了一种新的方法,其主要思想可以概括为以下三个部分:

1)混合模型设计:研究员们提出了一种新颖的混合模型 MVGFormer,该模型结合了几何模块和外观模块。几何模块负责处理所有与视角相关的 3D 任务,而外观模块则专注于从图像信号中估计 2D 姿态。

2)迭代细化过程:MVGFormer 通过迭代的方式,交替使用外观模块和几何模块来细化 2D 和 3D 姿态。外观模块基于图像特征预测2D姿态,几何模块利用三角测量法从 2D 姿态中恢复 3D 姿态。

3)端到端训练与评估:MVGFormer 支持端到端的训练,因此研究员们能通过一系列训练目标和损失函数来优化模型。在训练过程中,模型将学习如何准确地从一组初始化查询中重建 3D 人体姿态。

图5:MVGFormer 模型结构

图5:MVGFormer 模型结构

实验结果表明,相较于目前领域内的前沿方法,MVGFormer 在多种测试条件下均展现出了卓越的性能,特别是在那些训练阶段未曾遇到的新视角下,其表现尤为突出。这一成就主要得益于 MVGFormer 强大的泛化能力,即便在全新的视角条件下,它仍能保持对 3D 人体姿态的高精度估计,对于需要在多种视角下理解和预测人体动作的应用场景具有重要意义。

图6:MVGFormer 将初始化查询恢复出 3D 人体姿态的过程

图6:MVGFormer 将初始化查询恢复出 3D 人体姿态的过程

此外,MVGFormer 的框架还具有通用性,可以应用于其他关键点估计任务,如形状、手部和面部估计。未来,研究员们也可能会探索将该架构扩展到基于视频的系统中,以利用时间信息实现更稳健的追踪。

文本分组适配器:将文本布局分析能力装配在任意文本检测器上

new-arrival-in-research-12-10

论文链接:https://arxiv.org/abs/2405.07481

随着深度学习技术的发展,场景文本检测和识别领域已取得了重大进步。然而,如何将检测到的众多文本区域进行符合语义的分组并构建段落结构——场景文本布局分析问题,仍面临着诸多挑战。这些问题包括但不限于标注数据集缺乏、较难利用已有的文本检测器、缺少端到端模型等。

研究员们发现,场景文本布局分析的结果极大地依赖于文本检测的准确性,但现有的文本布局分析方法要求从头开始联合文本布局分析,与文本检测器进行联合训练,这种方法往往导致文本检测器训练不充分。

基于这一发现,研究员们利用在大量文本检测数据集上训练得到的预训练文本检测器,成功解决了因网络结构差异和输出格式不同所带来的挑战,并且让模型在冻结所有原有权重的情况下能够正常进行文本布局分析。最终,研究员们提出了通用的文本分组适配器(Text Grouping Adapter,TGA),显著提升了文本布局分析性能,并大幅加速了训练流程。

图7左图展示了装配了 TGA 的模型整体框架,其中原文本检测器模块可选择在训练过程中冻结所有权重。右图则展示了 TGA 的内部结构:首先,文本区域将被转化成实例掩码,从而得到文本实例特征;接着,预测文本组合掩码,确保属于同一组的文本实例具有相似的特征;最终,输出文本实例的关系矩阵,以此形成文本组合。

图7:装配有 TGA 的模型整体框架(左)和 TGA 内部结构(右)

图7:装配有 TGA 的模型整体框架(左)和 TGA 内部结构(右)

具体而言,TGA 包括两个重要模块:文本区域特征组装模块(Text Instance Feature Assembling)和文本组合掩码预测模块(Group Mask Prediction)。文本区域特征组装模块主要把不同文本检测器的输出统一成为文本区域掩码的形式,并且通过掩码和图片像素嵌入来组装成文本区域特征,这些特征随后会被送入文本组合掩码预测模块以及最终的文本关系预测模块。而文本组合掩码预测模块则通过预测文本组合的共同掩码,确保属于同一文本组合的文本区域具有相似的特征,从而在文本实例的关系矩阵中预测出正确的关系。

实验结果表明,TGA 能与多种不同网络结构与输出格式的文本检测器兼容。此外,TGA 还能够与端到端文本识别模型(Text Spotting Model)结合使用,实现文本检测、文本识别以及文本布局分析结果的同步输出。通过冻结文本检测器,模型能在仅有之前工作13%的可训练参数的情况下,仍能够得到领先的文本检测和文本布局分析结果。研究员们针对 TGA 损失函数的一系列消融实验进一步表明,TGA 有效解决了正负样本不平衡的问题。

文本布局分析背后的核心问题在于,视觉模型如何准确判断视觉对象间的关系以及它们在场景中的拓扑结构。未来,研究员们将持续关注这一问题,并在 Windows UI 场景和自然图像分析方面进行更加深入的探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1872624.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年湖北省安全员-C证证考试题库及湖北省安全员-C证试题解析

题库来源:安全生产模拟考试一点通公众号小程序 2024年湖北省安全员-C证证考试题库及湖北省安全员-C证试题解析是安全生产模拟考试一点通结合(安监局)特种作业人员操作证考试大纲和(质检局)特种设备作业人员上岗证考试…

uni-app通过配置package.json实现环境变量、自定义条件编译

文章目录 前言官方提示使用方法微信小程序配置如下自定义条件编译使用方法 前言 uni-app 官方概括 官方文档 在开发web时,有时需要一套代码编译发布到不同的站点,比如主站和微信h5站。(注意不是一套代码内部自适应不同浏览器,是真…

CentOS 生命周期结束指南

2019 年 9 月,Red Hat 宣布打算废止 CentOS,并将其替换为 CentOS Stream。 CentOS 7 和 8 是 CentOS Linux 的最终版本。CentOS 7 和 8 的生命周期结束日期为: CentOS 8 - 2021 年 12 月 31 日 CentOS 7 - 2024 年 6 月 30 日 相关内容推荐 点…

MySQL数据库存储引擎

MySQL数据库存储引擎 存储引擎概念 存储引擎也称为表类型 通过不同的技术比如说,存储机制,索引技巧,锁定水平等等,来提供不同的功能。 查看MySQL支持的存储引擎 show engines\G; 常用引擎比较 对事务有需求 innodb …

MySQL丢失更新问题的出现和解决

MySQL丢失更新问题的出现和解决 丢失更新问题(Lost Update)指的是两个或多个事务在读同一数据并基于此数据进行更新操作时,某些更新操作被覆盖或丢失。例如,事务A和事务B都读取了某个数据,然后事务A更新了该数据&…

谷歌Gemma 2:开源模型的新里程碑

引言: 在人工智能领域,谷歌一直是创新的先行者。最近,谷歌DeepMind团队在I/O Connect大会上发布了Gemma 2,这是其开源模型系列的最新力作,标志着AI技术的又一大步。 Gemma 2的前身,Gemma,已经因…

0-30 VDC 稳压电源,电流控制 0.002-3 A

怎么运行的 首先,有一个次级绕组额定值为 24 V/3 A 的降压电源变压器,连接在电路输入点的引脚 1 和 2 上。(电源输出的质量将直接影响与变压器的质量成正比)。变压器次级绕组的交流电压经四个二极管D1-D4组成的电桥整流。桥输出端…

中电金信:时代有命题,运营有答案——咨询服务为金融机构运营加上智慧“基因”

这两年,很多搞运营的“卷王”都开始迷茫了 原因其实没别的:时代变了 与此同时,条线集中趋于成熟 跨条线共享障碍多多 运营模式创新所带来的变革红利 也达到了发展瓶颈 想破局就必须引入一些新“变量” 基于中电金信多年来对银行业的实践…

多行业预约门店服务小程序源码系统 支持多门店预约 带完整的安装代码包以及搭建教程

系统概述 该系统基于先进的云计算和大数据技术,采用模块化设计,具有高度的可扩展性和可定制性。无论是餐饮、美容美发、健身房还是其他服务行业,都可以通过该系统轻松实现多门店预约功能。同时,我们还提供了丰富的接口和插件&…

Linux防火墙【SNAT,DNAT】

NAT: 支持PREROUTING,INPUT,OUTPUT,POSTROUTING四个链 请求报文:修改源/目标IP, 响应报文:修改源/目标IP,根据跟踪机制自动实现 NAT的实现分为下面类型: SNAT:source…

goLang小案例-获取从控制台输入的信息

goLang小案例-获取从控制台输入的信息 1. 案例代码展示 package mainimport ("bufio""fmt""log""os" )var pl fmt.Printlnfunc main() {//控制台输出欢迎提示pl("Hello Go")fmt.Print("what is your name? ")…

【技术追踪】SDSeg:医学图像的 Stable Diffusion 分割(MICCAI-2024)

这医学图像分割领域啊,终究还是被 Stable Diffusion 闯进去了~ SDSeg:第一个基于 Stable Diffusion 的 latent 扩散医学图像分割模型,在五个不同医学影像模态的基准数据集上超越了现有的最先进方法~ 论文:Stable Diffusion Segmen…

安宝特分享 | 数字化革命,AR技术打造智慧城市的未来

随着城市化进程的加速和科技创新的不断推进, AR技术正逐步融入智慧城市建设的方方面面,为城市居民提供更智能、便捷、舒适的生活体验,开启了智慧城市的新时代。 01 优化城市规划与建设 AR技术在城市规划和建设中发挥着重要作用。城市规划师和…

leetcode提速小技巧

据我所知,leetcode可能是按最难那个用例给你打分的,非难题的用时好坏不完全看复杂度,因为可能都差不多,O(n/2)和O(n)虽然都是O(n),但是反应到成绩上是不同的,所以,尽可能的在条件足够的情况下提…

宏集物联网工控屏通过 S7 ETH 协议采集西门子 1200 PLC 数据

前言 为了实现和西门子PLC的数据交互,宏集物联网HMI集成了S7 PPI、S7 MPI、S7 Optimized、S7 ETH等多个驱动来适配西门子200、300、400、1200、1500、LOGO等系列PLC。 本文主要介绍宏集物联网HMI如何通过S7 ETH协议采集西门子1200 PLC的数据,文中详细介…

JVM专题五:类加载器与双亲委派机制

通过上一篇Java的类加载机制相信大家已经搞明白了整个类加载从触发时机,接着我们就来看下类加载器,因为类加载机制是有加载器实现的。 类加载器的分类 启动类加载器 Bootstrap ClassLoader 是 Java 虚拟机(JVM)的一部分&#x…

Sqlserver双活

要实现Sqlserver双活不是一件简单的事情,什么是双活,就是两边都活着,两边都可以访问,也就是A服务器部署一个sqlserver服务,B服务器部署一个sqlserver服务,两边数据双向同步保持一致,当A数据库服…

web前端之文档流、浮动、定位详解

目录 一、文档流 二、浮动 1.添加浮动 2.清除浮动 三、定位 1.相对定位 2.绝对定位 一、文档流 什么是文档流? ● 文档流指的是文档中的标签在排列时所占用的位置。 将窗体自上而下分成一行行 ,并在每 行中按从左至右的顺序排放标签&#xff0c…

智慧校园-学工管理系统总体概述

智慧校园学工管理系统是高等教育机构内部管理不可或缺的一部分,它通过集成信息技术,全面覆盖学生从入学至毕业的各类事务,旨在优化学生工作流程,强化管理效率,同时深化学生与学校间的互动,确保学生需求得到…

【红帽战报】6月RHCE考试喜报!

往期战报回顾: 点击查看【战报】5月RHCE考试喜报!通过率100% 点击查看【战报】4月份红帽考试战报! 点击查看【战报】PASS!PASS!2023年终来一波RHCE考试 微思网络-红帽官方授权合作伙伴!面向全国招生&…