助力 VR/AR 等复杂图像场景极致高清,火山引擎夺得 NTIRE 大赛双料冠军

news2024/11/21 12:17:53

动手点关注

47444f5387055eae1270db7c8be94fd0.gif

干货不迷路

近日,CVPR Workshop 下属的 NTIRE2023大赛公布比赛结果,在双目超分双三次插值保真赛道和 360° 全景图像超分赛道上,火山引擎多媒体实验室凭借自主研发的算法获得了双料冠军,技术能力达到行业领先水平。

NTIRE(New Trends in Image Restoration and Enhancement)是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 CVPR(CCF-A)上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。

ca8db2eac76231fb4b37841948884678.png

4d91d2ac351b877fd89ca5764955ce55.png

双目超分比赛结果

338a5613176b3fdceee1e160d69e4931.png

c61a70c9f665a5972a9c01688426a859.png

360°全景图像超分比赛结果

双目超分(双三次插值保真)赛道:自研 HTCN 网络,显著提升立体视觉图像分辨效果

随着双目成像技术的发展,移动电话、虚拟现实、自动驾驶和机器人中的双目相机应用越来越受欢迎,高分辨率双目图像包含更多的纹理细节,具有更好的主观视觉效果,且可以提升下游任务性能, 因此立体视觉引起了学术界和工业界的越来越多的关注。双目图像超分的简单直接方式是将单图超分辨率算法分别应用于左右视角图像,但是这样会忽略双目图像左右视角之间的信息关联--左右视角图像可以在超分过程中利用左右视角间的互补信息互为参考,同时也为双目图像超分提供额外的先验约束。因此合理利用左右视角间的互补信息对提升双目图像超分性能至关重要。本次竞赛双目超分双三次插值保真赛道旨在为双目图像SR建立一个利用双三次插值下采样的基准,并且利用最后的保真指标作为评价指标,为研究人员提供了一个共同分享他们的知识和见解的机会,推进算法性能的提高,促进立体图像超分辩技术的发展。

在图像恢复任务中,经常采用多阶段的处理策略。虽然基于 Transformer 的方法在单图像超分辨率任务中表现出高效率,但在立体超分辨率任务中还没有展现出比基于 CNN 的方法更显著的优势。这可以归因于两个关键因素:首先,当前的单图像超分辨率 Transformer 在处理过程中无法利用补充的立体信息;其次,Transformer 的性能通常依赖于充分的数据,而在常见的立体图像超分辨率任务中缺乏足够的数据。为了解决这些问题,团队提出了一种混合 Transformer 和 CNN 注意力网络(HTCAN),它利用基于 Transformer 的网络进行单图像增强和基于 CNN 的网络进行立体信息融合。此外,团队采用了 multi-patch 训练策略和更大的窗口尺寸,以扩大感知域。团队还重新审视了其他高级技术,如数据增强、数据合成和模型合成,以减少过拟合和数据偏差,最终超过其他竞争对手,获得第一名的成绩。

论文链接: https://arxiv.org/pdf/2305.05177.pdf

34b97ca519b446a670eb1f575ed11070.png

整体双目超分策略

360° 全景图像超分赛道:两阶段框架提升全方位视角图像分辨率

360° 全景图像是一种能够呈现全方位视角的图像,能够提供更加沉浸式和交互式的体验,因此在 VR/AR 应用中得到了广泛的应用。然而,由于采用的鱼眼镜头等原因,360° 全景图像的分辨率较低,影响了图像的清晰度和细节。因此,如何提高 360° 全景图像的分辨率成为了一个重要的研究方向。

超分辨率是一种图像处理技术,旨在通过从低分辨率图像中恢复高分辨率图像的细节信息来提高图像的分辨率。在 360° 全景图像中,超分辨率技术可以通过从低分辨率的全景图像中恢复缺失的高频信息来提高图像的清晰度和细节,从而提高用户的体验。

在此次竞赛中,团队提出了一种 360° 全景图像超分辨率的两阶段框架。第一阶段采用了两个分支:Model A,它包含全景位置感知可变形块(OPDB)和傅里叶上采样;Model B 在模型 A 的基础上增加了空间频率融合模块(SFF)。Model A 旨在增强 360° 图像位置信息的特征提取能力,而 Model B 进一步关注 360° 图像的高频信息。第二阶段基于 Model A 的结构进行 360° 图像的同分辨率增强。此外,团队从公开数据集收集球面数据并使用退化网络生成伪低分辨率图像,以提高 Transformer 的拟合能力。团队提出的方法取得了卓越的性能,并赢得了 NTIRE 2023 360° 全景图像超分辨率挑战赛的冠军。

论文链接: https://arxiv.org/pdf/2304.13471.pdf

4f9a895a264e6c9910d69063f57bed1d.png

整体球面超分策略

7509d27a2374293e99cca90a8c93b029.png

Model A 和 Model B 的网络结构

火山引擎多媒体实验室在双目超分双三次插值保真和 360° 全景图像超分领域实现了突破性的进展,并获得了双赛道冠军。两项技术方案可以帮助广大用户在多样化的复杂场景中获得更为清晰、精细的图像展现效果,有助于推动视频行业向着更加智能化、高效化的方向发展。其中,360° 全景图像超分技术已在幸福里 app 落地应用,并通过火山引擎 veImageX 产品面向企业开放。

火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

加入我们

字节跳动视频架构是字节跳动的视频中台部门,支持字节跳动旗下产品的点播、直播、实时通信、图片、多媒体业务发展,目标成为业界多媒体解决方案领先者,构建极致的视频技术/产品服务体验。

目前,视频架构团队已通过字节跳动旗下的火山引擎向企业开放技术能力和服务。

火山引擎 联系方式

  • 业务咨询:service@volcengine.com

  • 市场合作:marketing@volcengine.com

  • 电话:400-850-0030

扫描下方二维码 or 点击文末阅读原文进行简历投递,加入我们,让我们一起做多媒体领域的领军者!

d176b8e99b061ad7321639da9f9ef846.png

视频编解码算法工程师-多媒体实验室(北京/上海/杭州/深圳职位开放)

fe61349980e6320832dae66642312ff6.png 点击「阅读原文」即刻投递

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/531078.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GEE:基于Landsat影像的长时间序列构建(1985-2020NDVI年度合成时间序列)

作者:CSDN @ _养乐多_ 本文记录的代码是一个用于构建年度合成影像集合的脚本。它通过调用一系列函数来获取给定时间范围内的 Landsat 影像集合,并进行预处理和合成。其中包括光谱指数计算、波段调整、遥感影像的中值合成等步骤。 结果如下图所示, 脚本的主要步骤如下: 定…

我让gpt写了一段正则表达式代码,可是运行报错,可以帮忙看看哪里出了问题?...

点击上方“Python爬虫与数据挖掘”,进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 忽闻海上有仙山,山在虚无缥缈间。 大家好,我是皮皮。 一、前言 前几天在Python最强王者群【HZL】问了一个Python正则表达式的问…

如何避免旧代码成包袱?5步教你接手别人的系统

👉腾小云导读 老系统的代码,是每一个程序员都不想去触碰的领域,秉着能跑就行的原则,任由其自生自灭。本期就给大家讲讲,接手一套故障频发的复杂老系统需要从哪些地方着手。内容包括:代码串讲、监控建设和告…

一文搞懂!如何高效微调你的 LLM

作者 | guolipa 整理 | NewBeeNLP 公众号 https://zhuanlan.zhihu.com/p/621700272 当前以 ChatGPT 为代表的预训练语言模型(PLM)规模变得越来越大,在消费级硬件上进行全量微调(Full Fine-Tuning)变得不可行。此外&am…

NIPS2022|南京大学提出基于点击后行为的广义延迟反馈模型

Generalized Delayed Feedback Model with Post-Click Information in Recommender Systems Jia-Qi Yang De-Chuan Zhan Nanjing University https://proceedings.neurips.cc/paper_files/paper/2022/file/a7f90da65dd41d699d00e95700e6fa1e-Paper-Conference.pdf 转化率预估&a…

记录--css水滴登录界面

这里给大家分享我在网上总结出来的一些知识&#xff0c;希望对大家有所帮助 前言 今天我们来分享一款非常有趣的登录界面&#xff0c;它使用HTML和CSS制作&#xff0c;具有动态的水波纹效果&#xff0c;让用户在登录时感受到了一股清凉之感。 基本html框架 <!DOCTYPE html&g…

营收“新高”盈利“新低”,东软还能“硬起来”吗?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 “2022年是商业环境艰难和动荡的一年。在过去的一年中&#xff0c;东软集团面对经济下行压力、汇率双向波动等诸多外部不确定性因素的影响&#xff0c;特别是第四季度的影响&#xff0c;使得东软的业务和项目节奏被严重拖累…

Spring Security 基本介绍及基础项目搭建

目录 SpringSecurity 框架简介 概要 历史 同款产品对比shiro SpringSecurity 入门案例 创建一个项目 添加一个配置类 运行这个项目 权限管理中的相关概念 SpringSecurity 基本原理 过滤器链 ​编辑 UserDetailsService 接口讲解 PasswordEncoder 接口讲解 Spri…

软件工程(三)-统一过程与敏捷方法

1、统一过程 统一过程也叫UP或者RUP。这种开发方法是在基于构建的方法发展而来&#xff0c;也是基于构建化的思想发展而来。 统一过程的三大特点 用例驱动 在进行软件开发过程中&#xff0c;是用什么驱动力去推动整个过程 用例驱动就是一开始会构建用例&#xff0c;然后一步一…

人脸识别2:InsightFace实现人脸识别Face Recognition(含源码)

目录 1. 前言 2. 项目安装 3. 人脸识别系统 &#xff08;1&#xff09;人脸检测和关键点检测 &#xff08;2&#xff09;人脸校准 &#xff08;3&#xff09;人脸特征提取 &#xff08;4&#xff09;人脸比对(1:1) &#xff08;5&#xff09;人脸搜索(1:N) &#xff08…

【操作系统】文件管理

文章目录 文件管理初识文件的属性文件内部的数据如何组织起来&#xff1f;文件之间应该如何组织起来&#xff1f;操作系统应该向上提供哪些功能&#xff1f;从上往下看&#xff0c;文件应该如何存放在外存&#xff1f;其他需要由操作系统实现的文件管理功能 文件的逻辑结构无结…

【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法...

【CVPR 2023的AIGC应用汇总(7)】face相关&#xff08;换脸/编辑/恢复&#xff09; diffusion扩散/GAN生成对抗 【CVPR 2023的AIGC应用汇总(6)】医学图像diffusion扩散/GAN生成对抗网络 【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成&#xff0c;基于diffusion扩散/GAN生成对…

Java数据库项目之满汉楼

文章和代码已经归档至【Github仓库&#xff1a;https://github.com/timerring/java-tutorial 】或者公众号【AIShareLab】回复 java 也可获取。 文章目录 程序框架图代码实现数据库Java多表查询思路 程序框架图 代码实现 数据库 -- 创建满汉楼的数据库 CREATE DATABASE mhl -…

输入输出IO流

文章目录 1.数据源2.流3.IO流的分类4.字节流4.1文件字节输入流1. FileInputStream类概述2. FileInputStream类构造方法3. FileInputStream类常用方法 4.2文件字节输出流1. FileOutputStream类概述2. FileOutputStream类构造方法3. FileOutputStream类常用方法 5字符流5.1. File…

philsolophy of life: blessing in disguise

有个成语叫: "塞翁失马" , 这个讲的是在战国时期&#xff0c;有个叫"塞翁"的老人养了很多马&#xff0c;有一天他丢了一匹马&#xff0c;邻居来劝说他&#xff0c;不要着急&#xff0c;说不定哪天就回来了&#xff0c;"丢了一匹马或许是好事&#xf…

【壁纸小程序】推荐一款壁纸小程序

壁纸很多 直接在手机切换下载即可 感兴趣的朋友可以看看 小程序二维码

第五章 介绍Productions - 业务流程和业务逻辑

文章目录 第五章 介绍Productions - 业务流程和业务逻辑业务流程和业务逻辑介绍业务流程的类型数据转换业务规则 第五章 介绍Productions - 业务流程和业务逻辑 业务流程和业务逻辑 本章描述业务流程中支持的逻辑种类。 介绍 业务流程是production的中间部分。它们接受来自…

Spring【Again】——复杂POJO的绑定

简单介绍&#xff1a; Again系列是将之前的内容我认为做的不好的地方或者是理解不到位的地方再来一次&#xff0c;加深记忆或者改错。我们就在来复习一下之前我们说过的复杂类型的数据绑定。 先来复习一下简单数据绑定&#xff1a; 简单数据绑定就是我们在传递参数的时候&am…

京东jd商品详情API接口(item_get-根据ID取商品详情)代码封装

item_get-根据ID取商品详情接口 通过代码封装该接口可以拿到商品标题&#xff0c;商品价格&#xff0c;商品促销信息&#xff0c;商品优惠价&#xff0c;商品库存&#xff0c;sku属性&#xff0c;商品图片&#xff0c;desc图片&#xff0c;desc描述&#xff0c;sku图片&#xf…

文件上传下载系列——大文件分片上传

文章目录 概述实现步骤&#xff1a;应用场景 代码实操&#xff1a;前端&#xff1a;文件切片&#xff1a;分片上传&#xff1a; 后端&#xff1a;校验和保存&#xff1a;合并文件片段&#xff1a;完成上传&#xff1a; 总结优点&#xff1a;缺点&#xff1a; 升华 概述 文件分片…