沉浸式 3D 场景下的多视点视频 增强算法研究

news2024/11/17 17:27:12

沉浸式 3D 场景下的多视点视频 增强算法研究

  • 研究内容
    • 图像质量增强
      • 为什么进行图像质量增强
      • 图像有损压缩技术
      • 多视点视频中的深度图像特点
    • 视点数目增强
      • 虚拟视点合成技术
      • 视点外推
      • 为什么进行视点数目增强
  • 主要贡献
    • 基于自适应残差网络的多视点压缩深度图像增强算法
    • 基于多约束编解码网络的多视点外推算法
    • 虚拟视点合成
      • 虚拟视点合成难点
      • 传统的虚拟视点合成
      • 基于深度学习的虚拟视点合成
  • 基于自适应残差网络的多视点压缩深度图像增强算法
    • 提出原因
    • 实践依据
    • 具体实践
    • 网络结构
      • 提出原因
      • 实践依据
      • 具体实践
        • 自适应跳跃结构
    • 实验结果
      • 消融实验
      • 深度图像主观结果
      • 点云图像主观结果
  • 基于多约束编解码网络的多视点外推算法
    • 提出原因
    • 多约束损失函数
      • 像素约束
      • 特征约束
      • 边缘约束
    • 实验结果
    • 消融实验
  • 扩展部分
    • 基于深度学习的虚拟视点合成
      • 物体虚拟视点合成
      • 场景虚拟视点合成
    • 展望

研究内容

在这里插入图片描述

文章针对三维场景中多视点视频进行图像质量增强视点数目增强

在这里插入图片描述

图像质量增强

提出了一个基于自适应残差网络的多视点压缩深度图像增强算法。主要利用自适应的连接机制更合理的训练策略来权衡多种先验信息得到增强结果

为什么进行图像质量增强

图像有损压缩技术

图像有损压缩技术节约数据传输的码率和带宽的同时,也带来模糊、结构缺失、混叠等压缩失真,影响相关应用的视觉质量和用户使用体验。

多视点视频中的深度图像特点

多视点视频中的深度图像因其缺少纹理,平滑区域很多的特点,在传输时的压缩率往往高于彩色图像,也就使得深度图像的压缩失真更严重。

视点数目增强

提出了一个基于多约束编解码网络的多视点外推算法。针对多视点外推任务,主要利用多视点相关性和边缘约束设计了深度学习方案

虚拟视点合成技术

受限于搭建复杂摄像机采集系统的人力物力成本,直接从环境中采集所有视点的多视点视频是不现实的。于是通过已采集的视点图像生成未采集的视点图像,即虚拟视点合成技术

视点外推

使用虚拟视点合成技术生成采集视点范围之外的视点,即视点外推。得到更大的视点范围供用户选择,从而进一步降低采集成本,提升用户体验。

为什么进行视点数目增强

  • 多视点视频的运用可以生动地构建立体场景,为用户提供更好的浸入感与交互体验
  • 受限于搭建复杂摄像机采集系统的人力物力成本,直接从环境中采集所有视点的多视点视频是不现实的。于是通过已采集的视点图像生成未采集的视点图像,即虚拟视点合成技术成为解决这一问题的方法之一

主要贡献

在这里插入图片描述

基于自适应残差网络的多视点压缩深度图像增强算法

在这里插入图片描述

基于多约束编解码网络的多视点外推算法

在这里插入图片描述

虚拟视点合成

虚拟视点合成难点

是对于原视点中被遮挡或不存在的部分,是难以在新视点中估计的,特别是虚拟视点在参考视点之外的视点外推任务中。

传统的虚拟视点合成

传统的虚拟视点合成多是采用基于深度的图像绘制方法,根据物体或场景的几何结构,对输入图像进行几何变换得到新视点的结果。

基于深度学习的虚拟视点合成

根据合成对象可分为物体与场景两类。详细见扩展部分
在这里插入图片描述

基于自适应残差网络的多视点压缩深度图像增强算法

在该框架中,来自相邻视点的深度图和目标视点的彩色图像被用作多模态先验信息,这种多模态先验信息能够很好地弥补压缩后深度图像在低码率下损失的信息,为了质量提供足够的引导信息。然后设计了自适应跳跃结构,使得这些先验对增强的贡献得以很好的权衡,充分地利用有益的先验,抑制不利的先验。
在这里插入图片描述

提出原因

压缩后的多视点深度图像会存在压缩失真,如何有效利用多视点之间的相关性来处理这些压缩失真是提升三维应用的用户沉浸式体验的关键问题。

实践依据

由于多视点视频是由相机从不同的视角拍摄同一时刻同一场景得到的,所以视点间存在高相关性。这种高相关性可以帮助我们从质量高的视点中获取有价值的信息,对质量低的视点的深度图像进行增强。

具体实践

将多视点的深度图像与待增强视点的彩色图像共同作为输入,设计了一个自适应多模态残差网络,以融合来自不同视点、不同图像类型的先验信息。经过我们的算法处理,较低质量的深度图像会被增强,输出较高质量的深度图像,从而提升终端应用的视觉质量

网络结构

提出原因

作为目标的深度图像是一种十分缺少纹理变化的图像,这就使得它在深层网络中更容易出现梯度消失的问题。所以我们使用残差网络这一网络结构来解决这一问题。

实践依据

残差网络结构主要由残差块构成,这种残差块的输入会经过一个跳跃结构输出到残差块的输出,使得更深层也能得到来自浅层的信息,能更好的保留浅层网络的信息,避免网络退化的问题。

具体实践

在这里插入图片描述
整个网络一共含有 5 个残差块,相较于原始的残差网络,残差块数量十分少。这是因为深度图像高相似性和十分平滑的特点,使得网络无法更深。

自适应跳跃结构

由于目标深度图和多模态的先验信息具有不同的特点和质量,权衡好各先验信息的贡献是十分必要的。处理它们之间的平衡,并强调具有更大贡献的先验信息。

实验结果

无论是像 VRCNN 这样的浅层网络,还是像 REDNet 这样的具有跳跃结
构的深层网络,在深度图出现严重失真的情况下,都无法从压缩深度图本身获悉细节。这说明在这一任务中,能带来更多信息的先验知识是非常重要的。

在这里插入图片描述
通过方法获得的质量增益比错误深度带来的影响还要大。它证明方法可以很好地处理高比特率下的压缩失真
在这里插入图片描述

消融实验

在这里插入图片描述
与其他深度图相比,没有自适应跳跃连接的方法增强的深度图上会出现轻微的纹理。它不属于原始深度图。相反,可以在相应的原始彩色图像中找到这种窗口纹理,彩色图像的纹理被复制到深度图上。添加自适应跳跃连接可以抑制纹理复制问题,从而获得更大的质量增益

深度图像主观结果

在这里插入图片描述
从图中可以发现,与其他方法相比,我们的方法可以有效地消除块伪像并恢复更多细节。即使在某些使用彩色图像作为先验信息的滤波方法中,由于深度图和彩色图像之间的巨大差异,彩色图像的效果也受到抑制。通过我们的方法恢复的那些鱼的图像说明选定先验对最终性能的贡献

点云图像主观结果

在这里插入图片描述
利用我们增强的深度图得到的点云,消失的表面和破碎的结构可以
得到适当的修复。它证明点云重构可以从我们提出的方法中受益,从而改善高质量 3D 应用程序的功能。

基于多约束编解码网络的多视点外推算法

在该框架中,网络由编码器,Gate Unit 和解码器构成,实现从多参考视点中提取特征,融合,从特征中重建图像。这种编解码网络结构可以更好地解决由于视点差和错误映射等导致的参考视点与虚拟视点间不一致的问题。
在这里插入图片描述

提出原因

由于虚拟视点在参考源视点范围之外,基于深度的图像绘制得到的虚拟视点图像会出现不可视的空洞区域,因此需要通过利用深度学习的学习能力,生成空洞区域的图片。在这基础上,使用多种约束来提升生成图像的结构合理性,使其拥有更好的视觉效果。

多约束损失函数

损失函数衡量的是模型的预测值和真实值不一样的程度,直接影响模型预测的结果。

像素约束

像素约束是基于深度学习的图像任务中最常用的约束,即计算模型输出图像与原始目标图像之间所有像素点数值的误差加粗样式作为损失函数

特征约束

特征约束,计算两个编码器提取的特征的误差,从而使网络倾向于提取在两个输入中更相似的特征

边缘约束

边缘约束,边缘能反应物体的轮廓,预测图像如果拥有正确的边缘说明物体没有发生较大形变,同时空洞区域生成内容的视觉效果也更合理

实验结果

在这里插入图片描述
在这里插入图片描述

消融实验

将3种约束替换为仅像素约束的损失函数

  • 从结果中可以看到,算法增益更多来自网络结构本身,在仅使用像素约束的情况下,编解码网络得到的结果相比基于深度的图像绘制提升显著。说明这种编码器提取特征,解码器从特征重建结果的网络结构能很好的处理虚拟视点合成这种视点变换问题。
  • 多约束相比于单约束,确实如所预想地得到更好的预测结果
    在这里插入图片描述

扩展部分

基于深度学习的虚拟视点合成

物体虚拟视点合成

  • 将深度学习与物体的虚拟视点合成相结合,通过端到端的网络同时学习目标视点图像及对应分割图像。但端到端直接学习新视点图像像素的学习方法学习新视点的物体几何的同时,却难以保留物体表面的纹理。
  • 将流的学习拆分成了形状估计和图像生成两个网络,引入了深度信息的学习以更好的提供几 何结构信息。

场景虚拟视点合成

场景虚拟视点合成任务与物体虚拟视点合成任务有不小的差别,场景中往往有丰富的物体,难以将整个场景拆分成几何结构和纹理信息来学习,也难以用流的方式将所有像素一一对应

展望

  1. 针对压缩后的多视点深度图像算法,可以考虑增加时域方面的信息。目前仅使用不同视点的深度图像与目标视点的彩色图像进行增强,而时域信息也可以为增强提供有效的先验
  2. 针对多视点外推工作,可以考虑使用 GAN 网络结构,使网络具有更强的生成能力,得到更好的图像视觉效果。还可以考虑在视点遮挡的空洞区域进行更针对的处理,比如使用空洞区域蒙版来仅计算空洞区域的损失函数以增强对空洞区域的生成能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/195441.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SautinSoft PDF Focus .Net 8.6.1 Crack

PDF Focus .Net 完整的 API 可在 .NET 平台上转换任何 PDF 文档, .Net 程序集提供 API 以将 PDF 转换为所有格式:DOCX、RTF、HTML、XML、文本、Excel、.Net 和 C# 中的图像。 介绍 PDF Focus .Net 旨在帮助您开发需要转换任何 PDF 文档的应用程序。看看PDF Focus .N…

2023年“华数杯”国际大学生数学建模A题完整思路

2023华数杯如期开赛,本次比赛作为美赛的模拟赛,赛题和比赛时间都和美赛高度相似,因此大家 完全可以当作一次美赛之前的练习赛进行。美赛的发题时间与华数杯一致,都是早晨六点,现已经将机器翻译的初步翻译 结果进行了分…

C#里最简单向文件追加文本的方法AppendAllText

C#里最简单向文件追加文本的方法AppendAllText 在开发的过程中,经常会碰到这样的问题,就是当一个文件没有创建时,就需要创建。但是文件已经创建了,就直接追加数据。 比如我们开发一个记录每天温度的软件, 每天都在固定的时间去记录一下这个温度,那么就需要在这个文件后面…

【第一章】SQL基础知识

目录 ​编辑 1. 认识SQL 1.1 SQL的标准 1.2 SQL的种类 1.3 SQL的功能 2. 常量 2.1 数字常量 2.2 字符串常量 2.3 日期和时间常量 2.4 符号常量 3. 变量 3.1 局部变量 3.2 全局变量 4. 运算符 4.1 算术运算符 4.2 比较运算符 4.3 逻辑运算符 4.4 按位运算符 …

Redis沙盒逃逸漏洞(CVE-2022-0543)复现以及流量特征分析

Redis简介 Redis Labs Redis是美国Redis Labs公司的一套开源的使用ANSI C编写、支持网络、可基于内存亦可持久化的日志型、键值(Key-Value)存储数据库,并提供多种语言的API。 漏洞介绍 Redis 存在代码注入漏洞,攻击者可利用该漏…

Android MVVM之CreationExtras创建ViewModel的详解与使用

一、介绍 CreationExtras是Android api在Androidx-Lifecycle 在近期迈入到了 2.5.0 版本中。很多人第一眼看到,不知道这是个什么,看到会觉得云里雾里,无从下手,也不知道到底该怎么做。这个和现有的ViewModel搭配使用。他不能单独使…

公链年度数据报告:2022年发生了什么,行业将走向何方?

Date:2023 年 1 月Data Source: Footprint Analytics - Chain overview这份年度链报告审视了过去一年 Footprint Analytics 上的数据,以分析各公链的关键趋势。在 2022 年,大多数加密货币头条新闻并不涉及链本身。虽然,像三箭、Bl…

SQLSERVER 的四个事务隔离级别到底怎么理解?

一:背景 1. 讲故事 在有关SQLSERVER的各种参考资料中,经常会看到如下四种事务隔离级别。 READ UNCOMMITTEDREAD COMMITTEDSERIALIZABLEREPEATABLE READ 随之而来的是大量的文字解释,还会附带各种 脏读, 幻读, 不可重复读 常常会把初学者弄…

【微信小程序学习第3天——网络数据请求

一、小程序网络请求限制 1、必须https类型的接口 2、必须将接口的域名添加到信任列表中 二、配置request合法域名 配置步骤:登录微信小程序管理后台 -> 开发 -> 开发设置 -> 服务器域名 -> 修改 request 合法域名 点击修改request合法域名&#xf…

全流程搞清楚 Kubernetes API 的使用,可进行业务二次开发对接 k8s 调用,详细图文说明以及常见问题整理

全流程搞清楚 Kubernetes API 的使用,可进行业务二次开发对接 k8s 调用,详细图文说明以及常见问题整理。 使用CLI(如curl)或GUI(如postman)HTTP客户端调用Kubernetes API有很多理由。例如,你可…

windows11改老版右键显示

右键显示效果:点击右键像windows10一样。方式一使用window的命令行操作:reg.exe add "HKCU\Software\Classes\CLSID\{86ca1aa0-34aa-4e8b-a509-50c905bae2a2}\InprocServer32" /f /ve1方式二使用注册表手动操作:win r:…

对话面试官:MySQL自增主键id快用完了怎么办?

前几天有个朋友出去面试,被面试官问到MySQL自增主键id用完了怎么办?由于对这块了解不多,所以回答得不太理想。 本篇文章为大家分享一下,MySQL自增主键达到上限以后会发生什么情况?该如何解决这种情况? 我们…

Python|每日一练|幂函数算法|位运算|>>右移|分析神器pysnooper|日志输出:Pow(x, n)

Pow(x, n) 实现 pow(x, n)(https://www.cplusplus.com/reference/valarray/pow/) ,即计算 x 的 n 次幂函数(即,xn)。 示例 1: 输入:x 2.00000, n 10输出:1024.00000 示例 2: …

漫画 | 程序员这次被逼上了绝路!

经过不懈努力,张大胖终于在一个小公司升任经理。张大胖回去翻阅资料,思考了一番,召开会议宣布了一项重要决定。会议室中一阵窃窃私语三天以后,张大胖进行检查,看看自己的第一把火成效如何。张大胖表示很满意&#xff0…

Elasticsearch:轻松处理 CSV 数据

我们知道 CSV 是一种非常流行的数据格式。在 Elastic Stack 中,我们有很多的方式来摄入 CSV 格式的数据。我们可以先看看一个常用的数据摄入数据流: 如上所示,我们可以采取不同的方法来对数据进行摄入。我们可以在不同的地方对数据进行处理。…

【My Electronic Notes系列——逻辑门电路】

目录 序言: 🏆🏆人生在世,成功并非易事,他需要破茧而出的决心,他需要永不放弃的信念,他需要水滴石穿的坚持,他需要自强不息的勇气,他需要无畏无惧的凛然。要想成功&…

Java打印流(PrintStream/PrintWriter)

概念 打印流是输出信息最方便的类,注意包含字节打印流PrintStream和字符打印流PrintWriter。打印流提供了非常方便的打印功能,可以打印任何类型的数据信息,例如:小数,整数,字符串。而且永远不会抛出IOExce…

DPDK开发之KNI模块代码实现

DPDK开发之KNI模块代码实现背景KNI实现原理 -- ifreq代码实现总结背景 在DPDK开发的时候,如果有些协议不想处理,只处理关注的协议,可以把其他协议写回内核,让内核处理。此时的DPDK就起到分发的作用,类似一个过滤器。 …

二叉树遍历的C语言实现

1、二叉树 树是n个节点的有限集 每个节点事多有两颗子树的树称为 二叉树 该实验目标实现以下二叉树: 2、二叉树的遍历方案 设: D -- 访问根节点,输出根节点; L -- 递归遍历左二叉树; R -- 递归遍历右二叉树; 二叉树遍历方案…

1145. 二叉树着色游戏

有两位极客玩家参与了一场「二叉树着色」的游戏。游戏中,给出二叉树的根节点 root,树上总共有 n 个节点,且 n 为奇数,其中每个节点上的值从 1 到 n 各不相同。 最开始时: 「一号」玩家从 [1, n] 中取一个值 x&#xff…