1/7文章

news2024/12/27 15:02:44

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 摘要
  • Abstract
  • 文献阅读:具有运动模糊的大规模场景的混合神经绘制
    • 1、研究背景
    • 2、方法提出
    • 3、相关方法
      • 3.1、混合神经渲染模型(Hybrid Neural Rendering Model)
    • 3.2、模糊模拟与检测(Blur Simulation and Detection)
    • 4、文章贡献
  • VAE理论回顾
    • 1、VAE与Auto-encoder
    • 2、VAE对于Auto-encoder的提升
    • 3、VAE过程的再理解
    • 4、Gaussian Mixture Model


摘要

本周主要阅读了2023CVPR的文章,具有运动模糊的大规模场景的混合神经绘制,文章提出了一种混合神经渲染模型,用于合成高质量、视角一致的新视角图像。通过结合基于图像的表示和神经3D表示,以及模拟模糊效果,该模型能够有效地处理大型场景中的复杂结构和细节,并减轻运动模糊等缺陷对渲染图像质量的影响。另外我还对VAE的相关知识进行了复习。

Abstract

This week, I mainly read the article 2023CVPR on hybrid neural rendering of large-scale scenes with motion blur. The article proposes a hybrid neural rendering model for synthesizing high-quality, consistent new perspective images. By combining image-based representation and neural 3D representation, as well as simulating blur effects, this model can effectively handle complex structures and details in large scenes, and reduce the impact of motion blur and other defects on rendered image quality. In addition, I also reviewed the relevant knowledge of VAE.


文献阅读:具有运动模糊的大规模场景的混合神经绘制

Title: Hybrid Neural Rendering for Large-Scale Scenes with Motion Blur
Author:Peng Dai,Yinda Zhang,Xin Yu, Xiaoyang Lyu, Xiaojuan Qi
From:2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

1、研究背景

在许多应用中,如虚拟现实、增强现实和场景重建等,都需要从已有的图像中生成新的视图。尽管近年来在这方面取得了一些进展,但仍然存在一些挑战。这些挑战主要来自于如何在大规模场景中,从原始图像中生成高质量且与目标视图一致的新视图。原始图像在采集过程中可能会产生一些不可避免的缺陷,如运动模糊等,这些缺陷会严重影响渲染出的新视图的质量。

2、方法提出

文章提出了一种混合神经渲染模型,该模型结合了基于图像的表示和神经3D表示,以生成高质量且与目标视图一致的新视图。此外,文章还提出了一些策略来模拟渲染图像中的模糊效果,以减轻模糊对渲染质量的影响。这些策略基于预计算的质量感知权重,在训练过程中对模糊图像的重要性进行降低。
在这里插入图片描述

3、相关方法

3.1、混合神经渲染模型(Hybrid Neural Rendering Model)

一种混合神经渲染模型,结合了基于图像的表示和神经3D表示的优点,以生成高质量且与目标视图一致的新视图。这种模型包含两个主要部分:神经特征提取模块和神经特征融合模块。
1、神经特征提取模块从两种表示形式中提取信息。对于基于图像的表示,我们使用轻量级的CNN从附近的视图中提取多尺度图像特征。对于神经3D表示,我们使用光线与表面交点的信息来提取特征。
2、神经特征融合模块以数据驱动的方式聚合提取的神经特征。我们设计了一个可学习的聚合方法,该方法根据每个查询点的图像基础特征和神经3D特征生成混合特征。这些混合特征考虑了颜色、纹理和几何信息,从而提供了更丰富的视觉信息。
在这里插入图片描述

一旦获得了混合特征,使用体积渲染技术来生成最终的输出图像。体积渲染是一种可视化技术,用于从三维数据场中生成图像。它通过将三维数据场表示为一系列体素,并将每个体素的值映射到颜色和透明度来工作。然后使用光线追踪或其他类似技术将体素转换为图像。

3.2、模糊模拟与检测(Blur Simulation and Detection)

在渲染图像上模拟模糊效果并检测模糊是一个挑战。传统的模糊模拟方法通常需要额外的模糊源信息,这在实际应用中是不可行的。为了解决这个问题,我们提出了一种简单而有效的模糊模拟方法。首先,我们利用高斯分布来模拟运动模糊,并将其作为混合神经渲染模型的输入。这种模糊模拟方法仅需要输入图像和运动信息,而不需要额外的模糊源信息。
在模糊检测方面,我们采用了一种基于特征的方法来检测图像中的模糊区域。首先,我们提取输入图像的特征,并使用这些特征来训练一个分类器。然后,我们使用该分类器来预测图像中每个像素的模糊程度。通过这种方式,我们可以快速地检测出图像中的模糊区域,并为混合神经渲染模型提供有用的信息。
通过模糊模拟和检测,我们的混合神经渲染模型能够更好地理解源图像中的模糊信息,从而在渲染过程中更好地模拟模糊效果。这种模糊模拟和检测方法对于生成高质量和视图一致的渲染图像至关重要。

4、文章贡献

本文提出了一种混合神经渲染模型,用于合成高质量、视角一致的新视角图像。通过结合基于图像的表示和神经3D表示,以及模拟模糊效果,该模型能够有效地处理大型场景中的复杂结构和细节,并减轻运动模糊等缺陷对渲染图像质量的影响。实验结果表明,该模型在合成高质量新视角图像方面优于现有方法,为增强现实/虚拟现实、机器人技术和视频游戏等领域提供了重要的技术支持。通过使用该模型,可以合成高质量、视角一致的新视角图像,从而为这些领域的应用提供更加真实和生动的视觉效果。此外,该模型还可以用于电影制作和游戏开发等领域,以生成高质量的场景和角色渲染。

VAE理论回顾

1、VAE与Auto-encoder

VAE在本质上看与Auto-encoder的大致结构是相同的,都是拥有着一个Encoder以及一个Decoder,将输入经过两个单元处理后得到一个相应的输出。但是VAE的工作过程在其中有些许差异,VAE是在输入的数据中加入noise,然后再让加入noise的数据进行处理输出。
详细的步骤为,输入的数据经过Encoder处理得到两个向量mi σ \sigma σi,除此之外还从normal distribution中的产出一个向量ei,紧接着将这些向量进行这样的处理得到ci,ci = exp ( σ \sigma σi) x ei + mi,其中exp ( σ \sigma σi) x ei便是加入的noise此外为了让输入和输出越接近,给出了一下限制条件,使式子 ∑ n i = 0 \underset{i=0}{\overset{n}{\sum}} i=0n exp ( σ \sigma σi) - ( 1 + σ \sigma σi ) + ( mi )2 达到最小。

2、VAE对于Auto-encoder的提升

  • Auto-encoder的不足之处:生成的数据是一一对应,而无法做到两组相近的数据达到一个渐变效果。就比如一张满月的照片,以及弦月的照片,在Auto-encoder中无法在两者数据之间有效地得出一张介于满月以及弦月的照片,因为这些数据都是一一对应的,很难预测两组数据之间的数据的表现形式。
  • VAE相比之下的提升:VAE在转化的过程中,会在数据中加入noise,从而让某个范围内的数据的输出都表现为该数据,这样当两组加入noise后范围增大的数据会形成一个交集,这样就能获得一个渐变的数据,实现Auto-encoder无法做到的情况。但是需要注意的是因为加入的noise是机器自己学习的,机器可能会存在偷懒的情况,让参数 σ \sigma σi变为0,从而无法加入noise,因此需要限制条件,使式子 ∑ n i = 0 \underset{i=0}{\overset{n}{\sum}} i=0n exp ( σ \sigma σi) - ( 1 + σ \sigma σi ) + ( mi )2 达到最小。

3、VAE过程的再理解

从上面小点可以知道,VAE整个的工作流程是将输入数据加入noise后,再通过Decoder将数据解码出来。换一个思路对这个过程的理解,就是不同的Distribution之间的转换,由开始输入数据的Distribution
经过添加noise得出一个新的Distribution,最后在经过转化得出一个与原来大致一样的Distribution。接下来的问题就应该是如何对这个Distribution用函数进行描述。

4、Gaussian Mixture Model

目标Distribution的函数P(x)可以理解为一个由多个Gaussian合成的集合体,由多个Gaussian进行sample后,由这些sample进行融合得出目标P(x),从这个角度上看,x是属于一个Cluster,在这些cluster中sample出对应的x构成P(x)。
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1364297.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

特种印制电路技术

1特种印制电路技术现状、分类及特点 2006年,信息产业部(现工信部)电子信息产品管理司将高档PCB产品类型概括为HDI板、多层FPC、刚挠结合板、IC载板、通信背板、特种板材印制板、印制板新品种等种类。但直至目前,在印制电路设计与制造领域还没有形成特种…

Linux学习第50天:Linux块设备驱动实验(二):Linux三大驱动之一

Linux版本号4.1.15 芯片I.MX6ULL 大叔学Linux 品人间百味 思文短情长 三、使用请求队列实验 1.实验程序编写 使用开发板上的一段RAM来模拟一段块设备,也就是ramdisk. 机械硬盘 34 #define RAMDISK_SIZE (2 * 1024 * 10…

文章解读与仿真程序复现思路——中国电机工程学报EI\CSCD\北大核心《考虑系统调峰需求与光热电站收益平衡的储热容量优化配置》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主的专栏栏目《论文与完整程序》 这个标题表明研究的主题涉及到光热电站系统中的储热容量优化配置,而优化的目标是在系统中实现调峰需求并平衡光热电站的收益。让我们逐步解读这…

使用.Net nanoFramework为ESP32进行蓝牙配网

通过前面的介绍,我们已经学会了如何使用 .NET nanoFramework 为 ESP32 设备连接 Wi-Fi 网络。然而,在实际的物联网环境中,我们往往需要使用更便捷的式来满足配网需求。这篇文章将带你了解一些常见的配网方案,并以 ESP32 为例&…

数据结构入门到入土——链表(2)

目录 一,与链表相关的题目(2) 1.输入两个链表,找出它们的第一个公共节点 2.给定一个链表,判断链表中是否有环 3.给定一个链表,返回链表开始入环的第一个节点,若无则返回null 一,…

【好书推荐】ReactJS实践入门

作者简介 Chris Minnick是一位多产的作家、博主、培训师、演说家和Web工程师。他创立的WatzThis?公司,一直致力于寻找更好的方法向初学者教授计算机和编程技能。 Chris拥有超过25年的全栈开发经验,他也是一名教龄超过10年的培训师&#xff0c…

科学的摇篮 - 贝尔实验室

AT&T贝尔实验室(AT&T Bell Laboratories)是美国电信公司AT&T的研究与开发部门,成立于1925年。它在20世纪的许多年里一直是科学与技术创新的重要中心,做出了众多重大贡献,并为多项科技成就奠定了基础。以下…

Java Swing手搓坦克大战遇到的问题和思考

1.游戏中的坐标系颇为复杂 像素坐标系还有行列坐标,都要使用,这之间的互相转化使用也要注意 2.游戏中坦克拐弯的处理,非常重要 由于坦克中心点是要严格对齐到一条网格线,并沿着这条线前进的,如果拐弯不做处理&#…

动态卡尺胶路检测

动态卡尺胶路检测 1. 示例效果2. 代码 1. 示例效果 使用了三个卡尺工具、一个线段工具。这种方法可以检测胶路最常见的缺陷:断胶和胶宽等 2. 代码 #region namespace imports using System; using System.Collections; using System.Drawing; using System.IO; …

【开发日记】IDEA“找不到或无法加载主类”问题

记录一个研究了两个小时的“玄学”问题找不到或无法加载主类。 ​1、问题 使用IDEA启动SpringBoot项目显示找不到或无法加载主类。 2、解决经历 尝试了很多种解决方法都没有解决,下面是我网上查询后尝试的一些方法。这些方法我都没有解决问题,是因为…

双十一的祈祷【算法赛】

问题描述 双十一,不仅是购物狂欢节,更有 "光棍节" 之称。这源于 11:1111:11 由四个 11 构成,象征着单身。 作为大学生的小蓝也想经历甜甜的校园恋爱,于是他找到了爱神丘比特,向他祈祷能为自己带来一段邂逅…

微软开源时空预测Fost的使用和解读

一、引言 时空预测是指对未知系统状态在时间和空间上的预测,它是地球系统科学、交通运输、智慧城市等领域的重要技术和工具。时空预测的目的是利用历史数据和当前信息,通过建立时空依赖关系,来推断未来的变化趋势和可能的情景。时空预测的应…

《PySpark大数据分析实战》-24.数据可视化图表介绍

📋 博主简介 💖 作者简介:大家好,我是wux_labs。😜 热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP…

强化学习4——动态规划初探

动态规划具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子问题的过程中保存已经求解的结果,以便后续使用。实际上动态规划更像是一种通用的思路,而不是具体某个算法。 在强化学习中,被用于求解值函…

CAN总线基础详解以及stm32的CAN控制器

目录 CAN简介 CAN总线拓扑图 CAN总线特定 CAN应用场景 CAN的物理层 CAN的协议层 CAN数据帧介绍 CAN位时序介绍 数据同步过程 硬件同步 再同步 CAN总线仲裁 stm32的CAN控制器 CAN控制器介绍 CAN控制器模式 CAN控制器框图 接收过滤器 CAN控制器波特率计算 CAN相…

基于SSM的图书商城(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的图书商城(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring SpringMv…

libexif库介绍

libexif是一个用于解析、编辑和保存EXIF数据的库。它支持EXIF 2.1标准(以及2.2中的大多数)中描述的所有EXIF标签。它是用纯C语言编写的,不需要任何额外的库。源码地址:https://github.com/libexif/libexif ,最新发布版本为0.6.24,…

topsis算法

TOPSIS (Technique for Order Preference by Similarity to an Ideal Solution )模型中文叫做“逼近理想解排序方法”,是根据评价对象与理想化目标的接近程度进行排序的方法,是一种距离综合评价方法。基本思路是通过假定正、负理想…

C#,数值计算,基础函数——任意位数π的数值算法源程序与数据可视化

对于数学常数 PI 后面位数的计算与追求,是数学家与计算机科学家们乐此不疲的游戏。 一、圆周率PI简史 圆周率(Pi)是圆的周长与直径的比值,一般用希腊字母π表示,是一个在数学及物理学中普遍存在的数学常数。π也等于圆…

关于图像分割任务中按照比例将数据集随机划分成训练集和测试集

1. 前言 之前写了分类和检测任务划分数据集的脚本,三大任务实现了俩,基于强迫症,也实现一下图像分割的划分脚本 分类划分数据:关于图像分类任务中划分数据集,并且生成分类类别的josn字典文件 检测划分数据&#xff…