文献阅读1

news2024/12/26 12:01:38
A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild Images

会议/期刊:CVPR 2023;阿里达摩院;Biwen Lei

概述:这是一篇单张图片三维人脸重建的论文,这篇论文的主要目标是在三维人脸重建时尽量还原细节信息。

image-20240110141033074

如上图所示,他们将人脸重建过程分为三个部分,分别用低频、中频、高频信号来区分。低频表示基本的形状,也就是用3dmm生成的部分;中频表示顶点尺度的几何变形,用deformation map (64*64*3)来记录;高频表示像素尺度的位移,也就是一个displacement map(normal map)(256*256),在渲染的时候根据像素进行高度的插值。

我觉得很神奇的一点是,他的中频信号尽管只用于每个顶点的变形,但他仍然是用贴图的方式来存储,实际上如果deformation map的分辨率大一些,是和displacement map有类似作用的。是否真的有必要强行拆分成两个部分呢?

下图展示了他们的方法流程图:

image-20240110142047067

左上角部分是用一个网络去预测BFM的参数和纹理贴图;左下角是根据输入和BFM生成的形状生成离线的训练数据(用于右下角的一些loss的计算);右下角则体现了论文“Hierarchical”的思路,分级地去分别预测两个贴图,里面的“pix2pix”是前人提出的网络;右上角则是在训练中可微渲染成图像之后去学习网络权重。

他们的方法在REALY benchmark以及一些其它数据集上取得了SOTA。


Sdfusion: Multimodal 3d shape completion, reconstruction, and generation

会议/期刊:CVPR 2023;伊利诺伊大学厄巴纳-香槟分校(University of Illinois Urbana-Champaign,UIUC);Yen-Chi Cheng

概述:用diffusion model进行3D资源的生成。下图展示了核心方法流程:

image-20240110144557720

首先diffusion model本身对计算性能要求就很高,再加上想用在三维数据上,原始分辨率肯定不可行。因此论文首先将三维模型(T-SDF显式表示)通过VQ-VAE压缩,这里的VQ-VAE是3D版本的,基本和图像类似,把一个“大图像”压缩成一个“小图像”。图中 E φ E_{\varphi} Eφ D φ D_{\varphi} Dφ 就是对应的编码器和解码器。编码后的size论文里好像没说,我去看了下代码应该是 1 6 3 16^3 163

图中蓝色框框就是diffusion model,在逆扩散过程用一个UNet去学习概率分布。

图中左下角解释了文章为什么说是“multimodal”,文章使用了High-Resolution Image Synthesis with Latent Diffusion Models提出的方法对逆扩散过程进行条件控制。然后对其它模态的输入进行编码,则是用的现有的方法,例如图像用CLIP、文本用BERT。


High-Resolution Image Synthesis with Latent Diffusion Models

会议/期刊:CVPR 2022;Ludwig Maximilian University of Munich & IWR, Heidelberg University, Germany;Robin Rombach

概述:之前的diffusion model都是直接在图像上做的,因为对计算资源要求高,往往图像分辨率会受到很大的限制。像是guided diffusion的图像一般都是256*256,这就需要大量的GPU去进行训练。这篇论文提出的方案是将图像编码到latent space,然后在隐空间做diffusion。

按照我的理解,图像本身包含了大量的冗余信息,例如某个像素的颜色可能和其周围的非常接近,又比如将图像分辨率减半实际上并不会太影响对图像信息的理解。因此先进行压缩到最小的语义空间然后再进行diffusion,是一个很朴素的思想。

image-20240110153002169

文章使用的编码器和解码器( ε \varepsilon ε D D D)是一个GAN架构,中间的latent space 用VQVAE的离散形式表示,通俗来讲就是”把大图像压缩成小图像“。文章中称为perceptual compression。进行压缩后的扩散模型优化目标可以写为

image-20240110154611260

除了latent的特点之外,论文还给出了条件控制的方法,也就是图中右边框框所示。对于不同模态的控制条件输入 y y y,用一个domain specific encoder τ θ \tau_{\theta} τθ 进行编码,然后用 cross-attention 的注意力机制,实际上就是注意力机制,只不过QKV用 τ θ \tau_{\theta} τθ 的输出进行计算:

image-20240110155340170

这样将控制信息引入diffusion过程。


NerVE: Neural Volumetric Edges for Parametric Curve Extraction from Point Cloud

会议/期刊:CVPR 2023;SSE, CUHKSZ(港中大深圳理工);Xiangyu Zhu

概述:一个从点云提取参数化曲线的工作。

传统的边缘提取的做法是,先识别出关键点,然后再提取边缘。本文则是直接提取出曲线,方法流程如下:

image-20240110164411143

首先论文定义了“边”如何用体素来表示(Volumetric Edge),大致就是对每一个体素定义:(1)是否占用;(2)是否与邻居相连,论文定义了方向所以只有3个邻居;(3)顶点在体素,也就是一个小方块里面的坐标。

然后对于输入的点云,接一个PointNet++,最后池化为一个特征向量,然后再用3D CNN卷积为体素形式,也就是图中的“Feature Grid”。这个Feature Grid其实就是预测的Volumetric Edge,大括号右边的三个对应上一段介绍的三个数据。根据每个像素存储的3个数据,可以提取出分段线段表示(Piece-Wise Linear, PWL),虽然图中画的是"NerVE Cubes",但实际上用到的是存储的顶点坐标嘛,所以实际上就是一条一条的线段。最后用参数化样条去拟合这些线段,得到边缘结果。

我对这篇论文的看法是,首先分辨率有限,如中的Feature Grid分辨率是 3 2 3 32^3 323,不如说三维体素的神经网络分辨率都不会太高,论文里也提到这会导致很多交叉点;其次这种方法应该适合边缘比较规整的点云,通俗点讲就是“横平竖直”,比如论文只在CAD数据上做了测试。


Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild

会议/期刊:arxiv;Google Research, Brain Team;Hshmat Sahak

概述:该论文将扩散模型用于超分辨率领域,超过了过去的由GAN得到的SOTA。我大致看了下论文,他们用的网络结构基本就是另外一篇论文的网络,然后介绍了很多对图像做“degradation”的方法,例如Blur、Resize、JPEG compression,最后再加上添加噪声去增强数据。感觉文章主要说了怎么构造数据去训练,之后就是对比实验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1372493.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode-棒球比赛(682)

题目描述: 你现在是一场采用特殊赛制棒球比赛的记录员。这场比赛由若干回合组成,过去几回合的得分可能会影响以后几回合的得分。 比赛开始时,记录是空白的。你会得到一个记录操作的字符串列表 ops,其中 ops[i] 是你需要记录的第…

STM32 使用 DS18B20 温度传感器实现环境温度监测

为了实现环境温度监测系统,我们可以利用STM32微控制器和DS18B20数字温度传感器。在本文中,我们将介绍如何通过STM32微控制器读取DS18B20传感器的温度数据,并展示一个简单的示例代码。 1. 系统概述 环境温度监测系统旨在使用DS18B20数字温度…

ssm基于Web的汽车客运订票系统的设计与实现论文

毕业设计(论文) 汽车客运订票系统 姓 名 ______________________ 学 号 ______________________ 班 级 ______________________ 专 业 ______________________ 院 部 ______________________ 指导教师 ______________________ 年 月 日 目 录 目 录 …

数据库管理-第130期 JSON二元性(20240109)

数据库管理130期 2024-01-09 第130期 JSON二元性(20240109)1 简介2 关系型表和JSON存储的优劣3 Oracle JSON关系型二元性视图总结 第130期 JSON二元性(20240109) 上周,又双叒飞了一趟上海,也是2024年第一飞…

10个最容易被忽视的 FastAPI 实用功能

FastAPI是一种现代、高性能的Python Web框架,用于构建Web应用程序和API。 它基于Python的异步编程库asyncio和await语法,以及类型注解和自动文档生成等特性,提供了快速、易用和可靠的开发体验,接下来本文将介绍10项被忽视的FastA…

设计模式篇章(3)——七种结构型模式

结构型设计模式主要思考的是如何将对象进行合理的布局来组成一个更大的功能体或者结构体,这个现在讲有点抽象,用大白话讲就是利用现有的对象进行组合或者配合,使得组合后的这个系统更加好。好是相对于不使用设计模式,按照自己的堆…

分布式全局id

分布式全局id snowflake 算法是 twitter 开源的分布式 id 生成算法,采用 Scala 语言实现,是把一个 64 位的 long 型的 id,1 个 bit 是不用的,用其中的 41 bits 作为毫秒数,用 10 bits 作为工作机器 id,12 …

Linux权限2

相关命令 chown [用户名] [文件]​ 更改文件拥有者(加sudo强制更改) chown [拥有者]:[所属组] [文件] 更改文件拥有者和所属组(root权限下) chgrp [用户名] [文件] 更改文件所属组 文件类型 输入ls或ll显示的文件&#xff…

扒一扒Go语言中的“语法糖”

概 述 最近学习Golang语言的过程中,我发现Golang(后面简称Go)中的语法糖还蛮多的,有些语法糖还让会让人很懵逼。那么接下来,让我以一个曾经的 Java CURD boy,来说一说 Go 中的语法糖。 语法糖定义 语法糖…

谓词-量词、主析取、主和取范式、前束范式、推理证明

这部分内容,主要需要掌握谓词推理,而前提是掌握将自然语言符号化为谓词、用量词来限定辖域,量词的消去、剩下就是推理过程。还需要掌握的是主析取、主和取范式和前束范式。 存在量词∃:至少有一个 全称量词∀:全都是…

python爬取诗词名句网-三国演义,涉及知识点:xpath,requests,自动识别编码,range

页面源代码: <!DOCTYPE html> <html lang="zh"> <head><script src="https://img.shicimingju.com/newpage/js/all.js"></script><meta charset="UTF-8"><title>《三国演义》全集在线阅读_史书典籍_…

ThreadLocal如何使用详解

ThreadLocal概述&#xff1a; ThreadLocal是Java中的一个线程局部变量工具类&#xff0c;它提供了一种在多线程环境下&#xff0c;每个线程都可以独立访问自己的变量副本的机制。ThreadLocal中存储的数据对于每个线程来说都是独立的&#xff0c;互不干扰。 使用场景&#xff1a…

介绍几种常见的质数筛选法

质数筛选法 1.暴力筛选法 :smirk:2.普通优化 :rofl:3.埃氏筛法:cold_sweat:4.线性筛选法:scream: 质数&#xff1a;除了1和他本身没有其它因数的正整数就是质数。1不是质数&#xff0c;2是质数。 1.暴力筛选法 &#x1f60f; 原理 求x的质数&#xff0c;令y从2到 x \sqrt[]{x…

官网翻译:LangChain 0.1版本发布,功能介绍

今天&#xff0c;我们非常激动地宣布&#xff0c;LangChain 0.1.0 版本正式发布了&#xff0c;这是我们推出的首个稳定版本。这个版本能够兼容以前的版本&#xff0c;提供了 Python 和 JavaScript 两种编程语言的支持&#xff0c;并通过改进功能和文档&#xff0c;使得我们的产…

【踩坑】JDK1.8 AudioSystem 无法关闭流的问题

文章目录 一、前言二、开始狼人杀嫌疑人1&#xff1a;嫌疑人2&#xff1a; 三、复盘Jdk8原生bug解决方法和原理解析 一、前言 做了一个基于文字转语言的小接口&#xff0c;想删除本地wav文件来着&#xff0c;结果发现删除不了。 很明显被占用了&#xff0c;还是被Java占用了……

【uniapp】遇到的一些问题

一、小程序中textarea ios样式不生效的方法 默认有内边距&#xff0c;加个disable-default-padding"true" 二、uni-data-picker循环使用&#xff0c;一个改了全局的值 换成了uni自带的picker&#xff0c;下面括号里必须有默认值&#xff0c;为空字符串的时候&…

MySql -数据库进阶

一、约束 1.外键约束 外键约束概念 让表和表之间产生关系&#xff0c;从而保证数据的准确性&#xff01; 建表时添加外键约束 为什么要有外键约束 -- 创建db2数据库 CREATE DATABASE db2; -- 使用db2数据库 USE db2;-- 创建user用户表 CREATE TABLE USER(id INT PRIMARY KEY …

深入理解 Flink(四)Flink Time+WaterMark+Window 深入分析

Flink Window 常见需求背景 需求描述 每隔 5 秒&#xff0c;计算最近 10 秒单词出现的次数 —— 滑动窗口 每隔 5 秒&#xff0c;计算最近 5 秒单词出现的次数 —— 滚动窗口 关于 Flink time 种类 TimeCharacteristic ProcessingTimeIngestionTimeEventTime WindowAssign…

小程序分销商城,打造高效线上购物体验

小程序商城系统&#xff0c;为您带来前所未有的在线购物体验。它不仅提供线上商城购物、在线下单、支付及配送等功能&#xff0c;还凭借其便捷性成为众多商家的首选。 想象一下&#xff0c;商家可以展示琳琅满目的商品&#xff0c;包括图片、文字描述、价格及库存等详尽信息。而…

C++ 模板 map 和 unordered_map 中,访问不存在的key值,对变量的影响以及返回的结果

map 访问前&#xff1a; 访问后&#xff1a; 测试代码&#xff1a; #include<unordered_map> #include<map> #include<iostream>using namespace std; int main() {map<int,int> map;map[1] 2;map[2] 4;map[3] 6;cout << map[4] << e…