[23] TriPlaneNet: An Encoder for EG3D Inversion

news2024/11/27 4:24:40

paper | code | project

总结:

  • 任务是3D GAN Inversion,旨在找到给定图像的隐码/Tri-plane。
  • 现有方法可分为Optimizaiton-based methods和encoder-based methods。前者旨在通过损失找到最优隐码,后者旨在学习给定图片和隐码的映射关系。前者通常效果更好,但速度较慢。
  • 本文通过pSp得到粗tri-plane,通过TriplaneNet生成tri-plane残差,得到最终的精细化tri-plane。

目录

摘要

Related Work

3D Generative Models for Human Faces.

Inversion of 3D GANs

Applications of GAN encoders

方法

Preliminaries

GAN Inversion

EG3D

pSp

TriPlaneNet

Loss Functions

实验

Training procedure

Datasets

Results

Comparison to the sota

Ablation study


摘要

  • NeRF-based GANs 有概率可对3D头像的新视角进行渲染;但实际应用时,inverse problem也很重要,该问题致力于再渲染或修改已有的图片或视频。(第一个是生成类任务,以EG3D为例,从高斯噪声中采样,即可得到一个3D头像,并能从不同视角对其渲染;第二个则是优化任务,给定一张照片,希望在EG3D的隐空间中找到和给定照片最像的3D头像。)
  • 现有方法:1)2D GAN inversion(Optimizaiton-based inversion methods),这类方法不能很好应用于3D GANs,无法产生3D-consistent渲染;2)encoder-based techniques,多数是为StyleGAN发展,但这类方法在ID保留上效果不佳;前者效果通常优于后者,但后者更快。
  • 本文方法:分为两步,第一步使用encoder-based方法,预测粗latent code;第二步用TriPlaneNet,预测tri-plane offsets;
  • 实验:本文方法在渲染上和机遇优化的方法效果相近,但是在视角上提升显著。

Related Work

3D Generative Models for Human Faces.

  • NeRF的改进方法:
    • [6] Fully Controllable Neural 3D Portrait
    • [16] Dynamic Neural Radiance Fields for Monocular 4F facial avatar reconstruction
    • [42] Nerfies: Deformable Neural Radiance Fields.
  • NeRF-based GAN:
    • [8] Generative Neural Articulated Radiance Fields
    • [21] A real-time Nerf-based parametric head model
  • 这些方法支持对渲染人脸表情和外观的显式控制

Inversion of 3D GANs

  • PTI(fix找到的latent code,用给定图片fine-tune生成器)是一个通用方法,但是PTI找到的latent code,在新视角下效果不佳。针对这个问题,[29]引入多视角一致性约束(multi-view consistency regularizers),[57]训练时用surrogate  mirrored images进行增强,[28]使用深度信息

Applications of GAN encoders

  • 可以作为语义分割[7]、face recognition[49]和generic prior[58, 40].

方法

Preliminaries

GAN Inversion

给定一张图片,GAN inversion的任务是找到让重建损失最小的隐码,可形式化表达如下,其中损失常用L2或LPIPS:

该式子可以通过两种优化或encoder-based approaches来解决。

Encoder-based方法使用encoder network E,将真实图像映射为隐码。encoder网络的训练需要大量数据集:

在推理阶段,输入图片送入encoder网络得到隐码。

EG3D

latent code (z = 512), camera parametrs (c = 25) -- mapping network -->  pivotal latent code (w = 14 x 512);

w -- StyleGAN2 CNN generator G(.) -> Tri-plane (T = H x W x 32 x 3)

T -- neural decoder -- volume rendering --> feature image

feature image -- super-resoltion --> image (512 x 512 x 3)

通常,将neural decoder、volume rendering和super-resoltion合称为rendering block R(.)

pSp

real images -- encoder --> W+

具体来说,encoder将图片处理为具有三层特征的特征金字塔,特征经过map2style网络,提取风格向量,风格向量送入生成网络,产生图片。上述过程可形式化表达如下:
 

其中,G(.)是生成器,E(.)是encoder,hat(w)是预训练生成器的平均风格向量。

TriPlaneNet

包含两个阶段,第一阶段用pSp encdoer将图片编码到EG3D的pivotal latent code空间:

将pSp输出,送入EG3D生成器,得到初始tri-plane features T,送入渲染模块后,产生初始重建图像:

第二阶段,TriplaneNet是一个autoencoder。该网络的输入是初始重建和重建残差,输出是tri-plane特征的残差。残差tri-plane和初始tri-plane相加得到最终的tri-plane,并得到最终的重建图像:

autoencoder使用经典U-Net结构,整体结构和RUNet很像。encoder是预训练IR-SE-50结构,deocder是subpixel convolutional layers,用于将提取特征高效上采样。

Loss Functions

包含两阶段损失:

 

实验

Training procedure

Datasets

  • 训练集:使用FFHQ数据集和100,000预训练EG3D中生成的图片;
  • 测试集:2824张CelebA-HQ

Results

Comparison to the sota

Ablation study

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/780358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

蚁剑--编码器的利用

先说下蚁剑编码器的作用,当使用蚁剑控制webshell向服务器发送数据包时,数据包中的body部分会按照编码器中定义的规则进行编码或者加密后在发送,这样就可以避免有比较明显的命令执行特征从而被WAF拦截。 我们平时遇到一些文件上传漏洞&#x…

maven的pom.xml文件解释(远程仓库阿里云)

<?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://ma…

layui上传文件弹出请求上传接口出现异常的终极解决方案(v2.68版本、ajax底层逻辑修改、debug快速定位)

layui不同版本情况系列 解决layUI请求上传接口出现异常的解决方案layui框架实战案例(3)&#xff1a;layui上传错误请求上传接口出现异常解决方案漏刻有时导入数据layUI上传提示“请求上传接口出现异常”的解决方案layui上传文件弹出请求上传接口出现异常的终极解决方案 layui上…

C语言库函数 — 错误信息报告函数

前言 本文介绍错误信息报告函数 错误信息报告函数的作用&#xff1a; 帮助程序员快速定位代码中的错误&#xff0c;以便更快地进行调试和修复问题。 文章目录 前言一、错误信息报告函数什么是错误信息报告函数错误信息报告函数的作用strerror函数介绍strerror函数使用错误码对应…

NLP多模型集成与比较

目录 数据集目的所用的两种词嵌入方式步骤随机读取10000条文本TF-IDF方法多模型比较CNN (用于比较 TF-IDF嵌入和词向量嵌入时的区别)LSTMBI-LSTM 数据集 10分类的新闻文本分类任务 目的 1.比较不同数据处理方式&#xff0c;词嵌入方式对任务的影响 2.比较相同处理方式下&…

对于awd

最近我们老师直接说要我准备awd&#xff0c;大概率要我上场我就顺便整理一下awd的资料&#xff08;准备写很多所以建议大家收藏一下&#xff09; 攻防指北 先来一个思维导图 Awd竞赛 AWD(Attack With Defense&#xff0c;攻防兼备)是一个非常有意思的模式&#xff0c;你需要…

4P营销模型

4P营销模型 菲利普科特勒在其畅销书《营销管理&#xff1a;分析、规划与控制》中进一步确认了以4P为核心的营销组合方法. 模型介绍 「4P营销模型」是市场营销中的经典理论&#xff0c;代表了产品、价格、促销和渠道四个要素。这些要素是制定市场营销策略和实施计划的关键组成部…

ARM(Day5)

思维导图&#xff1a; 通过封装函数实现点灯&#xff1a;

CAN转EtherNet/IP网关can协议支持哪两种报文

你是否曾经遇到过不同的总线协议难以互相通信的问题&#xff1f;远创智控的YC-EIP-CAN网关为你解决了这个烦恼&#xff01; 远创智控YC-EIP-CAN通讯网关是一款自主研发的设备&#xff0c;它能够将各种CAN总线和ETHERNET/IP网络连接起来&#xff0c;解决不同总线协议之间的通信障…

小程序 methods方法互相调用 this.onClickCancel is not a function

背景 做了一个自定义的弹出对话窗口&#xff0c;主要是自定义一些文本颜色。 问题 但是点击按钮事件&#xff1a;取消与确认&#xff0c;调用了同一个接口&#xff0c;然后想着走不同方法&#xff0c;需要调用methods其他方法。然后报错了&#xff1a; VM1081 WAService.js:…

【综述】化学预训练模型

目录 摘要1 引言2 分子描述符和编码器 (Molecular Descriptors and Encoders)3 预训练策略 (Pre-training Strategies)3.1 自动编码 (AutoEncoding, AE)3.2 自回归建模 (Autoregressive Modeling, AM)3.3 掩蔽组件建模 (Masked Component Modeling, MCM)3.4 上下文预测 (Contex…

绘出「星辰大海」:华为云Astro轻应用新手指南-第二章

第2章 Astro轻应用奇遇——用鼠标「拖拽」的开发 不被编程所困&#xff0c;像玩拼图一样打造订购系统&#xff01; 今天&#xff0c;我们用鼠标拖拽的方式开发订餐应用。 读过本章&#xff0c;你可以同理开发出各异的订购小程序。 继续Astro轻应用旅行吧&#xff01; 第1站…

macOS coreAudio 之 AudioQueue 播放本地音频文件

macOS的音频模块使用还是和 iOS有细微差别的。 今天记录是的是 使用 AudioQueue 配合 AudioFile 进行播放macOS 本地音频文件 本文打仓库代码为&#xff1a; JBPlayLocalMusicFile.m CoreAudio 作为Apple音频系统中音频库的集合&#xff0c;今天需要使用到的库为&#xff1a…

力扣热门100题之三数之和【中等】

题目描述 给你一个整数数组 nums &#xff0c;判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k &#xff0c;同时还满足 nums[i] nums[j] nums[k] 0 。请 你返回所有和为 0 且不重复的三元组。 注意&#xff1a;答案中不可以包含重复的三元组…

ChatGPT 最佳实践指南

GPT Best Practices GPT 最佳实践指南 This guide shares strategies and tactics for getting better results from GPTs. The methods described here can sometimes be deployed in combination for greater effect. We encourage experimentation to find the methods that…

Java类的封装

封装将类的某些信息隐藏在类内部&#xff0c;不允许外部程序直接访问&#xff0c;只能通过该类提供的方法来实现对隐藏信息的操作和访问。 例如&#xff1a;一台计算机内部极其复杂&#xff0c;有主板、CPU、硬盘和内存&#xff0c; 而一般用户不需要了解它的内部细节&#xff…

涤生大数据教学集群的首次运维现场复现

事故背景交代 涤生大数据花费重金购得几台较高配置的阿里云服务器机器&#xff0c;构建了一整套以cdh为核心的大数据课程教学、学员实操练习环境、但是&#xff0c;就是这个但是&#xff0c;以为集群规模目前相对较小。不会有什么幺蛾子发生&#xff0c;于是运维中最核心的监控…

[Linux] CentOS7 中 pip3 install 可能出现的 ssl 问题

由于解决问题之后, 才写的博客, 所以没有图片记录. 尽量描述清楚一些 今天写代码的时候, 突然发现 文件里用了#define定义宏之后, coc.nvim的coc-clangd补全就用不了 :checkhealth了一下, 发现nvim忘记支持python3了 尝试pip3 install neovim的时候, 发现会警告然后安装失败.…

设计模式结构型——代理模式

目录 代理模式的用途 代理模式的实现 静态代理 JDK动态代理 CGLIB动态代理 代理模式的特点 与其他模式比较 代理模式&#xff08;Proxy Pattern&#xff09;是一种结构型设计模式&#xff0c;它允许通过创建一个代理对象来间接访问原始对象。代理模式的核心思想是将对目…

20230721在WIN10下安装openssl并解密AES-128加密的ts视频切片

20230721在WIN10下安装openssl并解密AES-128加密的ts视频切片 2023/7/21 22:58 1、前言&#xff1a; AES-128加密的ts视频切片【第一个】&#xff0c;打开有时间限制的&#xff01; https://app1ce7glfm1187.h5.xiaoeknow.com/v2/course/alive/l_64af6130e4b03e4b54da1681?typ…