生成模型 | 数字人类的三维重建(3D reconstruction)调研及总结【20231210更新版】

news2024/11/16 8:57:24

本文主要集中于图片到三维重建的算法模型,其中包含人体重建,人脸重建等

1.三维人体重建

1.1.2015_SMPL: A Skinned Multi-Person Linear Model

论文地址:SMPL2015.pdf (mpg.de)

代码地址:CalciferZh/SMPL: NumPy, TensorFlow and PyTorch implementation of human body SMPL model and infant body SMIL model. (github.com)

gulvarol/smplpytorch: SMPL body model layer for PyTorch (github.com)

autocyz/smpl_understand: understand about SMPLmodel(http://smpl.is.tue.mpg.de/downloads) (github.com)

2019_SMPL-X: Expressive Body Capture: 3D Hands, Face, and Body from a Single Image

论文地址:SMPL-X (mpg.de)

论文代码:vchoutas/smplx: SMPL-X (github.com)

论文摘要

 为了便于分析人类行为、互动和情绪,论文从单个单眼图像中计算出人体姿势、手部姿势和面部表情的 3D 模型。为了实现这一目标,论文使用数千次 3D 扫描来训练一种新的、统一的人体 3D 模型 SMPL-X,该模型通过完全关节的手和富有表现力的面部扩展 SMPL。在没有配对图像和 3D 地面实况的情况下,学习直接从图像回归 SMPL-X 的参数具有挑战性。因此,论文遵循 SMPLify 的方法,该方法估计 2D 特征,然后优化模型参数以拟合特征。在几个重要方面改进了 SMPLify:

  • 检测与面部、手和脚相对应的 2D 特征,并将完整的 SMPL-X 模型拟合到这些特征上;
  • 先使用大型MoCap数据集训练一种新的神经网络姿势;
  • 定义了一种既快速又准确的新的相互渗透惩罚;
  • 自动检测性别和适当的身体模型(男性、女性或中性);
  • 在 PyTorch 实现比 Chumpy 加速了 8 倍以上。

使用新方法SMPLify-X将SMPL-X拟合到受控图像和野外图像中。在一个新的精选数据集上评估 3D 准确性,该数据集包含 100 张具有伪地面实况的图像。这是从单目RGB数据中自动进行富有表现力的人体捕获的一步。这些模型、代码和数据可在 https://smpl-x.is.tue.mpg.de 上用于研究目的。

2020_Deep reconstruction of 3D human poses from video

论文地址:JIAN_TAI.pdf (uwa.edu.au)

代码地址:暂无

[ CVPR 2020].PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

论文地址:arxiv.org/pdf/2004.00452.pdf

代码地址:facebookresearch/pifuhd: High-Resolution 3D Human Digitization from A Single Image. (github.com)

Demo:PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization (shunsukesaito.github.io)

 

2022_JIFF: Jointly-aligned Implicit Face Function for High Quality Single View Clothed Human Reconstruction

论文地址:2204.10549.pdf (arxiv.org)

论文代码:暂未开源

2023.11.27_HAVE-FUN: Human Avatar Reconstruction from Few-Shot Unconstrained Images

论文地址:2311.15672.pdf (arxiv.org)

代码地址:暂未开源

Demo:HAVE-FUN (seanchenxy.github.io)

[ CVPR 2023].Complete 3D Human Reconstruction from a Single Incomplete Image

论文地址:Complete 3D Human Reconstruction From a Single Incomplete Image (thecvf.com)

代码地址:

2.三维人脸重建

2.1.3DMM:A Morphable Model For The Synthesis Of 3D Faces

论文地址:SIG99.dvi (ucsd.edu)

代码地址:ascust/3DMM-Fitting-Pytorch: A 3DMM fitting framework using Pytorch. (github.com)(非官方版)

 2.2.2022_Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

论文地址:2212.06135.pdf (arxiv.org)

论文代码:cbritopacheco/rodin: Modern C++17 finite element method and shape optimization framework. (github.com)

论文Demo:RODIN Diffusion (microsoft.com)Rodin Diffusion: A Generative Model for Sculpting 3D Digital Avatars - Microsoft Research

 该 3D 化身扩散模型经过训练,可生成表示为神经辐射场的 3D 数字头像。以最先进的生成技术(扩散模型)为基础进行3D建模。使用三平面表示来分解化身的神经辐射场,可以通过扩散模型显式建模,并通过体积渲染渲染到图像中。所提出的3D感知卷积带来了急需的计算效率,同时保持了3D扩散建模的完整性。整个生成是一个分层过程,具有用于多尺度建模的级联扩散模型。一旦生成模型被训练,就可以根据从输入图像、文本提示或随机噪声派生的潜在代码来控制头像的生成。

2.3.2023.11.26_GAIA: ZERO-SHOT TALKING AVATAR GENERATION

论文题目:2023.11.26GAIA: ZERO-SHOT TALKING AVATAR GENERATION

论文地址:2311.15230.pdf (arxiv.org)

论文代码:20231205暂未发布

论文摘要

 零样本说话头像生成旨在从语音和单个肖像图像中合成自然的说话视频。以前的方法依赖于特定领域的启发式方法,例如基于变形的运动表示和 3D 可变形模型,这限制了生成的化身的自然性和多样性。在这项工作中,引入了 GAIA(Generative AI for Avatar),它消除了说话头像生成中的领域先验。鉴于语音仅驱动化身的运动,而化身的外观和背景在整个视频中通常保持不变,将方法分为两个阶段:1)将每一帧解开为运动和外观表示;2)生成以语音和参考人像图像为条件的运动序列。我们收集了一个大规模的高质量会说话的头像数据集,并在其上用不同的尺度(最多 2B 参数)训练模型。实验结果验证了GAIA的优越性、可扩展性和灵活性,1)所得模型在自然性、多样性、口型同步质量和视觉质量方面优于以前的基线模型;2)该框架是可扩展的,因为更大的模型会产生更好的结果;3)它是通用的,可以支持不同的应用,如可控的说话头像生成和文本指示的头像生成。

参考文献

【1】3D human reconstruction人体重建论文小合集 - 知乎 (zhihu.com)

【2】【精选】2022 CVPR 三维人体重建相关论文汇总(3D Human Reconstruction)_3d人体重建_BTWBB的博客-CSDN博客 【3】【技术综述】基于3DMM的三维人脸重建技术总结 - 知乎 (zhihu.com)

【4】 imbinwang/awesome-nerf-3d-reconstruction (github.com)

【5】PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization (shunsukesaito.github.io) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1299392.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

我的隐私计算学习——隐私集合求交(1)

笔记内容来自多本书籍、学术资料、白皮书及ChatGPT等工具,经由自己阅读后整理而成。 (一)PSI的介绍 隐私计算关键技术:隐私集合求交(PSI)原理介绍 隐私计算关键技术:隐私集合求交&#xff08…

利用Node.js和cpolar实现远程访问,无需公网IP和路由器设置的完美解决方案

文章目录 前言1.安装Node.js环境2.创建node.js服务3. 访问node.js 服务4.内网穿透4.1 安装配置cpolar内网穿透4.2 创建隧道映射本地端口 5.固定公网地址 前言 Node.js 是能够在服务器端运行 JavaScript 的开放源代码、跨平台运行环境。Node.js 由 OpenJS Foundation&#xff0…

Python开发运维:Python垃圾回收机制

目录 一、理论 1.Python垃圾回收机制 一、理论 1.Python垃圾回收机制 (1)引⽤计数器 1)环状双向链表 refchain 在python程序中创建的任何对象都会放在refchain链表中。 name "david" age 20 hobby ["篮球",游泳…

【链表Linked List】力扣-114 二叉树展开为链表

目录 题目描述 解题过程 官方题解 题目描述 给你二叉树的根结点 root ,请你将它展开为一个单链表: 展开后的单链表应该同样使用 TreeNode ,其中 right 子指针指向链表中下一个结点,而左子指针始终为 null 。展开后的单链表应…

渗透测试——十、渗透列举及命令详解

渗透测试 一、协议配置与分析1、HTTPS 的定义2、HTTPS的验证 二、Kali Linux 常用工具三、Windows 命令详解 一、协议配置与分析 1、HTTPS 的定义 HTTPS (Hyper Text Transfer Protocol over Secure Socket Layer,超文本传输安全协议)是以安全为目标的 HTTP 通道。…

IDEA Maven 配置国内源

基本步骤 分别设置下图的两个,一个是对当前项目的设置,一个是对以后创建的项目设置,这样以后就不用重新配置了。 将下面的两个勾选上 注意,两个地方,Settings 和 Settings for New Projects 的勾都要勾上。 前往 User…

【C语言基础】嵌入式面试经典题(C语言篇)----有新的内容会及时补充、更新!

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…

WorkPlus即时通讯app,支持私有化部署的企业IM

当企业面临复杂的协同、业务和生态场景时,多个繁琐的应用和系统常常让员工头疼不已。然而,WorkPlus作为企业数字化转型的超级APP,以其一站式全能解决方案,为企业带来了颠覆性的便利与高效。本文将深入探讨WorkPlus的特点和优势&am…

JavaScript系列-数据类型

ES6变量类型 JavaScript编程语言中,变量类型分为基本变量类型和引用类型,两种变量类型的区别在于 基本类型变量值存放于栈中,引用类型变量值存放于堆中基本类型赋值给其他变量,是将其值复制过去引用类型赋值给其他变量&#xff…

MyString:string类的模拟实现 1

MyString:string类的模拟实现 前言: 为了区分标准库中的string,避免编译冲突,使用命名空间 MyString。 namespace MyString {class string{private:char* _str;size_t _size;size_t _capacity;const static size_t npos -1;// C标…

解锁MySQL的威力:针对常见问题的快速解决指南

数据库和表的创建 创建数据库: CREATE DATABASE IF NOT EXISTS MyDatabase; USE MyDatabase;案例: 想象您要开始一个博客项目。首先,您需要一个地方来存储所有的文章和用户信息。上述命令帮助您创建了这样一个存储空间,名为MyDa…

人力资源服务展示网站作用有哪些

就业劳务问题往往是不少人群关注的问题,每个城市都聚集着大量求业者,而人力资源管理公司每年也会新增不少,对求业者来说,通过人力资源公司可以快速便捷的找到所需工作,而对公司来说,市场大量用户可以带来收…

python/matlab图像去雾/去雨综述

图像去雾和去雨是计算机视觉领域的两个重要任务,旨在提高图像质量和可视化效果。本文将综述图像去雾和去雨的算法、理论以及相关项目代码示例。 一、图像去雾算法 基于暗通道先验的方法: 这是广泛应用于图像去雾的经典算法之一。该方法基于一个观察&…

Aloha 机械臂的学习记录2——AWE:AWE + ACT

继续下一个阶段: Train policy python act/imitate_episodes.py \ --task_name [TASK] \ --ckpt_dir data/outputs/act_ckpt/[TASK]_waypoint \ --policy_class ACT --kl_weight 10 --chunk_size 50 --hidden_dim 512 --batch_size 8 --dim_feedforward 3200 \ --n…

操作系统学习笔记---内存管理

目录 概念 功能 内存空间的分配和回收 地址转换 逻辑地址(相对地址) 物理地址(绝对地址) 内存空间的扩充 内存共享 存储保护 方式 源程序变为可执行程序步骤 链接方式 装入方式 覆盖 交换 连续分配管理方式 单一连…

self-attention|李宏毅机器学习21年

来源:https://www.bilibili.com/video/BV1Bb4y1L7FT?p1&vd_sourcef66cebc7ed6819c67fca9b4fa3785d39 文章目录 引言self-attention运作机制b1是如何产生的怎么求关联性数值 α \alpha α 从矩阵乘法的角度再来一次从A得到Q、K、V从Q、K得到 α \alpha α矩阵由…

IT行业最被低估的六项技术,再加上一项尚未消亡的技术

2023年,生成式人工智能——更具体地说是ChatGPT——吸引了业界的广泛关注,深得董事会、首席执行官和其他高管的一致赞赏(也不乏害怕情绪)。当然,他们的热情是有道理的,多项研究发现,人工智能正在…

Nginx缓存及HTTPS配置小记

缓存基础 缓存分类 某些场景下,Nginx需要通过worker到上有服务中获取数据并将结果响应给客户端,在高并发场景下,我们完全可以将这些数据视为热点数据,并将其缓存到Nginx服务上。 客户端缓存:将缓存数据放到客户端。 …

Linux和Windows环境下如何使用gitee?

1. Linux 1.1 创建远程仓库 1.2 安装git sudo yum install -y git 1.3 克隆远程仓库到本地 git clone 地址 1.4 将文件添加到git的暂存区(git三板斧之add) git add 文件名 # 将指定文件添加到git的暂存区 git add . # 添加新文件和修改过的…

DTCC2023大会-DBdoctor-基于eBPF观测数据库-附所有PPT下载链接

DTCC2023大会-DBdoctor-基于eBPF观测数据库-附所有PPT下载链接 8月16日—18日,第14届中国数据库技术大会(DTCC-2023)在北京国际会议中心举行。聚好看在大会上首次发布基于eBPF观测数据库性能的产品DBdoctor,受到了业界广泛的关注。近期几位业内同仁过来要大会的PPT…