超百万人用它生成3D头像,这项技术刚刚中选了SIGGRAPH Asia 2022

news2024/11/24 18:59:11

如何才能做一个和真人一样的 3D 头像?

先上传一张照片:

 

变成这样:

 

换一个人的照片:

 

 

再看一个例子:

 

眼镜也可以放进来:

 

 

 

在此基础上,还可以换上各种各样的发型、饰品,眼睛、帽子、发色、胡须,皆可编辑。

 

 

 

 

这效果,是不是可以做一套自己专属的表情包了?

创造这些 3D 头像的 AI 模型,是字节跳动技术团队创造出来的 AgileAvatar,已经中选了计算机图形学顶会SIGGRAPH Asia 2022。而它的前身,是我们去年介绍过的 AgileGAN 。

AgileAvatar 使用自监督学习的方式训练完成,也就是说,它无需耗费大量“人工”,直接实现“智能”,需要标注数据即可训练,因此也更容易变成可用的产品。

应用于 TikTok Avatar 以及创建游戏角色

AgileAvatar 技术已经应用在 TikTok 中,今年年初的 TikTok Avatar 功能背后的模型就是它,这个功能上线后迅速收获了超过百万尝鲜用户。

 

另外,AgileAvatar 也将会在近期上线的游戏《星球:重启》中落地,这是一款朝夕光年旗下多端发行的科幻生存游戏,当玩家进入游戏创建角色时,可以上传真人照片,借助云端算法模型,创建和本人更像、更生动的虚拟角色。

 

注意,左下角是上传到游戏里的原图

即便你上传的不是真人照片,也可以基于图片来创建你的游戏角色。

 

甚至你上传的是表情包也行:

 

三个步骤输出可编辑 3D 头像

如何让照片变成 3D 头像?论文中介绍了三个主要的步骤。

先输入的一张正面的人脸照片。

 

第一步,借助一个风格化模型,直接把照片变成一个平面的头像。在这一步里,为了让最终的 3D 头像更像这个人本人,模型忽略了照片中的表情,更真实的展现出这个人的样貌。

注意,这还是一张平面图

这一步使用的模型,正是作者团队此前曾中选 SIGGRAPH 2021 的 AgileGAN,并做了两个调整:

一方面,为了让照片中人物的表情不影响生成效果,作者微调了 GAN 模型的生成器,只用无面部表情的数据来训练,这样模型就只会生成无表情的图形;

另一方面,为了保留照片里人物的眼镜等样貌特征,作者提出使用携带语义信息的 W+ 空间,相比于 AgileGAN 的 Z 空间,能更好的保留这些语义特征。

就像这样,下图左边一列是输入的原图,中间一列是原本 AgileGAN 的生成结果,右边一列是调整后的生成结果,人物的表情消失了,眼镜保留了。

第二步,通过一个自监督学习的模型确定一组参数,根据这组参数,模型把上面那张平面图,变成下面这样的 3D 头像

现在,它是3D的了

这一步里,论文作者自己造了一个可微分的神经渲染器,直接集成在模型里,它可以达到图形学引擎的渲染能力,同时也可以让模型能在自监督学习的框架下进行训练。

为什么一定要造一个渲染器放进去呢?

一般来说,想要给这样一个 3D 头像建模,需要用到两种参数:

一种叫离散参数,它用来确定眼镜、头发等部位的类型,决定一个部位“是什么”;

另一种叫连续参数,靠它确定人脸长度、眼睛大小等数值,决定一个部位“有多大”。

训练模型的时候,如何把他们两个放在一起优化一直是一个棘手的问题。于是作者决定不强制模型估计离散值,而是将离散空间扩展到连续空间进行优化,这样能够帮助收敛。

然而,解决了一个问题,另一个问题出现了:

这样会导致算法生成的是一个粗糙的 3D 形象,没法用现成的图形学引擎来渲染——那就只能现造一个。所以就有了下面这一步,生成一个精细的头像,它的参数空间和 3D 头像的建模系统完全匹配。

第三步,用搜索的方式从预先设计好的大量素材中找到和它最像的头发和肤色,把它从一个粗糙的 3D 头像变成一个精致的矢量化 3D 头像。

 

三个步骤完成后,把生成的 3D 头像输出为一个可编辑的 3D 模型,进行你想操作的任何编辑。

比如可以修改发型和装饰:

 

看,发型、发色、胡须、眼镜都可以编辑

可以做表情包:

可以实现人脸驱动,在录视频的时候当做虚拟头像:

 

 

 

AgileAvatar 项目相关链接

项目网站:

https://ssangx.github.io/projects/agileavatar

论文地址:

https://arxiv.org/abs/2211.07818

字节跳动智能创作团队

AgileAvatar 的研发者来自字节跳动智能创作团队。

智能创作团队是字节跳动 AI、特效和音视频创作技术和业务中台,负责了各短视频平台和视频剪辑产品的核心技术和业务研发,涵盖了深度学习、计算机视觉、图形学、语音、拍摄编辑、特效、客户端、服务端工程等技术领域,并以多种形式向公司内部其他各业务线以及外部合作客户提供业界最前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

字节跳动智能创作团队部分技术岗位正在招聘中,欢迎点击文末「阅读原文」或扫描下图二维码投递简历。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/13658.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Css定位

定位 为什么需要定位? 提问:以下情况使用标准流或者浮动能实现吗? 某个元素可以自由的在一个盒子内移动位置,并且压住其他盒子。当我们滚动窗口的时候,盒子是固定在屏幕的某个位置的 所以: 浮动可以让多…

笨办法学 Python(第三版)习题 2: 注释和#号

参考书籍 代码 # -*- coding: utf-8 -*-# A comment, this is so you can read your program later. # Anything after the # is ignored by python.print("I could have code like this.") # and the comment after is ignored# You can also use a comment to &qu…

北京外国语大学2023年上半年公派英语高级培训班开始招生

教育部指定出国留学人员培训部的“培训班结业证书”是国家留学基金委(CSC)公派项目认可的外语水平证明文件之一。近日,北京外国语大学发出2023年上半年公派英语高级培训班招生简章。为方便培训者了解情况,知识人网小编特转载如下。…

LeetCode[112]路径总和

难度:简单 题目: 给你二叉树的根节点 root 和一个表示目标和的整数 targetSum 。判断该树中是否存在 根节点到叶子节点 的路径,这条路径上所有节点值相加等于目标和 targetSum 。如果存在,返回 true ;否则&#xff0c…

cookie

cookie Cookie是一个客户端会话技术,是由服务器端创建,放在响应头发送到客户端保存,用于存储少量数 据,因为存放在客户端中,容易被人编造伪造,不是很安全。一般不用于存储重要信息。它是通过键值对传递信…

载波通信在电网智能化中的应用

目录载波通信在电网智能化中的应用电力载波通信特点电力载波通信在电力智能化中应用载波数据通信载波语音通信高速电力线通信(HPLC)载波通信在电网智能化中的应用 电力载波通信特点 电力载波通信(Power line Communication)即PL…

Nginx防盗链

资源盗链 资源盗链指的是此内容不在自己服务器上,而是通过技术手段,绕过别人的限制将别人的内容放到自己页面上最终展示给用户。以此来盗取大网站的空间和流量。简而言之就是用别人的东西成就自己的网站。 案例 创建steal.html,页面引用两…

视频直播美颜SDK算法代码解析

随着短视频、直播软件一类app的流行,美颜sdk的应用也越来越广泛。所谓“美颜”,简单解释下,就是通过视频(图片)技术对人脸进行美化。但是就“美化”这个词,却牵扯到众多深度学习、图像处理、图像学技术。今…

vant-list上滑加载,数据重复,加载后返回顶部

(1)vant-list上滑加载 list这个组件,必须具有高度,才能实现上滑加载,不然不会有上滑加载的过程。 因为没有高度,相当于整个屏幕都是组件的,就没有底部一说,所以会一直加载所有的&…

Debye-Wolf积分计算器的用法

摘要 众所周知,Debye-Wolf积分可用于以半解析的方式计算焦平面附近的矢量场。Debye-Wolf积分通常用作分析高数值孔径显微镜成像情况的基本工具。 基于理想化模型,因此不需要精确的镜头规格即可进行计算。 该案例将说明如何在VirtualLab中使用Debye-Wolf积…

[力扣] 剑指 Offer 第三天 - 替换空格

[力扣] 剑指 Offer 第三天 - 替换空格题目来源题目描述示例题目分析算法代码实现执行结果复杂度分析总结耐心和持久胜过激烈和狂热。 题目来源 来源:力扣(LeetCode) 链接:https://leetcode.cn/problems/ti-huan-kong-ge-lcof 著作…

什么是CUSDEC 报关单?

CUSDEC即Customs Declaration Message,中文解释是报关单,符合EDIFACT国际报文标准。 报关单信息 (CUSDEC) 允许将数据从报关员转移到海关管理部门,以满足有关进口、出口或过境货物申报的立法或操作要求。这个报文的应用场景还包括&#xff1…

【Hack The Box】windows练习-- Intelligence

HTB 学习笔记 【Hack The Box】windows练习-- Intelligence 🔥系列专栏:Hack The Box 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 📆首发时间:🌴2022年9月7日🌴 &…

C++11更新内容(2)--完美转发--默认移动构造/移动赋值--1116

1.完美转发 1.1万能引用 void Fun(int &x){ cout << "左值引用" << endl; } void Fun(const int &x){ cout << "const 左值引用" << endl; }void Fun(int &&x){ cout << "右值引用" << e…

分布式数据库Cassandra

目录 一、概述 1、简介 2、架构 3、使用场景 二、安装 三、基本概念 1、数据模型 列&#xff08;Column&#xff09; 列族 KeySpace 节点&#xff08;Node&#xff09; 集群&#xff08;Cluster&#xff09; 2、数据类型 基础类型 集合类型 自定义数据类型 …

Linux开发工具(3)——gcc/g++

文章目录Linux编译器——gcc/g程序编译背景知识gcc指令动态链接和静态链接Linux下运行其他语言Linux编译器——gcc/g 程序编译背景知识 程序的编译分为四步&#xff1a; 预处理&#xff1a;主要完成的是&#xff0c;头文件展开&#xff0c;宏替换&#xff0c;注释删除&#x…

基于Matlab使用GPU和代码加速杂波模拟(附源码)

目录 一、杂波模拟 二、比较杂波模拟时间 三、其他仿真时序结果 四、总结 五、程序 此示例演示如何在图形处理单元 &#xff08;GPU&#xff09; 上或通过代码生成 &#xff08;MEX&#xff09; 而不是 MATLAB 解释器来模拟混乱。该示例将样本矩阵反演 &#xff08;SMI&am…

DVWA靶场在sql注入联合查询时返回报错信息 “Illegal mix of collations for operation ‘UNION’ ”之解决

比如我们输入&#xff1a; -1 union select 1,table_name from information_schema.tables where table_schemadvwa#会跳出一个页面出现报错提示&#xff1a; Illegal mix of collations for operation UNION这是由于union连接数据库中的字段的字符规则不一样导致的错误&…

MySQL—Apache+PHP+MySQL实现网上社区

ApachePHPMySQL实现网上社区 所谓网上社区是指包括BBS/论坛、聊天室、博客等形式在内的网上交流空间&#xff0c;同一主题的网上社区集中了具有共同兴趣的访问者&#xff0c;由于有众多用户的参与&#xff0c;因此具备了交流的功能&#xff0c;成为一个营销场所。网上社区有各…

高质量实现单文件导入、导出功能(使用EasyExcel )

前言 咋说呢&#xff0c;最近交接了一个XXX统计分析系统到我手上&#xff0c;显示页面平平无其&#xff0c;一看导入、导出功能的实现代码&#xff0c;每个小菜单目录里面都对应一个导入导出接口&#xff0c;看起来十分难受&#xff01;&#xff08;此处省略1w字内心os&#xf…