在线教程丨刘强东数字人首秀交易额破5千万!用GeneFace++ 生成实时说话数字人

news2024/11/28 17:20:21

近日,京东创始人刘强东化身「采销东哥 AI 数字人」,在京东家电家居和超市的采销直播间开启了自己的直播首秀。此次直播活动观看人次超 2 千万,交易总额超 5 千万,充分彰显了AI 数字人在电商直播领域的巨大潜力。

在这里插入图片描述

「采销东哥」亮相京东超市采销直播间

图源:观察者网

据了解,「采销东哥 AI 数字人」通过对刘强东的形象与声音进行学习、训练,可以准确展现其个性化表情、姿态、手势、音色特质等,在 120 秒内难以肉眼分辨数字人和真人之间的差异。

在这里插入图片描述

IDC 曾在《中国 AI 数字人市场现状与机会分析 2022 》中表明,预计到 2026 年中国 AI 数字人市场规模将达到 102.4 亿元。不得不说,AI 数字人可复制、成本低、还能 24 小时不间断工作,将其应用在自媒体运营、短视频带货、数字人播报等场景,协助人类完成多种任务,或许将会成为未来的一大趋势。

在该领域,语音驱动的说话人视频合成技术 (Audio-driven Talking Face Generation) 是一个热门话题。基于该技术,只需要输入一段语音片段,就能构建出目标人脸的说话视频,进而帮助目标人物出席一些真人不便或无法出现的场景。其中,GeneFace++ 作为一种通用且稳定的实时音频驱动 3D 说话人脸生成技术,通过改进唇形同步、视频质量和系统效率,首个实现了实时说话人的生成。

具体来说,GeneFace++ 分别对音频到运动模块、即时运动到视频模块进行独立训练。在训练过程中,涉及音频与面部运动的映射学习、域适应性的迁移学习,以及 landmark 驱动的 3D 人像实时渲染技术学习等,最终使模型具备根据任意音频生成高质量、实时、唇音同步的 3D 说话人脸视频的能力。

然而,创造一个逼真的唇音同步数字人并非轻松之事。为了帮助初学者快速上手并避免常见的环境搭建和技术难题,HyperAI超神经上线了「GeneFace++ 数字人 Demo」教程,该教程为大家搭建好了环境,简化数字人的制作流程,您无需担心环境配置、硬件需求和版本兼容等问题,点击克隆即可一键启动,效果非常真实!

HyperAI超神经公共教程地址:

https://hyper.ai/tutorials/31157

前期准备

准备一段 3-5 分钟的视频: 画面清晰,正方形尺寸(最好为 512*512 大小);

  • 为了让模型能更好地提取背景,视频背景最好为纯色,无其他干扰因素;
  • 视频中的人物面部清晰且占比较大、正面、采集的画面最好在肩部以上,人物动作幅度不宜过大、也不宜过小;
  • 视频中的音频无杂音;
  • 视频名称命名最好为英文。
    注意:此视频将用于模型训练,视频质量越好,所得效果越好。因此,在数据准备部分多花费一些时间和精力是必要的。
    下图为视频画面示例:

在这里插入图片描述

Demo 运行

  1. 登录 hyper.ai,在「教程」页面,选择「GeneFace++ 数字人 Demo」。点击「在线运行此教程」。

在这里插入图片描述

在这里插入图片描述

  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在这里插入图片描述

  1. 点击右下角「下一步:选择算力」。

在这里插入图片描述

  1. 跳转后,选择「NVIDIA GeForce RTX 4090」,点击「下一步:审核」。新用户使用下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开即可注册):

https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

在这里插入图片描述

  1. 点击「继续执行」,等待分配资源,首次克隆需等待 3-5 分钟左右的时间。当状态变为「运行中」后,点击「打开工作空间」。

若超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;若重启仍无法解决,请在官网联系平台客服。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  1. 打开工作空间后,在启动页新建一个终端会话,然后在命令行里输入以下代码启动环境,复制粘贴即可。
conda env export -p /output/genefaceconda activate /output/geneface

在这里插入图片描述

在这里插入图片描述

  1. 稍等片刻,在终端中运行以下指令配置环境变量。
source bashrc

在这里插入图片描述

  1. 稍等片刻,在命令行里输入以下代码,启动 WebUI**,等待大约 1 分钟。
/openbayes/home/start_web.sh

在这里插入图片描述

  1. 当命令行出现「Running on local URL:https://0.0.0.0:8080」后,拷贝右侧API 地址到浏览器地址栏中,即可访问 GeneFace++ 界面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

在这里插入图片描述

效果展示

  1. 打开 GeneFace++ 界面后,导入提前准备好的视频,选择训练步数 「50000」,点击「Train」开始训练。

注意:此步骤需要等待 2 小时以上,期间可以 1-2 次检查训练是否正常运行,避免过程中断但仍持续等待造成的时间损失。
此处的训练步数「50000」是在默认情况下,如果 50000 步训练的结果很差,请更换训练数据重新训练。

在这里插入图片描述

  1. 当出现「Train Success」后,刷新 GeneFace++ 界面。

在这里插入图片描述

3.在 GeneFace++ 界面中,左侧上传音频,中间模块的参数部分先无需修改。

右侧的模型选择音频驱动模型「model_ckpt_steps_400000.ckpt」。
选择 5 万步下训练对应的躯干模型「model_ckpt_steps_50000.ckpt」。
选择 5 万步下训练对应的头部模型「model_ckpt_steps_50000.ckpt」。

在这里插入图片描述

在这里插入图片描述

  1. 点击「Gnerate」,即可生成效果。

在这里插入图片描述

  1. 如果想要进一步训练。删除对应模型下的 head_done 文件夹、torso_done 文件夹。

在这里插入图片描述

在这里插入图片描述

  1. 上传之前的训练视频,视频文件名称保持不变,调高训练步数,点击 「Train」进行训练。

在这里插入图片描述

在这里插入图片描述

  1. 训练结束后,在 GeneFace++ 界面,右侧的模型选择默认的音频驱动模型、15 万步下训练对应的躯干模型、15 万下训练对应的头部模型。点击「Gnerate」,即可生成最终效果。

目前,HyperAI超神经官网已上线了数百个精选的机器学习相关教程,并整理成 Jupyter Notebook 的形式。

点击链接即可搜索相关教程及数据集:

https://hyper.ai/tutorials

以上就是小编本次分享的全部内容了,希望这次的内容对您有所帮助。如果大家还想学习其他好玩的教程,欢迎留言或私信告诉我们项目地址,小编将会为你量身打造课程,教你如何玩转 AI。

参考资料:

https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/128895215

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1617790.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SwiftUI 5.0(iOS 17.0)触摸反馈“震荡波”与触发器模式趣谈

概览 要想创作出一款精彩绝伦的 App,绚丽的界面和灵动的动画并不是唯一吸引用户的要素。有时我们还希望让用户真切的感受到操作引发的触觉反馈,直击使用者的灵魂。 所幸的是新版 SwiftUI 原生提供了实现触觉震动反馈的机制。在介绍它之后我们还将进一步…

prompt提示词:小红书爆款标题提示词,让AI 帮你生成吸睛的标题

目录 小红书爆款标题提示词效果展示:提示词: 小红书爆款标题提示词 一篇文章若缺少了吸引人的标题,就如同失去了灵魂的躯壳,失去了与读者心灵相通的桥梁,上次发表了一篇小红书爆款文案生成助手 提示词,大家…

Linux之安装Nginx

目录 传送门前言一、快速安装二、反向代理语法1、基本语法2、location语法1. 基本语法2. 匹配规则3. 修饰符4. 权重5. 嵌套location6. 其他指令7.案例 三、配置反向代理 传送门 SpringMVC的源码解析(精品) Spring6的源码解析(精品&#xff0…

食用油5G智能工厂数字孪生可视化平台,推进食品制造业数字化转型

食用油5G智能工厂数字孪生可视化平台,推进食品制造业数字化转型。在食用油产业中,数字化转型已成为提升生产效率、优化供应链管理、确保产品质量和满足消费者需求的关键。食用油5G智能工厂数字孪生可视化平台作为这一转型的重要工具,正在推动…

【来自理工科的独有浪漫-给crush一朵夏天的雪花】--对于有限差分法的理解

目录 有限差分法相关参考资料先上手看代码,然后理解数理概念有限差分法的理解Q: 什么是有限差分法? 代码中涉及的知识点1. 划分网格对于求解二维偏微分方程的作用2. 临近点对于求解偏微分方程的作用3. 有限差分方法中的中心差分公式 总结 写在前面&#…

喜报 | 一致认可!擎创科技连续6年获“鑫智奖”专家推荐TOP10优秀解决方案

为展示金融企业数据管理和数据平台智能化转型成果,分享大数据和人工智能在风控、营销、产品、运营等场景的落地实践,探讨“金融科技数据智能”的创新应用和未来发展,在全球金融专业人士协会的支持下,金科创新社主办了“鑫智奖第六…

Apple II首席设计师为中国家庭设计,鹿客指脉锁S6 Max引领科技美学

智能门锁设计正在步入一个科技与艺术交织的美学时代。鹿客科技认为,智能门锁的设计理念是将锁视为人类与仿生形状之间的接口,将门视为几何建筑的一部分,产品设计应该通过提供诱人且用户友好的“触摸和感觉”来传达这种转变。 鹿客近日发布的最…

(C语言入门)数组

目录 什么是数组? 数组: 数组的使用: 数组的初始化: 数组名: 数组案例: 一维数组的最大值: 一维数组的逆置: 数组和指针: 通过指针操作数组元素: …

springCloud集成activiti5.22.0流程引擎

springCloud集成activiti5.22.0流程引擎 点关注不迷路,欢迎再访! 精简博客内容,尽量已行业术语来分享。 努力做到对每一位认可自己的读者负责。 帮助别人的同时更是丰富自己的良机。 小编最近工作需要涉及到流程,由于网络上5.22版…

AD--SSL卸载--单向认证和双向认证

一.SSL卸载单向认证 1.添加SSL证书 2.添加SSL卸载策略 由于是测试模拟环境,有些效果表现不出来,配置不了卸载策略 3.起虚拟服务,服务类型选择https或者ssl ,选择SSL卸载策略 实验效果:打开网页进入AD抓包发现,客户端和…

MySQL及SQL语句

SQL语句 数据库相关概念数据查询语言(DQL)基本查询数据类型条件查询多表查询子查询 数据操作语言(DML)数据定义语言(DDL)数据控制语言(DCL)MySQL数据库约束视图练习题 数据库相关概念…

8【PS作图】画一个“像素云朵”

选择64*128像素大小,横向画布 选择“油漆桶”工具,“容差”调整为0,取消“锯齿”,勾选“连续的”,这样方便后续上色,并且边缘都是像素风格的锯齿状 点击画布,变成蓝色天空 画云朵,首…

win10环境中设置java开机自启动

1 、jdk环境确认 在开始设置Java开机启动之前,确保你的计算机已经安装了Java开发环境(JDK)。如果没有安装,你可以从Oracle官方网站下载并安装最新的Java开发工具包。 2、准备好jar程序 确认jar程序可以正常运行。 3、编写批处…

【InternLM】大模型的评测——OpenCompass

1. OpenCompass简介 1.1 基本介绍 大模型开源开放评测体系 “司南” (OpenCompass2.0)由上海人工智能实验室科学家团队发布,用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下: 开源可复现:提供公平、公开、可复现的大模型…

聊聊实际工作中设计模式的使用

一直想在CSDN上写一篇关于软件设计模式的文章,草稿打了好久,但很长时间都没有想好该如何写,主要有几点考虑: 1、市面上同类的介绍实在太多了。正所谓第一个能够把美女比喻成鲜花的人是天才,第二个还这么说的是庸才&…

Kotlin语法入门-类与对象(6)

Kotlin语法入门-类与对象(6) 文章目录 Kotlin语法入门-类与对象(6)六、类与对象1、声明和调用2、get和set3、init函数初始化4、constructor构造函数4.1、主构造函数4.2、二级构造函数4.3、多个构造函数4.4、省略主构造函数并写了次构造函数 5、类的继承与重写5.1、继承5.2、继承…

【Tello无人机】无人机编队操作面板实现

为了方便进行无人机的编队演示,以及在各种场景下实现队形的灵活切换,开发了一套专门的上位机控制平台。本文将重点介绍应用于tello无人机的编队操作面板及其核心功能。 操作面板页面 下图展示了操作面板,其中包含5种编队动作和3个可选位置设…

2024深圳杯(东北三省)数学建模选题建议及各题思路来啦!

大家好呀,2024深圳杯数学建模(东北三省数学建模联赛)开始了,来说一下初步的选题建议吧: 首先定下主基调, 本次深圳杯(东北三省)建议选A。难度上D>B>C&#…

开源模型应用落地-chatglm3-6b-集成langchain(十)

一、前言 langchain框架调用本地模型,使得用户可以直接提出问题或发送指令,而无需担心具体的步骤或流程。通过LangChain和chatglm3-6b模型的整合,可以更好地处理对话,提供更智能、更准确的响应,从而提高对话系统的性能…

Linux中进程和计划任务管理(2)

一.进程命令 1.lsof lsof 命令,“list opened files”的缩写,直译过来,就是列举系统中已经被打开的文件。通过 lsof 命令,我们就可以根据文件找到对应的进程信息,也可以根据进程信息找到进程打开的文件。 格式&…