“数字人交互,与虚拟的自己互动”——用PaddleAvatar打造数字分身,探索人机交互的未来

news2024/11/25 0:53:39

“数字人交互,与虚拟的自己互动”——用PaddleAvatar打造数字分身,探索人机交互的未来

你是否曾经幻想过与自己的虚拟人交互?现在,使用PaddleAvatar,您可以将自己的图像、音频和视频转化为一个逼真的数字人视频,与其进行人机交互。

PaddleAvatar是一种基于PaddlePaddle深度学习框架的数字人生成工具,基于Paddle的许多套件,它可以将您的数字图像、音频和视频合成为一个逼真的数字人视频。除此之外,PaddleAvatar还支持进一步的开发,例如使用自然语言处理技术,将数字人视频转化为一个完整的人机交互系统,使得您能够与虚拟的自己进行真实的对话和互动。

使用PaddleAvatar,您可以将数字人视频用于各种场合,例如游戏、教育、虚拟现实等等。PaddleAvatar为您提供了一个自由创作的数字世界,让您的想象力得到了充分的释放!

所以,现在就使用PaddleAvatar,打造自己的数字分身,探索人机交互的未来吧!

github地址:https://github.com/Kedreamix/PaddleAvatar

🪀 环境说明

  • Anaconda
  • Python 3.8
  • paddlepaddle

⚙️ 1. 安装环境

我们需要安装paddlepaddle环境,环境的安装,可以看这里paddlepaddle安装,我自己安装的版本是2.3.2,应该2.4也是能正常运行的

conda install paddlepaddle-gpu==2.3.2 cudatoolkit=11.2 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/ -c conda-forge

安装了paddlepaddle以后,可以安装所需要和对应的库,我已经写入requirements.txt中了

pip install -r requirements.txt

😀 2.PaddleAvator技术原理

在这里插入图片描述

🔮 3.网页部署(Streamlit)

这里可以使用streamlit进行网页端的部署,这样就利用可视化进行体验,这里可以看到有一个8501的端口,打开来即可看到网页

streamlit run avatar.streamlit.py

在这里插入图片描述

对于TTS,文字转语音来说,我设置了两种方式

  • PaddleSpeech语音合成,可选择多种声音和语调,可以调节语言和人
  • Azure微软语音合成,调用微软的API进行语音合成,不过需要填入密钥(这里不提供)

🔥 4.未来展望(人机交互)

我设计了一个基于自然语言处理、语音和图像处理等人工智能技术的人机交互系统。该系统致力于实现高度逼真的数字人多模态交互,以提供更加自然和亲密的用户体验。如图所示,该系统由四个核心模块组成:

(1) 自动语音识别(ASR)模块,用于将用户的语音输入转化为文本信息。

(2) 对话系统(DS),用于接收ASR模块输出的文本信息,并进行对话处理。

(3) 文本到语音(TTS)模块,用于将DS模块输出的文本信息转化为高度逼真的语音信息。

(4) 数字人生成模块,用于预处理模型输入的图片和视频,以提取面部特征。接下来,该模型利用TTS模块将低维语音信号映射到高维视频信号,包括嘴巴、表情和动作等。最后,该模型使用神经网络来融合特征和多模态输出视频,并将其在客户端上显示。

在这里插入图片描述

🎯 TO DO LIST

在本仓库 https://github.com/Kedreamix/PaddleAvatar 之中,已经实现了第3和第4个模块,但是离完整的人机交互系统差一部分,所以这一部分还可以继续努力

  • 加入表情迁移(丰富头部动作信息)
  • 实时语音识别(人与数字人之间就可以通过语音进行对话交流)
  • 语音克隆技术(语音克隆合成自己声音,提高数字人分身的真实感和互动体验)
  • 类GPT对话系统(提高数字人的交互性和真实感,增强数字人的智能)

✨ AIstudio在线体验

不过似乎AIstudio的应用部署加载好久,不知道有什么快的方法

https://aistudio.baidu.com/aistudio/projectdetail/6154230

📑 参考资料

  • https://github.com/JiehangXie/PaddleBoBo
  • https://github.com/PaddlePaddle/PaddleSpeech
  • https://github.com/PaddlePaddle/PaddleGAN

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/518596.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Cloud Alibaba--Nacos集群配置

文章目录 一、Nacos持久化配置二、Nacos集群配置三、避坑指南集群端口号冲突问题内存不足,无法启动的问题 一、Nacos持久化配置 Nacos默认自带的是嵌入式数据库derby,Nacos采用了集中式存储的方式来支持集群化部署,目前只支持MySQL的存储。 …

Goby 漏洞更新 |secnet-智能路由系统 actpt_5g.data 信息泄露

漏洞名称:secnet-智能路由系统 actpt_5g.data 信息泄露 English Name:secnet Intelligent Router actpt_5g.data Infoleakage CVSS core: 7.5 影响资产数:71768 漏洞描述: secnet安网智能AC管理系统是广州安网通信技术有限公…

mysql错误:2059 - Authentication plugin ‘caching_ sha2_password‘ cannot be loaded:

这个错误是因为MySQL数据库使用了 caching_sha2_password 插件进行身份验证,而该插件需要 MySQL 8.0.4 及以上版本的 MySQL 客户端才能够使用。 如果你使用的是旧版本的 MySQL 客户端,可以考虑升级到 MySQL 8.0.4 或更高版本。如果升级不是一个可行的选…

Windows重启mysql的方法(快速简单)

目录 一、背景 二、操作步骤 错误做法 正确做法 一、背景 有时候修改了数据库,但是MySQL数据库内容有延迟缓存,那么就需要重启一下数据库去解决问题 二、操作步骤 错误做法 直接去cmd命令里面输入net stop mysql这样停止,这样很可能…

【C++初阶】C++模版(进阶)

文章目录 前言一、非类型模板参数二、模板的特化概念函数模板特化类模板特化1.全特化3.偏特化 三、模板分离编译什么是分离编译模板的分离编译解决方法 模板总结 前言 前边我们讲解了模版初阶的内容,对泛型编程,函数模版,类模板有了一定的认…

上海亚商投顾:沪指失守3300点关口 AI应用方向大幅调整

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大指数今日集体调整,尾盘均跌超1%,沪指失守3300点关口,日线录得4连阴走势。游…

IS210AEPSG1AFC磁场由串联励磁绕组和并联励磁的组合提供

​ IS210AEPSG1AFC磁场由串联励磁绕组和并联励磁的组合提供 复合发生器 在这种类型中,磁场由串联励磁绕组和并联励磁的组合提供,并联磁场有许多圈数的导线,但它只承载小电流,而串联励磁绕组有几圈粗线并承载负载电流 串联励磁绕组…

【JAVAEE】线程池基础知识⭐

目录 1.什么是线程池 2.为什么要使用线程池 3.怎么使用线程池 4.自定义一个线程池 5.为什么不推荐使用系统自带的线程池 5.1线程池构造方法的参数和含义 5.1.1拒绝策略 5.2线程池的工作原理 5.3为什么不适用系统自带的线程池 补充:工厂模式 1.什么是线程池…

stm32 74hc595外扩io 调试记录

本文使用的测试代码如下 (1条消息) stm3274hc595外扩io调试工程,软件代码2片74hc595级联外扩IO资源-CSDN文库 有个项目对成本比较敏感,又想用ST的片子,输出管脚比较多,就考虑外扩IO,也有一些外扩IO的片子但是用下来成…

视频理解AI模型分类与汇总

人工智能领域视频模型大体也经历了从传统手工特征,到卷积神经网络、3D卷积网络、双流网络、transformer的发展脉络。 视频的技术大多借鉴图像处理技术,只是视频比图片多了一个时间维度。 下面内容先简单汇总下,后续再逐渐补充。 1. 双流网…

DS200SLCCG1AFG随着频率的增加而增加。具有高 Dk 的基材将具有高 Df。

​ DS200SLCCG1AFG随着频率的增加而增加。具有高 Dk 的基材将具有高 Df。 Df 耗散因数(又名损耗角正切) Df 测量由于电阻加热而损失了多少功率。PCB 基板形成电容器作为绝缘体,导体通常位于两侧。作为电容器,它会表现出容抗&#…

MySQL---聚合函数、字符串函数、数学函数、日期函数

1. 聚合函数 数据准备: create database mydb4; use mydb4;create table emp(emp_id int primary key auto_increment comment 编号,emp_name char(20) not null default comment 姓名,salary decimal(10,2) not null default 0 comment 工资,department char(20…

激光切割机要换新该怎么选?如何减少激光加工设备的老化问题?

激光器的销量持续攀高,激光切割机的应用领域涉及众多行业。随着加工范围和厚度的提升,运行多年的中低功率 激光切割机已经不能满足时下很多设备加工的需求,要提企业的加工能力,选择一款新的激光加工设备已是势在必行。 激光切割机…

Ubuntu使用(持续更新中)

文章目录 1.以root身份登录2.配置apt源3.安装Docker3.1BUG: 4.在VMware中克隆Ubuntu5.配置apt国内源 额 我们项目用的CentOS7,由于CentOS8停止了维护,客户反馈了这个问题,所以玩一下Ubuntu,我使用的是Ubuntu Serve LST,如有不同,另行百度 1.以root身份登录 Ubuntu默认是不开启r…

java异常的声明、捕获、抛出、处理(throws、throw、try-catch详解)

异常的处理 LBYL: Look Before You Leap. 在操作之前就做充分的检查. 即:事前防御型 boolean ret false; ret 登陆游戏(); if (!ret) { 处理登陆游戏错误; return; } ret 开始匹配(); if (!ret) { 处理匹配错误; return; } ret 游戏确认(); if (!ret) { 处理游…

在职读研是理想还是情怀?你想要的都将在社科大能源管理硕士项目实现

在职读研是理想还是情怀呢,每个读研人的想法不同,原因也有所不同。但选择在职继续攻读硕士学位的群体也有着共同点,他们都是想拥有高学历,拥有高目标的一群人。探寻新的起点和终点是他们想所要追求的。不管读研的初心是什么&#…

Figma怎么导出PDF文件?

Figma 是一款备受网页和 UI 设计师喜爱的基于矢量的设计工具。其最大的优势在于方便用户与团队成员进行协作。当设计师需要与其他团队成员、设计师或客户共享设计文件时,设计师需要将设计图案导出为 PDF 格式以方便查看。同样地,当设计师需要将设计图稿打…

优维低代码实践:数据模型设计

优维低代码技术专栏,是一个全新的、技术为主的专栏,由优维技术委员会成员执笔,基于优维7年低代码技术研发及运维成果,主要介绍低代码相关的技术原理及架构逻辑,目的是给广大运维人提供一个技术交流与学习的平台。 优维…

msvcp110.dll丢失的解决方法,msvcp110.dll一键修复教程

昨天卸载了一个垃圾软件以后,我的ps软件就无法打开运行,提示msvcp110.dll丢失,无法继续执行此代码。今天早上找了很多方法,终于把msvcp110.dll丢失的原因以及修复的方法都弄明白了。msvcp110.dll是一个非常重要的文件,…

【Python】【进阶篇】30、Django模板继承精讲

目录 30、Django模板继承精讲1. 模板继承的概念2. 模板继承的应用3. 父模板内容扩展(block.super)4. 总结归纳 30、Django模板继承精讲 在本节我们讲述模板语言中最后一个知识点,也是最重要的,那就是模板继承。模板继承和 Python 语言中类的继承含义是一…