闲聊从零开发一个2D数字人流程实战

news2025/1/4 9:58:57
  • .2D数字人技术
  1. 百度,腾讯,等大厂都有自己的数字平台制作(套壳:api+后台转发+vue前端),国外也有出名的heygen(非常厉害一个)
  2. 通过开源项目组合实现,再打通每个项目已api的形式提供调用。
  1. 对口型
  2. 不对口型

  • 组合形式(ai 项目总结)
  1. 素材准备

a.1张图片或者自己拍摄一个短10秒钟视频(图片效果肯定没有视频好)

b.全新制作一个不存在现实的数字人(制作)

2.全新数字人形象制作。

  (1)技术软件:Stable_Diffusion或者Fooocus

选择:Fooocus  (对标sd,使用简单,对机器要求不高!)

      GitHub - lllyasviel/Fooocus: Focus on prompting and generating  

      提示词:Beautiful girl with a clear front and face

获得一张形象图片保存好。

Ai软件安装流程大多(每个人遇到问题都可能不一样,使用系统不一样):

conda create -n 名称xx python=xxx

conda activate 名称xx

安装torch touchversion 这里要注意电脑有cuda的可以到

Start Locally | PyTorch 上下载对应的torch 安装 例如下面:pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

安装环境: pip isntall -r requirements.txt

遇到问题:

0.先到项目git的Issues上面查找,一般都能找到。

1.GPT等工具查找问题

2.google或者百度

3.技术群询问

  1. .10秒视频准备。
  1. 可以自己拍摄(必须是脸部清晰)
  2. 去网站上面找,这里就找了韩国美女。

    

  1. .换脸:把之前虚拟图片脸换到视频上

技术选型:facefusion

GitHub - facefusion/facefusion: Next generation face swapper and enhancer

  1. .高清修复。

   技术选型:CodeFormer

   GitHub - sczhou/CodeFormer: [NeurIPS 2022] Towards Robust Blind Face Restoration with Codebook Lookup Transformer

  1. 剪影工具裁剪出稳定脸部清晰的2到3帧再拼接成10秒视频,需要注意就是拼接时候要反向合并视频。

  1. 语音克隆。

   技术选型有2种,

  1. GitHub - Plachtaa/VITS-fast-fine-tuning: This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
  2. https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

选择:RVC  原因就是效果比较好,这样需要知道就是现在语音克隆有两种在底模训练好情况下:

一种是Text-to-speed 也就是文字到语音,测试下来效果不太稳定,10句同样文字输出速率都有可能不一样!

第二种RVC,speed-to-speed 语音到语音,比较稳,但是这里就要多做一步文字转语音再转,这里推荐使用微软免费tts,多国语言选择参考:https://github.com/rany2/edge-tts

pip install edge-tts

edge-tts --voice zh-CN-YunxiNeural --rate=-4% --text "hello 大家好" --write-media hello1.mp3

速度其实和第一种区别不大,RVC转换很快。

  1. 对口型video-retalking

GitHub - OpenTalker/video-retalking: [SIGGRAPH Asia 2022] VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild

  1. 通过上面的项目进行串联使用api形式进行调用(暂无)。

输入文字=》tts==>RVC  ==>video-retalking==>视频

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1223069.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenAI 变天:Sam Altman 被踢出局,原 CTO 暂代临时 CEO

文章目录 灵魂人物 Sam Altman 离任 OpenAICEO 下台:OpenAI 也宫斗?个人简介 hello,大家好,我是 Lorin,一觉醒来科技圈发生了一件令人震惊的大事:Sam Altman 被踢出局,原 CTO 暂代临时 CEO。 灵…

Flask学习一:概述

搭建项目 安装框架 pip install Flask第一个程序 from flask import Flaskapp Flask(__name__)app.route(/) def hello_world():return "Hello World"if __name__ __main__:app.run()怎么说呢,感觉还不错的样子。 调试模式 if __name__ __main__:a…

搭建企业社区,如何激发员工互动?

本文是关于企业内部社区搭建后怎么运营,如何激发员工互动。 作为运营者,我们搭建企业内部员工的目的首先得明确下来,一般都是打造和宣扬企业内部文化,发布公司政策通知和行业动态、组织公司关键节点活动、以及员工经验分享资源分…

【数据结构】图的存储结构及实现(邻接表和十字链表)

一.邻接矩阵的空间复杂度 假设图G有n个顶点e条边,则存储该图需要O(n^2) 不适用稀疏图的存储 二.邻接表 1.邻接表的存储思想: 对于图的每个顶点vi,将所有邻接于vi的顶点链成一个单链表,称为顶点vi的边表&#xff08…

基于蛾群算法优化概率神经网络PNN的分类预测 - 附代码

基于蛾群算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于蛾群算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于蛾群优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神经网络的光滑…

2023.11.18 Hadoop之 YARN

1.简介 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。支持多个数据处理框架&…

【每周一测】Java阶段三阶段考试

目录 1、SpringBoot在整合RabbitMQ时需要导入的包是 2、下列关于RabbitMQ的confirm消息确认机制解释说明正确的是 3、关于SpringBoot的配置文件,以下说法正确的是() 4、变量命名规范说法正确的是? 5、哪个关键字可以对对象加互斥锁&…

Adversarial Attacks on Neural Networks for Graph Data

Adversarial Attacks on Neural Networks for Graph Data----《针对图数据的神经网络的对抗攻击》 论文提出了两个问题: 1、属性图的深度学习模型容易受攻击吗? 2、他们的结果可靠吗? 回答这两个问题需要考虑到GNN的特性: ①关…

Spring IOC - 推断构造方法

一、前言 上文解析了Bean生命周期的实例化阶段,其中bean真正开始实例化的核心代码位于方法AbstractAutowireCapableBeanFactory#createBeanInstance中,这里也是spring推断构造方法的核心所在。 二、整体介绍 首先看下方法的源码及注释如下,下…

一文带你了解QT Model/View框架的设计思想和实现机制

目录 1、QT Model/View框架简介 1.1、QT Model/View是什么? 1.2、QT Model/View框架核心思想 1.3、Model/View框架工作机制 1.4、Model/View框架的类 2、Model 2.1模型简介 2.2、模型索引 2.3、数据角色 2.4、QStringListModel 2.5、QFileSystemModel 2…

Pycharm中添加Python库指南

一、介绍 Pycharm是一款为Python开发者提供的集成开发环境(IDE),支持执行、调试Python代码,并提供了许多有用的工具和功能,其中之一就是在Pycharm中添加Python库。 添加Python库有许多好处,比如能够增加开…

xlua源码分析(三)C#访问lua的映射

xlua源码分析(三)C#访问lua的映射 上一节我们主要分析了lua call C#的无wrap实现。同时我们在第一节里提到过,C#使用LuaTable类持有lua层的table,以及使用Action委托持有lua层的function。而在xlua的官方文档中,推荐使…

算法通关村第十关-青铜挑战快速排序

大家好我是苏麟,今天带来快速排序 . 快速排序 单边快速排序(lomuto 洛穆托分区方案) 单边循环 (lomuto分区) 要点 : 选择最右侧元素作为基准点j 找比基准点小的,i 找比基准点大的,一旦找到,二者进行交换。 交换时机: 找到小的&#xff0c…

第四篇 《随机点名答题系统》——基础设置详解(类抽奖系统、在线答题系统、线上答题系统、在线点名系统、线上点名系统、在线考试系统、线上考试系统)

目录 1.功能需求 2.数据库设计 3.流程设计 4.关键代码 4.1.设置题库 4.1.1数据请求示意图 4.1.2选择题库(index.php)数据请求代码 4.1.3取消题库(index.php)数据请求代码 4.1.4业务处理Service(xztk.p…

AlphaControls控件TsDBCombobox出错:访问违规

日常使用AlphaControls控件TsDBCombobox,作为数据变化数据的控件。通常正常使用,一日 发现,出现以下错误: 控件访问违规的源代码,出错代码: function TacMainWnd.CallPrevWndProc(const Handle: hwnd; co…

基于Zemax的高能激光发射系统的扩束系统设计

关键词:高功率激光发射系统;扩束系统 1 引言 高功率激光发射系统是强激光空间传输系统中不可缺少的装置。对高功率激光发射系统的研究一直是激光应用领域的关键技术问题。高功率激光发射系统通常由准直系统、导光光路系统和扩束系统组成,光学系统要求具…

股票价格预测 | Python实现基于CNN卷积神经网络的股票预测模型(keras,Conv1D)

文章目录 效果一览文章概述源码设计参考资料效果一览 文章概述 股票价格预测 | Python实现基于CNN卷积神经网络的股票预测模型(keras) 源码设计 import quandl import datetimedf = quandl

Zabbix5.0部署

环境 主机名 IP 类型server01192.168.134.165zabbix-serverserver02 192.168.134.166zabbix-agent 官方部署文档 1 .安装yum源 [rootserver01 ~]# rpm -Uvh https://repo.zabbix.com/zabbix/5.0/rhel/7/x86_64/zabbix-rel…

分布式服务与分布式框架

分布式副武其实就是根据某个粒度,将服务拆分,而分布式框架就是将这些服务协调,管理起来。分布式框架,我认为服务调用是他的基础能力,该能力是所有分布式框架的基础能力,其次是服务注册与发现。 在这个维度…

OpenAI GPT-4 Turbo发布:开创AI新时代

🎥 屿小夏 : 个人主页 🔥个人专栏 : IT杂谈 🌄 莫道桑榆晚,为霞尚满天! 文章目录 📑前言一. GPT-4 Turbo的突破1.1上下文长度和控制手段的加强:1.2多模态支持&#xff1a…