前两天亲手搭建了实时对话数字人VideoChat,今天来搭建下DH_LIVE。
DH_LIVE一个实时数字人解决方案,从输入文字到数字人对口型说话用时2-3秒。
今天就来实际操作下dh_live的搭建过程。
首先贴上git地址:https://github.com/kleinlee/DH_live
然后又找到了个带webui的开源地址:https://github.com/v3ucn/DH_live_webui 含一键启动脚本。
1、先来看下自己本地的环境配置:
系统:win10
显卡:rtx 2060 super
2、创建 环境
conda create -n dhlive python==3.10
3、创建好后激活环境,进入到项目目录
conda activate dhlive
4、安装环境
pip install -r requirements.txt
5、安装比较顺利,直接安装成功了,接着来试着启动下
python api.py
报错了。如图:
这种比较好解决,直接 pip install pydub 即可。
6、接着再次执行 第五步,又报错,如图:
pip install torchaudio
7、继续执行第五步,还报错
这是ffmpeg没有配置环境变量,配置下即可。
我的电脑--》右键--》属性--》高级系统设置--》环境变量--》系统变量--》path--》新建--》添加ffmpeg的bin路径保存即可。后台回复"ffmpeg"可获取ffmpeg文件
配置好后重启打开窗口执行ffmpeg
看到输出即为配置成功。
8、接着再执行第五步,又报错
pip install edge_tts
9、接着执行第五步,终于成功了
经实测,效果还不错,就是口型有点不太对应。从输入到说话的间隔要看文本长度。
后台回复“DH_LIVE”可获取到一键启动的项目文件,包含checkpoints模型文件。