数字人的效果:
🎵我用SadTalker制作了专属虚拟数字人,还会唱歌哦,多多点赞关注就出教程呦💗
SadTalker有独立离线版Ai数字人,也可以在Stable Diffusion以插件的形式使用,但是如果显卡小的话还是建议使用独立版,毕竟Stable Diffusion也要占用显卡。
我在逛B站时,找到了一键整合包,直接下载双击启动就可以使用,非常方便,那么安装包可以如下方式下载。
百度网盘:百度网盘 请输入提取码
夸克链接(不限速):https://pan.quark.cn/s/129af21d115d
B站:Ai应用分享站丨Danny
先说下我的显卡,大家参考下,我的显卡是6G,10秒内的音频转换数字人需要一分钟左右,我的显卡就不能选择高清了,选择高清就卡的不行。
下载下来解压,目录内容如下:
我们进入SadTalker里的ffmpeg文件夹,这里我们需要按如下方式先配置下环境变量,
然后进入SadTalker目录里点击一键启动,弹出CMD,等待CMD里出现WEB UI的路径地址,复制地址到网页上就可以了。
界面如下,左部分是原文件上传,右上部分是进行数字人转换时参数的设置,右下部分是生成数字人后显示的地方。
素材准备
首先我们准备图片,可以真人,动漫都可以,最好是正面头像,(测试后最好是咧嘴微笑的照片口型更自然,紧闭双唇嘴部运动效果不明显,)有些图片效果不好,可以多换些图片,有的效果很好,然后图片可以是SD生成图片,也可以你本人照片,或者网图。
语音准备,我是在在线的文本转语音工具,这个工具还蛮不错的,不用登录什么的,可以直接使用,界面如下,
在线免费文字转语音 - TTSMaker官网 | 马克配音
转换成功,可以点击下载文件到本地,全程不用其他登录注册操作,这点简直太棒了!
上传图片和声音直接点击生成,等待片刻,控制台就开始处理,
参数说明:
- Pose style:视频人物的姿势,姿势变化种类。
- face model resolution:视频分辨率,小显卡老老实实的256,我试过512界面直接卡的不行,而且生成时间比较长。
- preprocess:图片处理方式,包括crop/resize/full/extcrop/extfull
crop:从图片中截取头部生成视频
resize:拉伸,适合大头照或证件照
full:保留全身,全身照生成视频
extcrop:加强版裁剪主要聚焦头部,试了下,小显卡效果还是不行
extfull:加强版全身,试了下,小显卡效果还是不行
- still mode:减少头部运动,负面效果就是头不怎么动了,按自己需求使用。
- batch size in generation:同时处理数,越大处理越快,但是也废显存,看GPU能力。
- GFPGAN as Face enhancer:修脸,基于gfpgan对视频增强。
执行转换时的控制台,此时转换完毕。
因为我们选择的默认的crop,所以就裁剪了头部,视频截图如下。
如果全身图的效果,就是眼睛效果不太好,一直有点眯眯眼,然后测试了多个发现微笑以及咧嘴笑的生成效果最好,嘴部说话效果最好。
选择了resize就崩了,哈哈哈,但是这个分图片,有的图片选择resize就可以。