昨天2 月 29 日消息,2 月 28 日,阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片 - 音频 - 视频模型技术 EMO,官方称其为 " 一种富有表现力的音频驱动的肖像视频生成框架 "。据悉,用户只需要提供一张照片和一段任意音频文件,EMO 即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达 1 分 30 秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。
自己的消息比较滞后,昨晚睡觉前才刷到这个消息。今天想了想,既然 aliyun推出EMO模型,新技术嘛,自己也要了解下。 找了下地址:https://humanaigc.github.io/emote-portrait-alive/ , 进入github地址:https://github.com/HumanAIGC/EMO。 自己瞬间傻眼了,就一些说明文档,没代码。这是准备和openai的Sora 对标么,先推出概念和效果让市场先炒热起来么。
回到正题,EMO的介绍, 让我发现这不是就是AI数字人的技术么。之前本来想水一篇AI+数字人的,但由于自己了解不是太深,一直没动笔。趁着这个机会,写一篇自己的浅见。
网上很多AI+数字人的付费课程, 是不是割韭菜就不知道了。这里说下我认为实现AI+数字人的方案(科普入门), 不包括变现(个人的理解,2C业务应该不外乎x宝,视频号,x音,x手,B站等APP,发爆款AI数字人视频或直播,增加流量,增加粉丝,橱窗和直播带货。2B业务可能涉及企业培训服务等)。
先说下市面上的,据我所知,国内
百度(https://cloud.baidu.com/product/baidudigitalhuman.html?track=mkt_sem),
腾讯(https://cloud.tencent.com/product/ivh),
华为(https://activity.huaweicloud.com/metastudio-szr.html?utm_source=baidu&utm_medium=se-cpc-op&utm_campaign=&utm_content=&utm_term=%E6%95%B0%E5%AD%97%E4%BA%BA&utm_adplace=AdPlace085313&bd_vid=11382723768066594769),
aliyun(https://cn.aliyun.com/product/ai/avatar?from_alibabacloud= )等一众平台都有付费的AI数字人平台, 或者百度搜索下很多广告专门卖这个的。 国外比较出名的 heygen(官网地址:https://www.heygen.com/ ,打开需要用点魔法)很多人都在用的方案(一个账户只有一分钟左右的免费额度, 用临时邮箱网站疯狂注册账号,突破这个限制。怎么搞网上找找,这里就不细说了)。
用别人的平台制作数字人成本会比较高, 自己怎么低成本做呢,以下是一些思路。
AI数字人 = AI + 数字人, 要想做数字人需要有哪些技术储备呢。 视频+音频+字幕 这3个应该都需要。
真人或动漫数字人视频制作(一般图片生成视频,推荐heygen, 后续可以看看sora或emo吧)
音频制作,业界应该有2种方案,TTS(Text-to-Speech,文本转语音)和 SVC(Singing Voice Conversion,声音转声音)是两种不同的声音合成技术, 这2种技术应用场景不一样。比如TTS适用于 智能助手、有声阅读、无障碍服务、导航系统等, SVC适用于音乐制作、娱乐、教育等。这块自己研究不深,自己最近在看GPT-SoVITS ( https://github.com/RVC-Boss/GPT-SoVITS )这个开源项目。
网上找的音频制作软件,这里注明,自己没用过。
1、ElevenLabs(11Labs):一个功能强大的在线文字转语音(TTS)工具,可以实现高质量的声音克隆。
2、So-Vits-SVC:一个基于 Singing Voice Conversion(歌声转换)技术的声音克隆工具。
3、Deep Voice:一个由腾讯AI实验室开发的基于深度学习的声音转换系统。
4、Voicery:一个在线的声音转换平台,支持多种语言和声音风格。
5、Lyrebird:一个利用深度学习技术进行声音克隆的工具,可以将文字转换为语音。
字幕呢,一般最后视频合成都用 剪辑软件把,推荐x音的剪影吧。
上面讲的自行创作,有人可能说自己创作多累啊,用别人的视频改改是否可行。关于二次创作或模仿呢,网上可能还有人会讲, 下载xx平台火爆的爆款视频(一般可以用影刀这些RPA工具抓取链接,low一点自己以一个一个爬取),用微信小程序的 轻抖去水印, 去水印, 提取字幕(用chatGPT等软件进行二次改造),用x音的剪映改改视频, 这样是不是就算是翻版了, 被认为原创了。 这里只是大概思路,自己没实操过。
作为程序员,怎么可能不上代码呢。 最近自己找了2个开源代码,还没学习,先附上链接。对这块感兴趣的可以一起交流。
1个是百度的,PaddleHub元宇宙直通车:手把手教你造个虚拟数字人https://aistudio.baidu.com/projectdetail/3345856?ad-from=17549, 源代码地址https://github.com/JiehangXie/PaddleBoBo
1个是看csdn文章发现的https://blog.csdn.net/weixin_45508265/article/details/136284743 , 源代码地址:https://github.com/Kedreamix/Linly-Talker