【AI+应用】aliyun的EMO图生视频模型引起的思考如何做AI数字人

news2026/2/10 5:11:38

昨天2 月 29 日消息，2 月 28 日，阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片 - 音频 - 视频模型技术 EMO，官方称其为 " 一种富有表现力的音频驱动的肖像视频生成框架 "。据悉，用户只需要提供一张照片和一段任意音频文件，EMO 即可生成会说话唱歌的 AI 视频，以及实现无缝对接的动态小视频，最长时间可达 1 分 30 秒左右。表情非常到位，任意语音、任意语速、任意图像都可以一一对应。

自己的消息比较滞后，昨晚睡觉前才刷到这个消息。今天想了想，既然 aliyun推出EMO模型，新技术嘛，自己也要了解下。找了下地址：https://humanaigc.github.io/emote-portrait-alive/ ，进入github地址：https://github.com/HumanAIGC/EMO。自己瞬间傻眼了，就一些说明文档，没代码。这是准备和openai的Sora 对标么，先推出概念和效果让市场先炒热起来么。

回到正题，EMO的介绍，让我发现这不是就是AI数字人的技术么。之前本来想水一篇AI+数字人的，但由于自己了解不是太深，一直没动笔。趁着这个机会，写一篇自己的浅见。

网上很多AI+数字人的付费课程，是不是割韭菜就不知道了。这里说下我认为实现AI+数字人的方案（科普入门），不包括变现（个人的理解，2C业务应该不外乎x宝，视频号，x音，x手，B站等APP，发爆款AI数字人视频或直播，增加流量，增加粉丝，橱窗和直播带货。2B业务可能涉及企业培训服务等）。

先说下市面上的，据我所知，国内

百度（https://cloud.baidu.com/product/baidudigitalhuman.html?track=mkt_sem），

腾讯（https://cloud.tencent.com/product/ivh），

华为（https://activity.huaweicloud.com/metastudio-szr.html?utm_source=baidu&utm_medium=se-cpc-op&utm_campaign=&utm_content=&utm_term=%E6%95%B0%E5%AD%97%E4%BA%BA&utm_adplace=AdPlace085313&bd_vid=11382723768066594769），

aliyun（https://cn.aliyun.com/product/ai/avatar?from_alibabacloud= ）等一众平台都有付费的AI数字人平台, 或者百度搜索下很多广告专门卖这个的。国外比较出名的 heygen（官网地址：https://www.heygen.com/ ，打开需要用点魔法）很多人都在用的方案（一个账户只有一分钟左右的免费额度，用临时邮箱网站疯狂注册账号，突破这个限制。怎么搞网上找找，这里就不细说了）。

用别人的平台制作数字人成本会比较高，自己怎么低成本做呢，以下是一些思路。

AI数字人 = AI + 数字人，要想做数字人需要有哪些技术储备呢。视频+音频+字幕这3个应该都需要。

真人或动漫数字人视频制作（一般图片生成视频，推荐heygen, 后续可以看看sora或emo吧）

音频制作，业界应该有2种方案，TTS（Text-to-Speech，文本转语音）和 SVC（Singing Voice Conversion，声音转声音）是两种不同的声音合成技术，这2种技术应用场景不一样。比如TTS适用于智能助手、有声阅读、无障碍服务、导航系统等， SVC适用于音乐制作、娱乐、教育等。这块自己研究不深，自己最近在看GPT-SoVITS （ https://github.com/RVC-Boss/GPT-SoVITS ）这个开源项目。

网上找的音频制作软件，这里注明，自己没用过。

1、ElevenLabs（11Labs）：一个功能强大的在线文字转语音（TTS）工具，可以实现高质量的声音克隆。

2、So-Vits-SVC：一个基于 Singing Voice Conversion（歌声转换）技术的声音克隆工具。

3、Deep Voice：一个由腾讯AI实验室开发的基于深度学习的声音转换系统。

4、Voicery：一个在线的声音转换平台，支持多种语言和声音风格。

5、Lyrebird：一个利用深度学习技术进行声音克隆的工具，可以将文字转换为语音。

字幕呢，一般最后视频合成都用剪辑软件把，推荐x音的剪影吧。

上面讲的自行创作，有人可能说自己创作多累啊，用别人的视频改改是否可行。关于二次创作或模仿呢，网上可能还有人会讲，下载xx平台火爆的爆款视频（一般可以用影刀这些RPA工具抓取链接，low一点自己以一个一个爬取），用微信小程序的轻抖去水印，去水印，提取字幕（用chatGPT等软件进行二次改造），用x音的剪映改改视频，这样是不是就算是翻版了，被认为原创了。这里只是大概思路，自己没实操过。

作为程序员，怎么可能不上代码呢。最近自己找了2个开源代码，还没学习，先附上链接。对这块感兴趣的可以一起交流。

1个是百度的，PaddleHub元宇宙直通车：手把手教你造个虚拟数字人https://aistudio.baidu.com/projectdetail/3345856?ad-from=17549，源代码地址https://github.com/JiehangXie/PaddleBoBo

1个是看csdn文章发现的https://blog.csdn.net/weixin_45508265/article/details/136284743 ，源代码地址：https://github.com/Kedreamix/Linly-Talker

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1482011.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！