【AI+应用】aliyun的EMO图生视频模型引起的思考如何做AI数字人

news2024/12/26 9:19:11

昨天2 月 29 日消息,2 月 28 日,阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片 - 音频 - 视频模型技术 EMO,官方称其为 " 一种富有表现力的音频驱动的肖像视频生成框架 "。据悉,用户只需要提供一张照片和一段任意音频文件,EMO 即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达 1 分 30 秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。

自己的消息比较滞后,昨晚睡觉前才刷到这个消息。今天想了想,既然 aliyun推出EMO模型,新技术嘛,自己也要了解下。 找了下地址:https://humanaigc.github.io/emote-portrait-alive/ , 进入github地址:https://github.com/HumanAIGC/EMO。  自己瞬间傻眼了,就一些说明文档,没代码。这是准备和openai的Sora 对标么,先推出概念和效果让市场先炒热起来么。

回到正题,EMO的介绍, 让我发现这不是就是AI数字人的技术么。之前本来想水一篇AI+数字人的,但由于自己了解不是太深,一直没动笔。趁着这个机会,写一篇自己的浅见。

网上很多AI+数字人的付费课程, 是不是割韭菜就不知道了。这里说下我认为实现AI+数字人的方案(科普入门), 不包括变现(个人的理解,2C业务应该不外乎x宝,视频号,x音,x手,B站等APP,发爆款AI数字人视频或直播,增加流量,增加粉丝,橱窗和直播带货。2B业务可能涉及企业培训服务等)。

先说下市面上的,据我所知,国内 

百度(https://cloud.baidu.com/product/baidudigitalhuman.html?track=mkt_sem),

腾讯(https://cloud.tencent.com/product/ivh),

华为(https://activity.huaweicloud.com/metastudio-szr.html?utm_source=baidu&utm_medium=se-cpc-op&utm_campaign=&utm_content=&utm_term=%E6%95%B0%E5%AD%97%E4%BA%BA&utm_adplace=AdPlace085313&bd_vid=11382723768066594769),

aliyun(https://cn.aliyun.com/product/ai/avatar?from_alibabacloud= )等一众平台都有付费的AI数字人平台,  或者百度搜索下很多广告专门卖这个的。 国外比较出名的 heygen(官网地址:https://www.heygen.com/ ,打开需要用点魔法)很多人都在用的方案(一个账户只有一分钟左右的免费额度, 用临时邮箱网站疯狂注册账号,突破这个限制。怎么搞网上找找,这里就不细说了)。

图片

用别人的平台制作数字人成本会比较高, 自己怎么低成本做呢,以下是一些思路。

AI数字人 = AI +  数字人, 要想做数字人需要有哪些技术储备呢。  视频+音频+字幕  这3个应该都需要。 

真人或动漫数字人视频制作(一般图片生成视频,推荐heygen,  后续可以看看sora或emo吧)

音频制作,业界应该有2种方案,TTS(Text-to-Speech,文本转语音)和 SVC(Singing Voice Conversion,声音转声音)是两种不同的声音合成技术, 这2种技术应用场景不一样。比如TTS适用于 智能助手、有声阅读、无障碍服务、导航系统等, SVC适用于音乐制作、娱乐、教育等。这块自己研究不深,自己最近在看GPT-SoVITS ( https://github.com/RVC-Boss/GPT-SoVITS )这个开源项目。

网上找的音频制作软件,这里注明,自己没用过。

1、ElevenLabs(11Labs):一个功能强大的在线文字转语音(TTS)工具,可以实现高质量的声音克隆。

2、So-Vits-SVC:一个基于 Singing Voice Conversion(歌声转换)技术的声音克隆工具。

3、Deep Voice:一个由腾讯AI实验室开发的基于深度学习的声音转换系统。

4、Voicery:一个在线的声音转换平台,支持多种语言和声音风格。

5、Lyrebird:一个利用深度学习技术进行声音克隆的工具,可以将文字转换为语音。

字幕呢,一般最后视频合成都用 剪辑软件把,推荐x音的剪影吧。

上面讲的自行创作,有人可能说自己创作多累啊,用别人的视频改改是否可行。关于二次创作或模仿呢,网上可能还有人会讲, 下载xx平台火爆的爆款视频(一般可以用影刀这些RPA工具抓取链接,low一点自己以一个一个爬取),用微信小程序的 轻抖去水印, 去水印, 提取字幕(用chatGPT等软件进行二次改造),用x音的剪映改改视频, 这样是不是就算是翻版了, 被认为原创了。  这里只是大概思路,自己没实操过。

作为程序员,怎么可能不上代码呢。 最近自己找了2个开源代码,还没学习,先附上链接。对这块感兴趣的可以一起交流。

1个是百度的,PaddleHub元宇宙直通车:手把手教你造个虚拟数字人https://aistudio.baidu.com/projectdetail/3345856?ad-from=17549, 源代码地址https://github.com/JiehangXie/PaddleBoBo

 1个是看csdn文章发现的https://blog.csdn.net/weixin_45508265/article/details/136284743 , 源代码地址:https://github.com/Kedreamix/Linly-Talker

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1482011.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WSL2更换国内源

1 备份初始源配置 sudo cp /etc/apt/sources.list /etc/apt/sources.list_bak 2 删除并替换/etc/apt/sources.list内容 sudo vim /etc/apt/sources.list 这里更改为阿里云源 Ubuntu 18.04下源参考 阿里云源: ​ deb ubuntu安装包下载_开源镜像站-阿里云 bionic main…

matplotlib——折线图(python)

前言 在学习数据分析前,一定要有python基础,不一定要非常熟练的掌握这门语言,但一定要对python有个大概的了解(就像我一样,大一学过python,但是现在忘的差不多了,但是没关系,有个大…

01、MongoDB -- 下载、安装、配置文件等配置 及 副本集配置

目录 MongoDB -- 下载、安装、配置 及 副本集配置启动命令启动 mongodb 的服务器(单机和副本集)启动单机模式的 mongodb 服务器启动副本集的 3 个副本节点(mongodb 服务器) 启动 mongodb 的客户端 MongoDB 下载MongoDB 安装1、解压…

Java 封装阿里云 oss 上传图片时抽取配置到 application 使用 @Value 获取值

Java 封装阿里云 oss 上传图片时抽取配置到 application 使用 Value 获取值 application .yml 配置 alioss: # 阿里云配置endpoint: "https://oss-cn-beijing.aliyuncs.com" # Endpoint以华东1(杭州)为例,其它Region请按实际…

ES系列之Logstash实战入门

概述 作为ELK技术栈一员,Logstash用于将数据采集到ES,通过简单配置就能把各种外部数据采集到索引中进行保存,可提高数据采集的效率。 原理 数据源提供的数据进入Logstash的管道后需要经过3个阶段: input:负责抽取数…

AI新工具(20240301) Ideogram; Image to Music Generator等

1: Ideogram 全新的多模态生图AI工具,以其优秀的文字渲染能力和生图能力受到业界瞩目 Ideogram是一个创新的AI工具,它通过在生成的图片中自然地整合文字,解决了生图AI领域长期存在的一个难题。这个工具特别擅长将文本以极其自然和协调的方式…

gRPC知识归档

文章目录 gRPC知识归档gRPC原理什么是gRPCgRPC的特性gRPC支持语言gRPC使用场景gRPC设计的动机和原则 数据封装和数据传输问题网络传输中的内容封装和数据体积问题JSONProtobuf(微服务之间的服务器调用,一般采用二进制序列化,比如protobuf&…

ChatGPT与GEE+ENVI+python高光谱,多光谱等成像遥感数据处理技术

原文链接:ChatGPT与GEEENVIpython高光谱,多光谱等成像遥感技术 第一遥感科学与AI基础 一:遥感科学的基本原理和历史 从摄影侦察到卫星图像 遥感的基本原理 遥感的典型应用 最新进展和未来趋势 二:ChatGPT 什么是ChatGPT&a…

数字口岸再升级:广西二期项目助力口岸通关提速运营增效!

在数字口岸相关政策的引领下,广西与RCEP其他成员国进出口规模有力攀升,大力推动了广西向海经济,临港产业集群不断壮大,大宗商品贸易快速增长。据海关统计,2023年,广西进出口总值6936.5亿元人民币&#xff0…

k8s中容器的调度与创建:CRI,cgroup

container调度与创建 选自:K8s、CRI与container - packy的文章 - 知乎 https://zhuanlan.zhihu.com/p/102897620 Cgroup创建: cgexec -g cpu,memory:$UUID \ > unshare -uinpUrf --mount-proc \ > sh -c "/bin/hostname $UUID &…

关于vue中关于eslint报错的问题

1 代码保存的时候会自动将单引号报错为双引号 导致eslint报错的问题, 解决思路: 在项目根目录下新建一个.prettierrc.json文件 { “tabWidth”: 2,“useTabs”: false,“singleQuote”: true,“semi”: false} 2 关于报错代码的时候 出现尾随逗号报错…

MySQL 多表查询 连接查询 外连接

介绍 MySQL 多表查询 连接查询 内连接 外连接分为两种,左外和右外连接, 左外:相当于查询表1(左表)的所有数据 包含 表1和表2交集部分的数据,完全包含左表的数据 右外:相当于查询表2(右表)的所有数据 包含 表1和表2交集部分的数据…

《PySide6/PyQt6快速开发与实战》P111被省略了的案例

编程环境:Fedora, QtCreator 见代码: # This Python file uses the following encoding: utf-8 import sys from PySide6.QtWidgets import QApplication, QMainWindow, QLabel, QVBoxLayout, QWidget from PySide6.QtGui import QPalette #, QColo…

Scratch 第十三课-飞机大战游戏

第十三课-飞机大战游戏 学习目标 这节课我们做一款大家都爱玩的飞机大战游戏,学习重点: 如何导入外部角色如何让飞机发射子弹鼠标控制角色移动 程序设计 程序分析 : 飞机大战游戏相信很多小朋友都玩过,我方飞机在下方&#xf…

双通道音频功率放大电路,外接元件少, 通道分离性好,3V 的低压下可正常使用——D2025

D2025 为立体声音频功率放大集成电路,适用于各类袖珍或便携式立体声 收录机中作功率放放大器。 D2025 采用 DIP16 封装形式。 主要特点:  适用于立体声或 BTL 工作模式  外接元件少  通道分离性好  电源电压范围宽(3V~12V &#xff…

Unity3d Shader篇(十)— 渐变纹理

文章目录 前言一、什么是Unlity渐变纹理Shader?1. 渐变纹理Shader工作原理2. 渐变纹理?3. 渐变纹理的优缺点优点:缺点: 4. 渐变纹理例图 二、使用步骤1. Shader 属性定义2. SubShader 设置3. 渲染 Pass4. 定义结构体和顶点着色器函…

【Flutter 面试题】解释 Flutter的热重载(Hot Reload)功能

【Flutter 面试题】解释 Flutter的热重载(Hot Reload)功能 文章目录 写在前面解答补充说明 写在前面 关于我 ,小雨青年 👉 CSDN博客专家,GitChat专栏作者,阿里云社区专家博主,51CTO专家博主。2…

JVM运行时数据区——本地方法接口和本地方法栈

1、本地方法接口 虽然Java语言使用非常广泛,但是有些事务Java仍然无法处理。例如线程相关的功能,在线程类当中就有很多本地方法接口。那么Java如何来处理这些问题呢?Java设计师提出了一种解决方案就是本地方法接口。本贴将会讲解本地方法接口…

spark sql 转换字符串数组成多列结构

背景 在平时使用spark sql分析数据时,特别是分析从mysql的表入仓的hive表时,我们会经常和字符串数组的列打交道,而且这种情况下我们一般都需要把一行字符串数组的行数据转成多列的形式,我们看下怎么写这个sql spark sql 转换字符…

idea中maven配置(一次成功,全部细节都有)

写这篇文章的原因是maven的配置很简单,但是也很容易出错,我连配了两台电脑的maven出现了各种小错误,参考了以下两篇博文IDEA配置Maven教程(超详细版~)_idea maven配置教程-CSDN博客 一次包会——最新IDEA配置Maven指南&#xff0…