仅需30秒完美复刻任何人的声音 - 最强AI音频11Labs

news2024/11/19 11:24:44

我的用词一直都挺克制的,基本不会用到“最强”这个字眼。

但是这一次的这个AI应用,是我认为在TTS(文字转音频)这个领域,当之无愧的“最强”。

ElevenLabs,简称11Labs。

仅需30秒到5分钟左右的极少的数据集,就可以直接克隆任何一个人的声音,完美复刻他的说话方式、他的音色,甚至连他的情绪都复刻过来。

最牛逼的是,你不需要再额外做任何操作,就可以直接用同样的声音,说出29国的语言。那个流畅度,那个口语表达。。。我在AI面前宛如一个废物。

11Labs网址在此(上不去就开魔法):

https://elevenlabs.io/

尽管很多的大厂的语音TTS能力已经很强大了,比如微软的TTS、比如国庆期间刷爆全网的GPT的语音TTS,但是这些大厂有一个问题,就是公司体量实在太大了,在商业化上的舆论影响和被监管风险也极大,所以这种超低成本的语音克隆TTS,他们至今也没有向大众公开,毕竟很容易受到全社会的伦理指责。

至于那些开源的TTS,说实话,效果都挺差强人意,比如Tortoise奇慢无比,比如bark下限和稳定性太差,都难堪大用。

大厂们公开的语音产品中,也没有一项能达到11Labs如此便宜且如此便捷的了。要知道,像微软的声音克隆成本高的可怕,数小时的数据集、几千几万块钱。而11Labs,只需要30秒到5分钟的音频,1个月只需要5美刀就可以畅快的使用了。效果还出奇的好

毕竟在现在这个AI时代,AI语音已经成了最为重要的环节之一。内容全球化翻译、智能配音、数字人与机器人等,都有超强的应用。换句话说,没有强TTS在背后支持,那些视频和数字人,各个都是恐怖谷效应拉满假到不行的哑巴。

而11Lbas的使用上,更是突出一个简单和有手就行。

先准备30秒到5分钟的音频文件,不需要超过5分钟,对质量几乎没有任何意义了。你可以多个音频文件,但是每个不要超过10M。这块一定要注意,数据集的质量跟你后面生成的质量息息相关,里面不要有任何杂音,越干净、越纯粹越好

上面那个例子,我就去B站扒了点特朗普的演讲视频,然后剪映剪了下,准备了大概4分钟的特朗普的干声数据集,切成了11段。

然后进入11Labs的主页,登录后进入这个VoiceLab的页面。这个页面就可以去做声音的克隆了。那个大大的加号就是新建一个声音。

在弹窗中,第二个选项就是声音克隆。

不过这个功能是付费功能,正常付个费就可以用了。首月优惠1美刀,基本就是白给,可以直接绑定中国境内的VISA就可以支付,比ChatGPT的付费方便多了。

在打开的弹窗上随便输个姓名,把数据集拖进去就行。标签和描述啥的不用填。然后确认。记得一定不要开任何翻译,比如google翻译啥的,要不然会报错。

大概只需要二十几秒钟吧,模型就OK了,速度出奇的快。你就可以直接点Use去使用。

这里再推荐大家几个TTS的小技巧,善用标点符号去引导情绪

比如这句话:I am Trump . my other name is "Chuan Jian guo".

把my other name is "Chuan Jian guo"这句话,变成my other name... is "Chuan Jian guo"后,你就能明显听出小停顿的情绪,

如果再把I am Trump后面加三个感叹号,变成I am Trump!!!的话:

这情绪一下就激动了起来。。。

11Labs对这些标点符号的引导非常到位,善用标点符号,能给这段文字带来完整的情绪感受。

在最后,说一下目前AI声音的几种技术和场景吧。

SVC,类似于变声器。将一段音频转换成另一种特定的音色,音频to音频,我也写过一篇教程:用SVC做特定人物AI配音 - 你奶奶都会的AI声音教程 ,成本挺高的,数十分钟的干声数据集,训练几个小时起步,但是对情绪和音调的还原最好,适合用在剧集配音、歌声转换等场景。不过这块11Labs已经明确要进军了,做语音转换,不知道后面用户的使用成本会拉低到什么地步。

TTS - 声音克隆。将特定的人声训练成模型,然后文字转音频。用于需要特定某个人声的场景、或同声翻译等等,数字人应用的很广泛。成本低,但是对于情绪的变化肯定没有SVC那么强,毕竟几分钟数据集+几乎为0的等待时间,11Labs是典型的王者。

普通TTS。用平台已经训练好的声音做配音,不可自定义,在有声书和视频配音里已经被广泛应用。这块的产品就非常多了,国外的微软TTS、11Labs,国内的魔音工坊等等。

基本就这三种了,SVC和TTS我也写过好多教程了,大家可以根据自己的场景,各取所需。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1294589.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Numpy数组的数据类型汇总 (第4讲)

Numpy数组的数据类型 (第4讲)         🍹博主 侯小啾 感谢您的支持与信赖。☀️ 🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ&…

MYSQL主从复制配置指引

MYSQL主从复制配置指引 1.前期准备 部署完主备数据库,初始化主备库表结构和数据。 2. 主库配置修改 修改主库配置文件etc/my.cnf,新增以下配置: #服务器 id,需唯一 server-id 1 #二进制文件存放路径 log-bin mysql-bin …

『TypeScript』从零开始编写你的第一个TypeScript程序

📣读完这篇文章里你能收获到 了解TypeScript及为什么使用TypeScriptTypeScript的安装过程编写第一个HelloTs程序 文章目录 一、TypeScript简介1. 什么是TypeScript?2. 为什么选择使用TypeScript?2.1 静态类型检查2.2 更好的代码维护性2.3 更…

C++基础 -42- STL库之list链表

———————STL库之list链表——————— &#x1f384; list链表的格式(需要定义头文件) list<int> data1(4, 100);list<int> data2(4, 500);&#x1f384;list链表的合并接口 &#x1f384;举例使用合并接口并且验证 data2.merge(data1);list<int>::…

Java网络通信-第21章

Java网络通信-第21章 1.网络程序设计基础 网络程序设计基础涵盖了许多方面&#xff0c;包括网络协议、Web开发、数据库连接、安全性等。 1.1局域网与互联网 局域网&#xff08;LAN&#xff09;与互联网&#xff08;Internet&#xff09;是两个不同的概念&#xff0c;它们分…

【小白专用】MySQL入门(详细总结)

3. 创建数据库 使用 create database 数据库名; 创建数据库。 create database MyDB_one; create database DBAliTest; 创建数据库成功后&#xff0c;数据库的数量变成了6个&#xff0c;多了刚才创建的 dbalitest 。 4. 创建数据库时设置字符编码 使用 create database 数据…

泰裤辣!这个网站制作电子产品册很轻松

电子产品册的制作对于许多企业来说是一项重要的任务&#xff0c;它不仅能够帮助企业展示自己的产品&#xff0c;还能够提高企业的品牌形象和市场竞争力。 这个网站能够轻松制作电子产品册&#xff0c;这无疑是一个非常有用的工具&#xff0c;可以帮助许多企业节省时间和精力&am…

小白学java栈的经典算法问题——第四关白银挑战

内容1.括号匹配问题2.最小栈3.最大栈 1.括号匹配问题 栈的典型题目还是非常明显的&#xff0c;括号匹配、表达式计算等等几乎都少不了栈&#xff0c;本小节我们就看两个最经典的问题 首先是LeetCode20,链接 本道题还是比较简单的&#xff0c;其中比较麻烦的是如何判断两个符…

Nacos未授权访问

漏洞描述 Nacos 是阿里巴巴推出来的一个新开源项目&#xff0c;是一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。致力于帮助发现、配置和管理微服务。Nacos 提供了一组简单易用的特性集&#xff0c;可以快速实现动态服务发现、服务配置、服务元数据及流量管…

轨道电流检测IC——FP355,助力蓄电池充电器、SPS(适配器)、电池管理系统、多口快充充电器的优雅升级

目录 一、FP355概述 二、FP355特点 三、FP355应用 随着移动设备的普及和人们对电力需求的不断增长&#xff0c;充电器的安全性和充电效率成为了重要的关注点。 作为一种能够精确检测电流的集成电路&#xff0c;轨道电流检测IC——FP355是个不错的选择。它不仅广泛应用于蓄电…

无公网IP环境如何SSH远程连接Deepin操作系统

文章目录 前言1. 开启SSH服务2. Deppin安装Cpolar3. 配置ssh公网地址4. 公网远程SSH连接5. 固定连接SSH公网地址6. SSH固定地址连接测试 前言 Deepin操作系统是一个基于Debian的Linux操作系统&#xff0c;专注于使用者对日常办公、学习、生活和娱乐的操作体验的极致&#xff0…

Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)

中英文混合输出是文本转语音(TTS)项目中很常见的需求场景&#xff0c;尤其在技术文章或者技术视频领域里&#xff0c;其中文文本中一定会夹杂着海量的英文单词&#xff0c;我们当然不希望AI口播只会念中文&#xff0c;Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理&…

【CSP】202303-1_田地丈量Python实现

文章目录 [toc]试题编号试题名称时间限制内存限制问题描述输入格式输出格式样例输入样例输出样例解释子任务Python实现 试题编号 202303-1 试题名称 田地丈量 时间限制 1.0s 内存限制 512.0MB 问题描述 西西艾弗岛上散落着 n n n块田地&#xff0c;每块田地可视为平面直角坐标…

菜鸟学习日记(python)——推导式

python中的推导式是一种独特的数据处理方式&#xff0c;可以从一个数据序列去构建另一个新的数据序列的结构体。 它包括以下推导式&#xff1a; 列表&#xff08;list&#xff09;推导式字典&#xff08;dict&#xff09;推导式集合&#xff08;set&#xff09;推导式元组&am…

在AWS Lambda上部署标准FFmpeg工具——自定义层的方案

大纲 1 确定Lambda运行时环境1.1 Lambda系统、镜像、内核版本1.2 运行时1.2.1 Python1.2.2 Java 2 打包FFmpeg3 创建Lambda的Layer4 测试4.1 创建Lambda函数4.2 附加FFmpeg层4.3 添加测试代码4.4 运行测试 参考文献 FFmpeg被广泛应用于音/视频流处理领域。对于简单的需求&#…

刷题记录--算法--简单

第一题 2582. 递枕头 已解答 简单 相关标签 相关企业 提示 n 个人站成一排&#xff0c;按从 1 到 n 编号。 最初&#xff0c;排在队首的第一个人拿着一个枕头。每秒钟&#xff0c;拿着枕头的人会将枕头传递给队伍中的下一个人。一旦枕头到达队首或队尾&#xff0c;传递…

VUE2+THREE.JS 设定巡航行动轨迹

设定巡航行动轨迹 引入three.path初始化坐标点animate 执行行动轨迹动画参考博客 我们写3D时&#xff0c;常常会有按照一定轨迹去浏览模型&#xff0c; 所以,我们要先确认行动轨迹&#xff0c;渲染出行动轨迹以后&#xff0c;再让人物按照行动轨迹去移动 引入three.path cnpm …

ssm校园论坛管理系统项目分享

校园论坛管理系统是基于java编程语言&#xff0c;mysql数据库&#xff0c;ssm框架和idea工具开发&#xff0c;本系统主要分为学生用户&#xff0c;管理员两个角色&#xff0c;其中用户可以注册登陆系统&#xff0c;在线发帖&#xff0c;查看栏目帖子&#xff0c;回复帖子&#…

【数据分析实战】酒店行业华住集团门店分布与评分多维度分析

文章目录 1. 写在前面2. 数据集展示3. 多维度分析3.1 门店档次多元化&#xff1a;集团投资战略观察3.1.1 代码实现3.1.2 本人浅薄理解 3.2 门店分布&#xff1a;各省市分布概览3.2.1 代码实现3.2.2 本人浅薄理解 3.3 门店分级评分&#xff1a;服务水平的多维度观察3.3.1 代码实…

远程服务器QEMU+Ubuntu+GRUB+VNC最佳实践

远程服务器QEMUUbuntuGRUBVNC最佳实践 1. 准备2. QEMU启动安装Ubuntu2.1 服务器端2.2 本地端 3. 从服务器终端控制虚拟机GRUB与虚拟机终端 这段时间参与大量内核切换测试工作&#xff0c;实体机需要硬件自检太过笨重&#xff0c;因此主要通过QEMU验证正确性。有一个很大的问题是…