AI 克隆声音,只需 3 分钟(附最全教程)

news2024/11/25 1:08:00

作者:寒斜

继生成式文本大模型 Chatgpt,生成式图片 Stablediffusion 之后生成式语音 Text To Speech 在开源社区也出现了一匹黑马,就是 GPT-Sovits [ 1]

之所以说他是黑马,让人觉得惊艳,是因为在语音效果克隆上做的足够真实和简单,只需要小样本的声音数据源,就可以实现高度相似的的仿真效果,也正是因为足够简单和好的效果,GPT-Sovits 的社区也异常火爆,github 的 star 数迅速飙升,目前已达 27.2K。

然而,无论是 C 端的内容生产者,想要使用进行内容生产,还是 B 端用户做商业化落地,部署这套 GPT-Sovits 软件都需要面临一些技术挑战,今天我们就来给大家介绍一下,如何通过阿里云函数计算快速托管 GPT-Sovits 来解决这些挑战。

图片

有奖体验正在进行中

声音也能被完美复制!用 AI 实现声音克隆,让喜欢的声音喊出动画片经典台词。函数计算 FC 一键部署 GPT-Sovits 语音生成模型,最高赢小米蓝牙音响礼!立即参与:https://developer.aliyun.com/topic/june/fcnas

应用场景

在进行 GPT-Sovits 的实践之前,为了能够进一步说明他的价值,我们先来聊聊关于他的应用场景,更确切的来说是生成式语音的应用场景:

  • 教育:在教育场景下对声音的诉求尤其重要,对于学生而言,有感情色彩的交流,价值远大于纯文本的交换,个人教育比如英语培训也是跟语音强相关的。
  • 游戏娱乐:游戏娱乐场景就更加明确,个性化的声音是吸引人的关键因素。
  • 新能源:在车载系统,导航里,希望实时对话查询目的地相关的信息是有刚性需求的,比如使用高德导航,正在路上开车的时候,通过实时对话。
  • 新媒体:在数字人直播场景下,构建差异性专业的声音是直播效果好坏的关键。
  • 农业:比如农业智能化,技术人员在田间工作的时候,打字是一定没有语音交互方便的。
  • 机器人:机器人要有耳朵和嘴巴,需要声音的输出。

以上的场景都是跟 TTS 强相关的,或者说 TTS 作为核心的基础能力被使用,当然构建完整效果还需要更多工程化的实现和其他基础模型,后续我们再展开讲讲。

动手部署一个 AI 克隆大模型

通过函数计算部署 GPT-Sovits 模型的好处有两个:

  1. 无需关心 GPU 服务器维护和环境配置,即可快速部署和体验模型。

  2. 可以充分利用函数计算按量付费,弹性伸缩等优势,高效地为用户提供基于 GPT-Sovits 模型的文本到语音生成服务。

技术架构概览

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本方案的技术架构包括以下基础设施和云服务:

  • 函数计算:用于提供 GPT-Sovits 模型的应用服务。
  • 文件存储 NAS:用于存放预训练的 GPT-Sovits 模型。
  • 专有网络 VPC:用于配置专有网络,方便函数计算访问文件存储 NAS。

🔔 重要:

  1. 阿里云不对第三方模型的合法性、安全性、准确性进行任何保证,阿里云不对由此引发的任何损害承担责任。

  2. 您应自觉遵守第三方模型的用户协议、使用规范和相关法律法规,并就使用第三方模型的合法性、合规性自行承担相关责任。

部署 GPT-Sovits模型

  1. 登录函数计算 3.0 控制台 [ 2]

  2. 请确认访问的控制台是函数计算 3.0,否则您需要在右上角单击体验函数计算 3.0

图片

  1. 在左侧导航栏,单击应用

4.(可选)在应用页面,单击创建 应用

🔔 说明: 如果您之前未使用过应用中心,请跳过本步骤,可直接进入下一步。

图片

  1. 应用页面,选择人工智能>语音克隆生成 GPT-SoVITS,单击立即创建

图片

  1. 创建应用页面,部署类型选择直接部署角色名称请确认所需要的权限均已获取(若缺失权限请按照页面引导进行操作),服务状态请确认函数计算 FC 和文件存储 NAS 已开通,其他配置保持默认即可,然后单击创建应用

图片

  1. 活动应用创建提醒对话框中,选中函数计算 FC 和文件存储 NAS 两个收费项,选中我已经了解上面的内容,并同意上述描述, 单击同意并进行部署

图片

  1. 等待约 1 分钟,部署状态变为部署成功,表示应用部署成功,并生成访问域名,单击访问域名后的链接开始体验应用。

***.devsapp.net 域名是 CNCF SandBox 项目 Serverless Devs 社区所提供,仅供学习和测试使用,不可用于任何生产使用;社区会对该域名进行不定期地拨测,并在域名下发 30 天后进行回收,强烈建议您绑定自定义域名以获得更好的使用体验。

图片

快速体验

部署完成后,您可以使用已经准备好的 DEMO 声音样例,进行声音的合成和体验。

我们准备了一些童年经典动画片的台词,您可以合成试试:

  • 既然你诚心诚意的发问了,我们就大发慈悲的告诉你,为了防止世界被破坏,为了守护世界的和平,贯彻爱与真实的邪恶,可爱又迷人的反派角色,武藏、小次郎!我们是穿梭在银河的火箭队,白洞,白色的明天在等着我们!——《小精灵》
  • 成为全国第一是我从小的梦想,我不会放弃,这点小伤根本不能让我放弃。——《灌篮高手》
  • 舒克舒克舒克舒克开飞机的舒克,贝塔贝塔贝塔贝塔开坦克的贝塔。——《舒克和贝塔》
合成操作步骤
  1. 选择默认语音模板,输入需要生成的文本,单击合成语音

图片

  1. 等待语音合成之后,可以单击播放。

图片

声音训练

您可以通过声音源文件微调 GPT-Sovits 大模型,生成您期望的声音。在微调训练过程中,训练步骤的所有中间产物将置于 NAS 的 output 文件夹下。训练将使用默认的 UVR5 和 ASR 模型。若需要使用其他的 UVR5 和 ASR 模型,可根据官方 README [ 3] 下载,并分别置于 NAS 的 tools/asr/models 和 tools/uvr5/uvr5_weights 目录下。

  1. 数据预处理。准备一个较长的您需要克隆的原始声音,单击数据预处理,输入您需要上传的语音文件,单击开始数据预处理

图片

  1. 微调文本。单击训练语音文本校对,调整原始文本的内容。

图片

  1. 开始训练,单击模型微调,开启 SoVITS 训练和 GPT 训练。训练后的模型将存储在 NAS 下的 GPT_weights 和 SoVITS_weights 文件夹内。

图片

  1. 训练完之后,在语音克隆&推流页签,刷新和选择自己训练的模型,再体验合成语音。

如果您需要了解更多,请使用钉钉进入“阿里函数计算官网客户 2 群”(群号:64970014484)。

相关链接:

[1] GPT-Sovits

https://github.com/RVC-Boss/GPT-SoVITS

[2] 函数计算 3.0 控制台

https://fcnext.console.aliyun.com/

[3] 官方 README

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1840157.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Deformable-DETR

DETR表现出来的问题 训练周期很长,相比标准的one-stage/two-stage detection在COCO上 12 epochs就能出好的结果,DETR标配200 epochs.对小目标不友好 作者指出,DETR中Transformer的问题是,在初始化的时候,网络几乎是把…

浸没式液冷服务器的换热效率及节能潜力分析

服务器浸没式液冷的换热效率及节能潜力 摘要:我们针对服务器浸没式液冷实验台进行了深入测试,探究了不同室外温度和服务器发热功率对系统制冷PUE的影响。实验数据显示,该系统的制冷PUE值介于1.05至1.28之间,高效节能特点显著。 在…

在哪可以查到全网的司法诉讼信息?

司法涉诉信息指的是再司法活动中形成的各种记录和资料,涵盖了诉讼案件的立案,审判,执行等各个环节的记录和文件。比如基本案件信息,开庭信息,审判信息,执行信息等。有时候还会涉及到被执行人,司…

创建进程的常用方式

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Python中有多个模块可以创建进程,比较常用的有os.fork()函数、multiprocessing模块和Pool进程池。由于os.fork()函数只适用于Unix/Linu…

常见的创建型设计模式( 一 )

设计模式( 一 ) 常见的创建型设计模式 1.单例模式 : 确保一个类只有一个实例 , 为整个程序提供一个全局的访问接口。getInstance 实现方式 饿汉式,在调用getInstance 创建实例的时候 ,实例已经存在了 ,不需要我们再次去 new创建。 优点&a…

Pytorch编写Transformer

本文参考自https://github.com/datawhalechina/learn-nlp-with-transformers/blob/main/docs/ 在学习了图解Transformer以后,需要用Pytorch编写Transformer,下面是写代码的过程中的总结,结构根据图解Transformer进行说明。 import numpy as …

stable diffusion 局部重绘 reference-only api 接口调试

webUI api payload 插件生成的接口参数不准确,reference-only 的image不是对象,就是不同字符串字段,直接传,不是套image。 综上,那个插件参数不确定,应直接看插件的源码,看它接受什么参数 错误…

校园车辆管理系统的设计与实现

第1章 绪论 1.1 研究背景与意义 随着高等教育的普及和扩张,大学校园已成为一个综合性的小型社会。教学楼、实验室、宿舍、体育设施等构成了庞大且复杂的校园基础设施。在这样的环境下,教师、学生、家长及访客的车辆数量也随之增多,这不仅带来…

UI设计师是不是青春饭?你摆烂,啥工作都是青春饭!

一、UI设计师的岗位职责包括: 用户研究和需求分析:了解用户需求、行为和偏好,进行用户调研和用户体验测试,以便设计出符合用户期望的界面。制定设计方案:根据用户需求和产品定位,制定UI设计方案&#xff0c…

[手机Linux PostmarketOS]一,1加6T真正的手机Linux系统

前面用Linux deploy软件安装了Linux系统在手机,实则不是真正的手机刷成了linux系统,而是通过Linux deploy软件在容器里安装了Linux系统,在使用方面会有诸多限制,并不能发挥Linux的真实强大之处,于是我又百度又谷歌(真不…

标准化的力量:如何通过PDM提升企业研发效率

在当今竞争激烈的市场环境中,企业必须不断优化其产品开发流程以保持竞争力。PDM产品数据管理系统与企业标准化的结合,为企业提供了一种有效的方法来管理和优化其研发流程。本文将探讨PDM与企业标准化的概念,它们在企业中的相互作用&#xff0…

上市公司-社会责任报告、ESG报告文本(2006-2023年)

上市公司社会责任报告是企业对外公布的一份关于其社会责任实践和成果的详细文件,涵盖环境保护、社会贡献和公司治理等方面的表现。通常包含公司在减少环境影响、提升社会福祉、维护员工权益、促进社区发展以及确保透明和道德的管理实践等方面的信息和数据。有助于了…

基于Pytorch框架的深度学习Swin-Transformer神经网络食物分类系统源码

第一步:准备数据 5种鸟类数据:self.class_indict ["苹果派", "猪小排", "果仁蜜饼", "生牛肉薄片", "鞑靼牛肉"] ,总共有5000张图片,每个文件夹单独放一种数据 第二步&…

PS系统教程23

减淡加深海绵工具 减淡工具 作用:提炼物体颜色 加深工具 作用:变暗物体颜色,加深物体深度 海绵工具 作用:修正物体饱和度,加大纯度 减淡工具 老套路,找一个图片 复制新建粘贴Ctrl键J复制图层选择减…

WinRAR应用文件图标是白色怎么解决

1.打开程序-选项-设置 2.找到集成-选择全部切换,保存即可。

找不到concrt140.dll无法继续执行代码的几种解决方法

在数字时代,电脑用户经常会遇到各种技术问题,其中DLL文件缺失是最常见的问题之一。今天,我们将重点介绍CONCRT140.DLL文件的重要性,以及当它丢失时对电脑的影响。同时,我们提供了五种解决方法和预防措施,帮…

浅谈RC4

一、什么叫RC4?优点和缺点 RC4是对称密码(加密解密使用同一个密钥)算法中的流密码(一个字节一个字节的进行加密)加密算法。 优点:简单、灵活、作用范围广,速度快 缺点:安全性能较差&…

24.bytebuf创建

1.byteBuf创建方法 2.自动动态扩容的 package com.xkj.bound;import io.netty.buffer.ByteBuf; import io.netty.buffer.ByteBufAllocator; import lombok.extern.slf4j.Slf4j;@Slf4j public class TestByteBuf {public static void main(String[] args) {//bytebuf可以不指定…

【计算机网络体系结构】计算机网络体系结构实验-配置WinPcap

清清存货UAU ------------------------------------------------------------------------- 一、在CodeBlocks中配置WinPcap 1. 运行WinPcap安装包 2. 官网下载codeblocks 安装 安装成功 3. 测试 新建一个工程,选择Console application 创建成功 4. 配置 在寻找…

2713. 矩阵中严格递增的单元格数

题目 给定一个 m x n 的整数矩阵 mat,我们需要找出从某个单元格出发可以访问的最大单元格数量。移动规则是可以从当前单元格移动到同一行或同一列的任何其他单元格,但目标单元格的值必须严格大于当前单元格的值。需要返回最大可访问的单元格数量。 示例…