使用iOS个人声音与SoVITS训练个人AI语音(10分钟快速上手)

news2025/4/16 8:05:11

使用iOS个人声音与SoVITS训练个人AI语音(10分钟快速上手)

在这里插入图片描述

序言:最近在抖音上频繁看到曼波唱歌的视频和各种AI语音的搞笑短片,加上年后新购置的M2硬盘终于提供了足够的存储空间,让我有机会深入研究AI语音训练。24年年初我就想进行AI语音训练,但苦于语音素材难以获取,这次有了iOS收集素材就方便多了。在公司闲暇时,我摆弄着自己的iPhone 12,偶然发现了“个人声音”这一新功能,它允许用户在手机上训练一个基础的AI模型。我意识到可以将自己录制的150条语音导出,并通过查阅资料了解到可以利用SoVITS进行语音模型训练。因此,我撰写这篇教程,旨在记录并指导大家如何使用iOS手机收集语音素材,并利用SoVITS训练出属于自己的AI语音。

一、介绍

iOS 17引入的“个人声音”功能:允许用户通过录制一系列短语生成自定义语音,适用于语音助手、朗读文本等场景,特别适合有语言障碍的用户。该功能需在iOS 17及以上版本使用,注重隐私保护,所有数据处理均在设备本地完成。

GPT-SoVITS:由花儿不哭开发,是一款低成本AI音色克隆软件,目前支持TTS(文字转语音)功能,未来将支持变声功能。请注意,GPT-SoVITS的正确缩写是GSV,不要与So-VITS-SVC混淆。

PyCharm:JetBrains开发的Python IDE,提供代码编辑、调试等功能,支持跨平台使用,有免费社区版和付费专业版

二、训练准备

2.1 语音素材准备/导出

  1. 打开设置 -> 辅助功能 -> 个人声音。
  2. 如果没有个人声音,选择新建并按照系统指引录制素材。
  3. 录制完成后,点击导出录音,将压缩包复制到电脑。

在这里插入图片描述

2.2 下载GPT-SoVITS

点击此处,选择合适的方式进行下载。

三、开始训练

3.1 离线批量ASR

  1. 将导出的语音包解压到电脑(如Z:\sovit-data-mother\TrainingData)。
  2. 运行GPT-SoVITS-v2-240821中的go-webui.bat启动SoVITS。
  3. 在Web页面中找到“离线批量ASR”模块,输入语音包路径(如Z:\sovit-data-mother\TrainingData)和输出路径(如Z:\sovit-data-mother\TrainingData\out\asr_opt)。
  4. 点击“开始离线批量ASR”,等待任务完成。

在这里插入图片描述

当出现"ASR任务完成,查看终端进行下一步"时,ASR步骤结束。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.2 打标WebUI模块

我们视野转到打标WebUI模块

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有两种方式处理打标(文字修正/打标)

3.2.1 通过开启打标WebUI对照metadata_data.json手动调整(不推荐)

点击开启打标WebUI,以记事本方式打开metadata_data.json

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意!打开以后,每一行展开后的格式都为下边所示,找到每一行的关键词wordsutterance_name

{

	"transcription":"S ... ~",

	"sentence_idx":0,

	"locale":"cmn-CN",

	"sentence_estimated_duration":2.75,

	phone_sequence:"S ...5",

	"words":"时间不早了,今天先到这里吧。",

	"utterance_name":"EExpG_4",

	"script_title":"exclamations",

	"paragraph_idx":4

}

视野转到打标webUI,左边的text文本框中的文本内容有部分错误,按照metadata_data.json进行调整。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.2.2 通过Pycharm执行python脚本批量处理打标。(推荐)

视野转到主页面中的打标webUI模块,注意下边的.list标注文件的路径

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

找到并打开TrainingData.list文件,以记事本方式打开,如下如图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以记事本形式打开metadata_data.json,在文件头键入’ [ ‘,文件尾键入’ ] ',使得***[]***将文件内容包裹住,如下图所示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后点击替换,查找内容:’ } ‘,替换为’ }, ‘,点击全部替换。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

打开Pycharm,新建py脚本文件,将下列代码复制粘贴,并执行:

    import json
if __name__ == "__main__":
    # 读取 JSON 文件,下边的路径填你自己的路径
    with open('Z:\sovit-data-mother\TrainingData\metadata_data.json', 'r', encoding='utf-8') as file:
        data = json.load(file)

    # 遍历并提取 utterance_name 和 words
    for item in data:
        utterance_name = item.get('utterance_name')
        words = item.get('words')
		#下边的输出内容参考你自己的路径
        if utterance_name and words:
            print('Z:\sovit-data-mother\TrainingData\{}.caf|TrainingData|ZH|{}'.format(utterance_name,words))

观察pycharm控制台输出如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将内容复制到TrainingData.list,文件中进行覆盖保存。

4.1 进行1A-训练集格式化

视野回到首页,点击1-GPT-SoVITS-TTS,并输入你想要训练的模型名称。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意,文本标注文件以及训练集音频文件目录应该自动填充为你自己的相应链接,请查看对比。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

直接点击一键三联!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

观察到一键三连结束,即格式化结束。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4.2 进行1B-微调训练

点击切换到1B-微调训练。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按顺序点击SoVITS训练以及GPT训练,注意:一个训练完才能点下一个,除非你有多块显卡。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

两个训练结束后,代表着你的模型训练完毕。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4.3 进行1C-推理(AI文字转语音)

接下来就是开始利用模型进行文字转语音操作,点击1C-推理,然后刷新模型,GPT模型列表和SoVITS模型列表选择你刚刚训练的模型。

勾选启用并行推理版本,点击开启TTS推理WebuUI。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

打开后的TTS推理WebUI,如下图所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

主参考音频主要控制语气,最好使用你自己素材包里的原语音素材,主参考音频的文本也是为了方便合成。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意:主餐靠音频文本可填可不填,偏长的文字建议切分后再使用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在右侧输出需要合成的文本后,点击下边的合成语音,即可试听。

本文不提供训练参数说明,请移步整合包教程,进行学习。😋

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2301304.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【JavaEE进阶】Spring MVC(3)

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗 如有错误,欢迎指出~ 返回响应 返回静态页面 //RestController Controller RequestMapping("/response") public class ResponseController {RequestMapping("/returnHtmlPage&…

火语言RPA--Excel读取内容

【组件功能】:读取Excel内指定位置的内容或读取整篇Sheet页内容 配置预览 配置说明 读取位置 单元格:读取指定单元格中的内容。 行:读取指定行内容。 列:读取指定列内容。 区域:读取指定区域内容。 整篇sheet页&…

sass报错:[sass] Undefined variable. @import升级@use语法注意事项

今天创建vue3项目,迁移老项目代码,使用sass的时候发现import语法已经废弃,官方推荐使用use替换。 这里我踩了一个坑找半天的问题,原因是sass升级到1.85之后 定义变量前加上 - 就是表示变量私有,即使使用use导出 在新的…

重新出发的LLM本地部署——DeepSeek加持下的Ollama+OpenWebUI快速部署

DeepSeek 这真的是太惊艳了,发布出来的模型这么能打,在线的版本使用起来也是丝滑连招,感觉效果比起之前一直用智谱 chatglm4 更好用,想着本地化部署一下。 本来以为,会和之前在开发测试 transformers 的模型和代码一样…

动态网格图片展示中的自适应逻辑

在现代网页设计中,自适应逻辑不仅提升了用户体验,也显著提高了组件的灵活性。本文将探讨如何通过 动态计算每页图片数 和 窗口尺寸变化监听 来实现网格图片的自适应展示。以下内容不仅包含逻辑的核心,还展示了如何优雅地将这些逻辑与 Vue 框架…

Java基础——代理模式

代理模式是一种比较好理解的设计模式。简单来说就是 我们使用代理对象来代替对真实对象(real object)的访问,这样就可以在不修改原目标对象的前提下,提供额外的功能操作,扩展目标对象的功能。 一、代理模式的主要作用 控制访问:通…

Django项目之订单管理part1

一.前言 我们前面把django的常用知识点给讲完了,现在我们开始项目部分,项目是一个订单管理系统,我们同时也会在项目之中也会讲一些前面没有用到的知识点。 项目大概流程如下: 核心的功能模块: 认证模块,用…

Electron通过ffi-napi调用dll导出接口

electron使用ffi-napi环境搭建 附打包好的ffi-napi可以直接放到项目目录下使用,避免以后麻烦 一、安装node.js Node.js官网:https://nodejs.org/zh-cn/download,选择LTS长期稳定版本即可 ![在这里插入图片描述](https://i-blog.csdnimg.c…

大数据SQL调优专题——Hive执行原理

引入 Apache Hive 是基于Hadoop的数据仓库工具,它可以使用SQL来读取、写入和管理存在分布式文件系统中的海量数据。在Hive中,HQL默认转换成MapReduce程序运行到Yarn集群中,大大降低了非Java开发者数据分析的门槛,并且Hive提供命令…

用 Biome 替代 ESLint 和 Prettier

简介 ESLint 和 Prettier ESLint:代码质量检查工具,确保代码风格一致与无错误 Prettier:代码格式化工具,自动美化代码布局 所以:ESLint Prettier 能自动美化代码、自动检查代码错误的工具 Biome Biome:…

golang深度学习-基础篇

基础数据结构及类型 字符型-string string 是Go标准库 buildin 内置的一个基础数据类型。string是由8比特字节的集合,通常不一定是UTF-8编码的文本。string可以为空(长度为0),但不会是nil。 string is the set of all strings of 8-bit bytes, conventionally but not nec…

win11安装wsl报错:无法解析服务器的名称或地址(启用wsl2)

1. 启用wsl报错如下 # 查看可安装的 wsl --install wsl --list --online此原因是因为没有开启DNS的原因,所以需要我们手动开启DNS。 2. 按照如下配置即可 Google的DNS(8.8.8.8和8.8.4.4) 全国通用DNS地址 (114.114.114.114) 3. 运行以下命令来重启 WSL…

技术总结 | MySQL面试知识点

存储引擎 Mysql 中的存储引擎 查询存储引擎的命令 show engines; Archive 只支持 insert 与select操作, 不支持索引 不支持事务 适用于存储需要长期保存,但是很少访问的数据,例如 历史日志 BlackHole 不存储数据,但是会记录写入操作 适用于性能测试 语言验证等情况 MyISAM…

Linux下Ollama下载安装速度过慢的解决方法

问题描述:在Linux下使用默认安装指令安装Ollama,下载安装速度过慢,进度条进度缓慢,一直处于Downloading Linux amd64 bundle中,具体如下图所示: 其中,默认的Ollama Linux端安装指令如下&#xf…

关于redis的主从复制(下)

目录 全量复制 关于replid和runid 部分复制 补充问题 实时复制 psync可以从主节点获取全量数据,也可以获取一部分数据。主要就是看offset的进度,如果offset写作-1,就是获取全量数据。offset写具体的正整数,则是从当前偏移量位…

uniapp uni.request重复请求处理

类似这种切换tab时,如果操作很快并且网络不太好,就出现数据错乱,在网上查了一圈,有一个使用uview拦截处理的,但是原生uni.requse没有找到详细的解决办法,就查到使用 abort 方法,我自己封装了一个…

【大模型】DeepSeek:AI浪潮中的破局者

【大模型】DeepSeek:AI浪潮中的破局者 引言:AI 新时代的弄潮儿DeepSeek:横空出世展锋芒(一)诞生背景与发展历程(二)全球影响力初显 探秘 DeepSeek 的技术内核(一)独特的模…

SOME/IP--协议英文原文讲解8

前言 SOME/IP协议越来越多的用于汽车电子行业中,关于协议详细完全的中文资料却没有,所以我将结合工作经验并对照英文原版协议做一系列的文章。基本分三大块: 1. SOME/IP协议讲解 2. SOME/IP-SD协议讲解 3. python/C举例调试讲解 4.2 Speci…

用PyInstaller构建动态脚本执行器:嵌入式Python解释器与模块打包 - 简明教程

技术场景: 需分发的Python工具要求终端用户可动态修改执行逻辑将Python环境与指定库(如NumPy/Pandas)嵌入可执行文件实现"一次打包,动态扩展"的轻量化解决方案。 ▌ 架构设计原理 1. 双模运行时识别 # 核心判断逻辑…

在做题中学习(89):螺旋矩阵

解法:模拟 思路:创建ret数组,用变量标记原矩阵的行数和列数,遍历一个元素就push_back进ret数组,每次遍历完一行或一列,相应行/列数--,进行顺时针螺旋遍历到为0即可。 细节:要有边界…