AI 语音 - 人物音色训练

news2025/1/10 12:02:39

前情提要

2023-07-02 周日 杭州 阴晴不定

AI 入门三大项,AI 绘画基础学习,AI 语音合成,AI 智能对话训练,进入 AI 语音合成阶段了,搓搓小手很激动的,对于一个五音不全的我来说,这个简直了(摆脱了低级趣味,保留点好色就够了);

** 时间线 **
a. 2021 年函数计算编程大赛;
b. 2022 年东数西算架构设计;
c. 2023 年人工智能创纪元;

实践手册

1. 安装 UVR_v5.5.0

2. 人声提取

2.a 混音分离

2.b 干声提取

2.c 提取自己声音

吐槽: bilibili 太不是人了,上传的视频居然不能下载,只能用其他工具才能搞下来,还好只是要用视频提取语音,浪费时间的行为真的烦。

B站视频解析: https://bilibili.iiilab.com/

** 准备自己的语音和视频资源 **
时长: 10-30min
片段: 3-10
备注: 没有去录音棚特意录制音频,最后的效果应该会差强人意吧,但是只能苦哈哈了,还好之前存了些视频资源,不然这次真的就难过了。

2.d 音频切片

备注: 音频文件重命名(同理 BAT)

3. 人声训练

3.a 人声训练集

3.b 启动 so-vits-svc

双击启动webui.bat

3.c 数据预处理

说明: 数据预处理的话,需要小心爆显存的问题,可以通过预测器的切换进行数据预处理,这个一般的配置也是 8G 显存起步才可以,否则的话,数据预处理就无法通过的;

处理办法: 删除音频时间超过 20S 或者小于 10s 的音频,数据预处理完成以后继续下一步训练过程,正常结束应该如下图所示:

3.d 音色训练

说明: 训练过程需要持续 1-7d 左右,主要是因为自己的算力一般,也不能说电脑算力太差,只是 AI 就是吃算力的,还好训练好音色模型以后就可以往任何的歌曲上嵌套,因此音色训练的时间至少需要持续1周左右,此过程电脑最好不要关闭,及时关闭,训练也要基于上次进行;

4. 训练监控

打开监控面板:

总结

太多坑了,一不小心就会栽进去的,这东西没办法高谈阔论的,必须事必躬亲,不过一般完整走一遍流程基本就掌握了,我现在还没有那么想熟悉代码,gpu 碎片回收机制,代码优化还有很多可以做的,不过这次倒不急,及也急不来的。对于学习人工智能的小朋友们,虽说研究生阶段一般实验室会配备算力设备并且可以报销,但是自己的电脑性能最好还是要跟上才可以的,AI 真的不是穷人的游戏,配置在2万左右的游戏本也不过是入门级别的配置,不过该花的钱还是要花的,不然设备差一个级别,那么你可能落后别人一年甚至数年。少拿天赋说事,不在同一个环境你连参与竞争的机会都没有的。

附录

开源 mp3 下载地址: https://tonzhon.com/playlists/6442733bc6d7bdf6d5155629
视频转音频: https://www.aigei.com/tool/video/audio
音频转换: https://app.xunjieshipin.com/mp3-to-wav/
B站解码器: https://bilibili.iiilab.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/717321.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FreeRTOS_时间管理

目录 1. FreeRTOS 延时函数 1.1 函数 vTaskDelay() 1.2 函数 prvAddCurrentTaskToDelayedList() 1.3 函数 vTaskDelayUntil() 2. FreeRTOS 系统时钟节拍 在使用 FreeRTOS 的过程中我们通常会在一个任务函数中使用延时函数对这个任务延时,当执行延时函数的时候就…

php对接小鹅通API开发高级实战案例解析:小鹅通实战开发之合并用户user_id批量同步

小鹅通实战开发 ChatGPT工作提效之小鹅通二次开发批量API对接解决方案(学习记录同步、用户注册同步、权益订购同步、开发文档)小鹅通学习记录大批量队列同步小鹅通云服务PHP-API二维数组传参解决方案 合并用户user_id批量同步 小鹅通实战开发前言一、账号发生合并带…

LabVIEW评估儿童的运动认知技能

LabVIEW评估儿童的运动认知技能 以前测量认知运动功能的技术范围从基本和耗时的笔和纸技术,到使用准确但复杂和昂贵的实验室设备。Kinelab的主要要求是提供一个易于配置、坚固且便携的平台,以便在向4-12岁的儿童展示交互式视觉刺激期间快速收集运动学测…

第三章 搜索与图论(三)——最小生成树与二分图

文章目录 最小生成树PrimKruskal 二分图染色法匈牙利算法 最小生成树练习题858. Prim算法求最小生成树859. Kruskal算法求最小生成树 二分图练习题860. 染色法判定二分图861. 二分图的最大匹配 最小生成树 最小生成树针对无向图,有向图不会用到 Prim 求解稠密图的最…

Error in parsing ‘.arclint‘ file, in key ‘bin‘ for linter ‘pylint‘

背景: Run arc diff --preview to create code revision on remote terminal, but exception happened. nnhhh:~/ppp$ arc diff --preview Linting...Exception Error in parsing .arclint file, in key bin for linter pylint. None of the configured binaries …

剑指offer28.对称的二叉树

我一开始想到的是用之前的镜像二叉树方法把树转换成他的镜像树放进队列,在这之前把树自己放进队列。然后比较这两个队列。但这样是有问题的,比如题目给的[1,2,2,null,3,null,3] 这个示例就不能通过,于是看了题解。豁然开朗,其实只…

服务器上安装虚拟机以及编译FastDDS以及ShapesDemo开源项目

🥁作者: 华丞臧 📕​​​​专栏:【C】 各位读者老爷如果觉得博主写的不错,请诸位多多支持(点赞收藏关注)。如果有错误的地方,欢迎在评论区指出。 推荐一款刷题网站 👉LeetCode 文章目录 前言一、…

namecheap 域名服务器 设置为Cloudflare

Namecheap 设置 自定义 域名服务器 登录Namecheap 帐户。进入后,将鼠标悬停在页面右上角的“帐户”选项上,然后选择“域列表”或选择左侧边栏中的“域列表” 参考 如何在 Cloudflare 帐户中域设置 DNS 记录

Simulink中Selector的使用

文章目录 0.prolog1 Starting and ending indices (port)2. Starting index (port)3. Starting index (dialog)4. Index vector (dialog)5. Index vector (port)Reference 0.prolog Index mode有两种,[one-based, zero-based],分别是从1开始计数&#x…

波函数:描述量子世界的数学工具

亲爱的读者, 欢迎回到我们的量子力学系列文章。在前两篇文章中,我们介绍了量子力学的起源和基本概念。今天,我们将深入探讨量子力学的核心数学工具——波函数。 波函数是量子力学中的关键概念,它描述了一个量子系统的状态。波函…

Java转Go:java开发者转学go语言,请给我一些建议和学习推荐

在做开发时遇到最无理的需求就是部门没了😂 目录 做开发时你遇到最无理的需求是什么?方向一:分享那些你遇到的无理需求方向二:面对这些无理需求时你是怎么做的?方向三:怎么避免遇见这些无理需求 java开发者…

赛效:怎么在线给Word文档加图片水印

1:在电脑网页上打开云组件,点击“Word转换”菜单里的“Word加水印(图片)”。 2:点击选择文件添加Word文档。 3:点击“选择水印图片”上传做水印的图片。 4:水印图片添加成功后可以选择水印角度&…

电商小程序开发指南:吸引并留住用户的秘诀

电商小程序作为微信生态内的新产品,有许多开发方面的内容需要学习,比如电商小程序的定位、功能、设计等。电商小程序是由商家开发并在微信平台上运行的小程序。它可以与微信公众号一起使用,也可以单独使用。 从传统电商到社交电商&#xff0…

24-正则表达式,应用场景

一、是什么 是一种用来匹配字符串的强有力的武器 它的设计思想是用一种描述性的语言定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的 在 JavaScript中,正则表达式也是对象&…

Spring Boot 缓存应用实践

缓存是最直接有效提升系统性能的手段之一。个人认为用好用对缓存是优秀程序员的必备基本素质。本文结合实际开发经验,从简单概念原理和代码入手,一步一步搭建一个简单的二级缓存系统。 一、通用缓存接口 1、缓存基础算法 FIFO(First In Fir…

LVS负载均衡群集与LVS-NAT部署实战配置

文章目录 一.什么是集群1.群集的含义 二.集群使用在那个场景三.集群的分类1.负载均衡器群集2.高可用群集3.高性能运算群集 四.负载集群的架构1.第一层,负载调度器2.第二层,服务器池3.第三层,共享存储 五.负载均衡集群的工作模式1.地址转换 &a…

STM32中static和extern的用法

static: A. static变量 称为静态变量。根据变量的类型可以分为静态局部变量和静态全程变量。 1. 静态局部变量 它与局部变量的区别在于: 在函数退出时, 这个变量始终存在, 但不能被其它 函数使用, 当再次进入该函数时, 将保存上次的结果。其它与局部变量一样。…

记一次自建靶场三层代理内网渗透过程

为方便您的阅读,可点击下方蓝色字体,进行跳转↓↓↓ 01 向日葵RCE外网突破02 Frp内网隧道搭建03 获取域内出网主机权限04 三层隧道搭建访问内网不出网主机 01 向日葵RCE外网突破 端口扫描探测存活端口,发现存在172.16.16.128:49773端口 访问…

【RPC】—Protobuf编码原理

Protobuf编码原理 ⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记链接👉https://github.com/A-BigTree/Code_Learning ⭐⭐⭐⭐⭐⭐ Spring专栏👉https://blog.csdn.net/weixin_53580595/category_12279588.html SpringMVC专…