ChatTTS增强版V2,批量导出srt,语速控制,情感控制,支持朗读数字,问题修复

news2024/11/25 4:34:55

ChatTTS增强版最新版本已经发布,本次更新我主要增加了多文本批量、SRT导出、语速控制、情感控制、停顿控制等新功能,并针对上一版本中存在的数字读音异常、随机uv_break等问题进行了修复。

视频版本

【ChatTTS增强版V2,批量导出srt,语速控制,情感控制,支持朗读数字,问题修复】 https://www.bilibili.com/video/BV17T421e76w/?share_source=copy_web&vd_source=09316244e4ff3a9793930d67cf748288

37b5fdae63cc1122302a0aa6f1c114d4.png

更新内容

批量txt

新增支持多个txt文本批量导入,会针对每个txt文本进行处理。

3755762243cdb3ae1053b2ac86dd3daa.png

听取大家的建议,批量处理后的txt会按照文件名来保存。

导出路径为:output_audio/你的txt名/

d3cb5ee04d7e5aa30e909216a5fe9315.png

每个文件夹内分别存放着合并后的音频、音频切片、增强后的音频切片。

导出的完整的音频路径为:output_audio/你的txt名/合并/

导出的音频切片路径为:output_audio/你的txt名/切片/

导出的增强音频切片路径为:output_audio/你的txt名/增强切片/

9caf434bd66e3802bc51b2fd3414654a.png

SRT导出

批量模式下支持导出srt文件。会针对每个txt文本合成的音频生成对应的srt文件。

46d27627d1aba2bb7388b6ef3659aab5.png

srt会导出路径:output_audio/你的txt名/你的txt名.srt

6ac6912b18f43c4e3c2a6c4a8b60003a.png

srt文本内容

eda6f43f4900e757f7f8b6f324ae56e4.png

这里说下,srt某些情况下会有误差,需检查下时间戳。

数字转换

由于ChatTTS不能很好的去朗读数字,这里做了一个转换。

2ee1d08097e975e4760ea51c40e14376.png

比如这句话:我有10块4090显卡,今天出门丢了1块,很难受,今天是2024年。

34100bd6d6564ceaf5ff2c25eddfbc0d.png

读出来就是:

(音频)

开启数字转换后:

(音频)

这里还是把4090显卡型号以及年份读错了。因为数字转换在特殊情况下还是不能很好的去识别,这里最好的办法就是加空格

修改后的文字:我有10块4 0 9 0显卡,今天出门丢了1块,很难受,今天是2 0 2 4年。

e31a260ef666cea6b0963409aa53ef76.png

在你想要单独读的数字组合里添加空格隔开。再开启数字转换后的效果:

(音频)

语速调整

增加了语速调节。默认值为0。最高是10,建议调到5或者6,10的话会有奇怪的英文读音混进去。

cb774ec49bb8aa85f5b1bdcfbea73cd6.png

口语化调整

这里对这个参数的理解就是口语化,或者是说话的自然程度。

fe161160ac9cf686c4dd46c61641ebfc.png

比如还是刚才那句:我有10块4 0 9 0显卡,今天出门丢了1块,很难受,今天是2 0 2 4年。

其他参数相同,oral为0的效果:

(音频效果)

oral为5的效果:

(音频效果)

可以听到,在oral为5的情况下自动添加了:就、啊等语气或者连接词来让音频更加自然。

笑声调整

控制音频的笑声程度。

6c73ddd404f965947a2528b871b50608.png

当然你也可以在文字中输入[laugh]来手动添加笑声。

e831e777b4efe4db4be86457cb5221d2.png

生成的效果:

(音频效果)

停顿调整

ddf19404b6487e88bb45484ea91ade77.png

停顿为0

(音频效果)

停顿为4

(音频效果)

这个参数也可以在文本中输入[uv_break]来手动添加停顿。

08c71674f2b3f451bfab1f3ee818084e.png

(音频效果)

问题修复

uv_break问题

首先说下上次最大的问题,好多朋友反馈说会读u_break的问题。这里跟大家说声抱歉,那是个我漏掉的bug。

这个版本我针对这个问题做了调整,大家可以试下。

如果还有这个问题可以将break调整为0,关闭提炼文本尝试下。

f0867328fa9dd6edd45e2d41c1546a8f.png

380adda7307d14aba8fed7ae7c47936d.png

IP端口问题

V1版本的ip和端口号是固定的,有些朋友电脑上8080端口是禁用的,造成访问不了网页的问题,或者是开了代理进不去的问题。

这个版本默认ip是127.0.0.1,端口号是自动获取本机开放空闲的端口。

如果你想要自定义ip或端口号,可在整合包根目录下找到config.ini文件。

0ed4f6669d6bb5cf54e0635140e4b76f.png

修改custom_server的值为True表示开启自定义ip、端口号。False为关闭自定义ip、端口号。

ip和端口修改为你想要设定的值即可。

f869d07bf1220f35d8084a3809417183.png

实验性选项

51092df61729600d6a0d5ccdafd4f8bb.png

这里是开发中的一个测试选项,还不完善。可自行测试音色固定程度,如果开启后生成的结果无效果,或异常,关掉即可。

⚠️已知的是开启后会导致N卡用户音频增强过程变得极慢!!!慎重开启

配置要求

以下是整合包运行所需配置

WIN

  • Windwos10/11操作系统
  • 支持CPU/GPU

MAC

  • Apple Silicon M系列芯片、Intel 芯片
  • MacOS 10.13以上版本

云端版本

适用于机器配置低的朋友,云端镜像一键部署。

云端一键部署镜像

关于显存,最低4G显存(不开启音频增强的情况下)

Mac 由于cuda原因目前只支持cpu进行推理。

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

关注公众号,发送【ChatTTSV2】关键字获取整合包。

c9d252d6c546419798a870adf532fec3.png

如果发了关键词没回复你!记得看下复制的时候是不是把空格给粘贴进去了!

写在最后

还有很多朋友的建议,比如增加标点符号分割、克隆用户音色等,这些想法都很不错,我也会在后续的版本中进行更新。

最后非常感谢大家对这个项目的支持。如果您有更多的想法或建议,欢迎通过私信或在评论区留下你们的意见。

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1803827.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计算视觉】学习计算机视觉你不得不膜拜的CVPR大神:何凯明

目录 第一章:CVPR——计算机视觉的终极擂台 第二章:何凯明——计算机视觉领域的耀眼星辰 第三章:高引用论文——计算机视觉研究的璀璨星辰 第四章:何凯明的CVPR论文——深度学习的探索之旅 第五章:结语——向何凯…

网页文档下载不了怎么办 网页文档下载方法

一个方法,搞定所有网页文档下载。如果你也需要从网页下载各种文档,那么本文一定可以帮到你。无须充值会员,各大平台文档下到爽。看到就是赚到,还不赶快学起来。有关网页文档下载不了怎么办,网页文档下载方法的问题&…

Java中的IO流字节流(FileOutputStream与FileInputStream)+编码与解码

目录 ​编辑 IO流 File0utputstream FileOutputstream写数据的3种方式 void write(int b) 一次写一个字节数据 void write(byte[] b) 一次写一个字节数组数据 void write(byte[] b,int off,int len) 一次写一个字节数组的部分数据 FileOutputstream写数据的…

MathType 7.8最新版核心功能特性 及免费汉化版安装包下载地址

大家好!今天我要给大家种草一个非常实用的数学公式编辑器——MathType 7.8!作为一名软件评测专家,我对这款软件进行了详细的测试和试用,下面来给大家分享一下我的使用体验。 我们来说说MathType 7.8的核心特性吧!它是一…

智能网联汽车信息安全风险识别与应对策略研究综述

摘要:随着智能网联汽车技术的飞速发展,其信息安全问题逐渐成为公众关注的焦点。本文概述了智能网联汽车技术的发展背景和信息安全风险的来源,采用STRIDE威胁分析方法对智能网联汽车的四层模型进行风险识别,进一步探讨了抗女巫攻击…

进口电动流量调节阀的选型-美国品牌

进口电动流量调节阀的选型需要综合考虑多个因素,以确保所选阀门能够满足实际应用需求。以下是选型时需要考虑的主要方面: 一、明确应用需求 工作介质:了解介质的性质,包括流体类型、温度、压力以及是否具有腐蚀性或特殊性质。流…

6.7.11 一种新的迁移学习方法可提高乳房 X 线摄影筛查中乳腺癌的诊断率

分割是一种将图像分割成离散区域的技术,以便将感兴趣的对象与周围环境分开。为了制定治疗计划,分割可以帮助医生测量乳房中的组织量。 二元分类问题的目的是将输入数据分为两组互斥的数据。在这种情况下,训练数据根据要解决的问题以二进制格…

基于JSP技术的网络视频播放器

你好呀,我是计算机学长猫哥!如果有相关需求,文末可以找到我的联系方式。 开发语言:Java 数据库:MySQL 技术:JSP技术 工具:IDEA/Eclipse、Navicat、Maven 系统展示 首页 管理员界面 用户界…

2024年G3锅炉水处理证考试题库及G3锅炉水处理试题解析

题库来源:安全生产模拟考试一点通公众号小程序 2024年G3锅炉水处理证考试题库及G3锅炉水处理试题解析是安全生产模拟考试一点通结合(安监局)特种作业人员操作证考试大纲和(质检局)特种设备作业人员上岗证考试大纲随机…

大模型管理工具Ollama搭建及整合springboot

目录 一、Ollama介绍 1.1 什么是Ollama 1.2 Ollama特点与优势 二、Ollama本地部署 2.1 版本选择 2.2 下载安装包 2.3 执行安装 2.4 Ollama常用命令 三、使用Ollama部署千问大模型 3.1 千问大模型介绍 3.2 部署过程 四、springboot接入Ollama 4.1 引入Ollama依赖 4…

最小栈、栈的弹出(C++)

1.最小栈 思路分析: 代码: class MinStack { public:MinStack() {}void push(int val) {st.push(val);//两种情况需要更新最小值//1.最小栈为空(就是存最小值的那个栈)//2.插入的值小于或等于最小栈的栈顶元素if(minstack.empty()||minstack.top()>…

将10个整数按由小到大的顺序排列

在之前的文章中介绍过可以用数组名作函数的参数,并多次强调:数组名代表数组首元素的地址。用数组名作函数的参数,传递的是数组首元素的地址。很容易推想:用指针变量作函数形参,同样可以接收从实参传递来的数组首元素的…

Tongweb7重置密码优化版*(by lqw )

如图所示,输入初始密码是会报错的,说明已经修改了密码 首先我们先备份一下tongweb的安装目录,避免因为修改过程中出现的差错而导致tongweb无法启动: 备份好了之后,我们关闭掉tongweb。 方式一: Cd 到tong…

C盘满了怎么办,Windows11的C盘没有磁盘清理选项怎么办,一次搞定

问题: 太久没清电脑了,满的跟垃圾堆一样。。。C盘红色看上去很不妙。 一. C盘满了怎么办: 1. 删除临时文件 找到 C:\Windows\Temp,进入Temp资料夹,选中所有文件夹和文件,按下ShiftDelete键,彻…

推荐系统三十六式学习笔记:原理篇.内容推荐05|从文本到用户画像有多远?

目录 从文本开始构建用户画像一、结构化文本1、TF-IDF2、TextRank3、内容分类:4、实体识别5、聚类6、词嵌入 二、标签选择1、卡方检验2、信息增益 总结 对于一个早期的推荐系统来说,基于内容推荐离不开用户构建一个初级的画像,这种初级的画像…

攻防世界---misc---小小的PDF

1、题目描述,下载附件是一个PDF,打开之后是这样,有两页PDF 2、用winhex分析,没有发现奇怪的地方 3、在kali中binwalk发现有多张照片 4、接着使用foremost将图片分离出来, 5、得到3张图片,打开第3张图片&am…

数字滤波器和模拟滤波器(一)

模拟滤波器和数字滤波器(一) 下面介绍模拟滤波器和数字滤波器的频率响应的异同,以及如何使用python地scipy.signal来绘制其频谱响应和冲激阶跃响应。在第二期将谈到如何设计模拟滤波器和数字滤波器。 在正文之间,应该介绍连续时…

Spark 性能调优——分布式计算

前言 分布式计算的精髓,在于如何把抽象的计算流图,转化为实实在在的分布式计算任务,然后以并行计算的方式交付执行。今天这一讲,我们就来聊一聊,Spark 是如何实现分布式计算的。分布式计算的实现,离不开两个…

Shell脚本学习_字符串变量

目录 1.Shell字符串变量:格式介绍 2.Shell字符串变量:拼接 3.Shell字符串变量:字符串截取 4.Shell索引数组变量:定义-获取-拼接-删除 1.Shell字符串变量:格式介绍 1、目标: 能够使用字符串的三种方式 …

详解linux设备下的/dev/null

/dev/zero是一个特殊的设备文件,它在Linux系统中通常被用来生成无限数量的零数据流。 这个设备文件位于/dev目录下,它不代表任何实际的硬件设备,而是一个虚拟设备。 当从/dev/zero设备中读取数据时,会得到无限数量的零字节&…