SparkTTS 的简介
Spark-TTS是一种基于SpardAudio团队提出的 BiCodec 构建的新系统,BiCodec 是一种单流语音编解码器,可将语音策略性地分解为两种互补的标记类型:用于语言内容的低比特率语义标记和用于说话者特定属性的固定长度全局标记。这种解开的表示与 Qwen2.5 LLM 和思路链 (CoT) 生成方法相结合,既可以实现粗粒度属性控制(例如性别、音高水平),也可以实现细粒度参数调整(例如精确的音高值、语速)。
它是香港科技大学,上海交大,南洋技术大学等单位组成的团队开发的,与香港中文大学的MaskGCT 相比,SparkTTS 使用了大模型。
SparkTTS的结构
MaskGCT 结构
测试网站
你可以在下列网站做一些测试。
Spark TTS - Text-to-Speech AI Model
Windows 安装
下载 Spark-TTS
- Go to Spark-TTS GitHub
- Click "Code" > "Download ZIP", then extract it.
2. 建立 Conda 环境
conda create -n sparktts python=3.12 -y
conda activate sparktts
3. Install Dependencies
pip install -r requirements.txt
Install PyTorch (Auto-Detect CUDA or CPU)
我使用的是RTX4080 显卡。安装cuda 12.4,安装的PyTorch 为2.5.1+cu124。
下载cuda 12.4.
安装 PyTorch +cu124
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
5. Download the Model
mkdir pretrained_models
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
遇到问题
运行python webUI.py 时出现:
variable KMP_DUPLICATE_LIB_OK=TRUE to allow the program to continue to execute, but that may cause crashes or silently produce incorrect results. For more information, please see http://www.intel.com/software/products/support/.
办法
1 删除 libiomp5md.dll
D:\Users\Yao\anaconda3\Library\bin\libiomp5md.dll
2 设置临时环境变量:KMP_DUPLICATE_LIB_OK=TRUE
set KMP_DUPLICATE_LIB_OK=TRUE
也在windows 下设置了。
结果
效果明显比MaskGCT 好。转码速度快。