ChatTTS

news2026/2/15 4:42:48

大家好，我是小麦，今天给大家分享一款免费，可用于对话场景的文本转语音工具。

阅读感悟

不知道大家在日常的学习、工作中是否有这样的一个情况，当我们阅读完一篇文章，很快就能读完，但印象不会很深；或者说在很多时候，对着电脑、手机看久了，眼睛很疲劳，希望能够通过听觉来接收我们文章的内容。我自己在时常阅读公众号文章，就很喜欢去听，而不是阅读的方式。逐渐发现听内容比阅读内容更容易吸收，而且能够极大的缓解我们的眼睛疲劳。

音频阅读文章内容

通过将视觉转为听觉，在很大程度上增加了我们的用户体验性，同时也能更好的帮助我们了解到文章的内容。例如我们在开车时，不方便阅读精彩的文章，这时候通过将视觉转为听觉，就可以了解到文章内容。

上面提到的问题，也很简单，无非就是将文本内容转成音频内容。市面上也有很多这样的技术，能够将文本转成音频。很多的大企业也提供了这样的开发能力，通过与平台对接，将我们自己产品的内容转换为音频内容。随着技术的发展，音频的模式也越来越丰富。例如支持音频人性别、音色、音频背景等方面的设置。

这些产品的功能虽然很强大，但需要具备一定的程序开发能力，对于不懂程序开发的用户来说，不是很友好。最重要的问题，当我们要生成很多的音频文件时，就需要付费使用，费用成本也不低。
文字转音频价格

ChatTTS是什么

今天要分享的内容就是ChatTTS，ChatTTS是什么呢？它又比其他的文章转音频有什么好处呢？

ChatTTS是一款基于对话场景下，经过优化，适用于自然、对话式文本转语音，并且是免费开源支持多种语言的工具。你可以将它嵌入到自己的程序中，同时你也可以使用官方的在线工具，直接使用。

ChatTTS文本转语音工具

用官方的描述，ChatTTS是什么。ChatTTS是专为对话场景设计的语音生成模型，特别适用于大型语言模型(LLM)助手的对话任务，以及诸如对话式音频和视频介绍等应用。它支持中文和英文，通过使用大约100,000小时的中文和英文数据进行训练，ChatTTS在语音合成中表现出高质量和自然度。

如何使用

如果你是一个非编程人员，可以直接使用官网的在线语音生成工具就可以了。直接将需要转换成语音的文本贴如内容框，同时也可以针对生成的语音做一些调整，例如音速、音色等内容。生成好之后，点击页面的下载按钮，就可以把音频文件保存在本地，这样你就可以在其他地方使用了。
ChatTTS参数调整

如果你是一名编程人员，希望能够继承到自己的产品中，这就需要你编程适当的代码才可以实现。不过这样非常的简单，官方也提供了代码示例，就短短的几行代码就可以做到。

1、从GitHub上下载代码

git clone https://github.com/2noise/ChatTTS

2、安装代码依赖
在开始之前，请确保已安装所需的软件包。您将需要torch和ChatTTS。如果尚未安装，可以使用pip安装。

pip install torch ChatTTS

3、导入所需要的库
在你的代码文件中导入必要的库。您将需要torch、ChatTTS和IPython.display中的Audio。

import torch
import ChatTTS
from IPython.display import Audio

4、初始化ChatTTS
创建ChatTTS类的实例并加载预训练模型。

chat = ChatTTS.Chat()
chat.load_models()

5、准备文本内容
定义要转换为语音的文本。将YOUR TEXT HERE替换为您想要的文本。

texts = ["你好，欢迎使用ChatTTS！"]

6、生成语音
使用infer方法从文本生成语音。设置use_decoder=True以启用解码器。

wavs = chat.infer(texts, use_decoder=True)

7、播放音频
使用IPython.display中的Audio类播放生成的音频。将采样率设置为24,000 Hz并启用自动播放。

Audio(wavs[0], rate=24_000, autoplay=True)

至此，整个程序的功能就实现了。可以通过下面完整代码，不难看出短短几行代码就能够将我们所需要的文本内容转成语音文件。

import torch
import ChatTTS
from IPython.display import Audio

# 初始化ChatTTS
chat = ChatTTS.Chat()
chat.load_models()

# 定义要转换为语音的文本
texts = ["你好，欢迎使用ChatTTS！"]

# 生成语音
wavs = chat.infer(texts, use_decoder=True)

# 播放生成的音频
Audio(wavs[0], rate=24_000, autoplay=True)