Kokoro 是一款轻量级的开源文本转语音(TTS)引擎,凭借其高效能和轻量化设计,迅速在技术社区中引起关注。本文将详细介绍 Kokoro 的主要特点,并提供在浏览器和 Python 环境中的代码示例,帮助您快速上手。
1. Kokoro:可在浏览器中运行的 TTS 引擎
1.1 简介
Kokoro 是一个拥有 8200 万参数的开源 TTS 模型。尽管其架构轻量,但在语音合成质量上可媲美更大型的模型,同时在速度和成本上更具优势。Kokoro 采用 Apache 2.0 许可证,允许在各种环境中自由部署,无论是生产环境还是个人项目。
1.2 主要特点
-
多语言支持:Kokoro 支持英语、西班牙语、法语、意大利语、日语和中文普通话,满足不同语言用户的需求。
-
完全离线运行:Kokoro 可在浏览器中通过 WebGPU 技术实现完全离线、100% 本地化的语音合成,确保数据隐私和安全。
-
高效性能:得益于轻量级架构,Kokoro 在保持高质量语音输出的同时,实现了快速的推理速度。
-
开源许可:采用 Apache 2.0 许可证,用户可以自由地在商业和个人项目中使用 Kokoro。
2. 代码示例
2.1 浏览器运行的样本代码
要在浏览器中使用 Kokoro,首先需要安装 kokoro-js
库。
npm install kokoro-js
然后,可以使用以下代码生成语音:
import {
KokoroTTS } from "kokoro-js";
const model_id = "onnx-community/Kokoro-82M-v1.0-ONNX";
const tts = await KokoroT