Kyutai开源实时语音对话模型Moshi

news2025/2/25 8:05:06

新闻

法国人工智能实验室Kyutai在巴黎举行的一次活动上推出了能够进行自然交互的对话式人工智能助手Moshi，并计划将其作为开源技术发布。Kyutai表示，Moshi是首款可公开访问的人工智能助手，可实现实时对话，有别于OpenAI的GPT-4o，后者具有类似功能，但尚未推出。Moshi 的独特 "音频语言模型 "架构由一个小团队在六个月内开发完成，它可以直接从音频数据中处理和预测语音，尽管模型规模相对较小，但却实现了低延迟和令人印象深刻的语言技能。
在 7 月推出 AI 助手 Moshi 之后，Kyutai 现已按照承诺发布了开源模型。该版本包括几个组件：技术报告、Moshi 及其 Mimi 编解码器的权重以及 PyTorch、Rust 和 MLX 中的流式推理代码。
Moshi的技术细节包括三个主要组件：Helium语言模型（拥有70亿参数并在2.1万亿tokens上进行训练）、Mimi神经音频编解码器（能够建模语义和声学信息），以及一种新的多流架构（能够在单独的频道上分别对用户和Moshi的音频进行建模）。Moshi的参数大约为7.69B，Moshiko/ka是Moshi对合成数据进行微调后的变体，分为男女两个声音。这些模型在L4 GPU上实现了约200毫秒的延迟，而内存需求根据精度不同分别为16GB、8GB和4GB VRAM。
Kyutai已经将Moshi的代码、技术报告、模型权重以及流式推理代码进行了开源，可以在GitHub官方仓库和HuggingFace模型库中找到。此外，Moshi还提供了在线体验，用户可以通过访问官方网站进行试用。
Moshi的开源发布，不仅展示了Kyutai对于科技开放和共享的承诺，也预示着这种技术的潜力，可能彻底改变我们与数字世界中的AI交流方式。Moshi的问世对OpenAI构成了直接挑战，尤其是在OpenAI的高级语音模式尚未广泛开放的情况下。Kyutai的快速动作在业界引起了广泛关注，许多人认为这标志着一个新的竞争阶段的开始
更多信息：

Kyutai

Kyutai是一家专注于人工智能开放研究的非营利性研究机构，由iliad集团、CMA CGM集团和Schmidt Futures共同创立于2023年11月，初始资金近3亿欧元。Kyutai的使命是解决现代人工智能的基本挑战，专注于开发包含文本、声音、图像等的大型多模态模型，并致力于发明新的算法来增强这些模型的能力、可靠性和效率。