开源实时多模态AI聊天机器人Moshi,语音对话延迟低至200毫秒!
最近AI圈真是热闹非凡,继Meta发布Llama 3之后,各种开源大模型也是层出不穷。这不,法国一个非盈利AI研究实验室Kyutai,又搞了个大新闻!
他们开源了一个叫Moshi的实时原生多模态基础模型,这玩意儿厉害了,它能同时听、说、还能给出回应,就像跟真人聊天一样自然流畅。更牛的是,它还能理解和表达情感,甚至可以用不同的口音说话!
是不是感觉有点不可思议?别急,我这就带你好好了解一下这个Moshi。
Moshi:实时语音对话的文本语音模型
Kyutai 不仅开源了 Moshi,还发布了详细的技术报告,里面介绍了 Moshi 的一些实现细节。简单来说,Moshi 采用了多流架构,能够同时处理你和系统的语音输入,然后生成相应的语音输出。
更重要的是,Moshi 的延迟非常低!理论上只有160毫秒,实际也才200毫秒,这比我们平时自然对话中动辄几秒的延迟快多了!这意味着,你可以和 Moshi 进行几乎无缝的语音交流,体验感绝对一流。
Moshi 的强大功能
除了低延迟之外,Moshi 还有一些其他强大的功能:
-
**多模态处理:**Moshi 能够同时处理语音和文本信息,这意味着你可以用语音或者文字和它交流,它都能理解。
-
**复杂对话动态:**Moshi 支持复杂的对话动态,比如同时说话和打断,这更接近于我们真实的对话场景。
-
**实时流式推理:**Moshi 支持实时流式推理,也就是说,它能够一边生成语音,一边进行语音识别和文本到语音的转换,效率非常高。
Mac用户专属福利:一键安装包
为了方便大家体验 Moshi 的强大功能,Kyutai 还贴心地提供了一个独立的启动包,Mac 用户可以直接点击运行,不需要配置复杂的 Python 环境。
划重点:目前只支持搭载 Mac M1/2/3 系列芯片的设备哦!
下载和安装步骤
-
前往下载页面:开源实时多模态AI聊天机器人Moshi,语音对话延迟低至200毫秒!_AI MAC范,点击页面右侧的下载按钮进行下载。
-
下载完成后,你会得到一个 DMG 镜像文件,双击打开,然后将
app
文件拖拽到Applications
文件夹中就安装完成了。 -
首次启动时,不要直接在启动台打开,需要在应用程序文件夹右键打开,具体操作如下图所示。这是为了避免一些 Mac 系统的安全限制,具体原因可以参考Mac 安装软件常见问题。
-
软件会自动在默认浏览器打开操作界面,然后你就可以在浏览器中开始使用 Moshi 了!
未来展望
Moshi 的开源,无疑为实时多模态 AI 聊天机器人领域注入了新的活力。相信在不久的将来,我们会看到更多基于 Moshi 的应用和创新出现。
如果你对 AI 技术感兴趣,或者想体验一下与 AI 进行实时语音对话的乐趣,不妨试试 Moshi 吧!相信它会给你带来不一样的惊喜!
好了,以上就是今天的分享,如果你觉得不错,记得点赞、在看、转发三连哦!想第一时间收到我的推送,也可以给我点个星标⭐,谢谢你的支持!