Kyutai 推出了 Moshi Chat,这是一种既可以实时收听又可以说话的 AI

news2025/1/9 15:14:25

Kyutai 是一家专注于开放式 AI 研究的非营利性实验室,它推出了开源的 Moshi Chat 项目

Kyutai 是一家致力于推进人工智能 (AI) 开放研究的非营利性实验室,其最新创新 Moshi Chat 取得了重大进展。这种尖端的实时原生多模态基础模型代表了人工智能技术的卓越成就。Kyutai 推出的 Moshi Chat 因其令人印象深刻的功能而受到关注,尤其是在同时听和说的领域。与传统的 AI 模型不同,Moshi Chat 旨在理解和表达情感,使与它的交互更加自然和引人入胜。

凭借其独特的功能和开源可用性,Moshi Chat 成为 AI 开发的先驱。

Moshi Chat 的发展证明了 Kyutai 对透明度和协作创新的承诺。该模型能够同时处理两个音频流(实时收听和说话),这使其有别于其他 AI 模型。

这种能力的基础是文本和音频数据组合的强大联合预训练过程,利用来自 Helium 的合成文本数据,Helium 是 Kyutai 开发的 70 亿参数语言模型。人工智能技术的这种进步是严谨研究和微调的结果,旨在实现无缝和高效的性能。

Kyutai Moshi Chat的技术

Moshi Chat 的突出特点是其实时交互功能,使其能够同时收听和响应。这是通过对文本和音频数据的混合进行联合预训练来实现的,确保模型能够保持文本和听觉信息的流畅流动。Moshi Chat 语音处理能力的基础是 Helium 模型,这是一个拥有 70 亿参数的语言模型,是这项创新技术的支柱。

根据 Kyutai Moshi Chat 在 YouTube 上的主题演讲,Moshi Chat 的微调过程涉及 100,000 个“口头式”合成对话的广泛数据集。这些对话使用类似于 Murf AI 的文本转语音 (TTS) 技术进行转换,使模型能够非常准确地生成和理解语音。TTS 引擎支持 70 种不同的情感和风格,使用由授权配音员录制的 20 小时音频进行微调。这种一丝不苟的培训方法造就了一个模型,它不仅能理解口语,还能传达情感和细微差别,使互动更加自然和引人入胜。

Kyutai 对负责任地使用 AI 的承诺体现在他们加入水印来检测 AI 生成的音频中。此功能仍在进行中,强调了 AI 开发中道德考虑的重要性。此外,将 Moshi Chat 作为开源项目发布的决定凸显了 Kyutai 致力于在 AI 社区内营造协作环境的奉献精神。

在这里插入图片描述

Moshi AI的训练和微调过程

Moshi Chat 的开发涉及严格的培训和微调过程,以确保其高水平的性能。该模型使用 Helium 7B 基础文本语言模型从头开始训练,然后与文本和音频编解码器联合训练。

语音编解码器基于 Kyutai 的内部 Mimi 模型,拥有 300 倍的压缩系数,这有助于在保持音频质量的同时减小数据大小。

Moshi Chat 的微调过程涉及用情感和风格注释 100,000 份高度详细的成绩单。这些注释使模型能够理解和传达各种情感,使与模型的交互更加逼真和引人入胜。文本转语音引擎支持 70 种不同的情感和风格,使用由一位名叫 Alice 的持牌配音员录制的 20 小时音频进行了微调

Kyutai 对适应性的关注体现在 Moshi Chat 能够用不到 30 分钟的音频进行微调的能力上。此功能允许用户自定义模型以满足特定需求,无论是用于研究、语言学习还是其他应用程序。该模型的部署展示了其效率和多功能性,可在 24 GB VRAM 下处理两种批处理大小,并支持多个后端。推理代码的优化,如增强的 KV 缓存和提示缓存,预计将进一步提高 Moshi Chat 的性能。

在这里插入图片描述

Kyutai Labs 为所有人提供的技术

Moshi Chat 不仅是一个技术奇迹,而且非常容易访问。Kyutai 开发了该型号的较小变体,可以在 MacBook 或消费级 GPU 上运行,使其可供更广泛的用户使用。

该模型的效率进一步体现在部署在 Scaleway 和 Hugging Face 等平台上,它在 24 GB VRAM 上处理两种批量大小,支持各种后端,包括 CUDA、Metal 和 CPU。

该模型的语音基于单独的 TTS 模型生成的合成数据进行训练,实现了令人印象深刻的 200 毫秒的端到端延迟。这种低延迟对于实时交互至关重要,使 Moshi Chat 能够几乎即时响应用户输入。使用 Rust 开发的高级训练技术和优化的推理代码相结合,有助于提高模型的卓越性能。增强的 KV 缓存和提示缓存也有望进一步提高模型的效率。

Yann LeCun 发布的演示展示了这种新 AI 模型的运行情况。

来自 https://t.co/TngVXgSjzX https://t.co/qftjudOq1k 的 Moshi 的现场演示

— Yann LeCun (@ylecun) July 3, 2024

展望未来,Kyutai 对 Moshi Chat 有雄心勃勃的计划。该团队打算发布一份全面的技术报告和开放模型版本,包括推理代码库、7B 模型、音频编解码器和完全优化的堆栈。Moshi Chat 的未来迭代(例如 1.1、1.2 和 2.0 版本)将纳入用户反馈,以完善和增强模型的功能。

Kyutai 的宽松许可旨在鼓励广泛采用和创新,确保不同的受众都能获得 Moshi Chat 的好处。

如何使用 Moshi Chat

用户可以并且被鼓励通过Kyutai网站在线试用Moshi Chat。到达那里后:

  1. 输入您的电子邮件
  2. 点击“加入队列”
  3. 开始说话

无论是讨论日常话题还是探索更复杂的话题,用户都可以自然地与 Moshi Chat 互动,受益于其先进的语音识别和合成功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1905452.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32-USART

本内容基于江协科技STM32视频学习之后整理而得。 文章目录 1. 串口通信协议1.1 通信接口1.2 串口通信1.3 硬件电路1.4 电平标准1.5 串口参数及时序1.6 串口时序 2. USART串口通信2.1 USART简介2.2 USART框图2.3 USART基本结构2.4 数据帧2.5 数据帧-配置停止位2.6 起始位侦测2.…

dell Vostro 3690安装win11 23h2 方法

下载rufus-4.5.exe刻U盘去除限制 https://www.dell.com/support/home/zh-cn/product-support/product/vostro-3690-desktop/drivers dell官网下载驱动解压到U盘 https://dl.dell.com/FOLDER09572293M/2/Intel-Rapid-Storage-Technology-Driver_88DM9_WIN64_18.7.6.1010_A00_01…

图神经网络dgl和torch-geometric安装

文章目录 搭建环境dgl的安装torch-geometric安装 在跑论文代码过程中,许多小伙伴们可能会遇到一些和我一样的问题,就是文章所需要的一些库的版本比较老,而新版的环境跑代码会报错,这就需要我们手动的下载whl格式的文件来安装相应的…

Django之项目开发(二)

目录 一、安装和使用uWSGI 1.1、安装 1.2、配置文件 1.3、启动与停止uwsgi 二、安装nginx 三、Nginx 配置uWSGI 四、Nginx配置静态文件 五、Nginx配置负载均衡 一、安装和使用uWSGI uWSGI 是一个 Web 服务器,可以用来部署 Python Web 应用。它是一个高性能的通用的 We…

Spring源码十七:Bean实例化入口探索

上一篇Spring源码十六:Bean名称转化我们讨论doGetBean的第一个方法transformedBeanName方法,了解Spring是如何处理特殊的beanName(带&符号前缀)与Spring的别名机制。今天我们继续往方法下面看: doGetBean 这个方法…

机械键盘如何挑选

机械键盘的选择是一个关键的决策,因为它直接影响到我们每天的打字体验。在选择机械键盘时,有几个关键因素需要考虑。首先是键盘的键轴类型。常见的键轴类型包括蓝轴、红轴、茶轴和黑轴等。不同的键轴类型具有不同的触发力、触发点和声音。蓝轴通常具有明…

Partisia Blockchain 现已完成第一阶段空投,即将在DeFi领域发力

Partisia Blockchain 是以 MPC 方案为基础的 Layer1 生态,其具备可审计的隐私特性,同时还能保持链的可拓展、高迸发、可互操作以及安全等系列特性,Partisia Blockchain 被认为是目前最具潜力的企业级公链,并且估值高达 16 亿美元。…

身边的故事(十四):阿文的故事:再买房

短短的一年多时间里,阿文仿佛从人生低谷完全走出来了。各种眼花缭乱的操作和处理事情方式让人觉得不可思议,是不是一个人大手大脚花钱惯了,让他重新回到艰苦朴素的日子是不是比死都难受呢?又或者像我这种靠勤勤恳恳的打工人是无法…

博客搭建-图床篇

我们的博客难免少不了图片,图片管理是一个不小的难题。如果我们将图片全部放到我们自己的服务器上,那么带宽就基本上会被图片所占满了,这会导致网站加载很慢(特别是图片加载很慢)。 ‍ 什么是图床 为了解决图片的问…

ansible常见问题配置好了密码还是报错

| FAILED! > { “msg”: “Using a SSH password instead of a key is not possible because Host Key checking is enabled and sshpass does not support this. Please add this host’s fingerprint to your known_hosts file to manage this host.” } 怎么解决&#xf…

计算两种人像之间的相似度

通过调研,目前存在几种能够计算两个人脸相似度的方法: 1.使用结构相似性计算人脸之间的相似度 结构准确性:生成的图片是否保留了原图足够多细节。 (1)结构准确性衡量指标:SSIM/MMSSIM SSIM(结构…

昇思MindSpore学习笔记5-01生成式--LSTM+CRF序列标注

摘要: 记录昇思MindSpore AI框架使用LSTMCRF模型分词标注的步骤和方法。包括环境准备、score计算、Normalizer计算、Viterbi算法、CRF组合,以及改进的双向LSTMCRF模型。 一、概念 1.序列标注 标注标签输入序列中的每个Token 用于抽取文本信息 分词(Word Segment…

3-5 提高模型效果:归一化

3-5 提高模型效果:归一化 主目录点这里 举例 1. 批量归一化 (Batch Normalization, BN) 应用场景: 通常用于图像分类任务,它在训练期间对每个批次的数据进行归一化,以加速收敛并稳定训练过程。 代码示例: import torch import torch.…

【实践分享】深度学习远程连接GPU

目录 前言 一、创建实例 二、上传文件 三、服务器上传 四、运行代码文件 前言 1、使用平台:恒源云 2、教程总结自B站大佬Larry同学发布的教程视频 一、创建实例 通俗:租用一台临时的电脑,电脑可自选GPU型号等,按照项目需…

Linux基础:一. 简单的命令

文章目录 一. 简单的命令1.1 关机1.2 重启1.3 控制台打印工作目录1.4 切换当前目录1.5 列出当前目录中的目录和文件1.6 列出指定目录中的目录和文件1.7 控制台清屏1.8 查看和设置时间1.8.1 查看时间1.8.2 设置时间,需要管理员权限 一. 简单的命令 1.1 关机 comman…

FairJob:促进在线广告系统公平性研究

在人工智能(AI)与人类动态的交汇处,既存在机遇也存在挑战,特别是在人工智能领域。尽管取得了进步,但根植于历史不平等中的持续偏见仍然渗透在我们的数据驱动系统中,这些偏见不仅延续了不公平现象&#xff0…

PingCAP 成为全球数据库管理系统市场增速最快的厂商

近日,Gartner 发布的《Market Share Analysis: Database Management Systems, Worldwide, 2023》(2024 年 6 月)报告显示:“2023 年全球数据库管理系统(DBMS)市场的增长率为 13.4%,略低于去年的…

排序 -- 计数排序以及对排序的总结

到了这篇文章就说明常见的排序我们就快要讲完了,那这篇文章我们就讲一下非比较排序--计数排序。 一、非比较排序 1.基本思想 计数排序又称为鸽巢原理,是对哈希直接定址法的变形应用。 操作步骤: 统计相同元素出现次数 根据统计的结果将序列…

LaTeX教程(014)-LaTeX文档结构(14)

LaTeX教程(014)- LaTeX \LaTeX LATE​X文档结构(14) 2.3.3 multitoc - 将目录设置为多栏 multitoc包的使用方法相当简单,只需要调用这个包,并将要设置为多栏(默认是双栏)的目录指定到包选项中即可。如\usepackage[toc]{multitoc},设置的就是…