Kyutai开源实时语音对话模型Moshi

news2024/9/21 13:49:25

新闻

  1. 法国人工智能实验室Kyutai在巴黎举行的一次活动上推出了能够进行自然交互的对话式人工智能助手Moshi,并计划将其作为开源技术发布。Kyutai表示,Moshi是首款可公开访问的人工智能助手,可实现实时对话,有别于OpenAI的GPT-4o,后者具有类似功能,但尚未推出。Moshi 的独特 "音频语言模型 "架构由一个小团队在六个月内开发完成,它可以直接从音频数据中处理和预测语音,尽管模型规模相对较小,但却实现了低延迟和令人印象深刻的语言技能。
  2. 在 7 月推出 AI 助手 Moshi 之后,Kyutai 现已按照承诺发布了开源模型。该版本包括几个组件:技术报告、Moshi 及其 Mimi 编解码器的权重以及 PyTorch、Rust 和 MLX 中的流式推理代码。
  3. Moshi的技术细节包括三个主要组件:Helium语言模型(拥有70亿参数并在2.1万亿tokens上进行训练)、Mimi神经音频编解码器(能够建模语义和声学信息),以及一种新的多流架构(能够在单独的频道上分别对用户和Moshi的音频进行建模)。Moshi的参数大约为7.69B,Moshiko/ka是Moshi对合成数据进行微调后的变体,分为男女两个声音。这些模型在L4 GPU上实现了约200毫秒的延迟,而内存需求根据精度不同分别为16GB、8GB和4GB VRAM。
  4. Kyutai已经将Moshi的代码、技术报告、模型权重以及流式推理代码进行了开源,可以在GitHub官方仓库和HuggingFace模型库中找到。此外,Moshi还提供了在线体验,用户可以通过访问官方网站进行试用。
  5. Moshi的开源发布,不仅展示了Kyutai对于科技开放和共享的承诺,也预示着这种技术的潜力,可能彻底改变我们与数字世界中的AI交流方式。Moshi的问世对OpenAI构成了直接挑战,尤其是在OpenAI的高级语音模式尚未广泛开放的情况下。Kyutai的快速动作在业界引起了广泛关注,许多人认为这标志着一个新的竞争阶段的开始
  6. 更多信息:
    在这里插入图片描述

Kyutai

  1. Kyutai是一家专注于人工智能开放研究的非营利性研究机构,由iliad集团、CMA CGM集团和Schmidt Futures共同创立于2023年11月,初始资金近3亿欧元。Kyutai的使命是解决现代人工智能的基本挑战,专注于开发包含文本、声音、图像等的大型多模态模型,并致力于发明新的算法来增强这些模型的能力、可靠性和效率。

网友评价

  1. 网友一:同样期待! 端侧场景下的多模态是大势所趋。
  2. 网友二
    在这里插入图片描述
  3. 网友三
    在这里插入图片描述
  4. 网友四
    在这里插入图片描述
  5. 网友五
    在这里插入图片描述
  6. 网友六:是不是未来就能跟ai语音实时聊天了~
  7. 网友七:音频处理模型这么牛,但训练成本可不低,GPU资源消耗肯定是个大问题!

相关地址

  1. 演示demo:https://moshi.chat/
    在这里插入图片描述

  2. git地址:https://github.com/kyutai-labs/moshi
    在这里插入图片描述

  3. 模型集合:https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd
    在这里插入图片描述

  4. 官网:https://www.marktechpost.com/2024/07/03/kyutai-open-sources-moshi-a-real-time-native-multimodal-foundation-ai-model-that-can-listen-and-speak/
    在这里插入图片描述

相关参考

  1. https://new.qq.com/rain/a/20240919A04EYM00

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2152483.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mybatis 和 mybatis-plus

mybatis 配置 1.新建MAVEN项目 2.配置mybatis依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocatio…

基于YOLOv5s的无人机航拍输电线瓷瓶检测(附数据集与操作步骤)

本文主要内容:详细介绍了无人机航拍输电线瓷瓶检测的整个过程&#xff0c;从创建数据集到训练模型再到预测结果全部可视化操作与分析。 文末有数据集获取方式&#xff0c;请先看检测效果 现状 输电线路绝缘瓷瓶的检测主要依赖人工巡检。巡检人员需携带专业设备&#xff0c;攀…

Typora安装和导入导出

Typora安装和导入导出 文章目录 Typora安装和导入导出前言Typora v1.9.5Typora v1.4.7Pandoc 前言 Typora v1.9是最新版, , Typora v1.4是老版本的, 这两个选择一个即可Pandoc可以导入导出word Typora v1.9.5 Typora v1.9.rar, 提取码&#xff1a;tian按ctrl单击鼠标左键打开…

毕业设计选题:基于ssm+vue+uniapp的捷邻小程序

开发语言&#xff1a;Java框架&#xff1a;ssmuniappJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#xff1a;M…

大数据实验一: Linux系统安装和使用

一、实验目的 描述Ubuntu的安装过程&#xff1b;使用命令完成Ubuntu中的基础操作&#xff1b; 二、实验平台 操作系统&#xff1a;window系统&#xff1b;内存&#xff1a;4G以上&#xff1b;硬盘&#xff1a;100GB以上&#xff1b;Virtual Box或者VMware&#xff1b;Ubuntu…

如何用1024张显卡训练一个模型

最近看到知乎一个回答&#xff0c;把千卡训练的难度吹上天了。但其实真正用过千卡就会发现也就那么几个点。于是想写一篇文章简单讲讲。 本文将包括几个部分&#xff1a; 首先我们将讨论千卡训练的难题&#xff0c;以及应该在什么时候使用千卡训练&#xff1b; 接着&#xff…

品牌建设是什么?怎么做好品牌建设?

品牌建设&#xff0c;是每个公司品牌形象树立过程中所做的一系列动作&#xff0c;旨在与目标市场建立情感联系&#xff0c;并在竞争激烈的市场中为企业或产品赢得认同和忠诚度。要做好品牌建设&#xff0c;公司首先要明确自己的品牌定位&#xff0c;然后在通过一些品牌建设策略…

Java调用数据库 笔记06 (修改篇)

1.创建Java的普通class类 2.加载驱动 Class.forName("com.mysql.jdbc.Driver"); 3.驱动管理类调用方法进行连接&#xff0c;得到连接对象 DriverManager.getConnection(url, user, password); 其中设置参数&#xff1a; static final String url "jdbc:my…

2024年上海小学生古诗文大会倒计时一个月:做2024官方模拟题

2024年上海市小学生古诗文大会自由参赛的初赛将于10月19日开始&#xff0c;还有不到一个月的时间。 今天好真题继续带着大家来继续做官方2024年小学生古诗文大会的官方模拟题。 【温馨提示】我给每一道题都独家制作了解析&#xff0c;便于孩子理解和熟记题目背后的知识点&…

【python设计模式6】行为型模式1

目录 责任链模式 观察者模式 责任链模式 责任链模式的内容&#xff1a;使多个对象都有机会处理请求&#xff0c;从而避免请求的发送者和接收者之间的耦合关系。将这些对象连成一条链并沿着这条链传递该请求&#xff0c;直到有一个对象处理它为止。责任链的角色有抽象处理者、…

b2b2c商城系统好用么 多用户商城系统四大盈利模式

商淘云B2B2C商城系统能帮助企业快速搭建企业自己的多用户商城系统&#xff0c;它提供了多种功能&#xff0c;如多商家管理、订单处理、支付模块集成等&#xff0c;适合各种规模的企业。用户界面友好&#xff0c;且支持定制化&#xff0c;能满足不同业务需求。 多用户商城有四大…

【ARM】A64指令介绍及内存屏障和寄存器

A64指令集介绍 ISA : Instruction System Architecture 指令集总结 跳转指令 使用跳转指令直接跳转&#xff0c;跳转指令有跳转指令B&#xff0c;带链接的跳转指令BL &#xff0c;带状态切换的跳转指令BX。 B 跳转指令&#xff0c;跳转到指定的地址执行程序。 BL 带链接的跳…

.NET周刊【9月第3期 2024-09-15】

国内文章 关于.NET在中国为什么工资低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中国开发者的薪资偏低&#xff0c;主要因市场需求、技术栈选择和企业文化等因素所致。历史上&#xff0c;.NET曾因微软的闭源策略发展受限&#xff0c;尽管后来推出了跨平…

传输层协议 —— TCP协议(下篇)

目录 0.前言 1.流量控制 什么是流量控制&#xff1f; 如何做到流量控制&#xff1f; 窗口探测 PSH标志位与流量控制 一个问题 2.滑动窗口 为什么要有滑动窗口&#xff1f; 滑动窗口在哪&#xff1f; 滑动窗口到底是什么&#xff1f; 滑动窗口的工作原理 滑动窗口中…

Java——认识String类

在 C 语言中已经涉及到字符串了&#xff0c;但是在 C 语言中要表示字符串只能使用字符数组或者字符指针&#xff0c;可以使用标准库提供的字符串系列函数完成大部分操作&#xff0c;但是这种将数据和操作数据方法分离开的方式不符合面相对象的思想&#xff0c;而字 符串应用又非…

【射频通信电子线路基础第五讲】噪声、噪声系数和灵敏度

一、噪声 确定信号对应的是干扰&#xff0c;而随机信号对应的是噪声&#xff0c;噪声又分为系统内部的噪声和外部对系统的噪声。 1、电阻热噪声 &#xff08;1&#xff09;无源有耗网络的热噪声 &#xff08;2&#xff09;热噪声通过线性网络 &#xff08;3&#xff09;等效噪…

酷炫航模飞手飞行技术详解

在无人机与航模的广阔世界里&#xff0c;成为一名技艺高超的飞手&#xff0c;不仅需要对飞行器有深入的理解&#xff0c;还需掌握一系列精湛的飞行技巧。本文将从基础飞行技巧、特技飞行动作、FPV第一人称视角、安全飞行要点、设备调试与维护&#xff0c;以及实战应用与拓展六个…

2024 “华为杯” 中国研究生数学建模竞赛(E题)深度剖析|高速公路应急车道启用建模|数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时&#xff0c;你是否曾经感到茫然无措&#xff1f;作为2022年美国大学生数学建模比赛的O奖得主&#xff0c;我为大家提供了一套优秀的解题思路&#xff0c;让你轻松应对各种难题&#xff01; CS团队倾注了大量时间和心血&#xff0c;深入挖掘解…

深度学习--从零实现线性回归【数据流水线+模型+损失函数+小批量梯度下降】

代码来源于动手学深度学习pytorch版&#xff0c;感兴趣的同学可以自行购买观看。本节内容带着大家了解深度学习框架底层实现逻辑&#xff0c;如何自定义模型&#xff0c;自定义层或自定义损失函数&#xff0c;方便大家后续使用深度学习框架时候能够明白一些基本函数的实现过程&…

C语言——————结构体

前言&#xff1a; 我们都已经学了很多int char …等类型还学到了同类型元素构成的数组&#xff0c;以及取上述类型的指针&#xff0c;在一些小应用可以灵活使用&#xff0c;然而&#xff0c;在实际问题中有时候我们需要几种数据类型一起来修饰某个变量。 例如一个学生的信息就…