8人团队历时半年打造开源版GPT-4o,零延迟演示引爆全网!人人可免费使用!

news2025/1/17 15:52:51

目录

01 Moshi

02 背后技术揭秘




GPT-4o可能要等到今年秋季才会公开。

然而,由法国8人团队开发的原生多模态Moshi,已经达到了接近GPT-4o的水平,现场演示几乎没有延迟,吸引了大量AI专家的关注。


令人惊讶的是,开源版的GPT-4o来得如此之快!
 

01 Moshi

昨晚,来自法国AI实验室kyutai的团队展示了首个实时原生多模态Moshi,效果媲美5月发布的GPT-4o。

例如,在一个演示中,Moshi作为助手帮助Alexa小哥进行太空探索,让人仿佛置身《流浪地球》中的Moss情景。


没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard




值得注意的是,这个由8人团队在仅仅半年的时间里,从零开始完成了模型的训练。


Moshi目前处于实验原型阶段,设计目的是理解和表达情感,支持听、说、看三种功能,并能够用70种不同的情绪和风格说话,甚至随时打断。

其最突出的能力是可以同时处理两个音频流,实现“听”和“说”同步进行。

这种实时互动的实现基于文本和音频混合的联合预训练,使用Helium中的合成文本数据,训练出70亿参数的模型。



Moshi的端到端延迟最低可达160ms。最小版本的Moshi还可以在笔记本电脑或消费级GPU上运行。

许多人认为这是最接近GPT-4o的模型,Moshi的惊艳表现赢得了LeCun、Karpathy等AI大佬的转发。

Moshi这个名字来源于日语中的“もしもし”(接电话时的问候语)。接下来,Patrick邀请了四位同事上台展示Moshi的强大语音能力。

02 背后技术揭秘


Moshi在技术上有哪些创新,才能具备对标GPT-4o的实力?随后,同事们介绍了当前语音AI的一些限制,例如“听”使用自动语音识别技术,“想”使用大模型,“说”使用文本-语音技术。

这些分门别类的技术会导致语音AI出现较多延迟。


他认为,最明显的事实是——GPT-4o的语音功能尚未推出,而Moshi已在发布后上线。


此外,他还提到了几个值得关注的技术要点:

  • 像kyutai这样的小型团队在6个月内构建出Moshi,表明其训练流程和架构非常简单且具有巨大的可扩展性,合成数据也起到了重要作用。
     
  • Moshi专注于本地设备的部署,这将使其迅速流行并无处不在。相比之下,像GPT这样的模型由于盈利需求,不太可能推动本地运行。
     
  • 在保持答案质量达到Llama 8B或以上水平的同时,将延迟降低到300ms以下是实现互动的关键因素。

那么,如何将这些步骤整合到单一的语音模型中呢?这正是kyutai的目标所在。

多模态Moshi不仅能够听和说,同时在语音输出时进行思考。

理论上,Moshi可以实现最低延迟为160毫秒,创造了世界新纪录。

该模型采用了I/O双通道系统,同时生成文本token和音频编解码器。

具体而言,语言模型Helium-7B首先进行从头训练,然后与文本和语音编码器联合训练。

语音编解码器基于Kyutai内部的Mimi模型,具有高达300倍的压缩系数,能够捕捉语义和声学信息。

在Moshi的微调过程中,采用了涉及100k个"口语式"合成对话的高度详细的文本记录,这些记录带有情感和风格注释,均由Helium模型转录而来。

此外,模型的语音训练还使用了另一个独立的TTS模型生成的合成数据。

模型还利用专业配音演员Alice录制了20小时的音频,并基于此进行微调。

研究人员指出,Moshi设计具有适应性,只需不到30分钟的音频即可完成微调。

在部署方面,Moshi托管在Scaleway和抱抱脸上,能够处理两个批次大小为24 GB VRAM的任务。

此外,它还支持多种后端,包括CUDA、KV缓存,并能通过Rust优化推理代码。

为确保音频安全性,Kyutai将为生成的音频加上水印,并在数据库中对其进行索引。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

CTO透露GPT-5内幕,OpenAI 以36亿美元收购数据库初创公司

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1895031.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录算法训练营第69天:图论7[1]

代码随想录算法训练营第69天:图论7 109. 冗余连接II 卡码网题目链接(ACM模式)(opens new window) 题目描述 有向树指满足以下条件的有向图。该树只有一个根节点,所有其他节点都是该根节点的后继。该树除了根节点之外的每一个节…

AI大模型:解锁未来职业竞争力的金钥匙

AI元年:大模型的革新力量 随着ChatGPT的震撼登场,2023年被标记为AI元年,大模型以其前所未有的影响力,重塑我们的日常生活和工作方式。从日常的问答对话到复杂的编程辅助,乃至创意图像生成,AI大模型展现出超…

怎么还有人分不清路由器、交换机、光猫、WiFi……你真的都了解吗?

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部 下午好,我的网工朋友。 讲某个具体技术,说不定你头头是道,但关于路由器、交换机、光猫、WiFi的知识细节&…

AI PC(智能电脑)技术分析

一文看懂AI PC(智能电脑) 2024年,英特尔、英伟达等芯片巨头革新CPU技术,融入AI算力,为传统PC带来质的飞跃,引领智能计算新时代。 2024年,因此被叫作人工智能电脑(AI PC)…

我尝试了新的 OpenAI 连接器,真太棒了!

我们上个月发布的新连接器将 Open AI 集成简化为仅需几步操作。我实现了聊天完成 API(有和没有上下文),并想编写一个关于其工作原理的快速教程。 先决条件 与往常一样,在进入主要构建之前我们需要做一些准备工作。你会需要&…

FFT 简单基础(matlab

使用 fs 进行采样,进行 N点FFT 选择显示0~N/21点的幅值 横坐标对应频率计算公式: fs * n / N 举个梨子: 频率2kHz采样1s,得到2000个点的序列y(n) 对序列y(n)做4096点的FFT 幅值响应对应的横坐标频率…

隐私信息管理体系认证:守护个人信息,筑牢隐私防线

在数字化浪潮汹涌的当下,个人信息安全问题愈发凸显其重要性。随着互联网技术的飞速发展,我们的隐私信息如同裸露在阳光下的沙滩,稍有不慎就可能被不法分子窃取或滥用。因此,构建一个完善的隐私信息管理体系,成为了保障…

实现第一个神经网络

PyTorch 包含创建和实现神经网络的特殊功能。在本节实验中,将创建一个简单的神经网络,其中一个隐藏层开发一个输出单元。 通过以下步骤使用 PyTorch 实现第一个神经网络。 第1步 首先,需要使用以下命令导入 PyTorch 库。 In [1]: import…

免费通配符/泛域名SSL证书快速申请攻略

在互联网时代,网站安全的重要性日益凸显,而SSL证书作为保障网站安全的关键工具,其重要性不言而喻。对于拥有多个子域名的网站来说,通配符/泛域名SSL证书更是必不可少的安全保障。下面将介绍如何申请免费的通配符/泛域名SSL证书。 …

EXTI寄存器,AFIO的简洁,EXTI配置的流程

一,AFIO简介 AFIO是Alternate Function Input/Output 的缩写,表示复用功能IO,主要用于实现IO端口的复用功能以及外部中断的控制 STM32外设有很多I/O以及内置外设(如12C,ADC,ISP,USART等)。为节省引出管脚的…

案例分享:数据集市搭建方案中集成SQLFlow数据血缘分析工具

本文中描述的数据集市搭建方案是一家跨国公司在AWS平台上的具体实践案例。我公司参与其中的数据血缘部分的建设,SQLFlow数据血缘分析工具在该方案中帮助用户实现了数据血缘分析。 用户使用Redshift 数据库仓库进行数据集市开发。从各种数据源提取数据,并…

【电路笔记】-B类放大器

B类放大器 文章目录 B类放大器1、概述2、B类放大器介绍3、推挽式配置4、限制交叉失真5、B类放大器效率6、总结1、概述 我们在之前的文章中已经知道,A 类放大器的特点是导通角为 360,理论最大效率为 50%。 在本文中,我们将详细介绍另一类放大器,称为B类放大器,它是为解决A…

CAN总线Bus-off机制介绍及恢复策略说明

CAN总线Bus-off机制介绍及恢复策略说明 Bus-off产生机制 CAN通信Bus-off即总线关闭态,一个CAN节点有三种状态,主动错误状态、被动错误状态以及总线关闭态。如下图可知进入Bus-off的原因是因为发送错误大于255,在此状态节点不能收发报文。 以上三种错误状态标识发生故障的严…

让GNSSRTK不再难【第17讲 RTK定位技术原理-站间单差浮点解--第1部分】

第17讲 RTK定位技术原理-站间单差浮点解 RTK技术其实就是在RTD技术的基础上增加载波观测值的使用。由于伪距的误差在分米量级,即使我们通过站间单差消除掉绝大部分的伪距误差,但受限于伪距的精度,我们也只能达到分米量级的定位水平。 但载波…

【Vue】使用html、css实现鱼骨组件

文章目录 组件测试案例预览图 组件 <template><div class"context"><div class"top"><div class"label-context"><div class"label" v-for"(item, index) in value" :key"index">…

启动Nuxt-hub-starter: Failed to initialize wrangler bindings proxy write EOF

重新安装 node.js 这样做可以确保下载到了适合的 Windows 框架、Chocolatey&#xff08;一款Windows包管理工具&#xff09;、Python 等资源。 这个错误与Node版本、pnpm/yarn 的版本无关&#xff01; Node.js — Download Node.js (nodejs.org)

实证分析影响关系研究40+回归模型汇总整理

研究自变量X与因变量Y的影响关系时&#xff0c;回归模型是常用的方法。但是不同的回归模型其适用条件不同、种类繁多。SPSSAU目前提供了40多种不同的回归模型&#xff0c;如何选择适合的模型成为关键问题&#xff1b;此外&#xff0c;如何有效分析回归模型的结果也是研究中的重…

智能座舱相关问答

一、基本概念与理解 智能座舱的定义 回答&#xff1a;智能座舱是指在现代交通工具中&#xff0c;通过应用智能技术&#xff0c;实现对乘客座舱环境和服务进行智能化管理和优化的系统。它不仅提供更加舒适的乘坐体验&#xff0c;还能通过精确的数据分析和实时监控&#xff0c;提…

在Stimulsoft 报告中连接来自 MySQL 的数据

Stimulsoft Ultimate &#xff08;原Stimulsoft Reports.Ultimate&#xff09;是用于创建报表和仪表板的通用工具集。该产品包括用于WinForms、ASP.NET、.NET Core、JavaScript、WPF、PHP、Java和其他环境的完整工具集。无需比较产品功能&#xff0c;Stimulsoft Ultimate包含了…

软件测试最全面试题及答案整理(2024最新版)

1、你的测试职业发展是什么? 测试经验越多&#xff0c;测试能力越高。所以我的职业发展是需要时间积累的&#xff0c;一步步向着高级测试工程师奔去。而且我也有初步的职业规划&#xff0c;前3年积累测试经验&#xff0c;按如何做好测试工程师的要点去要求自己&#xff0c;不断…