aiOla推出超快 “多头 “语音识别模型,击败OpenAI Whisper

news2024/12/24 21:05:34

在这里插入图片描述
今天,以色列人工智能初创公司 aiOla 宣布推出一种新的开源语音识别模型,其速度比 OpenAI 著名的 Whisper 快 50%。

该模型被正式命名为 Whisper-Medusa,它建立在 Whisper 的基础上,但使用了一种新颖的 "多头关注 "架构,一次预测的标记数量远远超过 OpenAI 的产品。该模型的代码和权重已根据 MIT 许可在 Hugging Face 上发布,允许研究和商业使用。

"aiOla的研究副总裁吉尔-赫兹(Gill Hetz)告诉VentureBeat说:"通过开源发布我们的解决方案,我们鼓励社区内的进一步创新与合作,随着开发人员和研究人员对我们的工作做出贡献并在此基础上进行改进,我们的速度会得到更大的提高和完善。

这项工作可以为复合人工智能系统铺平道路,该系统几乎可以实时理解和回答用户提出的任何问题。

在这里插入图片描述

aiOla Whisper-Medusa 的独特之处是什么?

即使在基础模型能够产生多样化内容的时代,高级语音识别仍然具有很强的现实意义。这项技术不仅正在推动医疗保健和金融科技等领域的关键功能–帮助完成转录等任务,而且还在为功能强大的多模态人工智能系统提供动力。去年,该领域的领导者 OpenAI 通过开发自己的 Whisper 模型开始了这一征程。它将用户音频转换成文本,让 LLM 处理查询并提供答案,再将答案转换回语音。

由于 Whisper 能够几乎实时地处理不同语言和口音的复杂语音,它已成为语音识别领域的黄金标准,每月下载量超过 500 万次,并为数以万计的应用程序提供支持。

但是,如果一个模型能比 Whisper 更快地识别和转录语音呢?这就是aiOla新推出的Whisper-Medusa产品所要实现的目标–为语音到文本的无缝转换铺平道路。

为了开发 Whisper-Medusa,该公司修改了 Whisper 的架构,增加了多头注意力机制–众所周知,该机制允许模型通过并行使用多个 “注意力头”,共同关注来自不同位置的不同表示子空间的信息。 结构的改变使模型能够每次预测十个词组,而不是标准的一次预测一个词组,最终使语音预测速度和生成运行时间提高了 50%。

在这里插入图片描述
更重要的是,由于 Whisper-Medusa 的主干系统建立在 Whisper 的基础上,因此速度的提高并不会以性能的降低为代价。这款新产品转录文本的准确度与原来的 Whisper 不相上下。Hetz 指出,他们是业内首家成功将该方法应用于 ASR 模型并向公众开放以进一步研究和开发的公司。

"提高 LLM 的速度和延迟比自动语音识别系统要容易得多。由于处理连续音频信号和处理噪音或口音的复杂性,编码器和解码器架构面临着独特的挑战。他说:"我们通过采用新颖的多头注意力方法来应对这些挑战,从而使模型的预测速度提高了近一倍,同时保持了 Whisper 的高准确度。

如何训练语音识别模型?

在训练 Whisper-Medusa 时,aiOla 采用了一种称为弱监督的机器学习方法。作为其中的一部分,它冻结了 Whisper 的主要组件,并使用模型生成的音频转录作为标签来训练额外的标记预测模块。

赫兹告诉 VentureBeat,他们最初使用的是 10 头模型,但很快就会扩展到更大的 20 头版本,能够一次预测 20 个标记,从而在不降低准确性的情况下加快识别和转录速度。

"我们选择对模型进行训练,以便每次预测 10 个词组,从而在保持准确性的同时大幅提高了速度,但同样的方法也可用于在每一步中预测任意数量的词组。研究副总裁解释说:"由于 Whisper 模型的解码器是一次性处理整个语音音频,而不是逐段处理,因此我们的方法减少了多次处理数据的需要,有效地加快了速度。

当被问及是否有公司可以提前使用 Whisper-Medusa 时,Hetz 没有多说。不过,他也指出,他们已经在真实的企业数据使用案例中测试了这一新颖的模型,以确保其在真实场景中的准确表现。最终,他相信识别和转录速度的提高将加快语音应用的周转时间,并为提供实时响应铺平道路。想象一下,Alexa 能在几秒钟内识别您的命令并返回预期的答案。

"任何涉及实时语音到文本功能的解决方案,如对话语音应用中的解决方案,都将使业界受益匪浅。个人和公司可以提高生产率,降低运营成本,并更及时地传送内容,"Hetz 补充说。

代码

Github: https://github.com/aiola-lab/whisper-medusa

import torch
import torchaudio

from whisper_medusa import WhisperMedusaModel
from transformers import WhisperProcessor

model_name = "aiola/whisper-medusa-v1"
model = WhisperMedusaModel.from_pretrained(model_name)
processor = WhisperProcessor.from_pretrained(model_name)

path_to_audio = "path/to/audio.wav"
SAMPLING_RATE = 16000
language = "en"
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

input_speech, sr = torchaudio.load(path_to_audio)
if sr != SAMPLING_RATE:
    input_speech = torchaudio.transforms.Resample(sr, SAMPLING_RATE)(input_speech)

input_features = processor(input_speech.squeeze(), return_tensors="pt", sampling_rate=SAMPLING_RATE).input_features
input_features = input_features.to(device)

model = model.to(device)
model_output = model.generate(
    input_features,
    language=language,
)
predict_ids = model_output[0]
pred = processor.decode(predict_ids, skip_special_tokens=True)
print(pred)

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1988171.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么企业越来越看重懂管理的网络安全人才?

说实话,要是几年前有人跟我说网安人才还得懂管理,我可能会嗤之以鼻。网安不就是搞技术的吗?整天跟漏洞、防火墙、IDS打交道,为啥又扯到管理了? 但是仔细一想,好像时代确实变了。 由于现在的就业局势紧迫&a…

通过高德JS API 实现呼吸点

效果图: 核心代码: <script lang="ts" setup>import { onMounted, onUnmounted, ref } from vue;import AMapLoader from @amap/amap-jsapi-loader;import redImage from @/assets/images/red.png;import orangeImage from @/assets/images/orange.png;impo…

免费的剪辑软件稍微变味了!洞见满分作文:立秋,沉淀自己——早读(逆天打工人爬取热门微信文章解读)

8U&#xff1a;钓鱼调到这玩意怎么办呢&#xff1f; 引言Python 代码第一篇 洞见 立秋&#xff0c;沉淀自己第二篇 免费的剪辑软件稍微变味了结尾 引言 昨天文章的数据一般 还望觉得有用的多点点赞哈 我是觉得 既然我们有理想 那么就应该多聚集有共同理想的人&#xff01; 有主…

数据库表水平分割和垂直分割?

0.数据库表的水平分割和垂直分割是两种常见的数据库优化技术&#xff0c;‌它们分别针对不同的场景和需求进行数据表的拆分。‌ 1. 水平分割&#xff08;‌Horizontal Splitting&#xff09;‌主要是按照记录进行分割&#xff0c;‌即不同的记录被分开保存在不同的表中&#x…

Python面向对象编程之多重继承和MRO深入解析

概要 Python是一种面向对象的编程语言,其类继承机制为开发者提供了强大的工具来构建复杂的系统。多重继承允许一个类从多个基类继承属性和方法,而方法解析顺序(MRO)决定了在多重继承情况下方法的调用顺序。本文将详细介绍Python中的多重继承和方法解析顺序,涵盖基本概念、…

[MRCTF2020]Ezpop

[MRCTF2020]Ezpop 题目是pop&#xff0c;考的其实就是pop链&#xff0c;可以自己先学学&#xff0c;啥也不会QAQ php反序列化之pop链_pop3.phpwelcome-CSDN博客 POP 面向属性编程(Property-Oriented Programing) 常用于上层语言构造特定调用链的方法&#xff0c;与二进制利用…

sql注入复现(1-14关)

目录 第一关&#xff08;字符型注入&#xff09; 第二关&#xff08;数字型注入&#xff09; 第三关&#xff08;闭合方式不同&#xff09; 第四关&#xff08;用双引号闭合&#xff09; 第五关&#xff08;不会数据回显&#xff09; 第六关&#xff08;闭合方式不同双引…

Mac角色扮演游戏:仙剑奇侠传四 for Mac v1.1 中文移植版

仙剑奇侠传四游戏的背景设定在十九年前&#xff0c;琼华派利用望舒和羲和双剑网缚妖界&#xff0c;引发人妖大战。游戏的主角是云天河&#xff0c;他在青鸾峰长大&#xff0c;与韩菱纱、柳梦璃和慕容紫英一起踏上了寻仙之路。在这个过程中&#xff0c;他们遇到了各种挑战&#…

事件驱动架构-七巧低代码入门01

事件驱动架构&#xff08;Event-Driven Architecture&#xff0c; EDA&#xff09;是一种软件架构模式&#xff0c;它强调系统内各个组件之间通过事件或消息进行通信和协作。在事件驱动架构中&#xff0c;系统的各个部分&#xff08;服务、组件等&#xff09;不直接调用彼此的方…

基于深度学习的大规模MIMO信道状态信息反馈

MIMO系统 MIMO系统利用多个天线在发送端和接收端之间建立多条独立的信道&#xff0c;从而使得同一时间可以传输多个数据流&#xff0c;从而使得同一之间可以传输多个数据流&#xff0c;提高数据传输速率。 优势 增加传输速率和容量&#xff0c;提高信号覆盖范围和抗干扰能力…

关于keil程序无法进入main函数问题

情况&#xff1a;之前烧写没问题&#xff0c;不然再次烧写的稍后显示boot损坏。 原因&#xff1a;发现kill掉所有断点再编译会导致bootloader失效 所以编译的时候&#xff0c;如果没有断点不要去执行1按钮 kill 断点&#xff0c;否则boot会失效&#xff0c;进不去main函数 解决…

物联网井盖-智能井盖-旭华智能

在智慧城市的大背景下&#xff0c;每一个细节都可能成为改变城市的契机。今天&#xff0c;我们就来聊聊那些不起眼却极其重要的城市守护者——物联网智慧井盖。它们不仅为城市管理带来了前所未有的便捷&#xff0c;也为环保事业贡献了一份力量。 什么是物联网智慧井盖&#xf…

【Foundation】(五)transformers之Evaluate

文章目录 0、介绍1、基本使用2、加载评估函数3、查看函数说明4、评估指标计算——全局计算5、评估指标计算——迭代计算6、多个评估指标计算7、评估结果可视化 0、介绍 简单易用的机器学习模型库&#xff0c;只需要一行代码便可加载任务任务的评估函数 1、基本使用 查看支持的…

SAP MM学习笔记 - 豆知识03 - 安全在库和最小安全在库,扩张物料的保管场所的几种方法,定义生产订单的默认入库保管场所,受注票中设定禁止贩卖某个物料

上一章讲了一些MM模块的豆知识。 - MR21 修改物料原价 - MM02 修改基本数量单位/评价Class - MMAM 修改物料类型/评价Class SAP MM学习笔记 - 豆知识02 - MR21 修改物料原价&#xff0c;MM02 修改基本数量单位/评价Class&#xff0c;MMAM 修改物料类型/评价Class-CSDN博客 …

武汉流星汇聚:亚马逊市场份额霸榜全球,强大实力引领跨境新纪元

在当今这个瞬息万变的电商时代&#xff0c;市场占有率无疑是衡量一个平台成功与否的关键指标。它不仅关乎平台的行业地位与竞争力&#xff0c;更是其盈利能力与未来潜力的直接体现。在众多电商巨头中&#xff0c;亚马逊以其卓越的表现和广泛的影响力&#xff0c;稳居全球电商市…

使用Python将Word文档转换为PNG图片

在这篇博客中&#xff0c;我将介绍一个使用Python编写的小工具&#xff0c;它能够将指定文件夹中的所有Word文档&#xff08;.doc和.docx格式&#xff09;转换为PNG图片。这个工具基于wxPython库构建图形用户界面&#xff0c;并结合了win32com和PyMuPDF库实现文档格式的转换。接…

JAVA WEB初步实验

Spring应用开发环境准备 安装配置Spring应用开发环境 熟悉IntelliJ IDEA开发工具 打开idea工具&#xff0c;创建普通Java工程 配置普通Java工程运行环境 得到基本的Java运行环境配置正常 修改pom.xml文件&#xff0c;搭建Spring IOC运行环境 更新pom文件 新建User、TestSpr…

部署Springboot + Vue 项目到远程服务器Windows10系统的详细配置

远程服务器操作系统为Windows系统&#xff0c;Java程序环境&#xff0c;Maven环境都安装有&#xff0c;Mysql ,Redis等都有的前提下 1. mysql数据库导入&#xff0c;非常简单很好操作&#xff0c;这里省略。。比如用HeidiSql 或者Navicat 工具导入数据库 2. 后端javaSpringb…

医疗器械注册资源宝库数屿医械官方平台!

医学影像设备市场作为医疗器械领域的佼佼者&#xff0c;技术门槛高且规模庞大&#xff0c;2021年全球规模达458亿美元&#xff0c;预计2022年逼近500亿美元&#xff0c;增长动力源自技术革新与临床需求攀升。中国市场亦不甘落后&#xff0c;受政策驱动与市场需求双重提振&#…

WPF学习(8)- Button按钮

1. 用法解析 Button因为继承了ButtonBase&#xff0c;而ButtonBase又继承了ContentControl&#xff0c;所以&#xff0c;Button可以通过设置Content属性来设置要显示的内容。例如 <Button Content"确定"/>我们使用Button的时机&#xff0c;通常是鼠标点击事件…