比OpenAI的Whisper快50%,最新开源语音模型

news2024/9/19 9:36:09

生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa,推理效率比OpenAI开源的Whisper快50%。

aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法,允许模型在每个推理步骤中预测多个token,同时不会损失性能和识别准确率。

开源地址:

https://github.com/aiola-lab/whisper-medusa

huggingface:

https://huggingface.co/aiola/whisper-medusa-v1

传统的Transformer架构在生成序列时,是遵循逐个token的顺序预测过程。这意味着在生成新序列时,模型每次只能预测下一个token,然后将这个预测的token加入到序列中,再基于更新后的序列预测下一个token。

这虽然能够确保生成序列的连贯性和上下文相关性,但也有一个非常明显的缺陷——极大限制了模型的推理效率

此外,由于每次只能处理一个 token ,模型难以捕捉到数据中的长程依赖关系,可能会忽略一些重要的全局信息,从而影响模型的整体性能和准确性。

 

 而Whisper-Medusa使用了10头的多注意力机制, 能各自独立地计算注意力分布并行地处理输入,然后将各自的输出通过拼接的方式组合起来,形成一个多维度的向量。

随后向量被送入全连接层进行进一步的处理,以生成最终的token预测。这种并行的数据处理方式不仅加快了模型的推理效率,还增加了模型的表达能力,因为每个注意力头都可以专注于序列的不同子集,捕捉到更丰富的上下文信息。

为了使多头注意力机制在Whisper-Medusa模型中更高效地运行,aiOla采用了弱监督的方法,在训练过程中冻结了原Whisper模型的主要组件,使用该模型生成的音频转录作为伪标签来训练额外的token预测模块

使得模型即便没有大量手动人工标注数据的情况下,依然能够学习到有效的语音识别模式。

此外在训练过程中,Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。一方面,模型需要确保预测的token序列与实际转录尽可能一致;

另一方面,通过多头注意力机制的并行预测,模型被鼓励在保证精度的前提下,尽可能地加快预测效率。

aiOla使用了学习率调度、梯度裁剪、正则化等多种方法,确保模型在训练过程中能够稳定收敛,同时避免过拟合性。

业务场景方面, Whisper-Medusa能理解100多种语言,用户可以开发音频转录、识别等多种应用,适用于翻译、金融、旅游、物流、仓储等行业。

aiOla表示,未来会将Whisper-Medusa的多注意力机制扩展至20个头,其推理效率将再次获得大幅度提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2044892.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[000-01-010].第02节:Spring基础开发环境搭建

1.1.新建空项目: 1.新建Empty项目,主要是为了方便之后把各个模块的代码统一的放在一起: 2.设置JDK: 3.设置maven版本: 1.2.建立第一个Spring项目模块: 1.新建模块: 2.配置依赖&#xff…

gitlab自动部署是什么 gitlab自动部署如何进行操作

在现代软件开发流程中,自动化部署是提高效率和确保软件质量的关键环节。GitLab作为一个强大的DevOps平台,提供了完整的自动部署工具,帮助开发团队实现代码从编写到生产的无缝转换。本文将详细解析GitLab的自动部署功能是什么,如何…

走向绿色:能源新选择,未来更美好

当前,全球范围内可再生能源正经历着从辅助能源向核心能源的深刻转型,绿色能源日益渗透至居住、出行、日常应用等多个领域,深刻影响着我们的生活方式,使我们能够更加充分地体验清洁能源所带来的优质生活。 一、绿色能源与“住” …

Fluent学习笔记——催化转化器内流场仿真(含多孔介质)

参考课程: 标题:【ANSYS Fluent教程|流体仿真基础入门105讲(官方最新案例讲解)】 作者:仿真秀APP 选集:P35-P40https://www.bilibili.com/video/BV1vT4y1z7on?p35&vd_source7e977d0187273d77005659cdd…

数据结构(03):线性表的逻辑结构

线性表的逻辑结构 在谈论逻辑结构的时候,我们不讨论具体数据在物理内存中的存储细节,而只关注线性表的逻辑结构。数据结构系列文章02介绍过常见的逻辑结构有:集合、线性表结构、树结构和图结构等。 A.What(什么是线性表&#xff0…

什么是凤凰雪球期权?和雪球期权有什么区别?

凤凰结构,和经典雪球结构类似,属于障碍期权的一种。凤凰结构中包括敲入事件,也包括敲出事件,最后的收益取决于挂钩标的走势和敲入、敲出事件发生的时间,不过在收益计算规则上与雪球有所不同,下文为大家科普…

deepin V23 Release 安装与功能介绍!!!

原文链接:deepin V23 Release 安装与功能介绍!!! Hello,大家好啊!2024年8月15日,deepin正式发布了最新版操作系统——deepin V23。今天,我将为大家带来一篇关于deepin V23的安装及功…

python完整爬取工商数据代码实例+数据展示

在数据爬虫这个领域,我早已不再是新手,而是一位经验丰富的老手。长期以来,我通过不断实践和探索,掌握了一系列高效的爬虫技术,特别是在应对复杂网页和动态数据时,更是积累了独特的经验。 初识爬虫&#xf…

SAP BRIM用于应收账款AR收入中台

SAP BRIM(Billing and Revenue Innovation Management)是SAP提供的一个综合性解决方案,旨在帮助企业高效管理计费和收入流程。它与SAP ERP系统集成,提供端到端的功能,简化计费流程,自动化收入确认&#xff…

【云原生】Ingress控制器超级详解

Ingress资源对象 文章目录 Ingress资源对象一、Ingress1.1、Ingress是什么?1.2、Ingress术语1.3、Ingress类型 二、Ingress详细2.1、部署Nginx-Ingress控制器2.2、最小Ingress资源2.3、Ingress规则 三、一个域名多个访问路径多SVC四、多域名Ingress五、转发到默认Se…

基于Java+SpringBoot+Vue的网上购物商城系统研发

基于JavaSpringBootVue的网上购物商城系统研发 前言 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式&#x1f3…

排序算法【希尔排序】

一、原理 &#xff08;1&#xff09;步长为4时候的插入排序 &#xff08;2&#xff09;步长为2的时候的插入排序 &#xff08;3&#xff09;步长为1的时候的插入排序 二、代码如下所示&#xff1a; #ifndef __TEST_H__ #define __TEST_H__ #include <string.h> #include…

【IEEE出版,华中科技大学主办】2024年电气工程自动化与信息处理国际会议(EEAIP 2024,9月20-22)

2024年电气工程自动化与信息处理国际会议&#xff08;EEAIP 2024&#xff09;作为第四届能源、动力与电气工程国际学术会议&#xff08;EPEE 2024&#xff09;的分会场&#xff0c;将于2024年9月20-22日在中国武汉举行。 本届主会&#xff08;EPEE 2024&#xff09;由华中科技大…

【Python - 爬虫】SSLError 错误:处理 HTTPS 请求中的 SSLError 问题

文章目录 一、SSLError 错误概述1. 错误的产生2. 常见的错误信息 二、SSLError 的可能原因分析1. 代理配置问题2. 网络传输问题3. 证书问题 三、解决方案与最佳实践1. 配置代理2. 通过系统代理3. 使用 requests.Session 管理请求4. 临时禁用代理 四、其他解决方法1. 更新证书2.…

4.4 数据查询语言(DQL):复杂查询与连接操作

欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;欢迎订阅相关专栏&#xff1a; 工&#x1f497;重&#x1f497;hao&#x1f497;&#xff1a;野老杂谈 ⭐️ 全网最全IT互联网公司面试宝典&#xff1a;收集整理全网各大IT互联网公司技术、项目、HR面试真题.…

【Redis】Redis典型应用-分布式锁

目录 什么是分布式锁&#xff1f; 分布式锁的基础实现 引入过期事件 引入校验ID 引入lua 引入watch dog&#xff08;看门狗&#xff09; 引⼊ Redlock 算法 什么是分布式锁&#xff1f; 在⼀个分布式的系统中, 也会涉及到多个节点访问同⼀个公共资源的情况. 此时就需要…

访非洲 助公益 促和平 朱共山妻子杨燕女士勇担社会责任

作为协鑫集团董事长朱共山先生的夫人&#xff0c;杨燕女士一直以其卓越的社会责任感和对公益事业的热忱著称。近些年&#xff0c;杨燕女士前往非洲访问&#xff0c;旨在加强中非之间的友好交流&#xff0c;支持我国传统书画事业发展&#xff0c;并促进地区的和平与稳定。朱共山…

AI大模型入门基础教程(非常详细),AI大模型入门到精通,收藏这一篇就够了!

什么是 AI大模型&#xff1f; AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。 这些模型通常具有高度的准确性和泛化能力&#xff0c;可以应用于各种领域&#xff0c;如自然语言处理、图像识别、语音识别等。 为什么要学AI大模型&#xff1f; 2024人工…

【Hot100】LeetCode—189. 轮转数组

目录 1- 思路自定义 reverse 翻转函数 2- 实现⭐189. 轮转数组——题解思路 3- ACM 实现 原题链接&#xff1a;189. 轮转数组 1- 思路 自定义 reverse 翻转函数 2- 实现 ⭐189. 轮转数组——题解思路 class Solution {public void rotate(int[] nums, int k) {k % nums.lengt…

瑞友科技项目经理认证负责人杨文娟受邀为第四届中国项目经理大会演讲嘉宾︱PMO评论

全国项目经理专业人士年度盛会 北京瑞友科技股份有限公司项目经理认证负责人杨文娟女士受邀为PMO评论主办的全国项目经理专业人士年度盛会——2024第四届中国项目经理大会演讲嘉宾&#xff0c;演讲议题为“瑞友科技项目经理人才培养体系落地实践”。大会将于10月26-27日在北京举…