​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型

news2025/1/4 14:14:33

内容来源:@xiaohuggg

Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型

​该模型是由Hugging Face团队开发,它在Whisper核心功能的基础上进行了优化和简化,体积缩小了50%。速度提高了6倍。并且在分布外评估集上的字错误率 (WER) 不超过 1%。
它还可以作为 Whisper 的助手模型用于推测性解码,速度提高了2倍。
主要优点:
速度 - Distil-Whisper 的推理速度是 Whisper 的 6 倍。
尺寸 - 模型大小减少了 49%,更适合资源有限的设备。
准确性 - 词错误率(WER)与 Whisper 相比只有 1% 的差距。
抗噪声 - 在嘈杂环境下仍能保持较高的识别准确性。
减少幻听 - 减少了重复词组的出现,并降低了插入错误率。
推测性解码 - 作为 Whisper 的辅助模型,推理速度提高了 2 倍。

主要方法:

Whisper模型是一个基于大规模弱监督数据训练的语音识别模型,具有1.5亿参数,并在680,000小时的语音识别数据上进行预训练,展现出在多个数据集和领域的强大泛化能力。然而,随着预训练语音识别模型大小的增加,将这些大型模型部署到低延迟或资源受限的环境中变得越来越困难。
为了解决这个问题,研究者们采用了伪标签方法来构建一个大规模的开源数据集(在 9 个不同的开源数据集上接受了 22,000 个小时的训练,涵盖 10 个域、超过 18,000 个说话者),并使用这个数据集来进行知识蒸馏,从而创建了Distil-Whisper模型。
研究者们使用了一个基于词错误率(WER)的启发式方法来筛选高质量的伪标签,以用于训练Distil-Whisper模型。
实验结果:

Distil-Whisper模型在保持原有 Whisper 模型核心功能的基础上,显著提高了处理速度。速度提高了5.8倍,参数减少了51%,并且在零样本迁移设置中对分布外测试数据的WER性能仅下降了1%。
这一速度的提升不仅意味着在相同的时间内可以处理更多的语音数据,而且对于那些需要快速响应的应用场景,如实时语音翻译、实时会议记录等,具有重要的实际意义。
在长音频评估中,Distil-Whisper的表现甚至超过了原始的Whisper模型,这主要是因为它在处理长形音频时产生幻听错误的倾向较低。
此外,Distil-Whisper与Whisper模型共享相同的编码器权重,这意味着它可以作为Whisper的辅助模型,用于推测性解码,从而实现了2倍的推理速度提升,同时确保预测结果与原始模型相同。这使得Distil-Whisper可以作为现有使用Whisper的语音识别管道的即插即用替代品。
由于模型更小,对计算资源的需求也相对较低,这使得它更适合在资源受限的设备上运行,例如在移动设备或边缘计算设备上。这种轻量级的设计也使得 Distil-Whisper 在网络带宽有限或计算能力受限的环境中更为实用。
模型下载:

https:https://huggingface.co/collections/distil-whisper/distil-whisper-models-65411987e6727569748d2eb6

论文:

https://arxiv.org/abs/2311.00430
GitHub:https://github.com/huggingface/distil-whisper

Colab:httphttps://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/Distil_Whisper_Benchmark.ipynbain/Distil_Whisper_Benchmark.ipynb

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1207013.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软考】_高级_信息系统项目管理师_考前冲刺1

目录 一、某项目预计最快12天完成,最慢36天完成,21天完成的可能性最大。公司下达的计划是18天完成,要使计划完成的概率达到50%,在计划中需要增加( )天应急时间。 二、( )是指一个操…

二、网站高性能架构设计——web前端与池化

从公众号转载,关注微信公众号掌握更多技术动态 --------------------------------------------------------------- 一、高性能浏览器访问 1.减少HTTP请求 HTTP协议是无状态的应用层协议,也就是说每次HTTP请求都需要建立通信链路、进行数据传输&#xf…

锂价疲软,市场需求持续低迷,赣锋锂业在短期内将继续面临痛苦

来源:猛兽财经 作者:猛兽财经 公司介绍 在赣锋锂业(01772)(002460)网站上,赣锋锂业称自己是一家拥有“中国第一”和“世界最大锂金属生产商”的“锂化合物产能”公司。 根据其2022财年年度报告,该公司最近一个财年的收入有84%和1…

基于LDPC编译码和FP-MAP球形检测算法的协作MIMO系统误码率matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 LDPC码 4.1 Fincke-Pohst-MAP球形检测算法 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2017b 3.部分核心程序 .........................................…

SpringBoot文件在线预览实现

kkFileView - 在线文件预览,一款成熟且开源的文件文档在线预览项目解决方案。 详细wiki文档:https://gitee.com/kekingcn/file-online-preview/wikis/pages 中文文档:https://gitee.com/kekingcn/file-online-preview/blob/master/README.md…

关于start-burp抓包夜神-系统证书导入

1、开启开发中模式 2、开启USB调试 3、开启端口监听并下载start-burp证书 4、证书在线格式转换 根据该网站【在线DER格式转pem CER格式转pem CRT格式转PEM证书格式--查错网】也可以搜索其它在线转换网站进行操作 新建一个文本文件重名为【9a5ba575.0】,将转换的内…

【万字长文】前端性能优化实践 | 京东云技术团队

一、引言 从一个假死页面引发的思考: 作为前端开发,除了要攻克页面难点,也要有更深的自我目标,性能优化是自我提升中很重要的一环; 在前端开发中,会偶遇到页面假死的现象, 是因为当js有大量计算…

【工程部署】在RK3588上部署OCR(文字检测识别)(DBNet+CRNN)

硬件平台: 1、firefly安装Ubuntu系统的RK3588; 2、安装Windows系统的电脑一台,其上安装Ubuntu18.04系统虚拟机。 参考手册:《00-Rockchip_RKNPU_User_Guide_RKNN_API_V1.3.0_CN》 《RKNN Toolkit Lite2 用户使用指南》 1、文…

SAP Debug时如何跳过(不执行)某些代码

Debug时如何跳过(不执行)某些代码 在DEBUG界面, 首先将光标定位到想跳至的代码行, 然后从右键菜单中选择Goto Statement, 或者从Debugger菜单中选择Goto Statement:(效果相同) 然后光标就会定位到想跳至的代码行 执行结果如下: 结果是000的原因是&#…

日历应用程序 BusyCal mac中文版软件特点

BusyCal mac是一款日历应用程序,它可以帮助用户轻松地管理日程安排、事件提醒、会议安排等。BusyCal 支持 macOS 和 iOS 平台,并且可以与 iCloud、Google 日历、Exchange 等多种日历服务进行同步。 BusyCal mac软件特点 强大的日历功能:Busy…

SQL练习01

1.游戏玩法分析 SQL Create table If Not Exists Activity (player_id int, device_id int, event_date date, games_played int); Truncate table Activity; insert into Activity (player_id, device_id, event_date, games_played) values (1, 2, 2016-03-01, 5); insert …

【Python3】【力扣题】268. 丢失的数字

【力扣题】题目描述: 【Python3】代码: 1、解题思路:哈希。元素去重,依次判断是否在0-n内,没有则返回。 知识点:set(...):转为集合,集合中的元素不重复。 class Solution:def mis…

6.6二叉树的最大深度(LC104-E)、N叉树的最大深度(LC559-E)

二叉树的最大深度: 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 二叉树的最大深度二叉树的高度 算法: 这道题既可以求深度,也可以直接求高度。不过高度和深度用的遍历方式不同。 二叉树写代码之前要确定遍历顺序…

基于Java实现的轻量级私有云平台,让企业拥有自己的云平台

一、开源项目简介 KVM Cloud 是一款基于Java实现的轻量级私有云平台,旨在帮助中小企业快速实现计算、存储、网络等资源的管理,让企业拥有自己的云平台。 二、开源协议 使用Apache-2.0开源协议 三、界面展示 四、功能概述 KVM Cloud 是一款基于Java实…

JAVA基础语法编程详解---三目运算符

6.判断体重指数 题目描述 - 描述 体重指数 体重 (kg) / ( 身高 (m) 身高 (m) ),小于18.5属于偏瘦,介于18.5和20.9之间(左闭右开)属于苗条,介于20.9和24.9之间(左闭右闭)属于适中,…

python入口文件方便在其它目录也能执行

dir_path os.path.dirname(os.path.realpath(__file__)) parent_dir_path os.path.abspath(os.path.join(dir_path, os.pardir)) sys.path.insert(0, parent_dir_path)

优秀智慧园区案例 - 新华三未来工厂制造园,园区业务创新及零碳升级

目录 一、新华三未来工厂制造园建设背景 二、未来工厂制造园总体设计思路 三、未来工厂制造园建设内容 四、关键技术及创新点 五、应用效益与推广 关键词:智慧园区解决方案,智慧园区建设总体方案,智慧园区建设规划方案,智慧园…

J. Chem. Theory Comput. | AI驱动的柔性蛋白-小分子复合物建模

今天为大家介绍的是来自陈语谦教授团队发表在Journal of Chemical Theory and Computation的论文,“Equivariant Flexible Modeling of the Protein−Ligand Binding Pose with Geometric Deep Learning”,博士生董铁君为第一作者。该文提出了一种新的AI…

【nlp】2.2 传统RNN模型

传统RNN模型 1 传统RNN模型1.1 RNN结构分析1.2 使用Pytorch构建RNN模型1.3 传统RNN优缺点1 传统RNN模型 1.1 RNN结构分析 结构解释图: 内部结构分析: 我们把目光集中在中间的方块部分, 它的输入有两部分, 分别是h(t-1)以及x(t), 代表上一时间步的隐层输出, 以及此时间步的…