whisper技术导读2

news2025/1/22 9:24:37

1、数据处理

       根据最近利用互联网上的网络规模文本来训练机器学习系统的趋势,我们采用了一种极简的方法来进行数据预处理。与语音识别方面的许多工作相比,我们训练Whisper模型在没有任何显著标准化的情况下预测转录本的原始文本,依靠序列到序列模型的表现力来学习映射话语及其转录形式。

       这导致了一个非常多样化的数据集,涵盖了来自许多不同环境、录音设置、说话者和语言的广泛音频分布。虽然音频质量的多样性有助于训练模型的鲁棒性,但转录质量(该音频所以对应的文本具备多种text表达)的多样性并不是同样有益的。初步检查显示原始数据集中有大量不合格的转录本。为了解决这个问题,我们开发了几种自动过滤方法来提高成绩单质量。互联网上的很多转录并不是人生成的,而是ASR自动生成的。最近的研究表明,在混合人工和机器生成的数据集上进行训练会严重损害翻译系统的性能。许多现有的ASR系统只输出有限的书面语言子集,这些子集删除或标准化了仅从音频信号中难以预测的方面,如复杂的标点符号(感叹号、逗号和问号)、格式空白(如段落)或风格方面(如大写字母)。虽然许多ASR系统包括某种程度的反向文本规范化,但它通常是简单的或基于规则的,并且仍然可以从其他未处理的方面(例如从不包含逗号)检测到。我们还使用了一个音频语言检测器,该检测器是通过微调在VoxLingua107上的数据集的原型版本上训练的原型模型(Valk & Aluma e, 2021)来创建的,以确保口语与CLD2中记录的语言相匹配。我们将音频文件分成30秒的片段,并与那段时间内出现的文本子集配对。

2、模型

       由于我们的工作重点是研究语音识别的大规模监督预训练的能力,我们使用现成的架构来避免将我们的发现与模型改进相混淆。我们选择了一个编码器-解码器转换器(Vaswani等人,2017),因为该架构已经过很好的验证,可以可靠地扩展。所有的音频被重新采样到16000赫兹,一个80通道对数量级梅尔谱图表示是计算在25毫秒的窗口与10毫秒的跨步。对于特征归一化,我们将输入全局缩放到-1到1之间,在预训练数据集中近似为零均值。用与GPT- 2中相同的字节级BPE文本标记器(Sennrich等人,2015;Radford et al., 2019),并为多语言模型修改词汇表(但保持相同的大小),以避免在其他语言上过度碎片化,因为GPT-2 BPE词汇表仅为英语。

3、多任务模式

       尽管预测给定音频片段中的单词是完整语音识别问题的核心部分,并且在研究中得到了广泛的研究,但它并不是唯一的部分。一个功能齐全的语音识别系统可能涉及许多额外的组件,如语音活动检测、说话人拨号和反向文本规范化。这些组件通常是单独处理的,导致围绕核心语音识别模型的相对复杂的系统。为了降低这种复杂性,我们希望有一个单一的模型来执行整个语音处理管道,而不仅仅是核心识别部分。

       这里需要考虑的一个重要问题是模型的接口。在相同的输入音频信号上可以执行许多不同的任务:转录、翻译、语音活动检测、对齐和语言识别是一些例子。体地说,我们以一定的概率将当前音频片段之前的文本添加到解码器的上下文中。对于时间戳预测,我们预测相对于当前音频片段的时间,将所有时间量化到最接近的20毫秒,这与Whisper模型的原生时间分辨率相匹配,并为每个时间段添加额外的标记到我们的词汇表中。我们将它们的预测与标题标记穿插在一起:在每个标题文本之前预测开始时间标记,然后预测结束时间标记。

 4、训练细节

为了研究Whisper的缩放特性,我们训练了一套不同大小的模型。在早期的开发和评估中,我们观察到Whisper模型倾向于转录对说话者姓名的合理但几乎总是错误的猜测。

 5、实验

Whisper的目标是开发一个单一的健壮的语音处理系统,它可以可靠地工作,而不需要对数据集进行特定的微调,从而在特定的分布上获得高质量的结果。为了研究这种能力,我们重用了一组广泛的现有语音处理数据集来检查Whisper是否能够很好地跨领域、任务和语言进行泛化。我们没有使用这些数据集的标准评估协议,其中包括训练和测试分割,而是在零射击设置中评估Whisper,而不使用每个数据集的任何训练数据,因此我们测量的是广泛的泛化。

6、评估指标

       语音识别研究通常基于单词错误率(WER)度量来评估和比较系统。然而,基于字符串编辑距离的WER会将模型输出和参考文本之间的所有差异(包括脚本风格上的无害差异)。因此,输出被人类判断为正确的转录本的系统仍然可能由于轻微的格式差异而具有较大的WER。虽然这对所有转录器来说都是一个问题,但对于像Whisper这样的零射击模型来说尤其严重,因为它没有观察到任何特定数据集转录格式的例子。

       这并不是一个新发现;开发与人类判断更好相关的评估指标是一个活跃的研究领域,虽然有一些很有前途的方法,但还没有一个被广泛应用于语音识别。

耳语模型是在广泛而多样的音频分布上进行训练的,并在零射击环境下进行评估,它可能比现有的系统更能匹配人类的行为。为了研究情况是否如此(或者机器和人类表现之间的差异是否是由于尚未被理解的因素),我们可以将Whisper模型与人类表现和标准微调机器学习模型进行比较,并检查它们更接近匹配。在我们的分析中,我们使用librisspeech作为参考数据集,因为它在现代语音识别研究中的核心作用,以及许多在其上训练的发布模型的可用性,这允许表征鲁棒性行为。我们使用另外12个学术语音识别数据集来研究分布外行为。虽然最好的zero-shot的whisper模型的librisspeech清洁测试的WER相对不显著,为2.5,这大致相当于现代监督基线或2019年中期的最先进水平,但它与监督librisspeech模型具有非常不同的鲁棒性,并且在其他数据集上表现优于所有基准的Lib- riSpeech模型,因为预训练无监督所以他和wav2vec去对比是最合适的。

 

这一发现建议强调对模型的零概率和非分布评估,特别是在与人类表现进行比较时,以避免由于误导性比较而夸大机器学习系统的能力。

后面还有多语言模型、翻译等等,与技术相关弱,多于测评相关,就不细讲了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/434295.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ffmpeg 向流媒体服务器推RTSP 流时候的 交互过程以及接收到的 RTP包解析

之前写了RTSP服务端 和客户端拉流之间的交互流程 正好最近在看流媒体服务器 中RTSP的部分 copy了下源码 编译下发现不能正常播放 借此机会 记录下rtsp推流时候和服务器交互的流程 以上是推流端向服务器推流的时候 的整个流程 之后就是媒体数据的发送了 然后在看下vlc播…

electron_笔记

创建你的第一个应用: package.json: {"name": "my-electron-app","version": "1.0.0","description": "my demo","main": "main.js","scripts": {"dev": "electr…

Mac安装和卸载node和npm

1、官网下载 访问nodejs官网,点击稳定版,并下载 https://nodejs.org/en 2、安装 双击刚下载的文件,按步骤默认安装就行 3、 验证 安装完成后打开终端 npm -vnode -v如下图出现版本信息,说明安装成功 4、环境配置 打开M…

Vue中的嵌套路由

router官网-嵌套路由 实际生活中的应用界面&#xff0c;通常由多层嵌套的组件组合而成。同样地&#xff0c;URL 中各段动态路径也按某种结构对应嵌套的各层组件&#xff0c;例如&#xff1a; <body><div id"app"><h1>欢迎使用路由导航</h1&g…

差分信号输入隔离放大转换模块PCB焊接式0-20mV/0-±10mV/0-±20mV转0-5V/0-10V/4-20mA

概述&#xff1a; IPO压力应变桥信号处理系列隔离放大器是一种将差分输入信号隔离放大、转换成按比例输出的直流信号混合集成厚模电路。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等行业。该模块内部嵌入了一个高效微功率的电源&#xff0c;向输入端和输出端…

【Java版oj】day33剪花布条、客似云来

目录 一、剪花布条 &#xff08;1&#xff09;原题再现 &#xff08;2&#xff09;问题分析 &#xff08;3&#xff09;完整代码 二、客似云来 &#xff08;1&#xff09;原题再现 &#xff08;2&#xff09;问题分析 &#xff08;3&#xff09;完整代码 一、剪花布条 &a…

【Unity3D日常BUG】Unity3D打包WEBGL平台运行出现无法解析gzip、构建压缩等问题

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址我的个人博客 大家好&#xff0c;我是佛系工程师☆恬静的小魔龙☆&#xff0c;不定时更新Unity开发技巧&#xff0c;觉得有用记得一键三连哦。 一、前言 在Unity3D中打包WEBGL运行出现这样的错误&#xff1a; 具体分…

第3章 高可用负载均衡集群规划

作者&#xff1a;田逸&#xff08;formyz&#xff09; 开篇之初&#xff0c;先举几个反例&#xff0c;来说明事前规划的重要性。 案例一&#xff1a;某广告媒体公司&#xff0c;需要部署一套媒体播放系统&#xff0c;由一台应用服务器和一台数据库服务器组成&#xff0c;让人没…

考研二战上岸上海交通大学电院(819)

笔者来自通信考研小马哥23上交819全程班学员 此文记录过去两年的考研经历以及介绍个人考研经验。方法不一定适合所有人&#xff0c;每个人都有适合自己的学习方式&#xff0c;这篇帖子我可能写的比较长也说的比较具体&#xff08;啰嗦&#xff09;&#xff0c;大概8000多字&am…

Qt Style Sheets Examples整理

文章目录 样式表用法使用动态属性自定义使用Box模型自定义QPushButton自定义QPushButton的菜单指示子控件复杂选择器完整代码&#xff1a; 特定部件样式表QAbstractScrollAreaQCheckBoxQComboBoxQDockWidget 原文地址&#xff1a;https://doc.qt.io/qt-6/stylesheet-examples.h…

Golang 泛型介绍

泛型介绍 泛型是一种编写独立于所使用的特定类型的代码的方法。现在可以编写函数和类型(Functions and types)来使用一组类型中的任何一种。 泛型为语言添加了三个重要的东西: 1 函数和类型的类型参数。2 将接口类型定义为类型集&#xff0c;包括没有方法的类型。3 类型推断…

五项热门技术领域和应用场景

介绍五种当下比较热门的技术&#xff0c;分别是人工智能、云计算、数据分析、微服务和区块链。每种技术都有自己的定义、子领域、应用场景和学习难度。这些技术都有着广阔的发展前景和市场需求&#xff0c;对于想要从事或了解这些领域的人来说&#xff0c;都是很有价值的知识。…

【react 全家桶】初始化脚手架

本人大二学生一枚&#xff0c;热爱前端&#xff0c;欢迎来交流学习哦&#xff0c;一起来学习吧。 <专栏推荐> &#x1f525;&#xff1a;js专栏 &#x1f525;&#xff1a;vue专栏 &#x1f525;&#xff1a;react专栏 文章目录 10 【初始化脚手架】1.什么是 React 脚…

时序数据的内存服务

说明 既要坚定锻炼成熟架构的道路&#xff0c;也要在合理的范围内重塑设计 计算时序数据的特征&#xff0c;少不了“Rolling”类的操作。过去&#xff0c;直接采用pandas进行rolling&#xff0c;效率很不错&#xff0c;但是在实战应用时不太行。 反思下来&#xff1a;离线的操…

Linux --- 软件安装、项目部署

一、软件安装 1.1、软件安装方式 在Linux系统中&#xff0c;安装软件的方式主要有四种&#xff0c;这四种安装方式的特点如下&#xff1a; 1.2、安装JDK 上述我们介绍了Linux系统软件安装的四种形式&#xff0c;接下来我们就通过第一种(二进制发布包)形式来安装 JDK。 JDK…

文案优化技巧,批量文案改写工具

在当今竞争激烈的市场中&#xff0c;一篇优秀的文案可以吸引更多的潜在客户&#xff0c;提高转化率&#xff0c;带来更多的收益。然而&#xff0c;写出优秀的文案有时是一项具有挑战性的任务。许多人不得不花费大量的时间和精力来编辑和重写它们&#xff0c;这不仅耗时费力&…

具有柔性结构的孤岛直流微电网的分级控制(Malab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️❤️&#x1f4a5;&#x1f4a5;&#x1f4a5; &#x1f4cb;&#x1f4cb;&#x1f4cb;本文目录如下&#xff1a;⛳️⛳️⛳️ 目录 1 概述 2 数学…

PICO 4 Pro:加入眼动和面部追踪,VR体验乐趣加倍

VR产品的体验在最近几年得到长足的进展&#xff0c;其中有几个重要的关键点。2019-2020年&#xff0c;VR一体机超越PC VR成为主流&#xff0c;便携性和综合体验做到了极佳的均衡。到了2022年&#xff0c;Pancake光学、彩色VST透视、眼动追踪、面部追踪等技术开始落地&#xff0…

MB510 3BSE002540R1在机器视觉工业领域最基本的应用

​ MB510 3BSE002540R1在机器视觉工业领域最基本的应用 大家都说人类感知外界信息的80%是通过眼睛获得的&#xff0c;图像包含的信息量是最巨大的。那么机器视觉技术的出现&#xff0c;就是为机器设备安上了感知外界的眼睛&#xff0c;使机器具有像人一样的视觉功能&#xff0c…

京东淘宝天猫户外服饰行业数据分析(电商数据查询软件)

户外运动越来越火&#xff0c;甚至还形成了一种独有的穿衣风格——“户外穿搭风”。 冲锋衣、工装裤、工装裙、口袋马甲、渔夫帽等都是这两年在这种户外穿搭风潮席卷之下爆红的产物。无论是在京东还是淘宝天猫&#xff0c;这类服饰的销售表现都比较出色。 京东数据&#xff1a;…