零样本学习——从多语言语料库数据中对未学习语言进行语音识别的创新技术

news2024/12/28 5:03:59

引言

在全球众多的语言中,只有极少数的语言在语音识别领域取得了显著的进展。这种不平衡现象的主要原因是,现有的语音识别模型往往依赖于大量的标注语音数据,而这些数据对于许多语言来说难以获得。

近年来,尽管语音识别技术取得了飞速的发展,少量的训练数据已经能够实现较高的准确度,但这一进步背后隐藏着一个关键的局限:每种语言都需要单独开发和训练模型。

因此,本研究旨在探索一种新的路径,即利用多语言标签进行零样本(Zero-shot)转录,以期打破现有模型对大量标注数据的依赖,推动语音识别技术向更多语言的普及和应用。

论文地址:https://arxiv.org/abs/2109.11680

方法

  1. 利用多语言数据进行自学
  2. 用多种语言进行微调。还有语音意识。
  3. 在推理过程中使用从学习语言音素到目标语言的音素映射
  4. 针对所有未学习语言测试微调模型

音素

它是如此重要,以至于在语音识别研究中经常出现。音素是我们说话时的最小发音单位。只要记住它是最小的发音单位就足够了。

微调

根据自己的用途和任务,使用自己的数据额外训练预训练模型。通过这种方法,您可以将广义模型调整为易于使用的模型

wav2vec2.0

预训练模型,即在建立模型阶段已在海量数据上训练过的模型。训练数据量确实巨大。你不可能在一所研究生院里复制它。这样做的好处是,由于事先已经在海量数据上进行了训练,因此只需要少量数据就可以进行微调

实验装置

关于学习模式

本研究使用的模型是wav2vec2.0 XLSR-53将是一个多语言学习模型,已在 53 种语言上进行过训练

关于数据集

使用了三种主要的多语言语音库。这些语言包括荷兰语、法语、德语、意大利语和葡萄牙语。

此外,使用的语言种类繁多,音频播放时间很长。

要学会使用这台超高性能计算机,肯定要花很长时间

关于学习模型

该模型是用 fairseq 实现的。这是 META(前身为 Facebook)在 githab 上发布的用于构建机器学习模型的开放源代码。

只要懂一点 Python 和英语,任何人都可以免费使用它,并建立机器学习模型。

回到主题,所使用的模型将是经过预训练XLSR-53 模型,该模型已进行了约 56 000 小时的预训练。与学习相关的参数目前不在讨论之列。

  1. 在多语言数据集上进行训练,尝试转录未学习过的语言。
  2. 使用 wav2vec2.0 XLSR-53
  3. 需要进行大量细致的参数调整

实验与测试

与无监督方法的比较

现在,第一个实验将零点过渡学习与无监督 wav2vec2.0 进行比较。两者使用的模型相同。

至于这个实验的结果,你可以看到零点过渡学习和无监督模型几乎同样出色。老实说,这是令人惊讶的。如果这是可能的,那么在各种语言中使用它将是现实的

如果物联网要在未来变得越来越普遍,这项技术将非常重要。

与其他零镜头的比较

将其性能与本研究之前的模型进行比较。在这里,你又可以轻松实现零投篮(如果你是一家公司的话)。与建立单个模型相比,它的数据密集度要低得多。在某些方面,其结果优于监督模型的结果,这是一种真正的创新方法。

不过,它的瓶颈在于必须在大量的时间数据上进行训练,因此除非大学或公司拥有超级计算机,否则很难复制

总结

世界上有如此之多的语言,要为每一种语言都建立模型将非常昂贵和耗时。

从这个角度看,这种 "零镜头 "方法大有可为。大家对此有何看法?

这项研究的结果可归纳如下

  1. 无需专门为未学习语言建立模型
  2. 准确率高,与有监督和无监督模型相比毫不逊色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1995557.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

6.3 第三方库的安装与使用

欢迎来到我的博客,很高兴能够在这里和您见面!欢迎订阅相关专栏: 工💗重💗hao💗:野老杂谈 ⭐️ 全网最全IT互联网公司面试宝典:收集整理全网各大IT互联网公司技术、项目、HR面试真题.…

英镑与日元:货币市场的双重挑战

一、英镑的波动与策略 近期,英镑兑所有主要货币出现大幅下挫,尤其是在7月,英镑成为投机市场最大的净多头仓位。然而,上周英镑抹去了第二季的大部分涨幅,主要受到英国央行对利率前景的鸽派重新定价的影响,以…

【生信入门】预览快速体验Linux-重生之小明闯Linux

生信少走弯路,快试试生信云专用服务器。新用户注册免费体验5小时。https://www.tebteb.cc 一.故事 小明的Linux冒险 在一片混沌的黑暗中,小明睁开了眼睛。他感到头痛欲裂,四周一片漆黑,只有一行闪烁的字符映入眼帘: [xiaomingu…

如何实现Redis和Mysql中数据双写一致性

在我们的实际开发中,我们用到了redis缓存一些常用的数据(如热点数据)用来提高系统的吞吐量。 但是不可以避免的出现了数据的修改场景,这就导致了数据库中的数据和Redis中出现不一致性的情况。如何保证数据一致性就显得非常重要了&…

H3C智能管理中心byod/index.xhtml接口存在远程命令执行漏洞

@[toc] H3C智能管理中心byod/index.xhtml接口存在远程命令执行漏洞 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该文章仅供学…

C++基础编程的学习3

nullptr关键字 在C11之前,空指针通常用NULL或0表示。然而,这些表示方法存在类型安全问题。C11引入了nullptr关键字,它提供了一个明确的、类型安全的空指针值。 Lambda表达式 Lambda表达式是C11引入的一种便捷的匿名函数定义方式。当Lambda…

海量数据处理商用短链接生成器平台 - 12

第三十五章 微信支付Native订单API测试实战和签名流程解读 第1集 微信支付-快速验证参数配置方法和统一下单接口开发 简介:微信支付-快速验证参数配置方法和统一下单接口开发 接口文档 https://pay.weixin.qq.com/wiki/doc/apiv3/apis/chapter3_4_1.shtml 编码实…

03_Electron 主进程和渲染进程、点击(拖放)打开文件功能

Electron 主进程和渲染进程 一、Electron 主进程和渲染进程二、Electron 主进程和渲染进程中使用 Nodejs 以及 Nodejs 第三方模块2.1、主进程中使用 Nodejs 模块2.2、渲染进程中 使用 Nodejs 模块2.3、BrowserWindow 中通过 preload加载的js 文件可以直接使用nodejs 模块2.4、渲…

大小仅为Rust四分之一!MoonBit 现已支持Wasm组件模型

使用 MoonBit 开发 Wasm 组件模型 Wasm组件 WebAssembly(Wasm)是一种新的低级虚拟指令集标准(low-level virtual instruction set standard),用于沙箱模型。低级的,意味着它接近原生速度。虚拟的&#xff…

全网最最最全的LVS详解!!!

1 LVS-集群和分布式 1.1 集群 LVS(Linux Virtual Server)集群,即Linux虚拟服务器集群,是一个在Unix/Linux平台下实现负载均衡集群功能的系统。它由国人章文嵩博士在1998年开发,是中国国内最早出现的自由软件项目之一…

yolov8 剪枝 - DepGraph

2024年8月5 5000张图片,2个类别。 yolov8n 初始: 185 layers, 3151904 parameters, 31936 gradients, 8.7 GFLOPs 经过三次finetune后: 185 layers, 2327024 parameters, 31936 gradients, 6.6 GFLOPs 经过第四次fintune后: …

“write()” 与 “ tcp缓冲区 ” 之间的关系

write()写入tcp缓冲区过程 write()将该文本写入到tcp缓冲区中本质是数据的拷贝,当write()调用完,数据不一定发给tcp发送缓冲区中 因为: 有没有拷贝成功,都不由write(&a…

史上最全Java初、中、高三级都适用的面试八股文(2024版含答案)

在Java编程的世界里,无论你是初出茅庐的新人,还是已经有一定经验的中级开发者,抑或是寻求突破的高级工程师,面试时总有一套通用的“八股文”知识点,就像是每位程序员的必备宝典。这套2024版的Java面试指南,…

mma.sync.aligned.m16n8k16.row.col.f16.f16.f16.f16测试

mma.sync.aligned.m16n8k16.row.col.f16.f16.f16.f16测试 1.参考文档2.numpy测试3.cuda kernel测试4.相关截图 本文演示了如何按PTX指令文档中的layout格式要求,加载数据,执行mma指令,并且跟numpy对比结果的一致性 1.参考文档 Matrix Fragments for mma.m16n8k16 with floatin…

MAVSDK添加自定义消息与函数实现云台(Gimbal)调整功能

1.找到action.proto文件并添加如下消息 2. 定义RPC方法AdjustGimbal方法如下: 3.运行generate_from_protos.sh重新根据.proto生成.cpp与.h文件 生成过程 生成完成 4. .proto生成的.h文件,成功包含同步与异步方法声明

零基础转行网络安全真的好就业吗?

网络安全作为近两年兴起的热门行业,成了很多就业无门但是想转行的人心中比较向往但是又心存疑惑的行业,毕竟网络安全的发展史比较短,而国内目前网安的环境和市场情况还不算为大众所知晓,所以到底零基础转行入门网络安全之后&#…

python自动化笔记:excel文件处理及日志收集

目录 一、openpyxl模块1.1、安装:pip install openpyxl1.2、openpyxl模块三大组件1.3、创建excel并写入数据1.4、读取excel 二、日志收集 一、openpyxl模块 1.1、安装:pip install openpyxl 注: openpyxl只支持xlsx格式,xls格式…

10+ Midjourney V6.1 提示:生成精美的角色海报

前言 近期图像生成界最大的更新是MidjourneyV6.1!我迫不及待地想要开始创作和分享,这次分享的重点是V6.1在角色创作方面的增强。 以下是半天测试的结果,包括提示,专注于角色摄影照片和角色插图。 网上关于这方面的教程虽然很多&…

【第22章】Spring Cloud之Gateway集成Knife4j(下)

文章目录 前言一、访问页面加权控制1. 加权控制2. 登录 二、生产环境如何屏蔽Knife4j、Swagger等Ui资源和接口1. 基于Spring Boot框架提供的Conditional条件控制相关Bean的生效2. 效果 三、聚合个性化配置1. 用户服务1.1 引入依赖1.2 Knife4j配置类1.3 控制器 2. 网关服务2.1 排…

JG08Z-GD系列 八轴智能测径仪系统介绍

1.测径仪: 主要用于轧制线,棒材,八个方向直径及椭圆度在线测量,轧制螺纹钢特钢尺寸在线测量。 2.功能介绍: (1)显示内容 主控室液晶显示器:管材截面的最大/最小直径、平均值、椭圆…