【meta】Scaling Speech Technology to 1,000+ Languages

news2024/9/22 13:33:47
  • nvidia-NeMo包含TTS的模型,开源数据

uroma转写工具介绍

  • uroman转写工具

  • N-to-M mapping 转写的规范,包含一些中文-拼音,拉丁文-读法的规则转换。字符串匹配规则下的查字典;

  • 将字母对应到发音单元
    在这里插入图片描述

  • 转写规范

    • 转写过程尽量做到可逆映射;
    • 忽略变音符号,比如 o u ‘ ou` ou o u ou ou,转写结果是一样的;
    • 不会对缺乏原音的文本进行元音化
    • 数字,除了0-9一一进行阿拉伯数字的对应,还会对不同语言书写格式转写到阿拉伯计数上;
    • 一些基于拉丁文字的语言中的单词的拼写和发音差异很大,如果非拉丁文字中单词的相应拼写基于发音,则字符串相似性匹配会变得复杂。因此,给出替代结果
      在这里插入图片描述

数据介绍

  1. 数据来源:New Testament,1000多种语言,不同的speaker(男性为主)读《新约》的26个章节,55K hours数据的录音格式是标准的;还有另外49k hours 是各种录音文本转写格式,以及同一种语言不同的口音,但是都有audio-text paired 数据;
  2. 语种识别:不同的口音认为是一种语言;语音合成:同一种语言,只选择一种格式;语音识别:不同的口音认为是不同的语言,标记为srp-script:latin, srp-script:cyrillic.
  3. 背景音乐:38%的语言有背景音乐,合成任务会remove这些有背景音乐的音频;

数据处理

  1. 采样率,原始文件22/24/44khz,统一重采样到16k

  2. 文本规范:NFKC normalization ,unicode的KC 编码;包括标点符号,括号(作者们听一些音频,发现没有读括号,于是删除)等的处理;

  3. 对齐问题:
    a. CTC Alignment:音频是一整个章节,几十分钟,无法用transformer模型直接做对齐;将音频按照15s 长度计算后验概率,然后把后验概率拼成一个大矩阵, O ( L ∗ T ) O(L*T) O(LT),其中L是文本长度,T是音频长度;作者优化的算法:viterbi 算法计算最有路线时,只存储forward values for the current and the previous time-step and regularly transfer the computed backtracking matrices to CPU memory. 因此矩阵优化成 O ( L ) O(L) O(L)
    在这里插入图片描述
    b. <*>符号加入:音频开头读者一般会介绍章节内容,这些没有对应的文本;以及数字没有按照标准书写体写,手动转写比较困难,因此在章节文本的开头加入<*>符号,数字用<*>符号替代;最终处理的时候,开头的<*>符号对应,删除;句中数字<*>符号替换回去;选这个字符是因为他和HMM中的sil/OOV token都不重复;

  4. 文本转写:本文使用uroman转写,工具将不同语言的文本转成Latin 编码;也有Unitran的编码转写,将UTF-8 encoded text 转成WorldBet(IPA)或者 X-SAMPA;本文使用uroman是因为它比Unitran更简单,实验取得结果差不多。将uroman转写的所有字母小写,最后只保留a-z以及上撇符号。

  5. 对齐二次处理:因为音频中,录音人会随机插入一些文本中没有的发挥,所以需要确认;训练单语言ASR,将CER>10%的扔掉;

最终筛选数据

在这里插入图片描述

TTS systems

  • 每个语言挑选一个speaker recording,训练一个单独的VITS model,
  • txt representation:如果语言的词典比较小,letter-based;比较大,使用uroma-based;
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1273004.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Studio初学者实例:Fragment学习--仿美团外卖界面

本次课程为Fragment为主题&#xff0c;课程的示例仿美团外卖界面&#xff0c;不同于底部导航栏的Fragment案例&#xff0c;此界面分为左侧切换与顶部切换。本文先是发布代码与效果&#xff0c;后续讲解将会在后续补充。先看看效果&#xff1a; 首先是布局文件代码&#xff1a;A…

GPT带我学Openpyxl操作Excel

注&#xff1a;以下文字大部分文字和代码由GPT生成 一、openpyxl详细介绍 Openpyxl是一个用于读取和编写Excel 2010 xlsx/xlsm/xltx/xltm文件的Python库。它允许您使用Python操作Excel文件&#xff0c;包括创建新的工作簿、读取和修改现有工作簿中的数据、设置单元格格式以及编…

Typora切换字体颜色

欢迎大家到我的博客浏览。Typora切换字体颜色 | YinKais Blog最近很无聊&#xff0c;突然想起来朋友的 Typora 可以修改字体颜色&#xff0c;而我的却不能&#xff0c;我就去研究了一下&#xff0c;于是有了这一篇教学文章。 可能会有人说&#xff0c;网上大佬早有教学了&…

提升Jmeter测试效率的9种参数化方法!

jmeter工具无论做接口测试还是性能测试&#xff0c;参数化都是一个必须掌握且非常有用的知识点。参数化的使用场景: 1&#xff09;多个请求都是同一个ip地址&#xff0c;若服务器地址更换了&#xff0c;则脚本需要更改每个请求的ip 2&#xff09;注册账号&#xff0c;不允许账…

群晖NAS配置之搭建WordPress个人博客站点

群晖NAS配置之搭建WordPress个人博客站点 之前写了一些ngrok和frp给群晖nas做内网穿透&#xff0c;今天分享一下在群晖nas下安装wordpress的教程。 WordPress是一个开源的内容管理系统&#xff08;CMS&#xff09;&#xff0c;最初是用来搭建博客的&#xff0c;但后来发展成为…

离线直线度测量仪的适用范围!

离线直线度测量仪虽是智能测量设备&#xff0c;但与在线检测设备相比&#xff0c;检测速度还是较慢&#xff0c;但非常适用于需要使用的圆形轧材抽检或全检&#xff0c;生产产线不适合安装在线仪器的的厂家。 离线直线度测量仪主要用于金属棒材、管材、陶瓷管材、压辊、轧辊等产…

浅谈集中控制式预付费抄表系统设计与应用

贾丽丽 安科瑞电气股份有限公司 上海嘉定 201801 摘要:介绍一种由射频卡预付费和RS485总线组成的集中控制式预付费抄表系统,系统能准确及时地釆集处理电能计量数据并实现预付费功能。该系统简化用户电能表设计&#xff0c;使智能集中控制器具有多功能化&#xff0c;实现系统…

WP采集插件的进阶功能:输入关键词采集及定向采集实现精准筛选

WP采集插件教程&#xff1a;轻松实现全网文章采集 近年来&#xff0c;WordPress&#xff08;简称WP&#xff09;作为一款强大的网站建设工具&#xff0c;广受用户喜爱。然而&#xff0c;对于许多网站管理员来说&#xff0c;如何轻松而高效地获取全网各类文章内容成为了一个亟待…

PCB布线为什么不能走直角或锐角-笔记

PCB布线为什么不能走直角或锐角-笔记 摘要一.PCB走线在直角转弯的地方&#xff0c;信号前后部分相互影响这几个理由我们来一一分析一下传输线的直角带来的寄生电容从阻抗的角度来看直角的尖角产生放电或者电磁辐射走线直角的工艺问题 摘要 有一定熟悉画过PCB板的人或者PCB教学…

VMware通过ISO镜像安装window2016虚拟机

1.点文件->新建虚拟机 2.进入到下边页面 3.根据你的服务器硬件选择硬件兼容性 4.选择2016版本的windows(注&#xff1a;没有该版本的话选择最高版本) 5.根据你的需求选择引导设备( 启动过程&#xff1a; BIOS&#xff1a; 在计算机启动时&#xff0c;BIOS负责进行自检&#…

MySQL如何处理并发访问和高负载?

在当今互联网时代&#xff0c;面对日益增长的数据量和用户访问量&#xff0c;数据库的并发访问和高负载处理变得尤为重要。MySQL作为最流行的关系型数据库管理系统之一&#xff0c;具备许多关键技术和策略来处理并发访问和高负载&#xff0c;下面将对其进行深入探讨。 ​ 图片…

开关电源工作时,如何抑制纹波和减小高频噪声?

开关电源的纹波和噪声是一个本质问题&#xff0c;换而言之无论纹波和噪声多么小&#xff0c;也无法从根本上去除&#xff0c;再绝对的讲开关电源无论成本怎么提高&#xff0c;也无法完全达到线性电源的性能和特点。那么&#xff0c;通常抑制或减少它的做法有五种&#xff1a; …

Netty Review - 探索Pipeline的Inbound和Outbound

文章目录 概念Server CodeClient CodeInboundHandler和OutboundHandler的执行顺序在InboundHandler中不触发fire方法InboundHandler和OutboundHandler的执行顺序如果把OutboundHandler放在InboundHandler的后面&#xff0c;OutboundHandler会执行吗 概念 我们知道当boss线程监控…

SSD-FTL算法学习总结1

SSD核心技术&#xff1a;FTL算法。 1、什么是FTL? FTL是Flash Translation Layer&#xff08;闪存转换层&#xff09;&#xff0c;完成主机&#xff08;HOST&#xff09;逻辑地址空间到闪存Flash物理地址空间的翻译,或者说映射&#xff08;Mapping&#xff09;。 FTL算法分成…

发生这种情况 经常导致投资者的痛苦

在这个市场中&#xff0c;什么事会让人痛苦呢&#xff1f;有的投资者马上回答&#xff0c;因为亏损。说实话&#xff0c;如果经过刻意的练习&#xff0c;我们在一定程度上能克服亏损给人带来的痛感。但是有另一种情况也容易为投资者带来痛苦&#xff0c;下面我们就来讨论一下。…

4、RTC 实时时钟Demo(STM32F407)

RTC是个独立的BCD定时器/计数器。RTC 提供一个日历时钟&#xff0c;两个可编程闹钟中断&#xff0c;以及一个具有中断功能的周期性可编程唤醒标志。RTC还包含用于管理低功耗模式的自动唤醒单元。 (RTC实质&#xff1a;一个掉电(主电源)后还继续运行(由VBAT供电)的32位的向上计…

为什么年轻人这么热衷元宇宙NFT?

盘点你们不知道的元宇宙玩法套路&#xff1a;潮玩宇宙、趣玩联盟、潮玩世界 引言&#xff1a;项目圈最常见的一句话&#xff0c;是这样说的“你图的是平台的高利息&#xff0c;而平台图的是你的本金”&#xff0c;这是韭菜人追悔莫及讲的最经典的话&#xff0c;但也有杠精同志讲…

【OJ比赛日历】快周末了,不来一场比赛吗? #12.02-12.08 #15场

CompHub[1] 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…&#xff09;比赛。本账号会推送最新的比赛消息&#xff0c;欢迎关注&#xff01; 以下信息仅供参考&#xff0c;以比赛官网为准 目录 2023-12-02&#xff08;周六&#xff09; #4场比赛2023-12-03…

AWS EC2 如何 使用 SSM会话管理器登陆

首先只有特定版本的OS会默认附带SSM Agent。 预安装了 SSM Agent 的 Amazon Machine Images&#xff08;AMIs&#xff09; - AWS Systems Manager 其次EC的instance role必须有一个叫“AmazonSSMManagedInstanceCore”的策略 如何给IAM User赋权&#xff0c;让他们可以使用SSM…

深入理解Zookeeper系列-2.Zookeeper基本使用和分布式锁原理

&#x1f44f;作者简介&#xff1a;大家好&#xff0c;我是爱吃芝士的土豆倪&#xff0c;24届校招生Java选手&#xff0c;很高兴认识大家&#x1f4d5;系列专栏&#xff1a;Spring源码、JUC源码、Kafka原理、分布式技术原理&#x1f525;如果感觉博主的文章还不错的话&#xff…