语音合成是什么?如何进行语音合成TTS数据采集?

news2024/12/24 8:53:29

我们在上一篇讲到语音数据采集分为常见的两种语音数据采集类型,一个是语音识别数据(ASR),另一个是语音合成(TTS)。这一期中,我们将介绍语音合成技术是什么,如何采集语音合成数据和制作,帮助你快速了解语音合成的背景和基础原理。  

 

语音合成(TTS)是什么

随着人机交互的模式越来越广泛地普及我们的生活中,以扬声器和声波作为主要音频传播媒介,文本到语音的技术不断迭代更加丰富了我们的沟通方式,机器说话愈发灵动与自然,这些都离不开语音合成技术的与时俱进。 

如何进行语音合成数据采集

语音合成技术的背景

语音合成即文本转语音(text to speech)的技术,是由文字形成的计算机语音。历史上已知最早模仿人类语音的装置是Wolfgang von Kempelen在200多年前建造的。他建造的机器由一些元素构成,包括可以用来模仿人类用来产生语音的各种器官–肺部的波纹管、声道的管子、鼻孔的侧支等。对这种人类发声器官的机械模拟的兴趣一直持续到二十世纪。19世纪后半叶,赫尔姆霍尔茨等人开始通过叠加具有适当振幅的谐波波形来合成元音和其他声母。 传统的TTS主要是通过组合多个模块构成流水线来实现的,整个系统可以大致分为前端(frontend)和后端(backend)。

语音合成(TTS)技术原理

我们可以把TTS看作是一个序列对序列的问题,它包括2个主要阶段,即文本分析和语音合成。文本分析与一般的自然语言处理(NLP)步骤相当相似(尽管我们在使用深度神经网络时可能不需要Heave预处理)。例如,句子分割、单词分割、语音部分(POS)。第一阶段的输出是grapheme-to-phoneme(G2P),它是第二阶段的输入。在语音合成中,它将第一级的输出生成波形。  

语音合成(TTS)系统和数据制作

NLP自然语言处理,它将原始文本(包括标点符号、缩写、数字和符号)转换成语音转写。转录的内容包括音素(语音的一部分)以及根据文本中的提示而产生的语调(语调、节奏、语速)。 数字信号处理(DSP),它将语音表征转化为通过计算机或其他设备的音频输出的文字。DSP需要创建一个语音字库(即人类将一系列试图触及语言中每个音素组合的短语录入系统)。系统通过连接音频样本,从这个语音字库建立语音。然后,它应用算法来平滑完成的短语,并调整语音的音量和速度等方面。 过去的机器虽然能正常发声但是随着时代的发展和人机交互体验的需求增加,机器的声音就显得苍白而僵硬,无法给人类提供最生动的交互体验。如今,现代语音合成系统更关注体验至上的个性化技术产出,分为:通用性TTS、个性化TTS和情感TTS。

  • 通用TTS: 可满足商业化需求,制作过程包括:前期录音人员准备、录音场地确定、录制(数据采集)、后期数据清洗加数据标注可以得到一套完整的“商用数据库”。
  • 个性化TTS: 根据数据产品特点提供不同类型的声音进行个性化定制语音库。
  • 情感TTS: 通过XML-tagging的prosodic参数。这种预处理协助TTS系统生成合成语音,该语音含有情感线索。情感意图识别是情感TTS的重要技术之一,它也与自然语言处理有着密不可分的关系。想要更加趋于人类的真实语言,让机器被赋予情感而不只是一台冰冷的复读机,这是企业都想要产品能够达到的效果。而想要让这样一台机器生动的说话,情感合成语音技术背后的数据库也将更为丰富多样。

语音合成的常见两种方法是拼接法和参数法。

  • 拼接法:在预先录制的语料库中抽取合适的拼接单元而成。对于声音的质量要求高但是不利于商用,数据规模量级需求过高导致商用成本过高。
  • 参数法:对语料库进行参数建模,分为前段处理、建模和声码器三个模块。对数据库需求小,但声音质量会粗糙。

 

语音合成的常见应用场景

最后,作为上游技术的语音合成技术如何应用于下游AI场景中?语音合成助手、智能客服、有声读物、呼叫中心、车载娱乐设备等等都是语音合成技术常见的应用场景。为了让用户体验更为真实和丰富,许多更上游的数据采集公司都会与声优演员直接合作,让客户去挑选声音,满足他们的终端用户的需求。想象一下夜晚失眠辗转反侧的时候,当你打开博客听到的是神谷浩史的声音,会是什么感受?  

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/828392.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【有趣的设计模式】23 种设计模式详解和场景分析

前言 七大设计原则 1、单一原则:一个类只负责一个职责 2、开闭原则:对修改关闭,对扩展开放 3、里氏替换原则:不要破坏继承关系 4、接口隔离原则:暴露最小接口,避免接口过于臃肿 5、依赖倒置原则&#xff1…

完美解决ubuntu系统QtCreator无法输入中文

在Ubuntu18 上安装搜狗输入法,启用fcitx输入系统之后Qt Creator 无法输入中文,原因是缺少fcitx的支持库libfcitxplatforminputcontextplugin.so。解决办法 1 查找是否安装相关库 $ dpkg -L fcitx-frontend-qt5 | grep .so /usr/lib/x86_64-linux-gnu/qt…

语义检索系统【二】:基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回

搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术…

//编写程序数一下 1到 100 的所有整数中出现多少个数字9

//编写程序数一下 1到 100 的所有整数中出现多少个数字9 int main() {int i;int count 0;//用来计数for (int i 1; i < 100; i) {if (i % 10 9 || i / 10 9)count;}printf("1到 100 的所有整数中出现%d个数字9\n", count);

[openCV]基于拟合中线的智能车巡线方案V1

import cv2 as cv import os import numpy as np# 遍历文件夹函数 def getFileList(dir, Filelist, extNone):"""获取文件夹及其子文件夹中文件列表输入 dir&#xff1a;文件夹根目录输入 ext: 扩展名返回&#xff1a; 文件路径列表"""newDir d…

Day10-NodeJS和NPM配置

Day10-NodeJS和NPM 一 Nodejs 1 简介 Nodejs学习中文网:https://www.nodeapp.cn/synopsis.html Nodejs的官网:https://nodejs.org/ 概念:Nodejs是JavaScript的服务端运行环境.Nodejs不是框架,也不是编程语言,就是一个运行环境. Nodejs是基于chrome V8引擎开发的一套js代码…

mac电脑访问windows共享文件夹连接不上(设置445端口)

前提&#xff1a;首先需要保证mac和windows都在同一局域网内&#xff0c;如果不在肯定是连不上的&#xff0c;就不用往下看了。 事情是这样的&#xff0c;公司入职发了mac电脑&#xff0c;但是我是window重度用户&#xff0c;在折腾mac的过程中&#xff0c;有许多文件需要从wi…

当系统接口要加入新方法时,我真后悔没有早点学学Java设计模式

假设系统中有一个接口&#xff0c;这个接口已经被10个实现类实现了&#xff0c;突然有一天&#xff0c;新的需求来了&#xff0c;其中5个实现类需要实现同一个方法。然后你就在接口中添加了这个方法的定义&#xff0c;想着一切都很完美。 当你在接口和其中5个实现类中加完这个…

java(Collection类)

文章目录 Collection接口继承树Collection接口及方法判断删除其它 Iterator(迭代器)接口迭代器的执行原理 foreach循环Collection子接口1&#xff1a;ListList接口特点List接口方法List接口主要实现类&#xff1a;ArrayListList的实现类之二&#xff1a;LinkedListList的实现类…

【python】我用python写了一个可以批量查询文章质量分的小项目(纯python、flask+html、打包成exe文件)

web 效果预览&#xff1a; 文章目录 一、API 分析1.1 质量分查询1.2 文章url获取 二、代码实现2.1 Python2.11 分步实现2.12 一步完成2.13 完整代码 2.2 python html2.21 在本地运行2.22 打打包成exe文件2.23 部署到服务器 一、API 分析 1.1 质量分查询 先去质量查询地址&a…

处理nacos、tomcat、nginx日志增长过快问题

1.nacos日志清理 修改nacos-logback.xml 将日志级别改为error级&#xff0c;减少info级日志产生量 将<maxHistory>调整为2以下&#xff0c;将 <totalSizeCap>调整为2GB左右 比如&#xff1a; [rootiZ0jlapur4hqjezy8waee0Z logs]# ll -h total 2.1G -rw-r--r-…

mysql忘记密码重置密码步骤

1.使用管理员权限打开cmd窗口&#xff0c;winr后输入cmd&#xff0c;然后按CtrlShiftEnter. 2.停止mysql服务&#xff0c;如上图net stop mysql 3.找到mysql安装目录下的my.ini文件&#xff0c;使用管理员权限打开 4.在[mysqld]下面新增一行skip-grant-tables 5.启动mysql服务…

新的恶意软件 WikiLoader 针对意大利组织

研究人员发现了一种新的恶意软件&#xff0c;名为 WikiLoader 恶意软件。之所以这样命名&#xff0c;是因为它向维基百科发出请求&#xff0c;希望得到内容中包含 "The Free "字符串的响应。 WikiLoader 恶意软件的主要目标是意大利企业及组织。 WikiLoader 是一种…

微信到底可以添加多少好友?怎么避免加人频繁?

微信作为一款用户月活跃量超过10亿的社交聊天软件&#xff0c;已经成为人们生活中不可或缺的一部分。 微信好友上限1万个 01 不知道有没有小伙伴好奇&#xff0c;微信到底可以添加多少好友&#xff1f;正好这个话题也上热搜了&#xff0c;我们就来了解一下。 有网友表示&…

Android安卓实战项目(6)---健身运动 APP实现健身运动倒计时显示提醒(源码在文末)

Android安卓实战项目&#xff08;6&#xff09;—健身运动 APP实现健身运动倒计时&#xff08;源码在文末&#x1f415;&#x1f415;&#x1f415;&#xff09; 一.项目运行介绍 【bilibili演示】 https://www.bilibili.com/video/BV1414y167WH/?share_sourcecopy_web&…

接受平庸,特别是程序员

目录 方向一&#xff1a;简述自己的感受 方向二&#xff1a;聊聊你想怎么做 方向三&#xff1a;如何调整自己的心态 虽然清楚知识需要靠时间沉淀&#xff0c;但在看到自己做不出来的题别人会做&#xff0c;自己写不出的代码别人会写时还是会感到焦虑怎么办&#xff1f; 你是…

棕榈酰四肽-7——促进皮肤自然愈合和再生

简介 棕榈酰四肽-7&#xff08;Palmitoyl Tetrapeptide-7&#xff09;可以延缓和抑制过量细胞白介素的生成&#xff0c;从而抑制一些不必要不恰当的炎症反应和糖基化损伤。在体外实验中&#xff0c;科学家们发现在细胞白介素生成时&#xff0c;“棕榈酰四肽-7诱导呈现出一种显…

2023-08-02 LeetCode每日一题(翻转卡片游戏)

2023-08-02每日一题 一、题目编号 822. 翻转卡片游戏二、题目链接 点击跳转到题目位置 三、题目描述 在桌子上有 N 张卡片&#xff0c;每张卡片的正面和背面都写着一个正数&#xff08;正面与背面上的数有可能不一样&#xff09;。 我们可以先翻转任意张卡片&#xff0c;…

【Unity3D】Shader Graph简介

1 Shader Graph 简介 Shader Graph 是 Unity 官方在 2018 年推出的 Shader 制作插件&#xff0c;是图形化的 Shader 制作工具&#xff0c;类似于 Blender 中的 Shader Editor 和 UE 中的 Material Editor&#xff0c;它使用流程图的形式表达顶点变换和片元着色的流程。 Shader …

GC垃圾回收器【入门笔记】

GC&#xff1a;Garbage Collectors 垃圾回收器 C/C&#xff0c;手动回收内存&#xff1b;难调试、门槛高。忘记回收、多次回收等问题 Java、Golang等&#xff0c;有垃圾回收器&#xff1a;自动回收&#xff0c;技术门槛降低 一、如何定位垃圾&#xff1f; https://www.infoq.c…