在语音交互领域,语音合成是重要的一环,其技术也在不断发展。近年来,人们对情感合成的兴趣和需求越来越高。情感语音合成会让机器如真人一样和我们交流,它可以用愤怒的声音、开心的声音、悲伤的声音等不同情绪来表达,甚至是不同强度的不同情绪。
而情感语音转换技术可以在保持说话人身份和语言内容不变的前提下,将语音从一种情感状态转换为另一种情感状态。简单说就是在保持良好的目标说话人音色的同时,将情感表达从一个情感说话人适当地迁移到目标说话人。
图片
情感语音合成技术
图片
情感语音合成系统可以使用说话人及情感嵌入的模型方案。用情感做标签,即在原有网络基础上增加一个情感标签,这些情感的信息会通过网络得到学习。
说话人嵌入是通过神经网络来得到一个说话人向量,需要一定规模的多人数据库进行训练。
情感嵌入则需要情感数据结合说话人向量来实现情感语音合成的模型,所以需要高质量、多情感的数据。
情感语音转换技术
如跨说话人情感迁移可以利用情感和音色扰动,分别学习说话人和情感相关的语谱,为最终的语音生成提供显式的情感特征。说话人相关即保持目标说话人的音色,情感相关即捕捉源说话人的情感表达,因此需要多人多情感和多人无情感的数据来共同训练。
情感语音应用场景
虚拟形象:可以让虚拟的人物具有一定的情感表现能力。
短视频配音:可以为短视频的内容进行配音,使内容更加生动有趣。
游戏角色:可以让用户在游戏中有更好的体验。
影视动画:可以进行生动的解说。
智能客服:可以提高人机交互体验,让互动充满乐趣。
数据堂情感语音数据库推荐
01
单人情感语音数据库
由单个发音人,在专业录音棚内进行录制。
13.3小时中文女声情感合成库
01
由温柔亲切的年轻女性录制,分别为高兴、愤怒、悲伤、惊讶、恐惧和厌恶六种情感文本。语料音素覆盖均衡,专业语音学家参与标注,文字标注的字准确率不低于99.9%,音素标注的句准确率不低于99%,韵律标注的句准确率不低于98%。
02
多人情感语音数据库
由多个发音人,在专业录音棚内进行录制。
22人中文情感合成库
01
发音人男女比例均衡,覆盖了儿童、青年、老年不同年龄段。每人采集高兴、愤怒、悲伤、惊讶、恐惧和厌恶六种情感,每种情感20分钟。文本风格自然口语化,语料音素覆盖均衡,专业语音学家参与标注,文字标注的字准确率不低于99.9%,音素标注的句准确率不低于99%,韵律标注的句准确率不低于98%。
本数据库中的22人选自数据堂成品数据库“100人中文通用平均音色合成库”。两套数据库叠加使用可实现情感语音合成及跨说话人情感迁移等技术。
20人中文情感合成库
02
发音人男女比例均衡,覆盖少年、青年、中年、老年等不同年龄段,每人采集高兴、愤怒、悲伤、惊讶、恐惧、厌恶和中性7种情感,每种情感20分钟。文本均为小说风格,语料音素覆盖均衡,专业语音学家参与标注,文字标注的字准确率不低于99.9%,音素标注的句准确率不低于99%,韵律标注的句准确率不低于98%。
03
多发音人平均模型库
由多个发音人,在专业录音棚内进行录制。
100人中文通用平均音色合成库
01
涵盖新闻、日常口语、有声读物、诗词、广告、消息播送、娱乐等类别,语种涵盖中文、英文、中英混读,发音人男女各50人,涵盖儿童、成人、老人的不同年龄段,每人录制600到700个句子。并标注了文字、音素、4级韵律、音素边界。
作为全球领先的人工智能的数据服务商,数据堂可以为客户提供丰富的情感语音数据,通过这些数据训练的人工智能,合成在情感和表达上更加丰富的语音,让合成的声音更加自然真实,更好的应用在不同的场景。