如果问华语乐坛近期产量最高的歌手是谁,“AI 周杰伦”、“AI 孙燕姿”一定有姓名——歌迷们先用歌手的音色训练AI,再通过模型将其他歌曲转换成以歌手音色“翻唱”的歌曲。语音合成 (Text To Speech,TTS) 就是其背后的技术支持。
作为生成式AI的一大重要课题,语音合成技术在近年来取得了飞速发展。TTS满足将文本转化成拟人化语音的需求,打通人机交互闭环。
如今,语音合成产品应用领域广泛,如车载导航、客服场景、智能车机、新闻播报、直播卖货、数字人等。TTS技术对于声优的发音、录音环境、标注的准确率和精细度都具有极高的要求。
澳鹏TTS产品及服务,旨在减少机械感、提升自然度,满足当下市场上对于语音合成产品从能听懂到听感上无限贴近真人的需求。
情感表达TTS:给机器注入感情
情感表达是语音合成产品的一次升级——多情感录制为机器注入感情。一般涉及到的感情变化有开心/难过/生气/愤怒等。澳鹏通过设计不同情感和不同情感强度的文本或场景,帮助声优更好地演绎和准确表达情感,同时也能有针对性地区分同样情感的不同强度,保证情感的表达更加丰富多样。
澳鹏根据实际录音的情感音频,对音频进行音素、韵律、情感和情感唤醒度/强度的标注。高质量和多维度的标注数据能让模型更好地表达不同的情感和强度,更真实地模拟现实场景。
方言及小语种TTS:让更多人听得懂的声音
方言的识别和合成一直是AI届的难点之一。如何做到精准识别各年龄段/各地区的口音,以及如何合成出某个方言地区男女老少都听得懂的声音,是澳鹏方言TTS产品团队需要解决的关键要点。
由于不同方言所对应的音素集和普通话拼音区别较大,澳鹏在处理方言标注时,通常会规定当前方言的音素集和音调,以便更准确地表达方言的发音,例如上海话对应的钱拼,以及广东话对应的粤拼 (Jyutping)。
此外,除了中文普通话和方言,当前有越来越多的产品面向海外用户,需要各种各样的外语音库。除了一些常规的大语种外,澳鹏在稀缺语种方面也具备丰富的资源及项目经验。
特色人设TTS:增加个性化互动
霸道总裁,少女音,御姐音,正太音......多种多样的特色人设录制,让澳鹏语音合成产品具备了多种特色风格、变得更加个性化,也在产品的定位上由简单播报转化为朋友间的互动。
自然对话TTS:让合成的声音更加拟人
自然对话TTS是指在录制中无文本,声优展示自然的换气、停顿等,最终根据发音人实际音频进行副语言标签补充。副语言标注方案通常是在音频时间戳上的对应位置标记出不同的副语言特征。常见的标注标签包括:笑声(laugh),呼吸(bre),短换气 (spbre),长停顿 (p) 等等。对副语言现象的标注,可以给模型提供更接近真人自然对话中的信息,比如呼吸声、停顿、笑声、结巴等特征,这样合成出来的声音将更加拟人。
歌曲采集/标注:清晰展现歌手的演绎特征
澳鹏在中文和外语唱歌领域具有丰富的采集/标注经验,可针对声优录制的干声音频进行音节划分和音素切分工作。音素切分是指将参考语谱图针对元音和辅音的表现特征进行音素和时间轴的对齐和切分,可以清晰展现不同音节和音素在歌手演绎歌曲过程中的特征。
澳鹏TTS服务
澳鹏拥有丰富的语音合成采集和标注经验,包含方言和各种外语等几十个语种。团队成员均具备5年以上行业经验,以及完整的质量管理体系,助推tts技术的高自然度及个性化发展。
澳鹏提供TTS数据集以及TTS服务,为您定制多种语言与音色的语音合成数据,助您快速部署多种类的语音合成AI。