产品聚焦 | 澳鹏语音合成TTS，让AI无限贴近真人

news2026/2/15 10:55:18

如果问华语乐坛近期产量最高的歌手是谁，“AI 周杰伦”、“AI 孙燕姿”一定有姓名——歌迷们先用歌手的音色训练AI，再通过模型将其他歌曲转换成以歌手音色“翻唱”的歌曲。语音合成 (Text To Speech,TTS) 就是其背后的技术支持。

作为生成式AI的一大重要课题，语音合成技术在近年来取得了飞速发展。TTS满足将文本转化成拟人化语音的需求，打通人机交互闭环。

如今，语音合成产品应用领域广泛，如车载导航、客服场景、智能车机、新闻播报、直播卖货、数字人等。TTS技术对于声优的发音、录音环境、标注的准确率和精细度都具有极高的要求。

澳鹏TTS产品及服务，旨在减少机械感、提升自然度，满足当下市场上对于语音合成产品从能听懂到听感上无限贴近真人的需求。

情感表达TTS：给机器注入感情

情感表达是语音合成产品的一次升级——多情感录制为机器注入感情。一般涉及到的感情变化有开心/难过/生气/愤怒等。澳鹏通过设计不同情感和不同情感强度的文本或场景，帮助声优更好地演绎和准确表达情感，同时也能有针对性地区分同样情感的不同强度，保证情感的表达更加丰富多样。

澳鹏根据实际录音的情感音频，对音频进行音素、韵律、情感和情感唤醒度/强度的标注。高质量和多维度的标注数据能让模型更好地表达不同的情感和强度，更真实地模拟现实场景。

方言及小语种TTS：让更多人听得懂的声音

方言的识别和合成一直是AI届的难点之一。如何做到精准识别各年龄段/各地区的口音，以及如何合成出某个方言地区男女老少都听得懂的声音，是澳鹏方言TTS产品团队需要解决的关键要点。

由于不同方言所对应的音素集和普通话拼音区别较大，澳鹏在处理方言标注时，通常会规定当前方言的音素集和音调，以便更准确地表达方言的发音，例如上海话对应的钱拼，以及广东话对应的粤拼 (Jyutping)。

此外，除了中文普通话和方言，当前有越来越多的产品面向海外用户，需要各种各样的外语音库。除了一些常规的大语种外，澳鹏在稀缺语种方面也具备丰富的资源及项目经验。

特色人设TTS：增加个性化互动

霸道总裁，少女音，御姐音，正太音......多种多样的特色人设录制，让澳鹏语音合成产品具备了多种特色风格、变得更加个性化，也在产品的定位上由简单播报转化为朋友间的互动。

自然对话TTS：让合成的声音更加拟人

自然对话TTS是指在录制中无文本，声优展示自然的换气、停顿等，最终根据发音人实际音频进行副语言标签补充。副语言标注方案通常是在音频时间戳上的对应位置标记出不同的副语言特征。常见的标注标签包括：笑声(laugh)，呼吸(bre)，短换气 (spbre)，长停顿 (p) 等等。对副语言现象的标注，可以给模型提供更接近真人自然对话中的信息，比如呼吸声、停顿、笑声、结巴等特征，这样合成出来的声音将更加拟人。