微软新一代文本转语音模型——笑声，情绪，心情，打造真实AI语音

news2026/3/26 12:44:51

文本转语音一直是音频领域大家研究的对象，而基于人工智能模型打造的文本转语音的音频总是有机器人的味道，缺乏了人类的感情。如何把人类的感情融入到文本转音频领域一直是各大模型厂家研究的重点。

而OpenAI发布的GPT-4o（“o”代表“omni”）它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。模型更加智能，且输入输出方式更加自然，符合人类的交互需求。它可以在短短 232 毫秒内响应音频输入，平均为 320 毫秒，这与人类在对话中的响应时间相似，且模型输出的音频对话富有人类的感情。无奈OpenAI发布的模型一般不对普通用户开放，想体验一下GPT-4o的功能还需要升级plus会员，就算是这样，一般也不能使用。

前期我们也介绍过微软的tts（文本转语音服务）服务，当然微软也开放了其tts的个别服务，我们完全可以使用python代码执行文本转语音服务。而使用python代码执行文本转语音服务也很简单。只需要如下几行代码就可以执行文本转语音。

import edge_tts
import asyncio
TEXT = ""
with open ('1.txt','rb') as f:
    data = f.read()
    TEXT = data.decode('utf-8')
print(TEXT)
voice = 'zh-CN-YunxiNeural'
output = '4.mp3'
rate = '-4%'
volume = '+0%'
async def my_function():
    tts = edge_tts.Communicate(text = TEXT,voice = voice,rate = rate,volume=volume)
    await tts.save(output)
if __name__ == '__main__':
    asyncio.run(my_function())

但是生成的音频文件，缺乏了人类的各种感情，语音语调几乎没有，更别说是笑声，叹气声等语气词了。而微软最新发布了自己的文本转语音服务，包含笑声，语气词，让文本转的音频更加接近人类聊天的语气。

试听一下此音频，完全添加了人类聊天的语气词，更添加了停顿，笑声等。简直跟真人聊天一样。

文本转音频

借助 Azure OpenAI GPT 等大型语言模型 (LLM) 的强大功能，AI 可以产生比以往更自然、流畅和高质量的响应。因此，在进行口头对话时，对文本转语音 (TTS) 声音的自然性和表现力的要求比以往任何时候都更高。微软发布的新一代文本转音频模型，其新的逼真声音非常适合任何需要逼真语音交互的应用程序，包括聊天机器人、语音助手、游戏、电子学习、娱乐等。

无论是创建基于语音的聊天机器人、语音助手还是对话代理，这些新声音都将确保交互更加真实、逼真和引人入胜。与为通用目的设计的语音相比，在阅读会话和休闲文本时，针对会话优化的语音听起来更自然、更有吸引力。此外，它们甚至还包括笑声和充满停顿等感叹词，为您的虚拟对话增添人情味。

各种场景的音频生成

微软新一代的文本转音频服务，不仅更加逼人，更是提供了不同场景的服务，包含：对话，感叹词对话，冥想，新闻，诗歌，故事，电子学习，广告，定制服务，广播等，覆盖了生活中很多的场景。

当然除了中文，英文外，其模型还支持其他语言的语言，简直是配音的好帮手。

支持的其他语言语言

新 GA 语音：
en-US-AvaMultilingualNeural、en-US-AndrewMultilingualNeural、
en-US-EmmaMultilingualNeural、en-US-BrianMultilingualNeural、
De-DE-FlorianMultilingualNeural、De-DE-SeraphinaMultilingualNeural、
Fr-FR-RemyMultilingualNeural、Fr -FR-VivienneMultilingualNeural 
zh-CN-XiaoxiaoMultilingualNeural

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：启示AI科技
微信中复制如下链接，打开，免费使用chatgpt
 
https://wx2.expostar.cn/qz/pages/manor/index?id=1137&share_from_id=79482&sid=24

动画详解transformer 在线教程