【AGI-Eval行业动态】OpenAI 语音模型三连发，AI 语音进入“声优”时代

前言：OpenAI又双叒叕搞事情了！这次他们带着三款全新语音模型强势来袭，直接让 AI 语音界卷出新高度！无论是语音识别的精准度、还是根据文字生成音频的脑洞，这三款模型都堪称“神仙打架”。如果你还在用老掉牙的语音助手，或者觉得 AI 语音只是“人工智障”，那这次 OpenAI 的全新语音模型绝对能刷新你的认知！它们在语音交互技术上有什么突破？将如何改变我们与智能设备对话的方式？让我们一起做好准备，迎接 AI 语音的未来！

01 OpenAI发布三款全新语音模型

1.1语音转文本模型

1.2文本到语音模型

02 当前语音模型技术前沿

2.1字节跳动旗下语音模型

2.2LLaMA-Omni

2.3星火语音大模型

03 语音模型的评测

3.1模型评测维度

3.2模型评测指标

01. OpenAI 发布三款全新语音模型

美东时间 3 月 20 日，OpenAI 发布了三款全新语音模型，分别是自动语音识别模型（ASR） GPT - 4o Transcribe 和 GPT - 4o Mini Transcribe，以及语音合成模型（TTS） GPT - 4o Mini TTS。

图源：OpenAI

1.1语音转文本模型

语音转文本模型的核心是识别文字的准确率有多高。 OpenAI 推出的语音转文本模型 gpt-4o-transcribe 和 gpt-4o-mini-transcribe，一举打破了传统语音识别的壁垒。据 OpenAI 称，通过长时间在多样化、高质量音频数据集上的深度训练，它们对语音细微差别的捕捉能力达到了惊人的地步。无论面对何种复杂口音，还是嘈杂环境中的模糊语音，甚至是语速的频繁变化，这两款模型都能轻松应对，大幅减少误识别，让转录可靠性得到质的飞跃。

GPT - 4o Transcribe 和 GPT - 4o Mini Transcribe 的准确度高于 OpenAI 之前发布的语音转文本模型 Whisper，OpenAI称GPT - 4o Transcribe 是“比 Whisper 大得多”的模型。定价为每 100 万音频输入tokens 6.00 美元，相当于每分钟约 0.006 美元。其在多种语言中实现更低的词错误率（WER），在英语中，它实现了 2.46% 的字错误率，在普通话中的错误率约为7% 。

Gpt-4o-mini-transcribe 作为精简版本，提供了一个更小、更实惠的替代方案，更适用注重成本效益的用户。虽身材小巧，但实力不容小觑，在资源有限的情况下，依然能提供高于原有 Whisper 模型的高质量语音识别服务，同时保持了与 gpt-4o-transcribe 相似的转录能力。定价显著较低，为每 100 万音频输入tokens是3美元，约为每分钟0.003美元，是gpt-4o-transcribe的一半。

官方声称GPT - 4o Transcribe 能识别嘈杂环境中的语音，但通过实测发现，键盘声或说话声仍可能打断对话、中文可能会被识别成日语或者其他语言。可见 OpenAI 本次发布的语音转文本模型在 Whisper 的基础上有所提升，但并不明显，有不少网友称这种程度的提升不值得专门付费。

在多语言基准测试中，尤其在英语、西班牙语等语言上，超越 Whisper v2 和 v3，以更快的速度、更高的效率满足开发者的多元需求。

官方给出了gpt-4o-transcribe、gpt-4o-mini-transcribe等模型在FLEURS数据集上的错字率对比结果，横坐标是不同的语言，纵坐标是词错误率。

1.2 文本到语音模型

新的文本到语音模型 GPT - 4o Mini TTS 能提供更细致入微、听起来更逼真的语音。它在文本转语音技术中引入了新的自定义级别，比前一代语音合成模型更 “可操控”。如果说语音转文本是让机器听懂人类的语言，那么 OpenAI 的文本转语音模型 gpt-4o-mini-tts 则是赋予机器 “说话” 的灵魂。它首次突破性地支持 “可引导性”，开发者不再仅仅局限于指定机器 “说什么”，更能精细控制 “如何说”，AI模型说话有了更多的语气。

例如，“像热情的导购一样介绍商品”、“像一个疯狂的科学家一样说话”或“使用平静的声音，像一位正念老师一样”，使其能够产生细致入微、逼真的语音。想象一下，有声书朗读者可以轻松为不同角色赋予独特的声线与情感；游戏开发者能为游戏中的 NPC 打造丰富多样、性格鲜明的语音效果；在线教育平台也能借助它，为课程内容增添生动且富有感染力的讲解语音，让学习过程变得更加引人入胜。不仅如此，其定价亲民，每分钟仅需 0.015 美元，让更多人能够轻松享受到先进语音合成技术带来的便利。

OpenAI还专门创建了一个独立网站，用户可在网站内免费体验模型文字转语音的能力。该网址中，OpenAI提供了十一种预置的声音选项，用户可以用提示词改变AI说话的语气和节奏，指定特定的风格或人设，如“机器人”“疯狂的科学家”“伤感的青少年”“体育教练”等。用户在选定好声音和人设之后，网站可生成定制的Prompt和特定文字脚本，提交脚本内容后，模型在数秒内即可反馈语音。

GPT - 4o Mini TTS 模型在“智商”外，更强调“情感”属性，也符合未来AI系统需要具备情感，以便更好地设定目标和理解后果的趋势。在该模型中，用户不仅能控制AI说什么，还可以控制AI怎么说。

02. 当前语音模型技术前沿

2.1字节跳动旗下语音模型

近年来，字节跳动公司在语音大模型领域推出多个重要成果，主要集中在语音合成（TTS）和语音识别（ASR）方向：

豆包实时语音大模型：于 2025 年 1 月 20 日上线豆包 App，是一款语音理解和生成一体化的模型，实现了端到端语音对话，支持语音到语音（S2S）、语音到文本（S2T）、文本到语音（T2S）、文本到文本（T2T）等多种模式。该模型在对话中可随时打断等特性，呈现出接近真人的语音表达水准，还支持实时联网功能，能根据问题动态获取最新信息。

豆包语音合成模型：豆包大模型家族中的一员，提供自然生动的语音合成能力，善于表达多种情绪，演绎多种场景，可满足内容创作、智能客服等场景下的语音合成需求。

豆包语音识别模型：豆包大模型家族的一部分，具有更高的准确率及灵敏度，更低的语音识别延迟，支持多语种的正确识别，可应用于语音转文字、智能语音交互等场景。

PersonaTalk：这是字节跳动开发的一款可以为视频精准配音的 AI 模型。它能够实现声音与嘴型的完美同步，在生成新视频时还能保留人物的原始说话风格、面部特征和表情，使得视频看起来更加真实自然。

2.2 LLaMA-Omni

2024 年 9 月，中国科学院计算技术研究所自然语言处理团队发布端到端语音交互大模型 LLaMA - Omni。它基于 Llama-3.1-8B-Instruct 开发，由语音编码器、语音适配器、LLM 和流式语音解码器组成。用户的语音指令由语音编码器进行编码，经过语音适配器后输入 LLM，LLM 直接基于语音指令生成文本回复，与此同时，语音解码器同步生成对应的语音回复，响应延时可低至 226ms，低于 GPT-4o 的平均延时 320ms。LLaMA-Omni 仅需在 4 张 GPU 上训练 3 天时间，显著降低了语音大模型训练所需的计算资源，在低延迟和高质量的语音交互方面实现了突破。

2.3 星火语音大模型

科大讯飞的语音合成技术是其核心技术之一，提供多语种与多方言支持；经过长期的技术研发和优化，合成的语音自然饱满，逼真度高，富有表现力。用户可随心调节语调、语速、音量等参数，以满足不同场景的需求。此外，SDK 还支持在文本中加入 CSSML 或简单标记，对多音字、静音停顿、数字读法等进行设置，实现更丰富的效果。广泛应用于新闻阅读、出行导航、智能硬件、通知播报、有声书制作等场景。例如，为中国中央电视台定制康辉、欧阳夏丹主播音库，用于央视新闻公众号中 “早啊！新闻来了” 有声栏目的打造。

03. 语音模型的评测

语音模型的评测通常从多个方面进行，包括语音质量、自然度、准确性、表现力等，以下是具体评测维度：

3.1模型评测维度

理解层面：

捕捉并保留语音中的所有信息（如情绪、语义）

表现力：评测模型能否根据文本内容和场景需求，准确地表达出相应的情感，如喜悦、悲伤、愤怒、惊讶等，以适应不同的语言风格和场景。丰富的情感表达能使语音更生动，增强与用户的情感共鸣，例如在有声小说中，生动的情感表达能让听众更好地沉浸在故事中；在学术讲解中，需要专业清晰的语言风格。

鲁棒性：测试模型的抗噪能力，如在嘈杂的街道、商场或工厂等不同噪音环境下，能否依然准确地捕捉并保留语音中的所有信息，不受噪音干扰或影响较小。考察模型对不规范、错误或异常的输入文本或语音的处理能力，是否能给出合理的输出或提示，而不是出现崩溃或生成无意义的语音。

输出层面：

语音交互中的表现，更人性化的方式给出反馈（打断、衔接、各种语气）

语音质量：考察模型生成语音的音色是否丰富；衔接是否自然，有无明显卡顿；节奏、重音、语调等韵律特征是否自然流畅；是否符合人类的语言习惯；是否符合不同角色或场景的需求。如儿童故事应用中，需要柔和、亲切的童声音色，新闻播报需要沉稳、大气的成年音色。

准确性：对于将文字转换为语音的模型，要评估其是否能准确地将输入的文本内容转换为正确的语音，包括字词的发音、多音字的处理、数字和符号的正确读法、是否能屏蔽在嘈杂环境中的杂音、在不同口音和语速下的表现如何等。例如，在金融领域的语音播报中，准确读出数字和专业术语至关重要，否则可能导致信息错误。

实时性：衡量模型从输入文本或语音到生成并输出语音的时间，快速的响应速度能提供更好的用户体验，减少用户等待的焦虑感，特别是在实时交互的场景中，如语音助手，用户希望能尽快得到回应。

3.2 模型评测指标

主观评测：

从体验来看：合成语音一般需要通过主观评价来对比不同模型的表现，这里一般使用的就是MOS（Mean Opinion Score）。 MOS基于crowd-sourcing，通过人类听众对语音质量进行评分，通常采用 1-5 分的评分标准。由于语音合成的自然度度量是基于人的判断，因此我们很难去完美地定义它，但是从直觉上来说，只要有大量的人认为这个语音很自然，那么我们可以认为语音的质量很高，这也就是常见的MOS分数所基于的假设。

MOS 评测虽然比较可靠，但成本高，另外，MOS的大小依赖于评价者，有的评价者很苛刻，那么她给的分数就会偏低，而有的评价者却是相反的。除此之外，MOS还会受到听语音时的环境，评价者的状态等多种因素的影响。下图展示了一次评价中评价者给出的MOS分数的均值和标准差的分布，我们可以看到，标准差最大达到了2，这就说明评价者在某些语音的质量上有很大的分歧。

因此在积累了一定 MOS 数据之后用模型来学习预测 MOS 就成为了一个比较好的改进方法。

MOSnet：

MOS是多个受试者的平均得分。较高的分数表示质量较好。然而，这种测量通常需要大量的人工参与，耗时较长，成本较高。因此，提出了几种基于机器学习的模型用于自动语音质量评估。陈周洛等人通过统计方法验证了MOS的可预测性，并提出了用于MOS预测的MOSNet。MBNet进一步利用训练数据集中评审者的身份来建模受试者的偏差。

MOSNet建立在强大的TensorFlow 2.0.0-beta1之上，兼容CUDA 10.1和CUDNN 7.6.0，确保了计算效率和广泛的支持性。Python环境要求3.5版本，配合一系列关键库如Scipy、Pandas、Matplotlib以及librosa，共同构建起复杂的声音信号处理与模型训练的基础。

可用于语音转换质量评估，为企业开发语音助手、学术界研究语音合成技术等提供客观质量反馈，指导技术改进；也有助于语音识别系统优化，通过评估转换后语音，调整识别系统前端处理策略，提升整体性能；还可作为教学工具，帮助学生理解如何利用机器学习方法改进语音数据质量评估。

MOSnet 能够提供标准化评估，统一衡量不同语音转换算法的性能，促进学术交流和工业应用的一致性。使用便捷，有简洁明了的指令集，复现实验结果或评估自定义语音样本都很高效，且有开箱即用的预训练模型，无需从零开始训练。