【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代

news2025/4/12 23:40:32

前言:OpenAI又双叒叕搞事情了!这次他们带着三款全新语音模型强势来袭,直接让 AI 语音界卷出新高度!无论是语音识别的精准度、还是根据文字生成音频的脑洞,这三款模型都堪称“神仙打架”。 如果你还在用老掉牙的语音助手,或者觉得 AI 语音只是“人工智障”,那这次 OpenAI 的全新语音模型绝对能刷新你的认知!它们在语音交互技术上有什么突破?将如何改变我们与智能设备对话的方式?让我们一起做好准备,迎接 AI 语音的未来!

目录:

01 OpenAI发布三款全新语音模型

1.1语音转文本模型

1.2文本到语音模型

02 当前语音模型技术前沿

2.1字节跳动旗下语音模型

2.2LLaMA-Omni

2.3星火语音大模型

03 语音模型的评测

3.1模型评测维度

3.2模型评测指标

01. OpenAI 发布三款全新语音模型

美东时间 3 月 20 日,OpenAI 发布了三款全新语音模型,分别是自动语音识别模型(ASR) GPT - 4o Transcribe 和 GPT - 4o Mini Transcribe,以及语音合成模型(TTS) GPT - 4o Mini TTS。

图源:OpenAI

1.1语音转文本模型

语音转文本模型的核心是识别文字的准确率有多高。 OpenAI 推出的语音转文本模型 gpt-4o-transcribe 和 gpt-4o-mini-transcribe,一举打破了传统语音识别的壁垒。据 OpenAI 称,通过长时间在多样化、高质量音频数据集上的深度训练,它们对语音细微差别的捕捉能力达到了惊人的地步。无论面对何种复杂口音,还是嘈杂环境中的模糊语音,甚至是语速的频繁变化,这两款模型都能轻松应对,大幅减少误识别,让转录可靠性得到质的飞跃。

GPT - 4o Transcribe 和 GPT - 4o Mini Transcribe 的准确度高于 OpenAI 之前发布的语音转文本模型 Whisper,OpenAI称GPT - 4o Transcribe 是“比 Whisper 大得多”的模型。定价为每 100 万音频输入tokens 6.00 美元,相当于每分钟约 0.006 美元。其在多种语言中实现更低的词错误率(WER),在英语中,它实现了 2.46% 的字错误率 ,在普通话中的错误率约为7% 。

Gpt-4o-mini-transcribe 作为精简版本,提供了一个更小、更实惠的替代方案,更适用注重成本效益的用户。虽身材小巧,但实力不容小觑,在资源有限的情况下,依然能提供高于原有 Whisper 模型的高质量语音识别服务,同时保持了与 gpt-4o-transcribe 相似的转录能力。定价显著较低,为每 100 万音频输入tokens是3美元,约为每分钟0.003美元,是gpt-4o-transcribe的一半。

官方声称GPT - 4o Transcribe 能识别嘈杂环境中的语音,但通过实测发现,键盘声或说话声仍可能打断对话、中文可能会被识别成日语或者其他语言。可见 OpenAI 本次发布的语音转文本模型在 Whisper 的基础上有所提升,但并不明显,有不少网友称这种程度的提升不值得专门付费。

在多语言基准测试中,尤其在英语、西班牙语等语言上,超越 Whisper v2 和 v3,以更快的速度、更高的效率满足开发者的多元需求。

官方给出了gpt-4o-transcribe、gpt-4o-mini-transcribe等模型在FLEURS数据集上的错字率对比结果,横坐标是不同的语言,纵坐标是词错误率。

1.2 文本到语音模型

新的文本到语音模型 GPT - 4o Mini TTS 能提供更细致入微、听起来更逼真的语音。它在文本转语音技术中引入了新的自定义级别,比前一代语音合成模型更 “可操控”如果说语音转文本是让机器听懂人类的语言,那么 OpenAI 的文本转语音模型 gpt-4o-mini-tts 则是赋予机器 “说话” 的灵魂。它首次突破性地支持 “可引导性”,开发者不再仅仅局限于指定机器 “说什么”,更能精细控制 “如何说”,AI模型说话有了更多的语气。

例如,“像热情的导购一样介绍商品”、“像一个疯狂的科学家一样说话”或“使用平静的声音,像一位正念老师一样”,使其能够产生细致入微、逼真的语音。想象一下,有声书朗读者可以轻松为不同角色赋予独特的声线与情感;游戏开发者能为游戏中的 NPC 打造丰富多样、性格鲜明的语音效果;在线教育平台也能借助它,为课程内容增添生动且富有感染力的讲解语音,让学习过程变得更加引人入胜。不仅如此,其定价亲民,每分钟仅需 0.015 美元,让更多人能够轻松享受到先进语音合成技术带来的便利。

OpenAI还专门创建了一个独立网站,用户可在网站内免费体验模型文字转语音的能力。该网址中,OpenAI提供了十一种预置的声音选项,用户可以用提示词改变AI说话的语气和节奏,指定特定的风格或人设,如“机器人”“疯狂的科学家”“伤感的青少年”“体育教练”等。用户在选定好声音和人设之后,网站可生成定制的Prompt和特定文字脚本,提交脚本内容后,模型在数秒内即可反馈语音。

GPT - 4o Mini TTS 模型在“智商”外,更强调“情感”属性,也符合未来AI系统需要具备情感,以便更好地设定目标和理解后果的趋势。在该模型中,用户不仅能控制AI说什么,还可以控制AI怎么说。

02. 当前语音模型技术前沿

2.1字节跳动旗下语音模型

近年来,字节跳动公司在语音大模型领域推出多个重要成果,主要集中在语音合成(TTS)语音识别(ASR)方向:

豆包实时语音大模型:于 2025 年 1 月 20 日上线豆包 App,是一款语音理解和生成一体化的模型,实现了端到端语音对话,支持语音到语音(S2S)、语音到文本(S2T)、文本到语音(T2S)、文本到文本(T2T)等多种模式。该模型在对话中可随时打断等特性,呈现出接近真人的语音表达水准,还支持实时联网功能,能根据问题动态获取最新信息。

豆包语音合成模型:豆包大模型家族中的一员,提供自然生动的语音合成能力,善于表达多种情绪,演绎多种场景,可满足内容创作、智能客服等场景下的语音合成需求。

豆包语音识别模型:豆包大模型家族的一部分,具有更高的准确率及灵敏度,更低的语音识别延迟,支持多语种的正确识别,可应用于语音转文字、智能语音交互等场景。

PersonaTalk:这是字节跳动开发的一款可以为视频精准配音的 AI 模型。它能够实现声音与嘴型的完美同步,在生成新视频时还能保留人物的原始说话风格、面部特征和表情,使得视频看起来更加真实自然。

2.2 LLaMA-Omni

2024 年 9 月,中国科学院计算技术研究所自然语言处理团队发布端到端语音交互大模型 LLaMA - Omni。它基于 Llama-3.1-8B-Instruct 开发,由语音编码器、语音适配器、LLM 和流式语音解码器组成。用户的语音指令由语音编码器进行编码,经过语音适配器后输入 LLM,LLM 直接基于语音指令生成文本回复,与此同时,语音解码器同步生成对应的语音回复,响应延时可低至 226ms,低于 GPT-4o 的平均延时 320ms。LLaMA-Omni 仅需在 4 张 GPU 上训练 3 天时间,显著降低了语音大模型训练所需的计算资源,在低延迟和高质量的语音交互方面实现了突破。

2.3 星火语音大模型

科大讯飞的语音合成技术是其核心技术之一,提供多语种与多方言支持;经过长期的技术研发和优化,合成的语音自然饱满,逼真度高,富有表现力。用户可随心调节语调、语速、音量等参数,以满足不同场景的需求。此外,SDK 还支持在文本中加入 CSSML 或简单标记,对多音字、静音停顿、数字读法等进行设置,实现更丰富的效果。广泛应用于新闻阅读、出行导航、智能硬件、通知播报、有声书制作等场景。例如,为中国中央电视台定制康辉、欧阳夏丹主播音库,用于央视新闻公众号中 “早啊!新闻来了” 有声栏目的打造。

03. 语音模型的评测

语音模型的评测通常从多个方面进行,包括语音质量、自然度、准确性、表现力等,以下是具体评测维度:

3.1模型评测维度

理解层面:

捕捉并保留语音中的所有信息(如情绪、语义)

表现力:评测模型能否根据文本内容和场景需求,准确地表达出相应的情感,如喜悦、悲伤、愤怒、惊讶等,以适应不同的语言风格和场景。丰富的情感表达能使语音更生动,增强与用户的情感共鸣,例如在有声小说中,生动的情感表达能让听众更好地沉浸在故事中;在学术讲解中,需要专业清晰的语言风格。

鲁棒性:测试模型的抗噪能力,如在嘈杂的街道、商场或工厂等不同噪音环境下,能否依然准确地捕捉并保留语音中的所有信息,不受噪音干扰或影响较小。考察模型对不规范、错误或异常的输入文本或语音的处理能力,是否能给出合理的输出或提示,而不是出现崩溃或生成无意义的语音。

输出层面:

语音交互中的表现,更人性化的方式给出反馈(打断、衔接、各种语气)

语音质量:考察模型生成语音的音色是否丰富;衔接是否自然,有无明显卡顿;节奏、重音、语调等韵律特征是否自然流畅;是否符合人类的语言习惯;是否符合不同角色或场景的需求。如儿童故事应用中,需要柔和、亲切的童声音色,新闻播报需要沉稳、大气的成年音色。

准确性:对于将文字转换为语音的模型,要评估其是否能准确地将输入的文本内容转换为正确的语音,包括字词的发音、多音字的处理、数字和符号的正确读法、是否能屏蔽在嘈杂环境中的杂音、在不同口音和语速下的表现如何等。例如,在金融领域的语音播报中,准确读出数字和专业术语至关重要,否则可能导致信息错误。

实时性:衡量模型从输入文本或语音到生成并输出语音的时间,快速的响应速度能提供更好的用户体验,减少用户等待的焦虑感,特别是在实时交互的场景中,如语音助手,用户希望能尽快得到回应。

3.2 模型评测指标

主观评测:

从体验来看:合成语音一般需要通过主观评价来对比不同模型的表现,这里一般使用的就是MOS(Mean Opinion Score)。 MOS基于crowd-sourcing,通过人类听众对语音质量进行评分,通常采用 1-5 分的评分标准。由于语音合成的自然度度量是基于人的判断,因此我们很难去完美地定义它,但是从直觉上来说,只要有大量的人认为这个语音很自然,那么我们可以认为语音的质量很高,这也就是常见的MOS分数所基于的假设。

MOS 评测虽然比较可靠,但成本高,另外,MOS的大小依赖于评价者,有的评价者很苛刻,那么她给的分数就会偏低,而有的评价者却是相反的。除此之外,MOS还会受到听语音时的环境,评价者的状态等多种因素的影响。下图展示了一次评价中评价者给出的MOS分数的均值和标准差的分布,我们可以看到,标准差最大达到了2,这就说明评价者在某些语音的质量上有很大的分歧。

因此在积累了一定 MOS 数据之后用模型来学习预测 MOS 就成为了一个比较好的改进方法。

MOSnet:

MOS是多个受试者的平均得分。较高的分数表示质量较好。然而,这种测量通常需要大量的人工参与,耗时较长,成本较高。因此,提出了几种基于机器学习的模型用于自动语音质量评估。陈周洛等人通过统计方法验证了MOS的可预测性,并提出了用于MOS预测的MOSNet。MBNet进一步利用训练数据集中评审者的身份来建模受试者的偏差。

MOSNet建立在强大的TensorFlow 2.0.0-beta1之上,兼容CUDA 10.1和CUDNN 7.6.0,确保了计算效率和广泛的支持性。Python环境要求3.5版本,配合一系列关键库如Scipy、Pandas、Matplotlib以及librosa,共同构建起复杂的声音信号处理与模型训练的基础。

可用于语音转换质量评估,为企业开发语音助手、学术界研究语音合成技术等提供客观质量反馈,指导技术改进;也有助于语音识别系统优化,通过评估转换后语音,调整识别系统前端处理策略,提升整体性能;还可作为教学工具,帮助学生理解如何利用机器学习方法改进语音数据质量评估。

MOSnet 能够提供标准化评估,统一衡量不同语音转换算法的性能,促进学术交流和工业应用的一致性。使用便捷,有简洁明了的指令集,复现实验结果或评估自定义语音样本都很高效,且有开箱即用的预训练模型,无需从零开始训练。

SESQA:

实际上MOS有效样本量很难上去,所以SESQA (Semi-supervised learning for SQA)尝试利用少量有监督数据和大量无监督数据训练模型去提升模型效果。

多任务模型,8个辅助任务(按照经验来看大多都是没什么卵用?)

MOS loss:这个loss是针对有标注的数据设计,就是MAE

Ranking loss:pairwise形式,加了个margin

Score consistency loss:由三部分组成,第一部分是相近的两个utterance,第三部分是diff的两个utterance,第二部分是基于第一项和第三项的拓展(好奇这个模型的样本构造形式)

模型结构如下:

SESQA利用了半监督学习来解决MOSNet的问题,增加了模型的泛化性,且使得模型可以利用大量的无标注数据。

在语音技术日新月异的今天,MOSNet 和 SESQA 无疑是一座桥梁,连接着理论与实践,简化了高质量语音转换技术的验证过程。

如果喜欢本期内容,记得关注我们,为你带来更多大模型资讯!

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2333436.html

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

    相关文章

    蓝桥杯嵌入式十四届模拟一(eeprom)

    一.LED 先配置LED的八个引脚为GPIO_OutPut,锁存器PD2也是,然后都设置为起始高电平,生成代码时还要去解决引脚冲突问题 二.按键 按键配置,由原理图按键所对引脚要GPIO_Input 生成代码,在文件夹中添加code文件夹&#…

    DevOps与功能安全:Perforce ALM通过ISO 26262合规认证,简化安全关键系统开发流程

    本文来源perforce.com,由Perforce中国授权合作伙伴、DevSecOps解决方案提供商-龙智翻译整理。 近日,Perforce ALM(原Helix ALM)通过了国际权威认证机构 TV SD的ISO 26262功能安全流程认证!该认证涵盖Perforce ALM解决方…

    【图片识别改名工具】如何识别图片中文字内容,并根据文字对图片批量重命名批量改名,基于WPF和腾讯OCR的完整实现

    ​​办公场景​​ ​​批量处理图片文件​​:用户有一批图片文件,图片中包含文字信息(如编号、日期、名称等),需要根据图片中的文字内容对图片进行重命名。​​自动化办公​​:在办公场景中,用户需要将图片文件按内容分类或归档,手动重命名效率低下,自动化工具可以大幅…

    Dify+DeepSeek能做出什么来?快速构建可扩展的 AI 应用

    将 Dify(开源 LLM 应用开发平台)与 DeepSeek(深度求索公司的高性能大模型,如 DeepSeek-R1 或 DeepSeek-Lite)结合使用,可以充分发挥两者的优势,快速构建高效、灵活且可扩展的 AI 应用。以下是具…

    【深度学习】Ubuntu 服务器配置开源项目FIGRET(PyTorch、torch-scatter、torch-sparse、Gurobi 安装)

    开源项目网址:https://github.com/FIGRET/figret 该项目在SIGCOMM2024发表,用深度学习方法处理流量工程中的突发问题 1. 创建新的 Conda 环境 使用国内镜像源创建环境​ conda create -n figret python3.8.0 --override-channels -c https://mirrors.…

    浅析Centos7安装Oracle12数据库

    Linux下的Oracle数据库实在是太难安装了,事贼多,我都怀疑能安装成功是不是运气的成分更高一些。这里虚拟机是VMware Workstation 15.5,操作系统是Centos7,Oracle版本是Oracle Database 12c Enterprise Edition Release 12.1.0.2.0…

    代码随想录算法训练营Day27 | Leetcode 56. 合并区间、738.单调递增的数字、968.监控二叉树

    代码随想录算法训练营Day27 | Leetcode 56.合并区间、738.单调递增的数字、968.监控二叉树 一、合并区间 相关题目:Leetcode56 文档讲解:Leetcode56 视频讲解:Leetcode56 1. Leetcode56. 合并区间 以数组 intervals 表示若干个区间的集合&am…

    ESP32S3 链接到 WiFi

    以下是关于如何让 ESP32S3 连接到 WiFi 的完整流程和代码示例: ESP32S3 链接到 WiFi 1. 设置工作模式 ESP32 可以工作在两种模式下: Station (STA) 模式:作为无线终端连接到无线接入点(AP),类似于手机或…

    2024年博客之星的省域空间分布展示-以全网Top300为例

    目录 前言 一、2024博客之星 1、所有排名数据 2、空间属性管理 二、数据抓取与处理 1、相关业务表的设计 2、数据抓取处理 3、空间查询分析实践 三、数据成果挖掘 1、省域分布解读 2、技术开发活跃 四、总结 前言 2024年博客之星的评选活动已经过去了一个月&#xf…

    蓝桥赛前复习2:一维差分二维差分

    一维差分 问题描述 给定一个长度为 nn 的序列 aa。 再给定 mm 组操作,每次操作给定 33 个正整数 l,r,dl,r,d,表示对 al∼ral∼r​ 中的所有数增加 dd。 最终输出操作结束后的序列 aa。 Update:由于评测机过快,n,mn,m 于 2024…

    算法---子序列[动态规划解决](最长递增子序列)

    最长递增子序列 子序列包含子数组&#xff01; 说白了&#xff0c;要用到双层循环&#xff01; 用双层循环中的dp[i]和dp[j]把所有子序列情况考虑到位 class Solution { public:int lengthOfLIS(vector<int>& nums) {vector<int> dp(nums.size(),1);for(int i …

    100道C#高频经典面试题带解析答案——全面C#知识点总结

    100道C#高频经典面试题带解析答案 以下是100道C#高频经典面试题及其详细解析&#xff0c;涵盖基础语法、面向对象编程、集合、异步编程、LINQ等多个方面&#xff0c;旨在帮助初学者和有经验的开发者全面准备C#相关面试。 &#x1f9d1; 博主简介&#xff1a;CSDN博客专家、CSD…

    MQTT的构成、使用场景、工作原理介绍

    一、MQTT内容简介 MQTT&#xff08;Message Queuing Telemetry Transport&#xff09;是一种轻量级、基于发布-订阅模式的消息传输协议【适用于资源受限的设备和低带宽、高延迟或不稳定的网络环境】它在物联网应用中广受欢迎&#xff0c;能够实现传感器、执行器和其它设备之间的…

    Vanna + qwq32b 实现 text2SQL

    Vanna 是一个开源的 Text-2-SQL 框架&#xff0c;主要用于通过自然语言生成 SQL 查询&#xff0c;它基于 RAG&#xff08;Retrieval-Augmented Generation&#xff0c;检索增强生成&#xff09;技术。Vanna 的核心功能是通过训练一个模型&#xff08;基于数据库的元数据和用户提…

    电脑知识 | TCP通俗易懂详解 <一>

    目录 一、&#x1f44b;&#x1f3fb;前言 二、&#x1f68d;什么是TCP/TCP协议 三、&#x1f9cd;‍♂为什么TCP可靠 1.&#x1f970;关于可靠 2.&#x1f920;哪里可靠 3.&#x1f393;️图片的三次握手&#xff0c;四次挥手 4.&#x1f4da;️知识点总结 四、&…

    精品推荐-最新大模型MCP核心架构及最佳实践资料合集(18份).zip

    精品推荐-最新大模型MCP核心架构及最佳实践资料合集&#xff0c;共18份。 1、2025年程序员必学技能&#xff1a;大模型MCP核心技术.pdf 2、MCP 架构设计剖析&#xff1a;从 Service Mesh 演进到 Agentic Mesh.pdf 3、MCP 架构设计深度剖析&#xff1a;使用 Spring AI MCP 四步…

    Linux 线程:从零构建多线程应用:系统化解析线程API与底层设计逻辑

    线程 线程的概述 在之前&#xff0c;我们常把进程定义为 程序执行的实例&#xff0c;实际不然&#xff0c;进程实际上只是维护应用程序的各种资源&#xff0c;并不执行什么。真正执行具体任务的是线程。 那为什么之前直接执行a.out的时候&#xff0c;没有这种感受呢&#xf…

    VMware虚拟机Ubuntu磁盘扩容

    VMware中操作&#xff1a; 选择要扩容的虚拟机&#xff0c;点击编辑虚拟机设置 打开后点击磁盘——>点击扩展&#xff08;注意&#xff1a;如果想要扩容的话需要删除快照&#xff09; 调整到你想要的容量 点击上图的扩展——>确定 然后我们进到虚拟机里面 首先&#…

    游戏引擎学习第217天

    运行游戏并在 FreeVariableGroup 中遇到我们的断言 其实在美国&#xff0c;某些特定的小糖果&#xff08;例如小糖蛋&#xff09;只在圣诞节和复活节期间出售&#xff0c;导致有些人像我一样在这段时间吃得过多&#xff0c;进而增加体重。虽然这种情况每年都会发生&#xff0c…

    Day 8 上篇:深入理解 Linux 驱动模型中的平台驱动与总线驱动

    B站相应的视屏教程&#xff1a; &#x1f4cc; 内核&#xff1a;博文视频 - 总线驱动模型实战全解析 —— 以 PCA9450 PMIC 为例 敬请关注&#xff0c;记得标为原始粉丝。 在 Linux 内核驱动模型中&#xff0c;设备与驱动的组织方式不是随意堆砌&#xff0c;而是基于清晰的分类…