OpenAI发布Voice Engine模型!用AI合成你的声音!

news2025/3/4 12:12:37

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

北美时间3月29日,OpenAI继续大秀肌肉,在一篇博客中发布并展示了一款AI合成语音的模型,Voice Engine。Voice Engine的核心功能是从15秒的录音中生成接近说话者音色的自然语音。如果你上传自己的录音和一段文本,它可以使用听起来像你的AI合成语音来读取文本。并且,文本不必是母语。例如,Voice Engine可以用中文、英语、西班牙语、法语或许多其他语言重新创建你的声音。

和之前公布的文本生成视频模型Sora一样,OpenAI并没有公测Voice Engine这项技术,而是仅对少部分内测用户开放。据OpenAI官方表示,它仍在探索这项AI技术潜在的风险。与图像和视频生成模型一样,语音生成模型很有可能被用在社交媒体上散布虚假信息,并且可能被犯罪分子用来在网上或电话中冒充他人。OpenAI担心Voice Engine可能被用来破解银行账户和其他个人应用程序访问的声音认证系统。

OpenAI的产品经理Jeff Harris在接受采访时表示:“This is a sensitive thing, and it is important to get it right. (这是一个敏感的问题,正确处理它非常重要。)”OpenAI正在探索为合成声音添加水印或控制措施,以防止人们使用该技术模仿政治家或其他知名人物的声音。

Voice Engine早期应用场景

早在2022年底,OpenAI就已开发Voice Engine,并使用它来为文本转语音(TTS)API中的预设声音以及ChatGPT Voice和Read Aloud提供支持。OpenAI表示它一直抱着谨慎的态度,防止AI合成的声音被滥用。目前Voice Engine正在进行小规模测试,OpenAI将根据小规模测试结果做出关于是否以及如何在更大规模上部署这项技术的决定。

关于文本转语音TTS技术感兴趣的小伙伴可以看我之前的这篇文章:ChatGPT最新功能“Text To Speech (TTS,文本转语音)”详细解读!

Voice Engine自去年开始的早期应用场景包括:

  1. 教育辅助与个性化互动

    • 通过听起来很自然、富有情感的声音为阅读障碍人群和儿童提供阅读辅助,提供比一些预设声音更广泛的音色。致力于儿童学术的教育技术公司Age of Learning一直在使用这项技术来生成预设脚本的配音内容。他们还使用Voice Engine和GPT-4来创建实时、个性化的响应,与学生互动。通过这项技术,Age of Learning能够为更广泛的受众创造更多内容。

  2. 多语言视频和播客翻译

    • Voice Engine技术支持将内容如视频和播客翻译成多种语言,使创作者和企业能够以自己的语言流利地触及全球观众。早期使用者之一是HeyGen,这是一个AI视觉叙事平台,与他们的企业客户合作,为各种内容创建定制的、类人化的头像,从产品营销到销售演示。他们使用Voice Engine进行视频翻译,这样他们可以将说话者的声音翻译成多种语言,并触及全球观众。当用于翻译时,Voice Engine保留了原始说话者的本地口音:例如,使用法语说话者的音频样本生成的英语会带有法语口音。

  3. 提升偏远地区服务交付

    • 通过改善偏远地区的基本服务交付,触达全球社区。Dimagi正在为社区卫生工作者构建工具,以提供各种基本服务,例如为哺乳母亲提供咨询。为了帮助这些工作者发展他们的技能,Dimagi使用Voice Engine和GPT-4以每位工作者的主要语言提供交互式反馈,包括斯瓦希里语或像Sheng这样的非正式语言,Sheng是肯尼亚流行的混合代码语言。

  4. 增强语言障碍人群的沟通能力

    • 支持无法用语言进行沟通的人群,例如为影响语言的疾病患者的治疗应用和为有学习需求的人提供教育增强。Livox是一个AI替代通讯应用程序,为残疾人提供增强性和替代性通讯(AAC)设备。通过使用Voice Engine,他们能够为非言语人群提供独特且非机械的声音,涵盖多种语言。他们的用户可以选择最能代表他们的声音,对于多语言用户来说,可以在每种口语中保持一致的声音。

  5. 帮助患者恢复声音

    • 帮助患者恢复声音。布朗大学医学院的主要教学附属机构,Norman Prince Neurosciences Institute正在探索AI在临床环境中的用途。他们一直在试行一个项目,为因肿瘤或神经原因导致言语障碍的个体提供Voice Engine。由于Voice Engine只需要15s之短的音频样本,医生Fatima Mirza、Rohaid Ali和Konstantina Svokos能够恢复一位因脑血管肿瘤失去流利语言能力的年轻患者的的声音,使用的是为学校项目录制的视频中的音频。

构建安全的Voice Engine

OpenAI再次强调,在构建Voice Engine时充分意识到AI合成语音技术可能带来的风险,尤其是在选举关键时期。为了确保这项技术的安全使用,OpenAI积极与来自政府、媒体、娱乐、教育和民间社会的美国及国际合作伙伴进行沟通,以获取他们的反馈和建议,并将其融入到技术构建的过程中。

在测试阶段,OpenAI与合作伙伴共同制定了严格的使用政策,明确禁止未经授权的个人或组织声音模仿行为。合作伙伴需获取原始说话者的明确和知情同意,同时确保开发者不为个人用户创建定制声音,并要求向听众明确披露所听到的声音是由AI生成的。此外,为了追踪音频来源并监控使用情况,实施了包括水印技术和主动监控在内的安全措施。OpenAI还提倡建立声音认证机制和禁止声音列表,以防止合成声音与知名人物过于相似,确保技术的负责任部署。

面向未来的技术展望与社会责任

Voice Engine的开发体现了OpenAI对人工智能前沿技术的深入探索和对公开分享其潜力的承诺。在考虑到AI安全性的重要性和对社会的潜在影响下,选择仅进行有限的预览而非全面发布,旨在平衡技术的推广与其可能带来的风险。这一举措旨在展示该技术的潜力,同时唤起社会对于由高度逼真的生成式AI模型所带来的挑战的关注和应对能力。

为了应对AI合成语音技术可能带来的挑战,OpenAI提出了一系列具体的行动建议。这包括逐步淘汰基于声音的认证机制,以增强对敏感信息的保护;探索制定相关政策以保护个人声音不被滥用;普及AI技术的教育,提高公众对技术的理解和对潜在欺骗性内容的警觉;以及加速开发能够追踪音视频内容来源的技术,确保用户能够明确区分真人与AI的互动。

OpenAI博文原文

最后,附上英文版的OpenAI博文原文:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices


精选推荐

  1. 完全免费白嫖GPT4的三个方法,都给你整理好了!

  2. AI领域的国产之光,ChatGPT的免费平替:Kimi Chat!

  3. Kimi Chat,不仅仅是聊天!深度剖析Kimi Chat 5大使用场景!

  4. 我用AI工具5分钟制作一个动画微电影!这个AI现在免费!

  5. 当全网都在疯转OpenAI的Sora时,我们普通人能做哪些准备?——关于Sora,你需要了解这些!

  6. 文心一言4.0 VS ChatGPT4.0哪家强?!每月60块的文心一言4.0值得开吗?

  7. ChatGPT和文心一言哪个更好用?一道题告诉你答案!

  8. 字节推出了“扣子”,国内版的Coze,但是我不推荐你用!

  9. 白嫖GPT4,Dalle3和GPT4V - 字节开发的Coze初体验!附教程及提示词Prompt

  10. 2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1555472.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决WSL更新速度慢的方案

在Windows上安装Docker Desktop时,如果选择使用WSL,则可能会出现在运行程序前要求升级WSL的步骤。程序会提示使用下面指令来升级 wsl.exe --update但是升级速度特别慢,于是在网络不稳定的情况下经常会出现下载失败的情况。 百度里一直没搜到…

shell的工作原理

本文旨在讲解shell的工作原理,希望读完本文,能使读者对shell的工作原理有一定的认识,废话不多说,开唠! 在讲解shell的工作原理之前,我要首先给大家讲一下什么是操作系统,以Linux操作系统为例&am…

【Springboot整合系列】SpringBoot整合WebService

目录 Web服务介绍Web服务的两种类型Web服务架构Web服务的主要特点Web服务使用场景Web服务标准和技术 WebService介绍WebService的作用适用场景不适用场景 WebService的原理三个角色相关概念 WebService开发框架代码实现服务端1.引入依赖2.实体类3.业务层接口接口实现类 4.配置类…

vue中使用图片url直接下载图片

vue中使用图片url直接下载图片 // 下载图片downloadByBlob(url, name) {let image new Image()image.setAttribute(crossOrigin, anonymous)image.src urlimage.onload () > {let canvas document.createElement(canvas)canvas.width image.widthcanvas.height image…

YoloV8实战:使用YoloV8检测钢材表面缺陷

摘要 本文讲解一下实战,使用YoloV8检测钢材表面缺陷。起因是有粉丝搞不定这个数据集,检测的时候出现了不收敛的情况。所以,给大家讲讲如何去做。 不收敛的原因 一般遇到不收敛的情况,就是数据转化的时候出错了,大家可以打开runs下面的训练日志,观察一下是否正常。 如…

CTF题型 nodejs(2) Js沙盒vmvm2逃逸原理总结典型例题

CTF题型 nodejs(2) Js沙盒逃逸原理&典型例题 文章目录 CTF题型 nodejs(2) Js沙盒逃逸原理&典型例题一.vm原理以及逃逸1.基本用法2.如何逃逸汇总1)this为对象2)this为null( Object.create(null))a .可用输出直接触发toString方法b.调用属性触发 3)Object.create(null)沙…

Verilog语法之if-else语句学习

if_else 条件分支语句的作用是根据指定的判断条件是否满足来确定下一步要执行的操作。它在使用时可以采用如下三种形式&#xff1a; if(<条件表达式>) 语句或语句块&#xff1a; 在 if_else 条件语句的这种使用形式中没有出现else 项&#xff0c;这种情况下条件分支…

java入门学习Day02

本文介绍的内容主要有&#xff1a;java的注释&#xff08;样式&#xff09;、关键字、字面量。 一、java中的注释 1、基本语法 ① 单行注释 //注释信息 ② 多行注释 /* 注释信息1 注释信息2&#xff0c; */ ③ 文档注释 /** 注释信息1 注释信息2&#xff0c; */ public class…

OpenHarmony:RichEditor组件样例开发

使用 richEditor 组件实现一个富文本编辑框&#xff0c;包含富文本编辑区域和功能栏&#xff0c;功能栏中有多个按键&#xff0c;可以调整字体大小、字体样式、字体颜色、布局&#xff0c;并可以插入图片。 api 版本&#xff1a;api11 主页面 import { TitleBar } from ../.…

iOS - Runloop介绍

文章目录 iOS - Runloop介绍1. 简介1.1 顾名思义1.2. 应用范畴1.3. 如果没有runloop1.4. 如果有了runloop 2. Runloop对象3. Runloop与线程4. 获取Runloop对象4.1 Foundation4.2 Core Foundation4.3 示例 5. Runloop相关的类5.1 Core Foundation中关于RunLoop的5个类5.2 CFRunL…

【机器学习】深度解析KNN算法

深度解析KNN算法 KNN&#xff08;K-最近邻&#xff09;算法是机器学习中一种基本且广泛应用的算法&#xff0c;它的实现简单直观&#xff0c;应用范围广泛&#xff0c;从图像识别到推荐系统都有其身影。然而&#xff0c;随着数据量的增长&#xff0c;KNN算法面临着严峻的效率挑…

常见的数学方法

Math类表示数学类&#xff0c;其中的数学方法都被定义成为static形式&#xff0c;所以可以直接通过Math类的类名调用某个数学方法。语法格式&#xff1a; Math.xxx(参数)&#xff1b; 例题 输入n个整数a1,a2,a3,......an,求这n个数的最大值max&#xff0c;最小值min&#xff0…

CSS(三)---【盒子模型、边框、外边距合并】

零.前言 本篇主要介绍CSS中最重要的一种概念模型&#xff1a;“盒子模型”。 关于CSS的更多内容&#xff0c;可以查看作者之前的文章&#xff1a; CSS(一)---【CSS简介、导入方式、八种选择器、优先级】-CSDN博客 CSS(二)---【常见属性、复合属性使用】-CSDN博客 一.盒子模…

课时79:流程控制_循环控制_控制解析

1.4.1 控制解析 学习目标 这一节&#xff0c;我们从 基础知识、简单实践、小结 三个方面来学习。 基础知识 简介 所谓的流程控制&#xff0c;主要针对的是&#xff0c;当我们处于流程步骤执行的过程中&#xff0c;因为某些特殊的原因&#xff0c;不得不停止既定的操作进行步…

素材投放效果追踪与精准识别:从数据洞察到策略优化的全方位解析

一、数据洞察&#xff1a;深度解析投放效果的核心指标在数字广告的世界里&#xff0c;数据是投放效果的晴雨表。通过深入的数据洞察&#xff0c;广告主可以清晰地掌握广告的实际表现&#xff0c;为后续的策略调整提供有力的支持。曝光量、点击率、转化率和投资回报率等指标&…

MS Edge浏览器坏了?网页播放视频的速度不对

前言 小白是MS Edge浏览器的重度用户。电脑上必须有的两个浏览器&#xff1a;Google Chrome和Microsoft Edge。 前段时间小白在使用MS Edge的时候出了问题&#xff1a;播放视频或者音频的时候总是被莫名其妙加速或者减速&#xff0c;类似于播放视频时候的0.5x或者2.0x。 当时…

Leetcode的正确打开方式

很多新手朋友在学习完数据结构与算法之后&#xff0c;都想找个平台磨练自己的技艺。那么LeetCode绝对是不二之选。但是官网刷题不是很友好&#xff0c;那么今天给大家介绍一款刷LeetCode神器。也是未来工作之后的摸鱼神器。 leetcode-editor 本打工人的摸&#xff08;nei&am…

OSCP靶场--Zipper

OSCP靶场–Zipper 考点(php zip:// rce[文件上传] CVE-2021-4034提权7z 通配符提权) 1.nmap扫描 ┌──(root㉿kali)-[~/Desktop] └─# nmap 192.168.249.229 -sV -sC -Pn --min-rate 2500 Starting Nmap 7.92 ( https://nmap.org ) at 2024-03-29 07:40 EDT …

知识图谱-图数据库-neo4j (1)踩坑记录

1、neo4j 安装 材料 &#xff1a; openjdk11 (neo4j 最低jdk版本要求) neo4j-community-4.4.30 CentOS 7.8 Release Date: 25 January 2024 Neo4j 4.4.30 is a maintenance release with many important improvements and fixes. Neo4j Deployment Center - Graph Database…

使用node爬取视频网站里《龙珠》m3u8视频

1. 找到视频播放网站 百度一下 龙珠视频播放 精挑细选一个可以播放的网站。 如&#xff1a;我在网上随便找了一个播放网站&#xff0c;可以直接在线播放 https://www.xxx.com/play/39999-1-7.html 这里不具体写视频地址了&#xff0c;大家可以自行搜索 2.分析网页DOM结…