OpenAI重大更新!为ChatGPT推出语音和图像交互功能

news2024/11/17 15:39:12

原创 | 文 BFT机器人 

图片

OpenAI旗下的ChatGPT正在迎来一次重大更新,这个聊天机器人现在能够与用户进行语音对话,并且可以通过图像进行交互,将其功能推向与苹果的Siri等受欢迎的人工智能助手更接近的水平。这标志着生成式人工智能运动的一个显著演进,OpenAI将基于语音助手与其强大的大型语言模型(LLMs)融为一体。

自从大约九个月前首次推出以来,这款广受欢迎的生成式人工智能助手一直是近年来最成功的技术之一,任何人都能通过简单的文本提示生成文章、诗歌和摘要。但现在,ChatGPT即将变得更加具有互动性,用户还可以与AI进行语音对话。

图片

这一新闻与亚马逊承诺向OpenAI竞争对手Anthropic投资多达40亿美元的消息同时传出,这是全球科技巨头之间更大规模的生成式人工智能竞争的一部分,其中包括谷歌试图通过其Bard聊天机器人迎头赶上、Meta采取坚定的开源理念来帮助其占据优势地位、以及微软与OpenAI自身紧密合作。

ChatGPT的新语音功能不仅可以朗读文本输入,还可以讲述睡前故事,解决晚餐桌上的争论等等。这项语音功能由一款新的文本转语音模型提供支持,该模型可以从文本和少量采样的语音中生成类似人类的声音。OpenAI表示,他们与知名的配音演员合作,创建了五种不同的声音,使用他们的开源Whisper语音识别系统将口头表达转录成文本。

此外,Spotify也被宣布为OpenAI的合作伙伴之一,这家音乐流媒体巨头为播客制作者引入了一个非常有趣的新功能,允许他们采样自己的声音并将他们的节目从英语翻译成西班牙语、法语或德语,同时保留他们自己的原声。然而,OpenAI似乎很谨慎,不希望招致批评,因此他们并没有将这项技术提供给所有人——而仅仅跟播客制作者合作,其中包括Dax Shepard、Monica Padman、Lex Fridman、Bill Simmons和Steven Bartlett。

图片

这些新功能将在未来两周内逐步推出,供付费的Plus和企业订阅用户使用。要启用语音功能,用户需要前往应用程序中的“设置”菜单,然后进入“新功能”并选择加入语音对话。然后,他们需要点击右上角的耳机按钮,然后选择他们想要的声音。

最初,语音将仅限于ChatGPT Android和iOS应用程序的选择性测试版,而图像搜索将默认在所有平台上提供。这一系列更新使ChatGPT更具互动性和创造力,为用户提供了更多有趣和实用的功能。

作者 | Azukii

排版 | 小河

审核 | 猫

若您对该文章内容有任何疑问,请与我们联系,我们将及时回应。如果想要了解更多的前沿资讯,记得点赞关注哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1065508.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Embedding技术与应用 (2) :神经网络的发展及现代Embedding方法简介

编者按:IDP开启Embedding系列专栏,详细介绍Embedding的发展史、主要技术和应用。 本文是《Embedding技术与应用系列》的第二篇,重点介绍 神经网络的发展历程及其技术架构,剖析了嵌入技术与这些神经网络(Transformer、B…

通讯网关软件017——利用CommGate X2Modbus实现Modbus RTU访问MSSQL服务器

本文介绍利用CommGate X2Modbus实现Modbus RTU访问MS SQL数据库。CommGate X2MODBUS是宁波科安网信开发的网关软件,软件可以登录到网信智汇(http://wangxinzhihui.com)下载。 【案例】如下图所示,实现上位机通过Modbus RTU来获取MS SQL数据库的数据。 【…

解密人工智能:决策树 | 随机森林 | 朴素贝叶斯

文章目录 一、机器学习算法简介1.1 机器学习算法包含的两个步骤1.2 机器学习算法的分类 二、决策树2.1 优点2.2 缺点 三、随机森林四、Naive Bayes(朴素贝叶斯)五、结语 一、机器学习算法简介 机器学习算法是一种基于数据和经验的算法,通过对…

0基础学习VR全景平台篇 第104篇:720全景后期软件安装

上课!全体起立~ 大家好,欢迎观看蛙色官方系列全景摄影课程! 摄影进入数码时代,后期软件继承“暗房工艺”,成为摄影师表达内在情感的必备工具。 首先说明,全景摄影与平面摄影的一个显著的区别是全景图片需…

将表情存入数据库

概念: 表情是一种比较特殊的字符串,为unicode编码,unicode编码要存入数据库一般情况下,是存不了的,有两种解决方式,一种将数据表编码方式改为unicode编码方式,但是这种情况适用于功能刚开始设计…

TikTok+KOL:打造品牌种草的完美组合

随着社交媒体的崛起,品牌推广已经进入了全新的时代。在这个数字时代,消费者不再仅仅关注产品的质量和功能,他们也关注品牌的故事,情感共鸣以及社交影响力。 因此,品牌种草已经成为品牌营销策略中的一环,而…

1.4 系统环境变量

前言: **1.4 系统环境变量** --- **主要内容**: - **系统环境变量的定义**: 系统环境变量是在计算机操作系统中定义的一系列变量。这些变量是全局的,可以被操作系统上的所有应用程序所使用。 - **Java中的环境变量**: - 当学习和使用Java时&am…

[计算机入门] Windows附件程序介绍(轻松使用)

3.15 Windows附件程序介绍(轻松使用) 3.15.1 讲述人 Windows系统中的讲述人(Narrator)是一项辅助功能,旨在帮助具有视觉障碍或阅读困难的用户。讲述人可以读出屏幕上的文本和其他内容,同时提供导航和操作指导。 以下是讲述人程序…

算法通关村第16关【黄金】| 滑动窗口与堆结合

思路:求最大值和前k个最大值通常就要考虑使用堆 一般想法是堆的根结点保存当前窗口最大值,循环加入元素,怎么判断根结点是不是在窗口内呢 那就是还需要保存元素对应的下标,当根结点的下标在窗口外(一定会在最左侧&am…

亚马逊计划向开创性的人工智能初创公司Anthropic投资高达4亿美元

原创 | 文 BFT机器人 在一项巨大而突破性的举措中,亚马逊公布了向人工智能初创公司Anthropic投资高达4亿美元的计划,其愿景是创建更易于理解和可控的人工智能系统。此次合作标志着亚马逊打算在人工智能领域率先取得进步,巩固其在技术领域的地…

gitee 创建仓库 git 连接

文章目录 gitee 创建仓库 & git 连接gitee 创建仓库git 可视化工具使用 gitee 创建仓库 & git 连接 gitee 创建仓库 gitee 官网:工作台 - Gitee.com 先注册、登录账号 点击右上角 号,新建仓库 填写仓库名称,然后创建 选择你所在…

1.5 JAVA程序运行的机制

**1.5 Java程序的运行机制** --- **简介:** Java程序的运行涉及两个主要步骤:编译和运行。这种机制确保了Java的跨平台特性。 **主要内容:** 1. **Java程序的执行过程**: - **编译**:首先,扩展名为.jav…

VMware Horizon 8 运维系列(二)win10设置共享桌面图标

前言 在win10模板上用管理员帐号安装好软件之后,有的软件快捷图标不会出现在桌面上,有的即使有在桌面上出现,但是当发布云桌面池后,客户端登录的都是不同的域用户,当不同的用户登录系统的时候,很多软件快捷…

【数据库——MySQL】(16)游标和触发器习题及讲解

目录 1. 题目1.1 游标1.2 触发器 2. 解答2.1 游标2.2 触发器 1. 题目 1.1 游标 创建存储过程,利用游标依次显示某部门的所有员工的实际收入。(分别用使用 计数器 来循环和使用 标志变量 来控制循环两种方法实现) 创建存储过程,将某部门的员工工资按工作…

Pr音乐鼓点节拍插件BeatEdit出现不能标点问题如何解决?

BeatEdit是一款专业的PR卡点自动剪辑插件工具。BeatEdit最新版内置采集、剪辑、调色、美化音频、字幕添加、输出、DVD刻录等功能,还支持检测音乐节拍、生成时间线标记等操作。通过BeatEdit版软件用户只需选择素材就可以自己剪辑,多用于进行鬼畜视频制作。…

MS31703H 桥栅极驱动控制器,可P2P替代TI的DRV8703

MS31703NA 是一款小型单通道 H 桥栅极驱动 器。它使用四个外部 N 通道 MOSFET ,驱动一个双 向刷式直流电机。 PH/EN 、独立半桥或 PWM 允许轻松连接到控制 器电路。内部传感放大器提供可调的电流控制。集 成的电荷泵可提供 100% 占空比,而…

docker搭建Jenkins及基本使用

1. 搭建 查询镜像 docker search jenkins下载镜像 docker pull jenkins/jenkins启动容器 #创建文件夹 mkdir -p /home/jenkins_home #权限 chmod 777 /home/jenkins_home #启动Jenkins docker run -d -uroot -p 9095:8080 -p 50000:50000 --name jenkins -v /home/jenkins_home…

基于FPGA设计的低成本四通道 1GSPS 示波器设计资料

完整设计资料下载链接 https://download.csdn.net/download/tianqiquan/88253962 该项目的目标是设计和构建一个PC 连接替代方案,以替代低成本台式 1000 系列示波器,在性能和价格上都具有竞争力。该项目必须达到的规格是四个通道至少 100MHz&#xff0c…

Linux网络配置解析:连接世界的关键步骤

1.IP预备知识 IP最重要的信息包含:IP地址DNS网关 以下以IPV4为例说明: 11000000.10101000.00000000.00000001/24 192.168.0.1/24IP地址一般包含32位二进制地址和子网掩码 子网掩码全1位置对应的就是IP地址的网络号,全0位置对应的就是具体…

【Spatial-Temporal Action Localization(五)】论文阅读2020年

文章目录 1. Actions as Moving Points摘要和结论引言:针对痛点和贡献模型框架实验 1. Actions as Moving Points Actions as Moving Points (ECCV 2020) 摘要和结论 MovingCenter Detector (MOCdetector) 通过将动作实例视为移动点的轨迹。通过三个分支生成 tub…