探索视听新纪元: ChatGPT的最新语音和图像功能全解析

news2024/11/22 6:24:11

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁

在这里插入图片描述

🐅🐾猫头虎建议程序员必备技术栈一览表📖:

🤖 人工智能 AI:
🧠 Machine Learning | 🔍 Deep Learning | ⚙️ TensorFlow | 🔥 PyTorch | 🌀 Keras | 🗣️ NLP | 👁️ Computer Vision | 🎮 Reinforcement Learning | 📊 Scikit-learn | 🤖 GPT

🦄 博客首页——🐅🐾猫头虎的博客🎐
🐳 《面试题大全专栏》 🦕 文章图文并茂🦖生动形象🐅简单易学!欢迎大家来踩踩~🌺
🌊 《IDEA开发秘籍专栏》 🐾 学会IDEA常用操作,工作效率翻倍~💐
🌊 《100天精通Golang(基础入门篇)》 🐅 学会Golang语言,畅玩云原生,走遍大小厂~💐


🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬请批评指正!🐅🐾🍁🐥


文章目录

    • 探索视听新纪元: ChatGPT的最新语音和图像功能全解析
    • 🚀 ChatGPT 的视听新技能
      • 🎙 与ChatGPT的语音交流
        • 🎧 语音样例
        • 🎵 选择声音
      • 🖼 图像交流
      • 逐步推出图像和语音功能
        • 语音
        • 图像输入
          • 使视觉既有用又安全
          • 模型限制的透明度
      • 扩展访问权限
      • 结论
      • 参考资料
  • 原创声明

探索视听新纪元: ChatGPT的最新语音和图像功能全解析


大家好,我是猫头虎博主🐯,今天我要带领大家了解一下,OpenAI的 #ChatGPT 刚刚更新了一些令人兴奋的视听功能!🎉 这些新增功能将使我们能够通过语音和图像与ChatGPT交流,让交互变得更为直观和生动。现在,让我们一起探究一下这些新功能吧!
在这里插入图片描述

🚀 ChatGPT 的视听新技能

  • 发布日期: 2023年9月25日
  • 作者: OpenAI
  • 产品与公告: OpenAI刚刚为ChatGPT推出了全新的语音和图像功能,让我们可以通过语音交谈或展示图像与ChatGPT交流,为用户提供了一种更直观的交互方式。

这些新功能为ChatGPT的使用打开了无限可能!比如在旅行时,你可以拍摄一个地标,然后实时交谈讨论它的历史;在家里,你可以拍摄冰箱和橱柜的内容,确定晚餐吃什么(还能得到逐步的食谱指导哦);晚餐后,通过拍照,圈出数学题目,让ChatGPT为你和你的孩子提供解题提示。

在接下来的两周内,这些新功能将逐步推出给Plus和Enterprise用户。语音功能将在iOS和Android平台上推出,而图像功能将在所有平台上提供。

在这里插入图片描述

🎙 与ChatGPT的语音交流

现在,通过语音与你的数字助手进行往返交谈变得可能了!无论是在外面,还是在家里请求一个睡前故事,或解决餐桌上的争论,一切都变得轻而易举。

  • 如何启用语音: 只需转到移动应用的“设置”→“新功能”,选择加入语音交谈。然后,点击主屏幕右上角的耳机按钮,并从五种不同的声音中选择你喜欢的声音。

新的语音功能由先进的文本转语音模型支持,能够仅通过文本和几秒钟的样本语音生成逼真的人类音频。OpenAI与专业的配音演员合作创建了每种声音,并使用开源的语音识别系统Whisper将你的话语转换成文本。

🎧 语音样例

故事
在一个宁静的树林里,有一只名叫Lila的毛茸茸的妈妈猫。在一个阳光明媚的日子里,她和她顽皮的小猫Milo在一棵老橡树的树荫下依偎着。

“Milo,” Lila说道,她的声音柔和而温柔,“你很快就会有一个新的玩伴了。”

Milo的耳朵竖了起来,显得很好奇。“一个新玩伴?”

Lila轻轻地呼噜着说:“是的,一个妹妹。”

Milo的眼睛亮了起来,兴奋不已。“一个妹妹?她会像我一样追逐尾巴吗?”

Lila呵呵笑了。“哦,她会有她自己的怪癖的。你会教她的,对吧?”

Milo急切地点了点头,已经开始憧憬他们将来会共度的冒险时光。

🎵 选择声音
  • Juniper

🖼 图像交流

现在,你可以向ChatGPT显示一张或多张图片,无论是解决烧烤架无法启动的问题,探索冰箱里的食物来计划一顿饭,还是分析复杂的图表以处理工作相关的数据,一切都变得轻而易举。

  • 如何启用图像: 点击照片按钮来捕捉或选择图像。如果你使用的是iOS或Android设备,首先点击加号按钮。你还可以讨论多张图片或使用我们的绘图工具来指导你的助手。

图像理解功能由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将他们的语言推理技能应用于各种各样的图片,如照片、截图和包含文本与图像的文档。

逐步推出图像和语音功能

OpenAI 的目标是建立安全、有益的通用人工智能(AGI)。我们相信逐步推出我们的工具,这样可以使我们有时间进行改进,完善风险缓解措施,同时为未来更强大的系统做好准备。随着涉及声音和视觉的高级模型的出现,这种策略变得更为重要。

语音

新的语音技术能够仅通过几秒钟的真实语音生成逼真的合成声音,为许多创意和易用性应用打开了大门。然而,这些功能也带来了新的风险,比如可能被恶意行为者用来模仿公众人物或进行欺诈。

这就是为什么我们使用这项技术来支持特定的用例——语音聊天。语音聊天是与我们直接合作的声音演员创建的。我们也在与其他人以类似的方式合作。例如,Spotify 正在利用这项技术的强大功能,为他们的语音翻译功能的测试提供支持,该功能帮助播客者通过将播客翻译成其他语言,以播客者自己的声音扩展他们的故事讲述范围。

图像输入

基于视觉的模型也带来了新的挑战,从关于人的幻觉到在高风险领域依赖模型的图像解释。在更广泛的部署之前,我们在极端主义和科学熟练度等领域对模型进行了红队测试,并与多样化的 alpha 测试者合作。我们的研究使我们能够在负责任使用的几个关键细节上达成一致。

探索视听新纪元 ChatGPT的最新语音和图像功能全解析

使视觉既有用又安全

与其他 ChatGPT 功能一样,视觉功能旨在帮助你处理日常生活。它在可以看到你看到的东西时表现最好。

我们直接通过与 Be My Eyes(一款为盲人和视力障碍人士提供服务的免费移动应用)的合作,了解了视觉功能的使用和限制。用户告诉我们,他们发现在背景中恰好有人出现的图片上进行通用交谈是很有价值的,比如当你试图弄清楚遥控器设置时,有人出现在电视上。

我们还采取了技术措施,大大限制了 ChatGPT 分析和直接陈述人的能力,因为 ChatGPT 并不总是准确的,而且这些系统应该尊重个人的隐私。

实际使用和反馈将帮助我们改善这些保障措施,同时保持工具的实用性。

模型限制的透明度

用户可能会依赖 ChatGPT 处理一些专业话题,比如研究领域。我们对模型的限制保持透明,并且不鼓励在没有适当验证的情况下使用它来处理高风险的用例。此外,该模型擅长转录英文文本,但对一些其他语言,特别是非罗马字母的语言,表现不佳。我们建议非英语用户不要使用 ChatGPT 进行此类操作。

你可以在图像输入系统卡中了解更多关于我们的安全方法和与 Be My Eyes 的合作。

扩展访问权限

在接下来的两周内,Plus 和 Enterprise 用户将有机会体验语音和图像功能。我们很高兴在此之后很快将这些功能推出给其他用户群体,包括开发人员。

在这次更新中,ChatGPT的视听功能无疑为我们提供了一个全新、直观和创意的交互方式。想象一下,通过简单的语音和图像交互,我们能够得到及时的帮助和信息,这真是太令人兴奋了!作为猫头虎博主,我会继续关注ChatGPT的更新,为大家带来更多的信息和使用技巧。记得保持关注哦!😉

在这里插入图片描述

结论

通过本次的探索,我们可以明显看出,ChatGPT的新的视听功能为我们提供了一个更为直观和多元化的交互方式。不仅如此,它还为我们打开了一个新世界的大门,让我们能够通过语音和图像,与数字助手进行更为丰富和实用的交流。这对于我们日常的学习、工作和生活都带来了很大的便利。随着技术的不断进步,我们有理由相信,ChatGPT将会持续为我们提供更为先进和人性化的功能,使我们的数字生活变得更为丰富多彩。作为猫头虎博主,我会继续关注ChatGPT的更新,并在第一时间为大家带来最新的资讯和使用技巧。敬请期待!

参考资料

  1. OpenAI. (2023, September 25). ChatGPT Can Now See, Hear, and Speak. Retrieved from https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

希望你们喜欢这次的更新,我们下次见!👋

在这里插入图片描述

原创声明

======= ·

  • 原创作者: 猫头虎

作者wx: [ libin9iOak ]

学习复习

本文为原创文章,版权归作者所有。未经许可,禁止转载、复制或引用。

作者保证信息真实可靠,但不对准确性和完整性承担责任

未经许可,禁止商业用途。

如有疑问或建议,请联系作者。

感谢您的支持与尊重。

点击下方名片,加入IT技术核心学习团队。一起探索科技的未来,共同成长。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1041842.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【我的创作纪念日】使用pix2pixgan实现barts2020数据集的处理(完整版本)

使用pix2pixgan (pytorch)实现T1 -> T2的基本代码 使用 https://github.com/eriklindernoren/PyTorch-GAN/ 这里面的pix2pixgan代码进行实现。 进去之后我们需要重新处理数据集,并且源代码里面先训练的生成器,后训练鉴别器。 一般情况下…

亚马逊要求的UL报告的产品标准是什么?如何区分

亚马逊为什么要求电子产品有UL检测报告? 首先,美国是一个对安全要求非常严格的国家,美国本土的所有电子产品生产企业早在很多年前就要求有相关安规检测。 其次,随着亚马逊在全球商业的战略地位不断提高,境外的电子设…

百度资源搜索平台出现:You do not have the proper credential to access this page.怎么办?

Forbidden site not allowed You do not have the proper credential to access this page. If you think this is a server error, please contact the webmaster. 如果你的百度资源平台,点进去出现这个提示,说明您的网站已经被百度清退了。 如果你的网…

队列的分类及用途

队列(Queue)是一种常见的数据结构,用于存储和管理数据元素。队列通常遵循先进先出(FIFO,First-In-First-Out)的原则,这意味着最早添加到队列的元素将首先被移除。队列有不同的类型和用途&#x…

VS code本地安装PlantUML

VS code本地安装PlantUML 需要条件vs code安装插件使用常见错误 需要条件 在VS Code上安装PlantUML扩展之前,请确保您具有以下先决条件: : Java与GraphViz(点击可直接跳转下载界面); 安装省略 vs code安装插件 vs code安装以下两个插件(PlantUML,Grap…

易云维®智慧工厂数字化管理平台助推工业制造企业数字化转型新动能

近年来,我国正在积极推进工业制造企业数字化转型,工业制造企业数字化转型迎来了密集的利好政策,近期,国家工信部又出台系列政策,实施工业制造企业数字化促进工程,推动工业制造企业更快更好地拥抱数字经济。…

数字安全设备制造有哪几种方式?

数字安全设备制造是指制造用于保护数字信息系统和网络安全的专用设备。以下是几种常见的数字安全设备制造方式: 集成式安全设备制造:集成式安全设备制造是将多种安全功能集成到单一的硬件设备或软件平台中。这种制造方式可以大大降低设备的成本和复杂性&…

vue3 + vite3 addRoute 实现权限管理系统

vue3 vite3 addRoute 实现权限控制 1、前言2、静态路由3、动态路由4、在组建中使用路由5、注意事项 1、前言 在权限系统开发中,根据后端返回的菜单列表动态添加路由是非常常见的需求,它可以实现根据用户权限动态加载可访问的页面。本篇文章我们将重点介…

第二届全国高校计算机技能竞赛——Java赛道

第二届全国高校计算机技能竞赛——Java赛道 小赛跳高 签到题 import java.util.*; public class Main{public static void main(String []args) {Scanner sc new Scanner(System.in);double n sc.nextDouble();for(int i 0; i < 4; i) {n n * 0.9;}System.out.printf(&…

探索公共厕所的数字化治理,智慧公厕完善公共厕所智能化的治理体系

随着城市化进程的不断发展&#xff0c;公共厕所治理成为一个不容忽视的问题。如何通过数字化手段来提升公共厕所管理水平&#xff0c;成为了一个备受关注的话题。本文将以智慧公厕领先厂家广州中期科技有限公司&#xff0c;大量精品案例项目实景实图&#xff0c;探讨公共厕所数…

品牌线上假货怎么治理

随着品牌的发展&#xff0c;母婴、家电、百货等行业&#xff0c;链接量暴增&#xff0c;销售店铺也较多&#xff0c;线上仅通过图片销售的形式&#xff0c;也导致了假货链接地滋生&#xff0c;假货分两种情况&#xff0c;一种是只销售假货的店铺&#xff0c;一种是真假混卖的店…

用numpy生成18种特殊数组

文章目录 单值数组特殊矩阵范德蒙德矩阵数值范围坐标网格绘图代码 所有创建数组的函数中&#xff0c;都有一个可选参数dtype&#xff0c;表示创建的数组的数据类型。 指定维度empty, eye, identity, ones, zeros, full模仿维度empty_like, ones_like, zeros_like, full_like特…

【Linux】C语言实现对文件的加密算法

异或加密 解密方式是进行第二次加密后自动解密 #define BUF_SIZE (16384) //16k /************************************************************** 功能描述: 加密实现 输入参数: --------------------------------------------------------------- 修改作者: 修改日期…

【小尘送书-第五期】《巧用ChatGPT快速提高职场晋升力》用ChatGPT快速提升职场能力,全面促进自身职业发展

大家好&#xff0c;我是小尘&#xff0c;欢迎你的关注&#xff01;大家可以一起交流学习&#xff01;欢迎大家在CSDN后台私信我&#xff01;一起讨论学习&#xff0c;讨论如何找到满意的工作&#xff01; &#x1f468;‍&#x1f4bb;博主主页&#xff1a;小尘要自信 &#x1…

qq录屏快捷键大全,玩转录制就这么简单(干货)

“qq有录屏快捷键吗&#xff1f;有点好奇&#xff0c;现在用qq录制屏幕&#xff0c;总是得去点击屏幕录制才可以出来&#xff0c;太麻烦了&#xff0c;如果可以通过快捷键的方式打开&#xff0c;会轻松许多&#xff0c;想问问大家&#xff0c;知道qq录屏快捷键是多少吗&#xf…

#你我都是国家队#,与泸州老窖一起为中国荣耀干杯

执笔 | 姜 姜 编辑 | 古利特 代表亚洲最高水平的体育盛会已经开幕两天&#xff0c;国家队运动员们在赛场上挥洒汗水&#xff0c;国人的激情也随之升温。 为迎接这场体育盛会&#xff0c;9月13日&#xff0c;TEAM CHINA中国国家队官方微博携手泸州老窖发布了一条态度短片&am…

R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类...

原文链接&#xff1a;http://tecdat.cn/?p21379 本文我们对逻辑回归和样条曲线进行介绍&#xff08;点击文末“阅读原文”获取完整代码数据&#xff09;。 logistic回归基于以下假设&#xff1a;给定协变量x&#xff0c;Y具有伯努利分布&#xff0c; 目的是估计参数β。 回想一…

如何在Python中实现高效的数据处理与分析

在当今信息爆炸的时代&#xff0c;我们面对的数据量越来越大&#xff0c;如何高效地处理和分析数据成为了一种迫切的需求。Python作为一种强大的编程语言&#xff0c;提供了丰富的数据处理和分析库&#xff0c;帮助我们轻松应对这个挑战。本文将为您介绍如何在Python中实现高效…

【深度学习实验】卷积神经网络(二):自定义简单的二维卷积神经网络

目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 三、实验内容 0. 导入必要的工具包 1. 二维互相关运算&#xff08;corr2d&#xff09; 2. 二维卷积层类&#xff08;Conv2D&#xff09; a. __init__&#xff08;初始化&#xff09; b. forward(前向传…

Vue2 常用用法

Vue2 常用用法 Vue 动画1. 进入、离开的过渡2. 列表的过渡3. 状态的过渡 Vue 透传Attrbute、插槽1.透传Attrbute2. 插槽 CSS布局原则flex 布局常见的问题&#xff1a;当子元素内容超出父元素时&#xff0c;不出现滚动条的问题。父元素flex:1且内容超出后的最佳解决方案&#xf…