ChatGPT多模态升级,支持图片和语音,体验如何?

news2025/1/12 21:08:26

一、前言

9 月 25 日,ChatGPT 多模态增加了新的语音功能图像功能。这些功能提供了一种新的、更直观的界面,允许我们与 ChatGPT 进行语音对话或展示我们正在谈论的内容。

ChatGPT 现在可以看、听、和说话了,而不单单是一个文本驱动的工具了。

正值十一小长假,很多人选择出去旅行。ChatGPT 新推出的这项功能能否用在旅行中呢?一起来看看。

二、图像交互功能

ChatGPT 在 9 月 25 日新推出的这个版本中,添加了图片交互能力。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

如何使用呢?

以网页版的 ChatGPT 为例。

点输入框左侧的「图片」按钮,就可以上传图片。可以上传一张或多张图片。

上传后,针对图片中的内容,输入我们想问的问题即可。例如就像下面这样。

看看 ChatGPT 的回答。回答得还不错,看来 ChatGPT 对图像内容的理解还是可以的。

在生活中有哪些应用呢?

比如刚刚上面举的这个例子:景点识别

现在正值十一小长假,很多人外出旅行。

当我们看到一个不知名但很有趣的景点或地标时,可以拍摄照片并展示给 ChatGPT,它可以帮助我们识别并提供相关信息。

如果我们在旅行中遇到技术问题,如相机设置等,也可以向 ChatGPT 展示问题所在,获取技术支持和建议。

再来看几个官方的示例。

这个例子中上传了两张图,一张是使用说明,另一个是工具箱。然后向 ChatGPT 提问「工具箱中是否有正确的工具」。

另外,如果要聚焦图像的特定部分,还可以使用手机版 ChatGPT 中的绘图工具,圈出某个位置。

这个例子是询问「如何降低自行车座」。同时使用了 ChatGPT 中的绘图工具,圈出某个位置,然后再进行提问。

再比如,在家中拍摄冰箱和食品储藏室的照片,来确定晚餐菜单,并询问详细的食谱。

也可以拍摄数学问题的照片、或者工作中数据的复杂图表,圈出问题,并与 ChatGPT 共同探讨解决方法。

此时脑海中飘过电视上之前经常播的一个广告:哪里不会点哪里~

三、语音交互功能

ChatGPT 的多模态,除了新增了「图像交互功能」外,还增加了「语音交互功能」。

用户可以使用语音与 ChatGPT 进行双向对话。

其实以前也是支持语音的,只不过是仅限于「听」

新的语音功能由新的「text-to-speech」模型驱动,能够从简短的样本语音中生成类似人类的音频。

但语音交互功能目前只在手机端可以使用。

如何使用呢?

在手机端应用中点「设置」→「新功能」,选择加入语音对话。

点击位于主屏幕右上角的耳机按钮,然后从 5 种不同的声音中选择喜欢的声音,就可以开始进行对话了。

语音功能可以用来做什么呢?

比如练习外语口语,让它充当你的外教老师。

再比旅途中与它交谈,让它充当我们的随身导游。

或者也可以用它来为家里小孩讲睡前故事,等等。

四、模型的局限性和风险

  • 用户可能依赖 ChatGPT 处理专业话题,例如研究领域。不鼓励在没有适当验证的情况下使用高风险用例。
  • 模型擅长转录英文文本,但在处理某些其他语言时表现不佳。

五、目前可用范围

  • 目前 ChatGPT 多模态新增的图像和语音功能,只在 Plus 用户企业用户下可以使用。开发者和其他用户群体将在此后不久获得这些功能。
  • 另外,语音功能只在 iOS 和 Android 上可以使用,而图像功能在网页和手机上均可使用。

六、结束语

随着技术的不断进步,我们正见证着人工智能领域的一次次重大突破。ChatGPT 的多模态功能,不仅为我们提供了与机器交流的新方式,还为我们打开了无尽的可能性。

通过语音、图像和文字的结合,我们可以更加直观、高效地与 AI 助手互动,从而更好地满足我们的日常需求。

正如 OpenAI 所展示的,未来的 AI 将不仅仅是文字和代码,而是一个能「看见」、「听到」并「说话」的实体。

关于 ChatGPT 多模态的图片功能和语音功能,感兴趣的可以移步官方进一步了解:

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1056812.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法通过村第十一关-位运算|白银笔记|高频题目

文章目录 前言1. 位移的妙用1.1 位1的个数1.2 比特位计算1.3 颠倒无符号整数 2. 位实现加减乘除专题2.1 位运算实现加法2.2 递归乘法 总结 前言 提示:他不是不想多明白些,但是每每在该用脑子的时候,他用了感情。 --老舍《黑白李》 与位运算和…

Centos7安装php-fpm

目录 第一步:查看系统IP地址和网卡名称 第二步:更改网络配置模式 第三步、重启network 查看iptablies ,将第十行,十一行删除 第四步:关闭config 第五步:创建nginx 文件夹 查看目录下的文件 进入nginx文件夹 第…

基于java的鲜花销售系统/网上花店

摘 要 本毕业设计的内容是设计并且实现一个基于Spring Boot框架的驿城鲜花销售系统。它是在Windows下,以MYSQL为数据库开发平台,Tomcat网络信息服务作为应用服务器。驿城鲜花销售系统的功能已基本实现,主要包括首页、个人中心、用户管理、鲜…

【VIM】初步认识VIM-2

2-6 Vim 如何搜索替换_哔哩哔哩_bilibili 1-6行将self改成this 精确替换quack单词为交

CSS基础语法第二天

目录 一、复合选择器 1.1 后代选择器 1.2 子代选择器 1.3 并集选择器 1.4 交集选择器 1.4.1超链接伪类 二、CSS特性 2.1 继承性 2.2 层叠性 2.3 优先级 基础选择器 复合选择器-叠加 三、Emmet 写法 3.1HTML标签 3.2CSS 四、背景属性 4.1 背景图 4.2 平铺方式 …

NPDP产品经理知识(市场调研-文化,团队,领导力)

--- VOC --- 市场调研的关键步骤 1.> 定义问题 2.>定义结果的准确度 3.>收集数据 4.>分析和解读数据 5.>得出结论 6.>实施 --- 二级市场研究/一级市场研究 --- 定性 > 焦点小组 > 深度访谈 > 人种学(On-Site In-Home) > 客户…

基于web的医院预约挂号系统/医院管理系统

摘 要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生,各行各业相继进入信息管理时代&a…

【ElasticSearch 集群】Linux安装ElasticSearch集群(图文解说详细版)

上次我们讲了linux环境安装ElasticSearch Linux安装ElasticSearch以及Ik分词器(图文解说详细版) 这次我们来将一下ElasticSearch的集群安装 安装es的前置条件: Linux安装Java环境(OracleJDK) 这次我们安装的是Elasti…

GraphQL全面深度讲解

目录 一、GraphQL 是什么 二、GraphQL 规范 数据模型 字段 参数 三、运行示例 四、优势和劣势 优势 劣势 一、GraphQL 是什么 GraphQL 是一种用于 API 的查询语言,也是一个基于服务端的运行引擎。 GraphQL 提供了一套完整的规范和描述用于查询 API&#xf…

Django基础入门操作 (Django-01)

一 背景介绍 Django是一个开源的 Web应用框架,由Python写成。采用了MTV的框架模式,它最初是被用来做CMS(内容管理系统)软件。 官方中文文档:Django 文档 | Django 文档 | Django 应用:做内容管理系统(新…

JUC第十三讲:JUC锁: ReentrantLock详解

JUC第十三讲:JUC锁: ReentrantLock详解 本文是JUC第十三讲,JUC锁:ReentrantLock详解。可重入锁 ReentrantLock 的底层是通过 AbstractQueuedSynchronizer 实现,所以先要学习上一章节 AbstractQueuedSynchronizer 详解。 文章目录 …

数据结构与算法基础(青岛大学-王卓)(8)

哎呀呀,sorry艾瑞波地,这次真的断更一个月了,又发生了很多很多事情,秋风开始瑟瑟了,老父亲身体查出肿瘤了,有病请及时就医,愿每一个人都有一个健康的身体,God bless U and FAMILY. 直…

实现简单BS架构案例

BS架构简单通俗理解 就是 浏览器–服务器模式,浏览器 充当 我们的客户端。 目录 简单BS架构实现案例基本原理视图访问规则案例要求改造前服务端线程模版类 改造后(优化)优化策略服务端线程模版类 参考视频 简单BS架构实现案例 基本原理视图 注:服务器必…

【VsCode】SSH远程连接Linux服务器开发,搭配cpolar内网穿透实现公网访问

文章目录 前言1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接远程服务器4. 公网远程连接4.1 ubuntu安装cpolar内网穿透4.2 创建隧道映射4.3 测试公网远程连接 5. 配置固定TCP端口地址5.1 保留一个固定TCP端口地址5.2 配置固定TCP端口地址5.3 测试固定公网地址远程 前言 远程…

奥斯卡·王尔德

奥斯卡王尔德 奥斯卡王尔德(Oscar Wilde,1854年10月16日—1900年11月30日),出生于爱尔兰都柏林,19世纪英国(准确来讲是爱尔兰,但是当时由英国统治)最伟大的作家与艺术家之一&#xf…

【Java 进阶篇】JDBC ResultSet 遍历结果集详解

在Java数据库编程中,经常需要执行SQL查询并处理查询结果。ResultSet(结果集)是Java JDBC中用于表示查询结果的关键类之一。通过遍历ResultSet,我们可以访问和操作从数据库中检索的数据。本文将详细介绍如何使用JDBC来遍历ResultSe…

手把手教你做个智能加湿器(一)

一、前言 目前常见的加湿器类电子产品一般是由PCBA和外壳组成,我们将从PCB设计,然后编写软件,接着设计外壳,设计出一个完整的产品出来。 需要使用到软件: Altium Designer 17 SolidWorks 2019 Keil 4 二…

C++--位图和布隆过滤器

1.什么是位图 所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在的。比如int 有32位,就可以存放0到31这32个数字在不在某个文件中。当然,其他类型也可以。 2.位…

Python|OpenCV-如何给目标图像添加边框(7)

前言 本文是该专栏的第7篇,后面将持续分享OpenCV计算机视觉的干货知识,记得关注。 在使用opencv处理图像的时候,会不可避免的对图像的一些具体区域进行一些操作。比如说,想要给目标图像创建一个围绕图像的边框。简单的来说,就是在图片的周围再填充一个粗线框。具体效果,…

真红之刃攻略,真红之刃氪金攻略

真红之刃新手怎么玩?这款游戏有很多值得新手们了解的内容。下面我们来详细了解一下游戏的玩法。 关注【娱乐天梯】,获取真红之刃0.1折内部福利号 1、恶魔广场:这是奇迹中最受欢迎的玩法之一,也是每日必刷的副本之一。进入条件是1转…