多模态大模型:ChatGPT迎来重磅升级,开启看图、听声音的新时代

news2025/2/27 20:57:16

近日,OpenAI宣布对ChatGPT进行了重磅升级,实现了看图、听声音和输出语音内容的功能。这一突破标志着通用人工智能(AGI)的重要里程碑,为未来的发展开启了全新的时代。OpenAI计划在未来两周向Plus和企业版用户提供这些功能,并且语音功能将在iOS和Android平台上使用,而图片识别功能则可以在各个平台上使用。

在图像方面,用户现在可以通过向ChatGPT展示一张或多张图片来提问。这为用户提供了更加直观和多样化的交互方式。无论是对图片内容的询问,还是对复杂图表的数据分析,ChatGPT都能够准确地进行回答。此外,用户还可以使用APP中的绘图工具,高亮标注图片中的特定部分,进一步深入讨论和分析。OpenAI将这一能看图的模型称为GPT-4V(ision),并在同日发布的论文中详细介绍了该模型的技术原理和应用场景。

而在语音方面,OpenAI与专业配音演员合作,提供了五种不同的声音选择。这使得ChatGPT的语音输出更加多样化和真实。此外,OpenAI还与Spotify展开合作,通过这一功能将播客翻译为其他语言,并保留播客主持人的声音。这项合作将进一步促进跨语言交流和内容传播,OpenAI也将更多的时间用于改进和完善安全漏洞和风险。特别是新的语音技术,能够在几秒内生成逼真的合成声音,这可能为诈骗者提供了便利条件。因此,安全研发策略对于涉及语音和视觉的高级模型至关重要,OpenAI将继续加强安全措施,确保用户的隐私和安全得到充分保护。

根据SimilarWeb的数据显示,这段时间,ChatGPT的流量呈现回升趋势。9月11日当周,ChatGPT的流量较前一周增长了约12%。Sensor Tower的数据显示,8月最后两周全球ChatGPT应用程序的用户每周增长超过10%。这一增长主要得益于学生开始返校,以及印度和巴西市场的增长。ChatGPT作为一个强大的人工智能助手,能够提供广泛的帮助和娱乐,受到了越来越多用户的青睐。

​"大模型+小模型+应用&内容"的框架,是多模态大模型未来的发展趋势。Meta推出了AudioCraft,通过AI生成音乐。谷歌的Bard和必应的机器人也已经部署了多模态功能。苹果也在试验AI生成语音Personal Voice。这些创新和应用进一步证明了多模态大模型的潜力和前景。多模态技术可以拓展应用范围,随着大模型功能的逐渐完善,其应用场景与生态也有望进一步丰富,为各个垂直领域的应用带来更多的可能性。用户可以更加直观地与人工智能进行交互,获得更加丰富和多样化的体验。然而,随之而来的安全和算力挑战也需要我们保持警惕和持续创新。未来,多模态大模型将成为人工智能发展的重要趋势,为各个领域的应用带来更多的可能性,并推动AI算力需求的进一步释放。让我们拭目以待,迎接人工智能的未来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1087322.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

思科拟推出PuzzleFS驱动,采用Rust语言开发

据了解,PuzzleFS宣称是“下一代 Linux 容器文件系统”,并使用Rust语言编写,具有“快速镜像构建”、“直接挂载支持”、“内存安全保证”等功能mroeoyw。 Multiable万达宝制造ERP(www.multiable.com.cn/solutions_zz)支持自定义栏位,并智能制…

【Unity】VR开发基础1-工具准备-下载Unity

用VR开发,首选Unity。 所以我们先从下载Unity开始。 前往unity.com/download,大家的系统基本都是Windows,我也是,所以下载Windows版本。 安装完成后打开UnityHub,点击安装选项卡,点击安装编辑器。 选择…

海外媒体发稿:10大海外媒体推广秘诀助力你的全球业务飞跃-华媒舍

随着全球化的深入,越来越多的企业开始将目光投向海外市场。而对于海外市场的开拓,海外媒体推广成为一个不可或缺的重要手段。本文将为大家介绍10大海外媒体推广秘诀,助力你的全球业务飞跃。 1. 确定目标受众 要明确你的目标受众是谁。不同的…

mysql数据库为什么要使用连接池?

连接池是MySQL数据库访问的关键组件,它负责管理和维护一组数据库连接,允许应用程序高效地重用这些连接,从而降低了连接的建立和断开开销,提高了性能、资源利用率和可伸缩性。 (一)为什么要用连接池&#x…

pytorch学习第二篇:张量

tensor与numpy import torch import numpy as npnumpy数组 到 张量tensor n np.ones(5) t torch.from_numpy(n)NumPy 数组中的变化反映在张量中 np.add(n, 1, outn) print(f"t: {t}") print(f"n: {n}")张量到 NumPy 数 t torch.ones(5) print(f&quo…

[ spring boot入门 ] java: 错误: 无效的源发行版:17

因为我目前idea中使用的是jdK8,而在pom.xml文件里是17,所以我需要将所有地方修改为jdk8 pom.xml的jdk版本为8 maven的setting.xml文件 jdk为8 还有Java Compiler 还有Project Structure 里面的project 和 module

2023北京市人工智能大模型场景融合与产业发展专场活动盛大召开

2023年10月12日,“2023北京市人工智能大模型场景融合与产业发展专场”活动在中关村软件园国际会议中心盛大召开,本次活动作为助力北京民营企业创新领跑行动计划的专场活动,由北京市委网信办、北京市科委、中关村管委会、北京市经信局、北京市…

2023年中国水生植物产业链、产值及市场规模分析[图]

水生植物是生态学范畴上的类群,是不同分类群植物通过长期适应水环境而形成的趋同性生态适应类型。水生植物应用范围广,既可以作为蔬菜食用,又可以作为园林观赏植物以及饲料作物等。水生蔬菜是中国蔬菜生产中的一大特色,其品种之多&#xff0c…

Unity微信小游戏登录授权获取用户信息

文章目录 前言:一、登录二、查看授权三、调起授权(特详细)微信公众平台的设置 四、获取用户信息结语: 前言: 最近需要在接微信获取用户信息的功能,在小游戏官方API中翻找资料。不得不说官方接口很多、很全&…

高德地图驾车导航避让点位

封路图标的位置就是避让路段 首先我们在 data 里声明一个 driving 为 null 用 this.driving 去接收轨迹 便于下次渲染轨迹时将其清除 避让的话我调用的是 setAvoidPolygons() 这个方法 他的参数是个二维数组 长这样 // [避让区域, 避让区域, ...] // 每个避让区域 [[lng,…

全网最细-深度解析 Istio Ambient Mesh 流量路径

作者:史泽寰 前言 Istio Ambient Mesh 是 Istio 社区的推出的将 Sidecar 的能力抽离至 ztunnel 和 waypoint 的全新架构,同时基于 iptables 和策略路由实现了该架构下的流量规则,目前网络上已经有些资料对这部分的实现进行了一定程度的剖析…

2023最新聚支付系统源码/去授权+支持易支付和码支付/能正常运营/全开源亲测可用

源码介绍: 聚支付去授权系统源码,它是一款支持易支付、码支付等功能,能正常运营的开源聚合支付系统源代码。采用 PHPMySQL技术栈,可完全自由定制。 2023最新聚支付系统源码/去授权支持易支付和码支付,能正常运营&…

物联网市场规模迅速增加,在交通、医疗、农业等方面发展势头迅猛

物联网(Internet of things)是一系列用于解决物的信息识别、交换、控制等技术的集合应用形成的网络。当连接从互联网时代的人与人走向万物互联,万物的数字化、智能化依赖物联网技术。因此,物联网是指利用各类信息识别设备&#xf…

电脑硬盘分区该怎么进行?这几种方法简单有效!

电脑硬盘分区该怎么进行?这几种方法简单有效! “我购买的电脑硬盘初次分区分为了四个区,分别是C盘、D盘、E盘、F盘,其中C盘有80G,其余各盘则拥有几百G的空间。初期使用时并未觉得有何问题,但随着文件的堆积…

增速波动!W「下」AR「上」!HUD前装供应商比拼硬核能力

作为汽车智能座舱人机交互的新配置之一,HUD(抬头显示)市场在经历一波快速增长周期后,进入调整阶段。 本周,高工智能汽车研究院发布数据显示,2023年8月,中国市场(不含进出口&#xff…

geecg-uniapp 同源策略 数据请求 获取后台数据 进行页面渲染 ui库安装 冲突解决(3)

一,同源策略 (1)首先找到env 要是没有env 需要创建一个替换成后端接口 (2)因为他封装了 先找到 http 请求位置一级一级找 然后进行接口修改 (3)appUpdata 修改接口 运行即可 &#x…

1.MySQL库的操作

个人主页:Lei宝啊 愿所有美好如期而遇 1.创建数据库: 语法:create database if not exists db_name charset字符集 collate校验规则 ; if not exists ,charset ,collate可以不加,直接create database 数…

mongodb简介、安装、搭建复制集以及切片

一、 简介 NoSQL数据库四大家族:列存储 Hbase,键值(Key-Value)存储 Redis,图像存储 Neo4j,基于分布式文档存储的数据库MongoDb。 MongoDB 和关系型数据库对比 关系型数据库MongoDBdatabase(库)database&…

uniapp小程序中给web-view页面添加授权弹窗(使用cover-view组件覆盖实现该功能)

效果图: web-view是承载网页的容器。会自动铺满整个小程序页面,个人类型的小程序暂不支持使用。 再看下面一个提示: 每个页面只能有一个 web-view,web-view 会自动铺满整个页面,并覆盖其他组件。 也就是说,…

DB2 数据库监控用户赋权手册

DB2 数据库监控用户赋权手册 1、系统管理表查询权限2、系统管理表函数执行权限3、数据库 mon 监控数据访问权限 皮皮运维平台数据统一采集用户(DBAA)需要被监控数据库赋予对应下查询表、表函数以 及获取数据库监控数据的权限,具体授权操作有以…