杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

news2024/11/25 11:01:51

本周的 AI 圈注定热闹非凡。

当地时间 5 月 13 日,OpenAI 将直播发布 ChatGPT 与 GPT-4 的更新。次日,Google I/O 如约而至。不同于 I/O 大会是谷歌的年度盛会,OpenAI 此次的临时发布颇有点抢热度的意思。这对纠缠已久的「老对头」此次又会如何出招呢?我们不妨来一起回顾一下双方的渊源,并进行大胆猜想!

多轮对垒,激战正酣

自从 OpenAI 一鸣惊人后,谷歌便被贴上了「恨铁不成钢」、「起步慢」、「追赶」等标签。其中最值得探究的便是「AI 黄埔军校」这一称谓, 看似褒奖,实则是谷歌的「一把辛酸泪」。

众所周知,奠定 OpenAI 王座的 ChatGPT 是基于 Transformer 架构的,而 Transformer 正是由谷歌在「Attention Is All You Need」这篇论文中提出的里程碑式架构。 此外,ChatGPT 发布界面的致谢中也出现了多位前谷歌大佬的身影,随后更是有多位谷歌骨干员工跳槽至 OpenAI……更有意思的是,每当谷歌试图「绝地反击」时,总会伴随一些小插曲。

2023 年 2 月,为应对 ChatGPT 谷歌提出了 Bard, 但在发布后不就便被爆出,在演示时出现事实性错误——

在回答「关于詹姆斯·韦布空间望远镜 (JWST),我可以告诉我 9 岁孩子它有何新发现?」这一问题时,Bard 给出的一个答案是:第一张太阳系外行星的照片由 JWST 拍摄。但哈佛—史密森天体物理中心的研究人员格兰特·特朗布莱指出,是欧洲南方天文台的甚大望远镜 (VLT) 于 2004 年拍摄了第一张系外行星照片。

2023 年 5 月的 I/O 大会上,谷歌展示了 Bard 的产品升级, 例如支持更多语言、识别图像信息、接通谷歌应用程序以及部分外部应用等等。同时,谷歌还发布了 PaLM2,作为对标 GPT-4 的产品,其在数学、编码、推理、自然语言生成方面都有所提升。

谷歌健康研究团队还基于此创建了 Med-PaLM 2,具备检索医学知识、解码医学术语等功能。不出意外,模型上对标 GPT,应用上也要对标微软,谷歌将其 AI 能力整合到了文案写作、制作表格等办公场景中,推出了 Google Workspace。

随后,不少网友以各种形式将 PaLM 2 与 GPT-4 进行了对比,OpenAI 仍然领先的呼声更高。

2023 年 12 月,谷歌发布了其「规模最大、能力最强」的 AI 模型 Gemini, 演示效果的确惊艳,高配版本在性能上也能够与 GPT-4 一搏,但是却被爆出演示视频经后期处理,效果被部分夸大。

2024 年 2 月 8 日,谷歌宣布将 Bard 正式更名为 Gemini, 其最强模型 Gemini Ultra 加持的聊天机器人 Gemini Advanced 也正式开放,设定与 ChatGPT 相同的 20 美元为「月租」,颇有些打擂台的意思。这次发布更重要的意义是,将谷歌 AI 统一整合为 Gemini——既是模型名、也是产品名。

2024 年 2 月 16 日,自家最强的 Gemini 1.0 Ultra 发布没几天,谷歌便一鼓作气地推出了 Gemini 1.5。 其中,Gemini 1.5 Pro 最高可支持 100 万 token 超长上下文,在 token 数碾压 GPT-4,从而在音频、视频处理等任务上取得了优异的表现。如果没有 Sora,Gemini 1.5 恐怕会在很长一段时间内都是 AI 圈的热议话题。

就在 Gemini 1.5 发布后几个小时,OpenAI 便祭出了文生视频模型 Sora, 用前所未有的视频生成能力瞬间站到了舞台的最中央,长达 1 分钟的演示视频直接抢走了 Gemini 的话题度。

这一轮,从技术上无从对比,话题度上显然是胜负已分,OpenAI 也借助 Sora 进一步巩固了自己的地位。

OpenAI 又要截胡热度?

值得注意的是,5 月 1 日,X 网友 Jimmy Apples 爆料,OpenAI 的搜索引擎可能会在 5 月 9 日发布, 这位网友曾经准确预测了 GPT-4 的发布日期。随后,他又称发布日期推迟到了 5 月 13 日。

5 月 8 日,彭博社报道也称,OpenAI 内部正在开发全新的搜索引擎,通过生成式 AI 的问答方式带来全新搜索体验。彭博社表示该搜索引擎的特点之一,是可以用书面文字和图像来回答问题。彭博社报道称,OpenAI 的搜索产品是其旗舰产品 ChatGPT 的延伸,使 ChatGPT 能够从网络上直接获取信息,包括引文。在此前的报道中,The Verge 曾爆料,OpenAI 正在挖角谷歌搜索部门的工程师,推进其 AI 搜索产品的快速上线。

OpenAI 此番向本来已经格局稳定的搜索业务下手,有点「直捣黄龙」的意味?

不过,就在 5 月 11 日,OpenAI 官方发布推文称,13 日的发布会只会带来 ChatGPT 和 GPT-4 的更新,只字未提「搜索引擎」。但 5 月 13 日这个日期颇有意思,因为谷歌早已宣布将在 5 月 14 日召开 Google I/O 大会。

图片

随后,Sam Altman 直接明牌了——不是 GPT-5,不是搜索引擎, 但是我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。

图片

在 Sam Altman 去除了两个错误答案之后,网友们围绕「OpenAI 到底会发布什么」的大猜想仍然热情高涨,同时也有更多的蛛丝马迹被曝光,其中便包括了语音交互。

据 The Information 报道,OpenAI 已经向其用户展示了一个既能够交谈也能够识别物体的新模型,该模型能够提供更快、更准确的图像与音频理解。据 The Verge 报道,开发人员 Ananay Arora 称,ChatGPT 或将具备通话功能。Arora 还发现证据表明,OpenAI 提供了用于实时音频和视频通信的服务器。

图片

此外,Hallid 联合创始人 indigo 在其推特 (X) 账号上发布了更加详细的预测,不仅提到了 GPT-4.5,同样也预测了 OpenAI 的新 AI Assistant 助手将支持全语音交互。

图片

不过,从某种角度来看,Sam Altman 虽然否认了「搜索引擎」,但其并未表示不会给 ChatGPT 加点「搜索 buff」。 其实,最近一段时间里,网友已经扒出了大量证据——OpenAI 已经进军搜索领域了。

首先是前 Mila 研究员、麻省理工讲师 Lior S 爆料,OpenAI 最新的SSL证书日志显示,search.chatgpt.com 子域名已经创建。

图片

目前访问该域名显示 Not found,而非 404 或域名错误

国内有网友接到了灰度测试,「赛博禅心」在其公众号上发布了试用效果:

图片

图片

图源:赛博禅心

可以看到,ChatGPT 回答的还是很精准的,「赛博禅心」表示回答速度也还可以。然而,在实时信息的获取上,ChatGPT 则显现出了不足, 赛博禅心搜索比特币价格,并与谷歌搜索出的价格进行了比对:

图片
图片

图源:赛博禅心

此外,有网友直接在推特上发布了一段号称是 OpenAI 官方 AI 搜索页面的演示 demo,但与灰度测试的界面有很大不同:

图片

目前,OpenAI 的搜索产品最终是否会以灰度测试的形式与大家见面仍是未知数,整体来看,其所要面对的竞争者也不光是谷歌一家,还有 Perplexity AI。其实,从某种意义上讲,Perplexity AI 才是 OpenAI 在搜索业务上应该直接对标的产品。

如今,这个自诩为「世界上首个对话式搜索引擎」的 AI 工具风头正盛,获得了黄仁勋的力挺、贝佐斯等大佬的投资,其独特之处在于将 ChatGPT 式的问答和传统搜索引擎的链接列表相结合。

图片

OpenAI 将以何种形式参与到 AI 时代的搜索引擎市场竞争中呢?先期待一下 5 月13 日的发布会上是否会揭秘 ChatGPT 的搜索功能。

Google I/O 只能靠 Gemini 挑大梁了?

OpenAI 有心还是无意的发布会是否会爆出重大更新仍未可知,但是相信谷歌势必会准时观看这场直播,如果真的有惊喜,不知道劈柴哥是否能够快速应对,并在一天后的 Google I/O 大会上及时反击?

相较而言,一年一度的 Google I/O 大会则是缺乏了一些神秘感,在其官方页面上预告的会议重点是——移动、Web、ML/AI、云。

图片

按照惯例,公司 CEO Sundar Pichai 将在主题演讲中分享 Android 的更新、新一代硬件产品、谷歌在 AI 领域的最新进展与成果,以及其 AI 能力与谷歌全生态的融合。

Gemini 赋能谷歌全生态

毫无疑问,Gemini 肯定是今年 Google I/O 大会的重头戏。今年 2 月才更新的 Gemini 1.5 已经将上下文长度拉到了百万级,在性能上已经可以与 GPT-4 一战。所以,谷歌下一步则是需要考虑落地应用的问题了——如何将 Gemini 与其搜索、照片和视频工具、谷歌地图、以及 Gmail 和 Google Docs 等工作空间的工具整合到一起。

此外,谷歌也已经逐渐将其 AI 能力注入到了 Google Assistant 中,Gemini 的强大能力是否能够打造一个更加先进的、更像一个人类的自然语言语音助手呢?

值得注意的是,作为同时拥有先进大模型与硬件业务的企业,Gemini 与 谷歌自家的 Pixel 能碰撞出什么样的火花?去年便有消息称,名为 Pixie 的 AI 助手可能会在 Pixel 9 上亮相。

去年 Google I/O 大会上亮相的 Pixel 8 便已经搭载了谷歌的 AI 能力。其配备了 Google 自研芯片 Tensor G3 处理器,具备音频魔术橡皮擦、 Best Take、翻译并朗读网页等功能。例如,Best Take 功能可以将多张集体照片组合在一起,从不同的图片中选择不同人物的表情来创建完美合影。

按照惯例,今年的大会上将发布 Pixel 9,但目前的爆料中并未见其身影,反而是 Pixel 8a 呼声较高,至于 AI 助手 Pixie 是否亮相只得拭目以待。

此外,今年 4 月,外媒爆出苹果和谷歌正联手将 Gemini 整合到 iOS 系统中,两家公司都没有正式证实这一消息,如果消息属实,也算得上是两家在多业务上处于竞争关系的巨头,进行了一次「世纪大合作」。不知道劈柴哥会不会在 Google I/O 大会上宣布相关消息。

Android 和 AR/XR

作为谷歌的基石,Android 永远是 Google I/O 大会上不可或缺的内容。今年,Android 15 已经解开了神秘面纱,开发者预览版和最初的测试版已经发布,Pichai 势必会在演讲中进一步介绍系统的重磅更新。根据此前披露的信息来看,其还将介绍基于 Android Auto 实现的智能车载以及智能手表软件 Wear OS。

此外,有媒体爆出,Pichai 将会分享谷歌 AR 软件的消息,并介绍其为三星及其他头显厂商开发的 Android XR 平台。根据今年早些时间的报道,谷歌的这一轮裁员的重灾区是 AR 硬件团队,所以有媒体猜测,其已经放弃开发自己的 AR 硬件,而是完全致力于 OEM 合作模式,换言之,谷歌将专注于软件层面。

除了 劈柴哥的主题演讲外,今年的 Google I/O 大会还有多个主题论坛,例如 Google AI 的新动态、Android 的新动态、面向生成式 AI 时代的 ML 框架等等,但并未提供直播,将在演讲结束后放出相关视频素材,HyperAI超神经也将持续关注,并围绕 AI 带来深度报道,敬请期待~

写在最后

过去,工业是衡量国家实力的重要度量,如今,科技实力也跻身谈判桌,甚至成为了大国博弈的筹码。尤其是在大模型热度高居不下之际,硅谷巨头们的一举一动都备受关注。犹记得 2022 年末,OpenAI、微软、谷歌等总是突袭发布重磅更新,网友们直呼——一觉醒来,AI 圈又变天了?

进入 2024 年,战况仍在持续升温,从技术层面的竞速、到应用场景的开发,从老牌劲旅、到新晋独角兽,能够在风口持续霸榜的一定是有护城河的企业。至于在金字塔顶端的大佬们将如何斗法,让我们一起搬好小板凳,静观神仙打架!

参考资料:
1.https://36kr.com/p/2660898993824512
2.https://techcrunch.com/2024/05/09/google-i-o-2024-what-to-expect/
3.https://www.spiceworks.com/tech/tech-general/articles/google-io-2024-expectations

4.https://www.theverge.com/2024/5/11/24154307/openai-multimodal-digital-assistant-chatgpt-phone-calls

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1671851.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

宝塔助手v1.4.1/手机操控云服务器的神器软件

宝塔助手是以宝塔Linux面板提供的API开发的一款可以随时随地管理服务器的APP。通过这款APP你可以随时随地的查看一台或多台服务器的运行情况,对服务器网站、FTP、数据库、文件进行管理。内置文件编辑器,可以对网站文件进行修改。 链接:https:…

Spring框架深度解析:打造你的Java应用梦工厂

想要在Java企业级应用开发中大展身手?Spring框架的核心容器是你不可或缺的伙伴! 文章目录 一. 引言1.1 介绍Spring框架的重要性1.2 阐述核心容器在Spring框架中的作用1.3 故事开端 二. 背景介绍2.1 描述Spring框架的发展历程2.2 概述Spring框架的主要特点…

计算机Java项目|Springboot房产销售系统

作者主页:编程指南针 作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师 主要内容:Java项目、Python项目、前端项目、人工智能与大数据、简…

数据结构——循环队列(数组)

一、循环队列的定义 二、循环队列图示 三、循环队列使用规则 为解决队满和队空的判断条件相同。 我们 采用 损失一个单元不用的方法 即当循环队列元素的个数是MAXSIZE-1时,就认为队列已满(front指向空的单元) 这样循环队列的队满条件就变…

提升文本到图像模型的空间一致性:SPRIGHT数据集与训练技术的新进展

当前的T2I模型,如Stable Diffusion和DALL-E,虽然在生成高分辨率、逼真图像方面取得了成功,但在空间一致性方面存在不足。这些模型往往无法精确地按照文本提示中描述的空间关系来生成图像。为了解决这一问题,研究人员进行了深入分析…

vivado Virtex UltraScale 配置存储器器件

Virtex UltraScale 配置存储器器件 下表所示闪存器件支持通过 Vivado 软件对 Virtex UltraScale ™ 器件执行擦除、空白检查、编程和验证等配置操作。 本附录中的表格所列赛灵思系列非易失性存储器将不断保持更新 , 并支持通过 Vivado 软件对其中所列非易失…

交易复盘-20240513

仅用于记录当天的市场情况,用于统计交易策略的适用情况,以便程序回测 短线核心:不参与任何级别的调整,采用龙空龙模式 一支股票 10%的时候可以操作, 90%的时间适合空仓等待 双成药业 (1)|[9:30]|[3566万]|0.34 中通客车 (1)|[9:43]|[7678万]|0.15 嘉华股份 (2)|[9:30]|[36…

分类预测 | Matlab实现DBO-CNN-SVM蜣螂算法优化卷积神经网络结合支持向量机多特征分类预测

分类预测 | Matlab实现DBO-CNN-SVM蜣螂算法优化卷积神经网络结合支持向量机多特征分类预测 目录 分类预测 | Matlab实现DBO-CNN-SVM蜣螂算法优化卷积神经网络结合支持向量机多特征分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现DBO-CNN-SVM蜣螂算法…

【软设】常见易错题汇总

目录 计算机系统基础 程序语言基础 数据结构 算法设计与分析 计算机网络与信息安全 软件工程基础 开发方法(结构化与面向对象) 数据库 操作系统 知识产权相关的法律法规 🤯🤯🤯🤯🤯&#x1f9…

2024最新软件测试【测试理论+ 数据库】面试题(内附答案)

一、测试理论 3.1 你们原来项目的测试流程是怎么样的? 我们的测试流程主要有三个阶段:需求了解分析、测试准备、测试执行。 1、需求了解分析阶段 我们的 SE 会把需求文档给我们自己先去了解一到两天这样,之后我们会有一个需求澄清会议, …

外卖系统微信小程序支付

微信小程序支付时序图 其中第9.步骤就是微信小程序前端调用wx.requestPayment

如何写好网评文章?写好了怎么去投稿呢,教程来了

如何写好网评文章,可谓仁者见仁、智者见智。俗话说:“冰冻三尺非一日之寒。”写好网评文章决不是一朝一夕能够练成的,是一个漫长的修炼的过程,需要我们耐得住寂寞、静得下心神。从事网评写作六年多,我有一些心得体会和…

Linux-磁盘管理类实训

一、Linux分区和磁盘操作命令 (1)将系统内所有的分区(文件系统)列出来) (2)将系统中所有特殊文件格式及名称都列出来 (3)将/bin下面的可以用的磁盘容量以易读的容量格式…

Dev-C++的下载和安装教程(超详细图文,小白入门)

Dev-C(或者叫做Dev-Cpp)是Windows环境下的一个轻量级C/C集成开发环境(IDE)。它是一款自由软件,遵守GPL许可协议分发源代码。 Dev-C集合了功能强大的源码编辑器、MingW64/TDM-GCC编译器、GDB调试器和AStyle格式整理器等…

通过ip addr命令无法获取到ip地址,无法ping通百度

问题 今天通过VM安装CentOS虚拟机时,安装完成后,想查看ip地址,使用ip addr命令,发现没有展示网络ip地址,ping百度也不通。 解决方案 CentOS使用网络配置文件来设置网络接口的参数,出现这个问题说明网络的…

初识C++ · string的使用(1)

目录 1 STL简介 2 string类 2.1 构造 析构 拷贝 2.2 size length 2.3 [ ]的使用 2.4 迭代器 2.5 Push_Back和append 3 sort的使用 1 STL简介 STL是一个标准库,是C标准库的一个重要部分,那么什么是STL?STL是一个模板库,包…

Python自动化测试 | 如何使用Robot Framework进行自动化测试?

你还在手动测试?不妨了解一下更高效、准确且简单的测试方法——使用Python的Robot Framework进行自动化测试。 什么是Robot Framework? Robot Framework是一款开源的Python自动化测试框架,它基于关键字驱动的思想,具有易读、易扩…

Day_4

1. 地址簿功能 查询地址列表 属于常规方案 新增地址 属于常规方案 修改地址 删除地址 设置默认地址 2. 用户下单业务 数据库分析 订单表和订单明细表的关系:一对多 代码开发 controller 层 service 层 异常处理(收货地址为空、超出配送范围、购物…

使用规则进行命名实体识别(NER)

使用规则进行命名实体识别(NER) 命名实体识别(Named Entity Recognition,NER)是自然语言处理(NLP)中的一项基础任务,它旨在从文本中识别出具有特定意义的实体,如人名、地…

【Unity从零开始学习制作手机游戏】第01节:控制3D胶囊体运动

1. 新建Project L01 使用3D Mobile模板。 2. 建立一个平面,用来承载物体 3. 导入Unity库内的胶囊体 下载 StandardAssets https://download.unitychina.cn/download_unity/e80cc3114ac1/WindowsStandardAssetsInstaller/UnityStandardAssetsSetup-5.6.7f1.exe …