谷歌Gemini时代来了!加固搜索护城河、赋能全家桶,Gemini 1.5 Pro升级至200万token

news2024/12/22 20:20:10

3 月中旬,谷歌宣布 Google I/O 定档北京时间 5 月 15 日凌晨 1 点。而当大会开幕时间临近,本应是讨论度最高的时候,「宿敌」OpenAI 却半路杀出,抢先一天,仅耗时 27 分钟就发布了颠覆性巨作 GPT-4o,将新一轮 AI 争霸带入了「Her 时代」。

正如英伟达科学家 Jim Fan 在评价 GPT-4o 时所言,在 Google I/O 大会之前,OpenAI 发布 GPT-4o 是争取更多时间的明智之举。

抛开双方在公关策略上的博弈不谈,OpenAI 的突然发力或许也预示着,谷歌的 Gemni 也同样来到了语音交互段位。在 Google I/O 开幕前,谷歌官方账号发布了一段与 Gemini 语音交互的视频,在展示 demo 中,Gemini 不仅能够通过手机摄像头实时识别场景,还能够进行流畅的语音交互。

谷歌发布这段 demo 的用意不言而喻,但评论中也不乏质疑其视频造假的声音,毕竟早有「前科」。而在今天的主题演讲中,劈柴哥也并未带来「语音交互」功能的实测,而是再度通过 demo 展示了与 GPT-4o 类似的能力。

具体而言,谷歌 CEO Sundar Pichai 及一众高管在将近 2 小时的主题演讲中一口气介绍了:

  • Gemini 1.5 Pro 的更新
  • Gemini 2.5 Flash
  • Project Astra
  • AI Overviews
  • Veo 和 Imagen 3
  • ……

点击观看完整直播回放:【【中英】Google I/O 2024 Keynote 大会完整版|Gemini 1.5 Pro 重塑搜索引擎,升级到200万tokens!

Gemini 1.5 Pro:拓展至 200 万 tokens

经历了昨天凌晨的 GPT-4o 发布,大家已经基本从「大模型实时通话」的震惊中走出来了,这也意味着,OpenAI 成功将行业竞争拉至新的制高点,所以,谷歌也必须跟上。而作为自家「最大、最强」的 AI 模型,Gemini 必须为公司搭建好天梯。

在这里插入图片描述
Gemini 1.5 与其他模型的上下文长度对比

今年 2 月,谷歌宣布推出了 Gemini 1.5,其中的 Gemini 1.5 Pro 最高可支持 100 万 token 超长上下文,在 token 数量上一度拉开了与同期大模型之间的差距。今天 ,谷歌再次突破上下文窗口限制,Pichai 宣布将 Gemini 1.5 Pro 的上下文窗口扩展到 200 万 tokens,并向开发人员提供私人预览版 (private preview)。

图片

同时,Pichai 宣布将向全球所有开发人员提供改进版的 Gemini 1.5 Pro,其 100 万 token 上下文版本现在可以直接在 Gemini Advanced 中供消费者使用,该版本可用于 35 种语言。

此外,Pichai 还表示 Gemini 1.5 Pro 在过去几个月中通过改进算法得到了增强,在代码生成、逻辑推理和规划、多轮对话以及音频和图像理解方面都有了很大改进。在 Gemini API 和 AI Studio 中,除了图像和视频,Gemini 1.5 Pro 还能对音频进行推理,并通过一种名为系统指令的功能进行引导。

图片

随后,Pichai 还介绍了 Gemini 在 Google Workspace 中的更新,包括 Gmail、Docs、Drive、Slides 和 Sheets 中的 Gemini 将升级至 Gemini 1.5 Pro,Gmail 移动端 APP 推出了新功能(总结邮件、上下文智能回复、Gmail Q&A),「Help me write」支持多语音写作。

Gemini 1.5 Flash:100 万 tokens 超长上下文、多模态

就当大家以为 Gemini 1.5 的更新「仅此而已」时,DeepMind CEO Demis Hassabis 缓步登场,带来了今天的第一个惊喜——Gemini 1.5 Flash。

图片

具体而言,轻量级模型 Gemini 1.5 Flash 是 Gemini 1.5 Pro 的精炼版本,针对大容量、高频率的大规模任务进行了优化,服务成本效益更高,并具有突破性的长上下文窗口。同时,Gemini 1.5 Flash 与 Gemini 1.5 Pro 一样是多模态的,这意味着其可以分析音频、视频和图像以及文本。

Demis Hassabis 表示,Gemini 1.5 Flash 擅长汇总、聊天应用、图像和视频字幕、从长文档和表格中提取数据等任务。这是因为 Gemini 1.5 Pro 通过蒸馏 (distillation) 对其进行了训练,将较大模型中最基本的知识和技能转移到了更小、更高效的模型中。

图片

除此之外,Demis Hassabis 还介绍了关于 Gemma 的更新,谷歌宣布推出新一代开放式人工智能创新模型 Gemma 2,其采用全新架构,旨在实现突破性的性能和效率,并将在 6 月正式发布时推出新尺寸。

Project Astra:实时、多模态 AI Agent

在 Google I/O 开幕前的一众爆料与猜测中,AI Assistant Pixie 呼声极高。有媒体称,预计谷歌将推出一款由 Gemini 支持的全新 Pixel AI Assistant,名为 Pixie,其可能具备多模态功能,可以通过用户设备上的信息,如地图或 Gmail,提供更加个性化的服务。

然而 Pixie 并未如预期般露面,取而代之的是具备多模态理解与实时对话能力的 Project Astra。

图片

Demis Hassabis 表示,在开发能够理解多模态信息的 AI 系统方面,谷歌已经取得了喜人的进展,**但如何将响应时间缩短到可进行实时对话的程度却颇具挑战。**在过去几年中,团队一直在努力改进模型的感知、推理和对话方式,使交互的节奏和质量感觉更加自然。

目前,团队基于 Gemini 开发了 Agent 原型 (prototype agents),通过对视频帧进行连续编码,将视频和语音输入结合到事件时间轴中,并缓存这些信息以便高效调用,从而加快信息处理速度。

图片

谷歌 AI 助手可实时语音交互

同时,**谷歌利用其语音模型,增强了 Agent 的声音,使其具有更广泛的语调,**从而在识别使用环境后,在对话中做出快速反应。

这不禁令人联想到 OpenAI 昨日凌晨展示的新版 ChatGPT,同样是实时对话、可根据情境或用户要求转换语调。不同于谷歌的视频演示,ChatGPT 在直播现场进行了实测,并回答了网上呼声较高的多个问题。如今,基于 GPT-4o 的 ChatGPT 已经免费开放给所有用户,但音频视频功能却出于隐私考虑仍未上线。

Veo 和 Imagen 3:视频+图像双管齐下

谷歌还推出了最新的视频生成模型 Veo 和高质量的文本到图像模型 Imagen 3。

其中,**Veo 是谷歌最强大的视频生成模型,**不知道是否为对标 Sora 而来。

Veo 可生成各种电影和视觉风格的 1080p 分辨率视频,视频时长可超过一分钟。谷歌表示,凭借对自然语言和视觉语义的深入理解,其所生成的视频可完美呈现用户的创意构想,准确捕捉提示语的语气并呈现较长提示语中的细节。

同时,Veo 创建的镜头是一致的、连贯的,因此人、动物和物体在整个拍摄过程中的移动都显得更加真实。

在技术层面,Veo 基谷歌多年的生成视频模型经验,融合了 GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere,将架构、缩放规律等技术相结合,以提高质量和输出分辨率。

图片

同样地,Imagen 3 也是谷歌最高质量的文本到图像模型,**能够更好地理解自然语言和 Prompt 背后的意图,并将较长提示中的小细节融入其中,**这种高级理解能力也有助于该模型掌握各种风格。

AI Overviews:谷歌搜索的大模型时代

25 年前,为了帮助人们更好地理解网上繁杂的信息,谷歌搜索由此诞生,人们可以在该引擎上检索各类问题的答案。现如今,Gemini 的出现将谷歌搜索推到了一个新的高度,重新定义了人们获取知识与解答疑惑的方式。

对此,谷歌在会议中表示:「无论您心中有什么,无论您需要完成什么,只要提问,谷歌就会为您搜索。」

图片

谷歌拥有超过万亿关于人、地点和事物的实时信息,搭配其备受信赖质量系统,可以为用户提供网络上最好的内容。而 Gemini 的加入,则进一步解锁了搜索中的新 Agent 能力,拓展了谷歌搜索更多的可能性。

其中,最让人关注的莫过于 AI Overviews 功能的推出。「有了 AI Overviews,用户提出问题后无需自己拼凑所有信息,谷歌搜索将会为你列出信息的概览,包括多种观点和链接进行更深入的探索。」

谷歌搜索业务副总裁 Liz Reid 在会议中讲道,「AI Overviews 将从今天开始在美国向所有人推出,预计到今年年底,AI Overviews 将为全球超过 10 亿谷歌搜索用户提供服务。」

「事实上,这只是第一步,我们正在让 AI Overviews 解锁更复杂的问题,为了使其成为可能,我们在 Google 搜索中引入了多步骤推理 (Multi-step reasoning)。」

图片

简单来说,多步骤推理就是将用户的总问题分解成各个部分,并确定需要按什么顺序解决哪些问题,然后,Google 搜索会基于现实的实时信息和排名等,使用最优质的信息来进行问题的推理。

例如,当用户询问地点时,Google 搜索会根据现实世界的信息,包括超过 2.5 亿个地点,以及它们的评分、评论、营业时间等来进行问题的回复,这些信息用户需要经过几分钟甚至更久的时间进行研究,但 Google 搜索几秒钟就能完成。

图片

除了提供基本的信息检索,Google 搜索也能执行高级推理和富有逻辑的规划任务,帮助用户完成餐饮、旅行、派对、约会、锻炼等活动的规划,让用户的生活更轻松。

图片

最后,**对于那些用文本或图片也无法准确表达的问题,谷歌也给出了解决方案——即将推出视频提问功能,**这意味着未来 Google 搜索的界面将会变得更加多元化。

Trillium:每个芯片的计算性能提高 4.7 倍

据路透社报道,在人工智能数据中心芯片市场上,英伟达占据了大约 80% 的市场份额,剩下的 20% 绝大部分是谷歌各种版本的 TPU。不过谷歌本身并不销售芯片,而是通过其云计算平台出租芯片。

**图片**

作为公司的重要业务,宣布新一代 TPU 似乎已经成为了 Google I/O 的传统。今天,Pichai 发布了谷歌第六代 TPU Trillium,并称这是公司迄今为止性能最好、效率最高的 TPU,**比上一代 TPU v5e 在每个芯片的计算性能上都提高了 4.7 倍。**同时还承诺将在 2024 年底向云客户提供 Trillium。

据 Tech Crunch 报道,在一定程度上,谷歌是通过扩大芯片的矩阵乘法单元 (MXU) 并提高整体时钟速度来实现性能提升的。此外,谷歌还将 Trillium 芯片的内存带宽提高了一倍。

此外,Pichai 还补充介绍了公司上个月发布的全新 Axion 处理器,这是谷歌首款基于 Arm 的定制 CPU,具有业界领先的性能和能效。

图片

随后,Pichai 还宣布谷歌将与英伟达达成合作,将在 2025 年推出与英伟达合作的 Blackwell 芯片。

AI for Science:AlphaFold 3 或将开源

DeepMind 创始人 Demis Hassabis 介绍道,「为了探究计算机能否像人一样思考,构建通用人工智能,我们创立了 DeepMind。」

图片

回顾之前的成果,从将视觉和语言转化为机器人行动的 RT-2、可以遵循自然语言指令在各种视频游戏环境中执行任务的游戏 AI 智能体 SIMA,到可以解决奥赛级别数学问题的 AIphaGeometry、甚至发现新材料的 GNoME。Demis Hassabis 表示:「我一直相信,如果我们能负责任地构建 AGI,它将会以难以置信的方式造福人类。」

图片

此外,在会议中,Demis Hassabis 还重点强调了近期推出的 AlphaFold 3,该模型以前所未有的精确度成功预测了所有生命分子(蛋白质、DNA、RNA、配体等)的结构和相互作用,在模拟多种不同类型的分子相互作用方面取得了重大突破,这对精准确定药物靶点等研发项目至关重要。

事实上,最初发布 AlphaFold 3 时,Google 没有开源其完整代码的计划,只是为该模型发布了一个支持非商业性研究的 AlphaFold Server 的公共接口,向全球科研人员敞开了大门。

图片

然而,仅仅离发布不到一周的时间,Google DeepMind 研究副总裁突然宣布:「我们将在 6 个月内发布 AF3 模型(包括权重),供学术界使用!」Google 在 I/O 大会开始的前一天突然宣布这个开源计划,无论是迫于 OpenAI 的压力,还是为大会造势预热,AlphaFold 3 的开源都对生命健康领域的发展具有深远的意义。

近期,HyperAI超神经还将对谷歌 AI for Science 的最新布局进行追踪,感兴趣的小伙伴可以关注公众号,蹲一波深度报道!

写在最后

至此,连续两日的 AI 狂欢落下帷幕。但 OpenAI 与谷歌的对垒不会停歇——GPT-5 的性能天花板在哪?Gemini 的超长上下文限制能否再有突破?OpenAI 的搜索引擎是否会冲击谷歌的地位……

英伟达科学家 Jim Fan 评价道,「谷歌正在做的一件事是正确的:他们终于在认真努力地将人工智能整合到搜索框中。我感觉到了 Agent:规划、实时浏览和多模态输入,所有这些都来自登陆页面。谷歌最强大的护城河是分销 (distribution)。Gemini 不一定要成为最好的模型,也可以成为世界上最常用的模型。」

诚然,纵览整场发布会,笔者最大的感受是「在大模型时代,搜索或许依旧能够成为谷歌最大的底气」。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1676953.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTTP代理可以应用在那些领域呢

HTTP代理是IP代理领域中一个重要组成部分,它基于HTTP协议传输,使用海外服务器帮助用户绕开访问限制,浏览查看海外资讯信息。 HTTP代理可以应用在哪些领域呢? 1.保护使用者隐私 当今越来越数据被上传到网络云端上,用户…

Gone框架介绍17 - 创建一个可运行在生产环境的Web项目

gone是可以高效开发Web服务的Golang依赖注入框架 github地址:https://github.com/gone-io/gone 文档原地址:https://goner.fun/zh/guide/auto-gen-priest.html 请帮忙在github上点个 ⭐️吧,这对我很重要 ;万分感谢!&a…

【爬虫之scrapy框架——尚硅谷(学习笔记two)--爬取电影天堂(基本步骤)】

爬虫之scrapy框架--爬取电影天堂——解释多页爬取函数编写逻辑 (1)爬虫文件创建(2)检查网址是否正确(3)检查反爬(3.1) 简写输出语句,检查是否反爬(3.2&#x…

Nginx生产环境最佳实践之配置灰度环境

你好呀,我是赵兴晨,文科程序员。 下面的内容可以说是干货满满建议先收藏再慢慢细品。 今天,我想与大家深入探讨一个我们日常工作中不可或缺的话题——灰度环境。你是否在工作中使用过灰度环境?如果是,你的使用体验如…

flutter开发实战-compute将工作交由isolate处理

flutter开发实战-compute将工作交由isolate处理 最近查看flutter文档时候,看到了compute可以将工作交由isolate处理。通过 Flutter 提供的 compute() 方法将解析和转换的工作移交到一个后台 isolate 中。这个 compute() 函数可以在后台 isolate 中运行复杂的函数并…

Leetcode 第 129 场双周赛题解

Leetcode 第 129 场双周赛题解 Leetcode 第 129 场双周赛题解题目1:3127. 构造相同颜色的正方形思路代码复杂度分析 题目2:3128. 直角三角形思路代码复杂度分析 题目3:3129. 找出所有稳定的二进制数组 I思路代码复杂度分析 题目4:…

JavaScript异步编程——11-异常处理方案【万字长文,感谢支持】

异常处理方案 在JS开发中,处理异常包括两步:先抛出异常,然后捕获异常。 为什么要做异常处理 异常处理非常重要,至少有以下几个原因: 防止程序报错甚至停止运行:当代码执行过程中发生错误或异常时&#x…

数字人解决方案——ID-Animator可保持角色一致生成视频动画

一、引 言 个性化或自定义生成在图像和视频生成领域是一个不断发展的研究方向,尤其是在创建与特定身份或风格一致的内容方面。您提到的挑战和解决方案为这一领域提供了有价值的见解: 训练成本高:这是一个普遍问题,因为个性化生成…

手机触控面板中应用的电容式触摸芯片

手机触控屏(Touch panel)又称为触控面板,是个可接收触头等输入讯号的感应式液晶显示装置,当接触了屏幕上的图形按钮时,屏幕上的触觉反馈系统可根据预先编程的程式驱动各种连结装置,可用以取代机械式的按钮面…

【AI】DeepStream(03):deepstream_test1_app

1、简介 deepstream-test1:演示各种 DeepStream 插件构建 GStreamer 管道。从文件中获取视频、解码、批处理,然后进行对象检测,最后在屏幕上渲染框。 源码路径:/opt/nvidia/deepstream/deepstream/sources/apps/sample_apps/deepstream-test1 先看下效果 2、编译 1)…

Redis-分片集群存储及读取数据详解

文章目录 Redis分片集群是什么?Redis分片集群的存储及读取数据? 更多相关内容可查看 Redis分片集群是什么? Redis分片集群是一种分布式部署方式,通过将数据分散存储在多个Redis节点上,从而提高了系统的性能、扩展性和…

【微记录】linux内核态日志如何持续观测?以及dmesg如何显示年月日时间戳?(dmesg -w ; -T)

文章目录 持续观测方法1方法2 dmes显示时间戳 持续观测 方法1 dmesg -w参考:https://man7.org/linux/man-pages/man1/dmesg.1.html 方法2 tail -f /var/log/kern.logdmes显示时间戳 dmesg -T #按照人类可读性高的时间戳 比如2024-05-15 01:20:16实操&#xff1…

快速学习SpringAi

Spring AI是AI工程师的一个应用框架,它提供了一个友好的API和开发AI应用的抽象,旨在简化AI应用的开发工序,例如开发一款基于ChatGPT的对话应用程序。通过使用Spring Ai使我们更简单直接使用chatgpt 1.创建项目 jdk17 引入依赖 2.依赖配置 …

敏捷开发最佳实践:自驱团队实践案例之心情曲线回顾会

调研发现,26%的中国企业认为最有价值管理实践是“团队回顾会”,而“团队回顾会”的确能够很好的引导团队走向自驱。在本节的实践案例中 “心情曲线回顾会”的具体做法较为典型,很值得参考。 本实践节选自《2021中国企业敏捷实践白皮书》&…

压力给到 Google,OpenAI 发布 GPT-4o 来了

北京时间5月14日凌晨1点,OpenAI 开启了今年的第一次直播,根据官方消息,这次旨在演示 ChatGPT 和 GPT-4 的升级内容。在早些时候 Sam Altman 在 X 上已经明确,「我们一直在努力开发一些我们认为人们会喜欢的新东西,对我…

OpenNJet产品体验:探索无限可能

文章目录 前言一、OpenNJet是什么?二、OpenNJet特性和优点三、OpenNJet功能规划四、OpenNJet快速上手五、OpenNJet的使用总结 前言 现代社会网络高速发展,同时也迎来了互联网发展的高峰,OpenNJet作为一个基于NGINX的面向互联网和云原生应用提…

爬虫入门经典(七) | 采集淘宝电场相关信息

大家好,我是不温卜火,昵称来源于成语—不温不火,本意是希望自己性情温和。 PS:由于现在越来越多的人未经本人同意直接爬取博主本人文章,博主在此特别声明:未经本人允许,禁止转载!&a…

string功能介绍(普及版)

目录 1。初始化(好几种方式),npos和string的使用说明 2。string的拷贝,隐式类型转换,[],size,iterator,begin,end,reverse,reverse_iterator&am…

【回溯】1240. 铺瓷砖

本文涉及知识点 回溯 LeetCode1240. 铺瓷砖 你是一位施工队的工长,根据设计师的要求准备为一套设计风格独特的房子进行室内装修。 房子的客厅大小为 n x m,为保持极简的风格,需要使用尽可能少的 正方形 瓷砖来铺盖地面。 假设正方形瓷砖的…

windows驱动开发-PCI和中断(二)

谈到中断使用PCI总线来作为例子是最合适的,在Windows发展过程中,PCI作为最成功的底层总线,集成了大量的外设,不夸张的说,目前PCI几乎是唯一的总线选择,故大部分情况下,只有PCI设备驱动程序会遇到…