[AI Google] 双子座模型家族迎来新突破:更快的模型、更长的上下文、AI代理等更多功能

news2024/11/28 16:27:07

Google发布了Gemini模型家族的更新,包括新的1.5 Flash模型,该模型旨在提高速度和效率,以及Project Astra,这是对未来AI助手愿景的展示。1.5 Flash是专为大规模高频任务优化的轻量级模型,具有突破性的长上下文窗口。同时,1.5 Pro模型也得到了显著改进,包括更长的上下文窗口、增强的代码生成和逻辑推理能力。此外,Gemini Nano现在能够理解多模态输入,而Gemma 2则是下一代开放模型,旨在促进负责任的AI创新。Project Astra展示了通用AI代理的未来,这些代理能够理解和响应复杂世界,并具有更自然的互动能力。


我们很高兴地介绍双子座模型家族的一系列更新,包括新的1.5 Flash——我们的轻量级模型,旨在提高速度和效率,以及Project Astra——我们对未来AI助手愿景的展示。

一张复杂的AI模型网络连接到另一个更加精简的模型的插图,展示了Google DeepMind如何通过大型模型教授和训练小型模型。

去年12月,我们推出了首个原生多模态模型双子座1.0,包括Ultra、Pro和Nano三种尺寸。仅仅几个月后,我们发布了1.5 Pro,它具有增强的性能和突破性的长上下文窗口,可容纳100万个令牌。

开发者和企业客户已经开始以令人惊叹的方式使用1.5 Pro,发现它的长上下文窗口、多模态推理能力和总体表现非常有用。

我们从用户反馈中得知,某些应用需要更低的延迟和更低的服务成本。这激励我们继续创新,因此今天,我们推出了双子座1.5 Flash:一个比1.5 Pro更轻量级的模型,旨在快速且高效地大规模服务。

1.5 Pro和1.5 Flash都可通过Google AI Studio和Vertex AI的公开预览版获得,拥有100万个令牌的上下文窗口。现在,1.5 Pro还可通过等待名单向使用API的开发者和Google Cloud客户提供,拥有200万个令牌的上下文窗口。

我们还介绍了双子座模型家族的更新,宣布了我们的下一代开放模型Gemma 2,并分享了未来AI助手的发展,通过Project Astra。

与双子座1.5的200万令牌能力相比,领先的基础模型的上下文长度

双子座模型家族的更新

新的1.5 Flash,专为速度和效率优化

1.5 Flash是双子座模型家族的新成员,也是通过API提供的最快的双子座模型。它专为大规模的高容量、高频率任务而优化,服务成本更高效,并具有我们突破性的长上下文窗口。

虽然它比1.5 Pro轻量级,但它在处理大量信息的多模态推理方面表现出色,并为它的尺寸提供了令人印象深刻的质量。

解释新的双子座1.5 Flash模型的三个关键特性——速度和效率、多模态推理和长上下文窗口的图标和文本的插图。

新的双子座1.5 Flash模型专为速度和效率优化,在多模态推理方面表现出色,并具有我们突破性的长上下文窗口。

1.5 Flash在摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等方面表现出色。这是因为通过一种称为“蒸馏”的过程,由1.5 Pro训练而来,将更大模型的最关键知识和技能转移到更小、更高效的模型中。

在我们的更新后的双子座1.5技术报告、双子座技术页面以及了解1.5 Flash的可用性和定价中关于1.5 Flash的信息。

显著改进1.5 Pro

在过去的几个月里,我们显著改进了1.5 Pro,这是我们在广泛任务上表现最佳的模型。

除了将其上下文窗口扩展到200万个令牌之外,我们还通过数据和算法进步改进了它的代码生成、逻辑推理和规划、多轮对话,以及音频和图像理解。我们在每个任务的公共和内部基准上都看到了强大的改进。

1.5 Pro现在可以遵循越来越复杂和细微的指令,包括那些指定产品级行为涉及角色、格式和风格的指令。我们改进了对模型响应的控制,以适应特定用例,如打造聊天代理的个性和响应风格,或通过多个函数调用自动化工作流程。并且我们允许用户通过设置系统指令来引导模型行为。

我们在Gemini API和Google AI Studio中添加了音频理解,因此1.5 Pro现在可以对在Google AI Studio上传的视频进行图像和音频推理。我们正在将1.5 Pro集成到Google产品中,包括Gemini Advanced和Workspace应用。

在我们的更新后的双子座1.5技术报告和双子座技术页面上关于1.5 Pro的信息。

Gemini Nano理解多模态输入

Gemini Nano正在从仅文本输入扩展到包括图像。从Pixel开始,使用Gemini Nano与多模态的应用将能够像人们一样理解世界——不仅仅是通过文本,还通过视觉、声音和口语。

在Android上关于Gemini 1.0 Nano的信息。

下一代开放模型

今天,我们还分享了一系列对Gemma的更新,这是我们基于创建双子座模型相同的研究和技术构建的开放模型家族。

我们宣布Gemma 2,我们下一代开放模型,用于负责任的AI创新。Gemma 2拥有新的架构,专为突破性的性能和效率而设计,并将以新的尺寸提供。

Gemma家族还通过PaliGemma扩展,这是我们受到PaLI-3启发的首个视觉语言模型。并且我们已经升级了我们的负责任生成式AI工具包,加入了LLM Comparator用于评估模型响应的质量。

在开发者博客上信息。

开发通用AI代理的进展

作为Google DeepMind使命的一部分,我们一直希望负责任地开发能够造福人类的通用AI代理。这就是为什么今天,我们分享了构建未来AI助手愿景的进展,通过Project Astra(高级视觉和对话响应代理)。

要真正有用,代理需要像人们一样理解和响应复杂和动态的世界,并吸收和记住它看到和听到的内容,以理解上下文并采取行动。它还需要是主动的、可教的和个性化的,以便用户可以自然地与它交谈,没有延迟或延迟。

虽然我们在开发能够理解多模态信息的AI系统方面取得了令人难以置信的进展,但将响应时间降低到对话级别是一个困难的工程挑战。在过去几年中,我们一直在努力改进我们的模型如何感知、推理和对话,以使互动节奏和质量感觉更自然。

Project Astra的两部分演示,我们对未来AI助手的愿景。每部分都是在单次拍摄中实时捕获的。

在双子座的基础上,我们已经开发了原型代理,它们可以通过连续编码视频帧、将视频和语音输入结合成事件时间线,并缓存这些信息以供高效回忆,来更快地处理信息。

通过利用我们领先的语音模型,我们还增强了它们的声音,赋予代理更广泛的语调范围。这些代理可以更好地理解它们被使用的上下文,并快速、流畅地回应。

有了这样的技术,很容易想象一个未来,人们可以拥有一个专家级的AI助手,通过手机或眼镜随时待命。其中一些功能将在今年晚些时候来到Google产品,如Gemini应用和网页体验。

持续探索

到目前为止,我们的双子座模型家族已经取得了令人难以置信的进展,我们总是力求进一步推进最前沿的艺术。通过投资于不懈的创新生产线,我们能够探索前沿的新想法,同时也解锁了双子座新颖和令人兴奋的用例的可能性。

了解更多关于双子座及其功能的信息。


  • 原文
  • 博客 - 从零开始学AI
  • 公众号 - 从零开始学AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1802485.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

opencv 在飞行堡垒8中调用camera导致设备消失

简介 使用 OpenCV 库时, 在最后调用cv::destroyAllWindows()之后设备管理器中的摄像头设备消失了, 看看是怎么触发的, 后面再慢慢研究RootCause是什么。 步骤 设备管理器原来摄像头显示 1. 代码 main.cpp Note: 1. haarcascade_frontalface_default…

什么是助听器呢?

助听器是一种用于改善听力障碍患者听觉能力的装置。它通过放大声音,使原本听不到或听不清的声音能够被听力受损者感知,从而提高其交流能力和生活质量。 助听器的基本工作原理是,将声音转化为电信号,经过内部电路处理后&#xff0c…

算法006:查找总价格为目标值的两个商品

. - 力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/he-wei-sde-liang-ge-shu-zi-lcof/ 题干说的很复杂,简化一…

嵌入式Linux系统编程 — 3.2 stat、fstat 和 lstat 函数查看文件属性

目录 1 文件有哪些属性 2 stat函数 2.1 stat函数简介 2.2 struct stat 结构体 2.3 struct timespec 结构体 2.4 示例程序 3 fstat 和 lstat 函数 3.1 fstat 函数 3.2 lstat 函数 1 文件有哪些属性 Linux文件属性是对文件和目录的元数据描述,包括文件类型…

浅谈安全用电管理系统对重要用户的安全管理

1用电安全管理的重要性   随着社会经济的不断发展,电网建设力度的不断加大,供电的可靠性和供电质量日益提高,电网结构也在不断完善。但在电网具备供电的条件下,部分高危和重要电力用户未按规定实现双回路电源线路供电&#xff1…

问题:设备管理指标为完好率不低于( ),待修率不高于5%,事故率不高于1%。 #知识分享#经验分享#经验分享

问题:设备管理指标为完好率不低于( ),待修率不高于5%,事故率不高于1%。 A、100% B、95% C、90% D、80% 参考答案如图所示

自动驾驶---Control之LQR控制

1 前言 在前面的系列博客文章中为读者阐述了很多规划相关的知识(可参考下面专栏),本篇博客带领读者朋友们了解控制相关的知识,后续仍会撰写规控相关文档。 在控制理论的发展过程中,人们逐渐认识到对于线性动态系统的控…

vue数组在浏览器里可以看到值, 但是length为空

arr数组 length为0, 检查了代码在created 里调用了 this.getEnergyList(); 和 this.initChart(); 问题就在这里, this.initChart用到了getEnergyList里的数据, 造成了数据异步, 把this.initChart(); 放入 this.getEnergyList(); 方法里即可解决问题

Elasticsearch 认证模拟题 - 13

一、题目 集群中有索引 task3,用 oa、OA、Oa、oA 查询结构是 4 条,使用 dingding 的查询结果是 1 条。通过 reindex 索引 task3 为 task3_new,能够使 task3_new 满足以下查询条件。 使用 oa、OA、Oa、oA、0A、dingding 查询都能够返回 6 条…

【计算机视觉】数字图像处理基础:以像素为单位的图像基本运算(点运算、代数运算、逻辑运算、几何运算、插值)

0、前言 在上篇文章中,我们对什么是数字图像、以及数字图像的组成(离散的像素点)进行了讲解🔗【计算机视觉】数字图像处理基础知识:模拟和数字图像、采样量化、像素的基本关系、灰度直方图、图像的分类。 我们知道&a…

Ruoyi-Vue-Plus 下载启动后菜单无法点击展开,

1.Ruoyi-Vue-Plus框架下载后运行 2.使用mock数据 3.进入页面后无法点击菜单 本以为是动态路由或者菜单逻辑出了问题,最后发现是websocket的问题 解决办法 把这两行代码注释 页面菜单即可点击。 以上。

蓝屏绿屏黑屏?别急,有它们仨【送源码】

使用Windows系统的电脑时,可能会碰到各种问题,导致系统无法正常使用。 这些问题都有一个统一的专业叫法就是bug! 系统一旦出现bug,最明显的特点就是, ①电脑蓝屏 电脑蓝屏是最经典的,从XP时代一直延续到…

数据结构之快速排序算法(快排)【图文详解】

P. S.:以下代码均在VS2019环境下测试,不代表所有编译器均可通过。 P. S.:测试代码均未展示头文件stdio.h的声明,使用时请自行添加。 博主主页:LiUEEEEE                        …

Cesium开发环境搭建(一)

1.下载安装Node.js 进入官网地址下载安装包 Node.js — Download Node.js https://cdn.npmmirror.com/binaries/node/ 选择对应你系统的Node.js版本,这里我选择的是Windows系统、64位 安装完成后,WINR,输入node --version,显示…

全网最强下载神器IDM之如何用IDM下载百度网盘文件不限速 如何用IDM下载百度云资源 IDM激活码免费版下载安装

百度网盘是比较早的网盘类应用,用户群体比较多,但百度网盘对于非会员用户限速比较严重。IDM是非常好用的下载工具,那么我们如何用IDM下载百度网盘文件不限速?我们可以通过多种方法使用IDM下载百度网盘文件。下面我们就来看如何用I…

Windows11系统 和Android 调试桥(Android Debug Bridge,ADB)工具安装,app抓取日志内容

文章目录 目录 文章目录 安装流程 小结 概要安装流程技术细节小结 概要 Android调试桥(ADB)是一种多功能命令行工具,它允许开发者与连接到计算机上的Android设备进行通信和控制。ADB工具的作用包括但不限于: 安装和卸载应用程序&…

【纯血鸿蒙】——自适应布局如何实现?

界面级一多能力有 2 类: 自适应布局: 略微调整界面结构 响应式布局:比较大的界面调整 本文章先主要讲解自适应布局,响应式布局再后面文章再细讲。话不多说,开始了。 自适应布局 针对常见的开发场景,方舟开发框架提…

VS(visual studio)搭建QT开发环境插件安装

优先安装QT Qt6 官网QtCreator 下载与安装方法win10_qt6下载-CSDN博客 如果安装vs2019,打开installer,安装c环境 选择c 下载vsix后,双击安装即可。 插件下载: Index of /qtproject/official_releases/vsaddin/ 创建QT项目: 创建完成&…

力扣560. 和为 K 的子数组

Problem: 560. 和为 K 的子数组 文章目录 题目描述思路复杂度Code 题目描述 思路 1.初始化一个哈希表preSum,用于记录前缀和及其出现次数,ans记录和为k的子数组数量、sum_i记录当前前缀和; 2.将前缀和为 0 的情况存入哈希表,表示前缀和为 0 出…

Spring boot项目

一. Spring boot 安装地址 https://start.spring.io/ 二. 选择 三. idea配置 找到下载的文件解压缩,打开pom.xml(选择从idea打开)