Google 发布最强大模型Gemini,能力与GPT-4相当

news2024/11/26 18:32:37

一、Gemini 介绍

Gemini 是一个多模式模型系列,在图像、音频、视频和文本领域展示了真正强大的功能。其中功能最强大的模型 Gemini Ultra 在 32 个基准测试中的 30 个中提升了最先进水平,其中包括 12 个流行文本和推理基准测试中的 10 个、9 个图像理解基准测试中的 9 个、6 个视频理解基准测试中的 6 个以及 5 个语音基准测试中的 5 个识别和语音翻译基准。 Gemini Ultra 是第一个在 57 个科目的 MMLU 上达到人类专家表现且得分高于 90% 的模型。它还在新的 MMMU 多模态推理基准上取得了 62.4% 的新的最先进分数,比之前的最佳模型高出 5 个百分点以上。

介绍 Gemini:我们最大、最有能力的 AI 模型

Gemini 还是我们迄今为止最灵活的模型,它能够在从数据中心到移动设备的各种设备上高效运行。它的尖端技术能力将极大地改善开发者和企业用户使用 AI 构建和扩展应用的方式。

Gemini 模型建立在 Transformer 解码器之上,通过架构和模型优化的改进得到增强,以实现大规模稳定训练并在 Google 张量处理单元上进行优化推理。它们经过训练可支持 32k 上下文长度,采用高效的注意力机制(例如多查询注意力(Shazeer,2019))。

Gemini 有多种尺寸,包括两种版本的 Nano(专为手机等内存受限环境中的设备上使用而设计)、Pro(用于增强数据中心的性能和大规模可部署性)和 Ultra(用于高度复杂的环境)任务)。即使是较小的型号也非常棒!

1.1、产品集成

Gemini 目前已经集成到 Google 的许多产品中。

截至今天,Gemini Pro 型号现已为 Bard ( http://bard.google.com ) 提供支持。从 Bard 更新说明中可以知道,由于目前 Google Bard 新版中嵌入的 Gemini Pro 版本暂时只支持英文,所以大家在体验的时候可以用英文,中文效果会不太理想。

12 月 13 日,开发者可以通过 Google AI StudioGoogle Cloud Vertex AI ( https://cloud.google.com/vertex-ai ) 上的 API 访问 Gemini Pro。 Android 开发者可以在 Pixel 8 Pro 上使用 Android Nano 尺寸。 明年初,Google 将完成对模型的进一步信任和安全检查,并通过额外的 RLHF 调整进一步完善它之后,将推出由 Gemini Ultra 模型提供支持的 Bard Advanced。作为其中的一部分,Google 将 Ultra 提供给选定的客户、开发人员、合作伙伴以及安全和责任专家,以便在更广泛地使用它之前进行早期实验和反馈。

1.2、多模态设计

Google从一开始就将 Gemini 设计为多模态,而不是从纯文本模型开始,然后在事后嫁接视觉和音频编码器。这意味着我们可以很自然地交错模式:说几句话,添加图像,添加一些文本,也许是短视频,同样,模型可以自然地交错文本和图像作为输出。

二、基准测试

MMMU 是上周刚刚发布的全新基准测试 ( https://mmmu-benchmark.github.io ),约有 11,500 个示例,需要图像理解、大学水平的学科知识和深思熟虑的推理。我们认为在这个基准测试中尝试 Gemini 模型来看看它们的表现会很有趣。凭借其多模式和推理功能,Gemini Ultra 远远超过了最先进的 GPT-4V。

2.1、文本/编程能力

在各种文本、数学、编码和推理基准测试中,包括 MMLU、GSM8K、MATH、Big-Bench Hard、HumanEval、Natural2Code、DROP 和 WMT23,Gemini 均优于所有其他模型,并改进了现有模型艺术。在 MMLU 上,Gemini Ultra 是第一个在 57 个科目的 MMLU 上达到人类专家表现且得分高于 90% 的模型。

当使用 32 个样本的 CoT 时,Gemini Ultra 在 MMLU 上获胜 2.75%,但当使用 5 次提示时,以相同的差距输给 GPT-4。值得注意的是,G-Ultra 在编码任务方面似乎比 GPT-4 好得多。

2.2、图像理解能力

在图像理解方面,Gemini 在我们检查的所有基准测试中都表现良好,Ultra 模型在每个基准测试中都创下了新的最先进结果。

2.3、多模态能力和推理能力

从发布的报告中的有个例子可以很好地说明 Gemini 的多模式能力和推理能力。

将此图像作为输入和提示:

“找出这些图表中突出的数据点及其含义。然后为显示的所有数据生成详细的降价表”

Gemini 能够产生如下所示的响应:

“最突出的数据点是美国填埋的塑料垃圾,占 73%。这明显高于显示的其他国家和地区。这意味着美国在回收或焚烧塑料废物方面没有像其他国家和地区那样做那么多。”

以及条形图中表示的每个数据点的渲染表格版本。

2.4、跨语言支持

Gemini 在跨多种不同语言的多语言图像理解任务中也表现出色。

2.5、视频理解能力

Gemini Ultra 还在各种少镜头视频字幕任务以及零镜头视频问答任务中取得了最先进的结果。

2.6、音频理解能力

在语音识别和语音翻译任务中,Gemini 也表现出色。我们尚未针对这些任务评估 Ultra 模型,但我们预计该模型规模的增加将产生比 Gemini Pro 模型更好的结果,Gemini Pro 模型已经在我们检查的所有五个基准中设定了新的最先进结果。

三、Gemini 特点

3.1、强劲的性能

Google 对 Gemini 模型进行了严格测试,并评估了它们在各种任务上的表现。从自然图像、音频和视频理解到数学推理,Gemini Ultra的性能在32个广泛使用的大型语言模型(LLM)研究和开发中的学术基准中有30项超过了当前的最新成果。

Gemini Ultra以90.0%的分数成为首个在MMLU(大规模多任务语言理解)上超越人类专家的模型,该模型使用数学、物理、历史、法律、医学和伦理学等57个学科的组合来测试世界知识和解决问题的能力。

Gemini 在文本基准测试上优于 GPT-4。但真的是这样吗?尽管结果令人印象深刻,但如果您注意使用相同提示技术(例如 Big-bench、Hellaswag 和 Math)报告的结果,您会发现性能差异很小。

在新的 MMMU 基准测试中,Gemini Ultra 也取得了 59.4% 的高分。该测试包含了多个领域的多模态任务,需要深入的推理能力。 在我们测试的图像基准方面,Gemini Ultra 无需物体字符识别 (OCR) 系统的辅助,就超越了之前的尖端模型。这些基准测试突显了 Gemini 的天生多模态能力,并预示了其更为复杂的推理能力。

3.2、下一代模型能力

回想起我们曾经对多模态模型的那份笨拙拼接,它们虽能应对简单任务,如图像描述,但在抽象和复杂的逻辑推理面前却显得力不从心。如今,Google 以其创新精神,设计了Gemini——一个天生支持多模态的智能体。从摇篮期便在多种模态间游刃有余,它通过额外的多模态数据微调,其理解和推理的能力已远超过现有模型,成为各领域的领跑者。

一点一滴、细节之中,Gemini 1.0 展现了它处理复杂书面和视觉信息的能力。就如同在茫茫数据海洋中寻找那一线生机,它能洞察难以辨识的知识,无论是科学还是金融领域,都预示着数字化突破的曙光。

当我们谈论编程之美时,Google 的Gemini 展示了它在理解、解释、生成流行编程语言(比如 Python、Java、C++ 和 Go)方面的高超技艺。它跨语言的操作能力和对复杂信息的处理,让它在全球编程基础模型中脱颖而出。在多个编程基准测试中,包括行业标准的HumanEval和我们内部的Natural2Code数据集中,Gemini Ultra 的表现尤为出色。

不仅如此,Gemini 还可作为高级编码系统的动力核心。回想两年前我们推出了AlphaCode——首个在编程竞赛中达到竞争水平的AI代码生成系统。而今,借助Gemini专业版,我们打造了AlphaCode 2,它不仅擅长解决编程问题,更涵盖了复杂的数学和理论计算机科学难题。

到目前为止,创建多模态模型的标准方法涉及训练不同模态的单独组件,然后将它们拼接在一起,粗略模拟部分功能。这些模型有时可以很好地执行某些任务,比如描述图像,但在更概念化和复杂的推理方面表现不佳。

Google 设计了 Gemini,使其本能地支持多模态,从一开始就在不同的模态上进行了预训练。然后,我们使用额外的多模态数据对其进行了微调,以进一步提高其效果。这有助于Gemini从根本上无缝地理解和推理各种输入,远远优于现有的多模态模型——而且它的能力在几乎每个领域都是最先进的。

3.2.1、复杂推理能力

Gemini 1.0的复杂多模态推理能力可以帮助理解复杂的书面和视觉信息。这使它在发现在大量数据中难以辨别的知识方面具有独特的技能。

它惊人的能力通过阅读、过滤和理解信息从数十万份文件中提取见解,将有助于在从科学到金融等许多领域以数字速度实现新突破。

Gemini 揭示新的科学见解

3.2.2、理解文本、图像、音频等

Gemini 1.0 能够同时处理和理解文本、图像、音频等多种信息,这使它在理解复杂话题上更加细腻,能够回答那些涉及到复杂主题的问题。它在解释数学和物理等复杂科目的推理过程方面表现尤为出色。

Gemini 在数学和物理学方面的解释能力

3.2.3、高级编程

Google 推出首个版本的 Gemini 能够理解、解释并生成世界上最受欢迎编程语言(例如 Python、Java、C++ 和 Go)的高质量代码。其跨语言操作能力和对复杂信息的处理使其成为全球领先的编程基础模型之一。

Gemini Ultra 在多个编程基准测试中表现卓越,其中包括 HumanEval —— 一个评估编程任务性能的重要行业标准,以及我们的内部数据集 Natural2Code,该数据集使用作者生成的来源而不是基于网络的信息。

Gemini也可以用作更高级编码系统的引擎。两年前,我们推出了AlphaCode,这是第一个在编程竞赛中达到竞争水平的AI代码生成系统。

利用Gemini的专业版本,创建了一个更先进的代码生成系统AlphaCode 2,它擅长解决超越编码的竞赛编程问题,涉及复杂的数学和理论计算机科学。

Gemini 在编码和竞赛编程方面表现出色

在与原版 AlphaCode 相同的平台上进行评估时,AlphaCode 2 展现了显著提升,解决问题数量几乎翻倍。估计其性能超过了 85% 的竞赛参与者,相较于 AlphaCode 的近 50% 有显著提高。当程序员与 AlphaCode 2 协作,为代码样本定义特定属性时,其表现更为出色。

3.3、更加可靠、可扩展和高效

Google 在自家AI优化基础设施上,借助内部设计的Tensor处理单元(TPU)v4和v5e对Gemini 1.0进行了大规模训练。这不仅是我们最稳固和可扩展的训练模型,同时也是效率最高的服务模型之一。

在TPU上运行时,Gemini 的速度远超以往那些小巧但功能有限的模型。这些专为AI加速而生的处理器已成为Google众多AI驱动产品的核心——从搜索到YouTube、Gmail、Google地图、Google Play和Android——为全球数十亿用户提供服务,并帮助世界各地的公司以成本效益的方式训练大型AI模型。

此外,Google 还发布了迄今为止最强大、高效和可扩展的TPU系统Cloud TPU v5p。这一代TPU将加速Gemini 的发展,并助力开发者及企业客户更快速地训练大规模生成式人工智能模型,让新产品和功能更快地触达用户。

3.4、以责任和安全为核心构建

Google 始终致力于推动大胆而负责任的人工智能发展。基于谷歌的人工智能原则和我们产品的健全安全政策,Google 为Gemini增设了新的保护措施,以适应其多模态能力。在开发每一个阶段,我们都深思熟虑潜在风险,并致力于测试和减轻这些风险。

Gemini 经历了谷歌AI模型中最全面的安全评估,覆盖了偏见和毒性等关键问题。我们开展了针对网络攻击、说服力及自主性等新颖研究领域的探索,并应用了谷歌研究中最先进的对抗测试技术,在部署前提前识别关键安全问题。

为了更好地发现评估方法中可能存在的盲点,谷歌正与一系列多元化的外部专家和合作伙伴合作,对Gemini 进行各种问题上的压力测试。在训练阶段,我们通过使用真实有毒提示等基准来诊断内容安全问题,并确保其输出符合我们的政策。

为了减少可能造成的伤害,谷歌建立了专门的安全分类器来识别、标记和分类暴力或负面刻板印象内容。这种分层方法结合了强大的过滤器,使Gemini 对每个人都更加安全和包容。同时,我们将持续应对模型所面临的事实性、基础性、归因性和协作性等已知挑战。

责任和安全始终是我们模型开发和部署的核心。这是一项长期承诺,需要合作建设,因此我们正在与行业和更广泛的生态系统合作,通过组织如MLCommons、Frontier Model Forum及其AI安全基金以及我们的安全AI框架(SAIF)来定义最佳实践,并制定安全和安全基准,该框架旨在帮助减轻公共和私营部门AI系统特定的安全风险。在开发Gemini的过程中,我们将继续与全球的研究人员、政府和民间社会团体合作。

3.5、让Gemini面向全世界

Gemini 1.0现在正在一系列产品和平台上推出:

3.5.1、谷歌产品中的Gemini专业版

通过谷歌产品将Gemini 带给数十亿人。

从今天开始,Bard将使用Gemini Pro的精细调整版本进行更高级的推理、规划、理解等。这是Bard自推出以来最大的升级。

它将在全球170多个国家和地区提供英文版本,并计划在不久的将来扩展到不同的模式,并支持新的语言和地点。

还将Gemini引入Pixel。Pixel 8 Pro是第一款专为运行Gemini Nano而设计的智能手机,它为录音应用中的“摘要”功能和Gboard中的智能回复功能提供支持,首先在WhatsApp中推出,明年将在更多的消息应用中推出。

在未来几个月里,Gemini 将会在我们的更多产品和服务中推出,比如搜索、广告、Chrome 和 Duet AI。

已经开始在搜索中尝试Gemini,它使我们的搜索生成体验(SGE)对用户更快,在美国英语搜索中延迟减少了40%,同时提高了质量。

3.5.2、使用Gemini构建产品

从12月13日开始,开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。

Google AI Studio是一个免费的基于网络的开发者工具,可帮助开发者和企业客户快速使用API密钥原型设计和推出应用程序。当需要完全托管的AI平台时,Vertex AI允许通过完全数据控制对Gemini进行定制,并从Google Cloud的其他功能中获益,以提高企业安全性、安全性、隐私和数据治理以及合规性。

Android开发者还可以通过AICore在Android 14上的Pixel 8 Pro设备上使用我们最高效的Gemini Nano模型进行设备任务构建。立即注册AICore的早期预览。

3.5.3、Gemini Ultra 即将推出

对于 Gemini Ultra,我们目前正在进行广泛的信任和安全检查,包括由可信赖的外部方进行红队测试,并在向人类反馈的基础上进一步完善模型,使用微调和强化学习,然后才会广泛推出。

作为这一过程的一部分,我们将使Gemini Ultra提供给一些特定的客户、开发者、合作伙伴以及安全和责任专家进行早期实验和反馈,然后在明年初向开发者和企业客户推出。

明年初,我们还将推出Bard Advanced,这是一种全新的、尖端的人工智能体验,让您可以使用我们最好的模型和能力,首先是Gemini Ultra。

3.5.4、Gemini 时代:开启创新未来之门

这是 AI 发展的关键里程碑,也标志着我们 Google 迈入了一个全新时代。我们将继续快速创新,并负责任地提升我们的模型能力。

我们已经在 Gemini 上取得了重大进展,并正在努力进一步拓展其未来版本的能力,如在规划和记忆方面的提升,以及增加处理更多信息的上下文窗口,以便提供更佳的响应。

我们对 AI 负责任地赋能世界所带来的巨大潜力感到兴奋。这是一个充满创新的未来,它将激发创造力,拓展知识,推动科学发展,并改变全球数十亿人的生活和工作方式。

四、模型训练

Gemini 是一项大规模的科学和工程工作,需要 ML、分布式系统、数据、评估、RL、微调等方面的各种不同专业知识(该报告的 800 多名作者)。最大的 Gemini 模型在大量 TPUv4 pod 上进行训练。它构建在 JAX 和 Pathways 系统 ( https://arxiv.org/abs/2203.12533 ) 之上,这使我们能够从单个 Python 进程跨多个数据中心的大量 TPUv4 Pod 协调大规模训练计算。

Gemini Ultra 的训练基础设施非常令人着迷,Gemini 在多个数据中心的多个 TPUv4 Superpod(4096 个 TPU)上并行训练数据。疯狂的是,他们的网络速度足以在多个数据中心之间同步梯度,而不会显著降低训练效率。

五、References

[1]. Gemini 官方介绍

https://blog.google/technology/ai/google-gemini-ai/#sundar-note

[2]. Gemini 技术报告

https://goo.gle/GeminiPaper

[3]. 多模式提示推理

https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1291910.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

情感分析简化:使用python中的TextBlob库轻松分析文本情感

导语:在当今社交媒体和大数据时代,了解人们对于产品、服务或事件的情感倾向变得至关重要。TextBlob库作为一个简单易用的自然语言处理工具,提供了强大的情感分析功能,帮助我们更深入地理解文本背后的情感。本文将介绍TextBlob库的…

Python3+RIDE+RobotFramework自动化测试框架搭建过程详解

一、Python安装 最新版Python下载地址:https://www.python.org/ 根据操作系统选择对应版本制品下载安装即可,本机用的是Windows x86-64 executable installer。 注意事项: 安装完成后检查下环境变量,默认会配置好,可…

HarmonyOS开发(十):通知和提醒

1、通知概述 1.1、简介 应用可以通过通知接口发送通知消息,终端用户可以通过通知栏查看通知内容,也可以点击通知来打开应用。 通知使用的的常见场景: 显示接收到的短消息、即使消息...显示应用推送消息显示当前正在进行的事件&#xff0c…

2024黑龙江省职业院校技能大赛信息安全管理与评估赛项规程

2024黑龙江省职业院校技能大赛暨国赛选拔赛 “GZ032信息安全管理与评估”赛项规程 极安云科专注技能竞赛,包含网络建设与运维和信息安全管理与评估两大赛项,及各大CTF,基于两大赛项提供全面的系统性培训,拥有完整的培训体系。团队…

Python实现广义线性回归模型(statsmodels GLM算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 广义线性模型(Generalized Linear Model,简称GLM)是一种广泛应用于回归分析和分类问题的统…

中通快递查询,中通快递单号查询,筛选出指定派件员的单号

批量查询中通快递单号的物流信息,将指定派件员的单号筛选出来。 所需工具: 一个【快递批量查询高手】软件 中通快递单号若干 操作步骤: 步骤1:运行【快递批量查询高手】软件,并登录 步骤2:点击主界面左上…

工业交换机的内部结构和工作原理,你了解多少?

工业交换机由许多小组件构造而成,因此,为了更全面地了解和认识工业交换机,我们需要了解其内部结构和工作原理。 工业交换机的内部结构: 1、主板,也被称为背板,是计算机的核心部件之一。 为各业务接口和数…

【PyTorch】模型选择、欠拟合和过拟合

文章目录 1. 理论介绍2. 实例解析2.1. 实例描述2.2. 代码实现2.2.1. 完整代码2.2.2. 输出结果 1. 理论介绍 将模型在训练数据上拟合的比在潜在分布中更接近的现象称为过拟合, 用于对抗过拟合的技术称为正则化。训练误差和验证误差都很严重, 但它们之间差…

DELL EMC unity 存储系统日志收集方法

对于一些非简单的硬件故障,解决故障最有效、最快速的方法就是收集日志,而不是瞎搞。常见的乱搞方法就是 1. reimage系统‘ 2. 更换控制器;3, 重启。 本文详细介绍了图形界面GUI和命令行CLI下如何收集DELL EMC Unity日志的方法和常…

0007Java程序设计-ssm基于微信小程序的在线考试系统

文章目录 **摘要**目 录系统实现开发环境 编程技术交流、源码分享、模板分享、网课分享 企鹅🐧裙:776871563 摘要 网络技术的快速发展给各行各业带来了很大的突破,也给各行各业提供了一种新的管理技术,基于微信小程序的在线考试…

功能测试,接口测试,自动化测试,压力测试,性能测试,渗透测试,安全测试,具体是干嘛的?

软件测试是一个广义的概念,他包括了多领域的测试内容,比如,很多新手可能都听说:功能测试,接口测试,自动化测试,压力测试,性能测试,渗透测试,安全测试等&#…

Goby 漏洞发布| Apache OFBiz webtools/control/xmlrpc 远程代码执行漏洞(CVE-2023-49070)

漏洞名称: Apache OFBiz webtools/control/xmlrpc 远程代码执行漏洞(CVE-2023-49070) English Name:Apache OFBiz webtools/control/xmlrpc Remote Code Execution Vulnerability (CVE-2023-49070) CVSS core: 9.8 影响资产数&…

金蝶云星空使用webapi查询单据附件的主键

文章目录 金蝶云星空使用webapi查询单据附件的主键业务需求详细操作查询单据附件查看账套单据附件查询采购价目表的单据内码和单据体内码查询单据头附件明细webapi查询json返回结果 查询单据明细附件查看账套单据明细附件查询采购价目表的单据内码和单据体内码查询单据体附件明…

phpStudy本地快速搭建网站,实现无公网IP固定地址远程访问

文章目录 [toc]使用工具1. 本地搭建web网站1.1 下载phpstudy后解压并安装1.2 打开默认站点,测试1.3 下载静态演示站点1.4 打开站点根目录1.5 复制演示站点到站网根目录1.6 在浏览器中,查看演示效果。 2. 将本地web网站发布到公网2.1 安装cpolar内网穿透2…

leetcode刷题:611.有效三角形的个数(双指针实现)

题目地址:有效三角形的个数 解决此题时,首先需要知道的是如何判断三个数字是否能够构成三角形。 我们知道,三角形任意两边之和都大于第三边。所以判断三个数字是否能构成三角形需要进行三次比较(最基础的思路) 方法一…

OLED材料市场研究:预计2029年将达到1447亿元

由于技术优势突出,近年来OLED 率先在智能手机、可穿戴等中小尺寸领域的渗透率持续提升。OLED就是有机发光显示技术,其最大特点是每个像素独立自发光,具有非常完美的黑色显示能力,在亮度、色彩、响应速度等方面远胜LCD屏幕&#xf…

视频监控管理平台/智能监测/检测系统EasyCVR智能地铁监控方案,助力地铁高效运营

近日,关于全国44座城市开通地铁,却只有5座城市赚钱的新闻冲上热搜。地铁作为城市交通的重要枢纽,是人们出行必不可少的一种方式,但随着此篇新闻的爆出,大家也逐渐了解到城市运营的不易,那么,如何…

安装Kuboard管理K8S集群

目录 第一章.安装Kuboard管理K8S集群 1.安装kuboard 2.绑定K8S集群,完成信息设定 3.内网安装 第二章.kuboard-spray安装K8S 2.1.先拉镜像下来 2.2.之后打开后,先熟悉功能,注意版本 2.3.打开资源包管理,选择符合自己服务器…

C# WPF上位机开发(数据库sqlite编程)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面我们写过一个会员管理的软件,上面数据保存的方法是用的json保存的。如果数据量比较少,或者是数据类型也不多的时候&…

基于SpringBoot+Thymeleaf+Mybatis实现大学生创新创业管理系统(源码+数据库+项目运行指导文档)

一、项目简介 本项目是一套基于SpringBoot实现大学生创新创业管理系统,主要针对计算机相关专业的正在做bishe的学生和需要项目实战练习的Java学习者。 包含:项目源码、数据库脚本等,该项目可以直接作为bishe使用。 项目都经过严格调试&#…