超越GPT-4!谷歌发布最强多模态大模型—Gemini

news2024/11/25 3:05:56

12月7日凌晨,谷歌在官网发布了全新最强多模态大模型——Gemini。

据悉,Gemini有Ultra、Pro、Nano三个版本,可自动生成文本、代码、总结内容等,并能理解图片、音频和视频内容。在MMLU、DROP 、HellaSwag、GSM8K等主流评测中,Gemini Ultra的能力全面超越了OpenAI的GPT-4和GPT-4 V

值得一提的是Gemini Ultra在MMLU中的得分为90%,这也是第一个在MMLU上超越人类专家的大模型。

目前,谷歌已经公布了Gemini的论文,从12月13日起提供Gemini Pro的API。Ultra版本还在安全、功能优化中,很快会开放使用

用户可以在谷歌的类ChatGPT产品Bard中体验Gemini Pro版本模型,支持中文。

Bard地址:https://bard.google.com/chat

论文地址:https://goo.gle/GeminiPaper

Gemini Pro的API地址:https://cloud.google.com/vertex-ai

图片

Gemini简单介绍

Gemini一共有三个版本,Ultra是功能最强版,可用于超复杂的推理、理解,但AI算力消耗也非常大;

Pro的参数只有Ultra的一半,性能却很好适用于大规模应用部署;Nano是轻量级模型,适用于移动设备和个人、小规模部署。

Gemini模型的基础架构建立在Transformer编码器结构之上,采用了多层自注意力和前馈神经网络来建模序列依赖性。不同的是Gemini采用了多查询注意力机制,这也是处理复杂长文本的关键所以

传统的Transformer结构采用单查询注意力机制,即查询-键值对的拼接对于每个位置都是独一无二的。但是对于很长的序列,这将带来很大计算成本。

图片

Gemini采用了多查询注意力机制,其基本思路是对序列的每个位置,不再使用唯一的查询向量,而是使用一组查询向量

具体来说,模型首先将输入序列的每个位置编码成多组查询向量。然后,将这些查询向量并行地与键值对进行批量注意力运算,得到多个注意力结果。

此外,Gemini模型还使用了类似WordPiece的SentencePiece算法对输入序列进行字粒级别分词,可以支持多种语言同时节约算力资源。

在训练数据方面,Gemini使用来自网络文本、图书和代码的大量数据进行预训练。在数据采样前开发人员进行了严格的数据筛选,除去了暴力、虚假、歧视等有害内容。

Gemini的各种能力

理解文本、图片、音频

Gemini模型经过海量数据训练,可以很好识别和理解文本、图像、音频等内容,并可以回答复杂主题相关的问题。所以,非常擅长解释数学和物理等复杂学科的推理任务。

生成代码

Gemini可以生成和理解Python、Java、C++和Go等主流代码。Gemini Ultra在多个编码基准测试中表现出色,包括HumanEval,这是评估编码任务性能的重要行业标准。

谷歌还基于Gemini模型开发了专业的代码模型AlphaCode 2。与前一代相比,AlphaCode 2的性能提升了至少50%以上。

复杂推理

Gemini的多模态功能,使其能在视觉理解、文本生成等方面有非常强的功能。例如,从数十万字的小说中整理出重要观点;

从200页的金融报告中找出最有价值的内容。这对于金融、科技、医疗的科研和业务人员来说帮助巨大。

支持Bard

目前,谷歌的Bard已经集成了Gemini Pro模型,「AIGC开放社区」体验了一下,其图片理解和文本生成能力比之前强很多,尤其是代码生成和审查能力很出色。

图片

Gemini全面超越GPT-4

谷歌在MMLU、DROP 、HellaSwag、GSM8K等主流评测中,将Gemini与OpenAI的GPT-4和GPT-4 V进行深度评测。

图片

测试数据显示,Gemini Ultra的性能超过了大型语言模型研究和开发中广泛使用的32个学术基准中的30个,也是第一个在MMLU上超过人类专家的大模型。

图片

此外,Gemini Nano型模型在移动设备上展现卓越的自然语言处理能力。尤其是在针对性任务微调后,在阅读理解和摘要生成等任务上胜过其他同规模模型。

谷歌首席执行官Sundar Pichai表示,Gemini是我们迄今为止最强大和最通用的模型,在许多领先的基准测试中表现非常出色。

第一个版本的Gemini针对不同尺寸进行了优化,这适用于不同的人群和行业。Ultra、Pro和Nano是Gemini的第一批模型,也是我们成立Google DeepMind的愿景的第一次实现。非常兴奋,未来我们会持续发布更多强大的模型。

图片

本文素材来源谷歌官网、Gemini论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1292496.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM虚拟机(已整理,已废弃)

# JVM组成 ## 简述程序计数器 线程私有,内部保存class字节码的行号。用于记录正在执行的字节码指令的地址。 线程私有-每个线程都有自己的程序计数器PC,用于记录当前线程执行哪个行号 ## 简述堆 ## 简述虚拟机栈 ## 简述堆栈区别 ## 方法内局部变量是…

【前端架构】清洁前端架构

探索前端架构:概述与干净的前端架构相关的一些原则(SOLID、KISS、DRY、DDD等)。 在我之前的一篇帖子中,我谈到了Signals和仍然缺少的内容[1]。现在,我想谈谈一个更通用的主题,即Clean Frontend Architectu…

python+paddleocr 进行图像识别、找到文字在屏幕中的位置

目录 前言 1、安装paddleocr 2、安装PIL 3、安装numpy 4、 安装pyautogui 5、进行文本识别 6、识别结果 7、获取文字在图片/屏幕中的位置 8、pyautoguipaddleocr鼠标操作 9、完整代码 前言 最近在做自动化测试,因为是处理过的界面,所以使用pyw…

Vue3项目调用腾讯地图服务(地址解析 地址转坐标)及使用axios的跨域问题

一,需求 根据传入的文本地址 将其转换为坐标 显示地图点位在腾讯地图上 二,使用axios发送请求 import axios from axios; //引入axiosaxios({url:https://apis.map.qq.com/ws/geocoder/v1,method:get//参数 地址和key值}).then((data)>{console.log(data)});但是使用完报跨…

猫咪瘦弱的原因是什么?适合给消瘦猫咪长肉吃的猫罐头分享

很多小猫咪吃得很多,但是还是很瘦,这让很多猫主人感到困惑,猫咪瘦弱的原因是什么呢?铲屎那么多年,还是有点子养猫知识在身上的。那么,小猫咪瘦弱的原因是什么呢?让我们看看是不是这些原因导致的…

为什么有些程序员宁愿在国内 35 岁被辞退,也不愿意去国外工作?

我发现IT圈和电竞圈有一个共性:菜是原罪。 为什么有些程序员35岁就会被辞退?因为菜。 为什么有些程序员不愿意去国外工作?因为菜。 当然,我这里指的菜不是烂泥扶不上墙的那种菜,而是不够拔尖。那么这个问题也就分为了三…

【项目日记(一)】高并发内存池项目介绍

💓博主CSDN主页:杭电码农-NEO💓   ⏩专栏分类:项目日记-高并发内存池⏪   🚚代码仓库:NEO的学习日记🚚   🌹关注我🫵带你学习C   🔝🔝 项目日记 1. 前言2. 什么是高并发内存池…

基于ssm vue个人需求和地域特色的外卖推荐系统源码和论文

首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要包罗软件架构模式、整体功能模块、数据库设计。本项…

9种伪原创工具推荐,快速提升创作效率

如何让自己的文章在海量信息中脱颖而出,成为一个备受关注的焦点,成为许多创作者迫切思考的问题。在这篇文章中,我将向大家介绍9种伪原创工具,这些工具可以让你的文章轻松升级,更具创意和吸引力。 1.Spinbot&#xff08…

simulink中 Data store memory、write和read模块及案例介绍

目录 1.Data store memory模块 2.data store write模块 3.data store read模块 4.仿真分析 4.1简单使用三个模块 4.2 模块间的调用顺序剖析 1.Data store memory模块 向右拖拉得到Data store read模块,向左拉得到Data write模块 理解:可视为定义变量…

C++ 函数详解

目录 函数概述 函数的分类 函数的参数 函数的调用 函数的嵌套调用 函数的链式访问 函数声明和定义 函数递归 函数概述 函数——具有某种功能的代码块。 一个程序中我们经常会用到某种功能,如两数相加,如果每次都在需要用到时实现,那…

矩阵学习相关——(待完善)

线性代数基础知识之–矩阵(Matrix) 矩阵概念————(基础知识) 矩阵理论基础知识 矩阵理论基础知识 矩阵入门 写给有编程基础的人 初学讲义之高中数学二十七:矩阵和行列式 直观理解!你一定要读…

C++多态(详解)

一、多态的概念 1.1、多态的概念 多态:多种形态,具体点就是去完成某个行为,当不同的对象去完成时会产生出不同的状态。 举个例子:比如买票这个行为,当普通人买票时,是全价买票;学生买票时&am…

JavaScript实现手写签名,可触屏手写,支持移动端与PC端双端保存

目录 1.HTML模板 2.获取DOM元素和定义变量 3.创建两个canvas元素,并设置它们的宽度和高度 4.绑定触摸事件:touchstart, touchmove, touchend和click 5.实现触摸事件回调函数:startDrawing, draw和stopDrawing 6.实现绘制线段的函数&…

C# WPF上位机开发(带配置文件的倒计时软件)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面我们写了倒计时软件,但是不知道大家有没有发现,这个软件起始有一个缺点,那就是倒计时的起始时间都是硬编码…

stl库之map与例题

map是一种关联式容器&#xff0c;它允许将键&#xff08;key&#xff09;映射到值&#xff08;value&#xff09;&#xff0c;所以我们习惯称map为映射 每个元素都是一个键值对&#xff0c;其中键是唯一的 创建map map<key类型, value类型> 变量名; 创建一个键为int&…

11.7QT界面制作

#include "widget.h"Widget::Widget(QWidget *parent): QWidget(parent) {this->resize(881,550);this->setStyleSheet("backgroud-color:rgb(33,35,40)");this->setWindowFlag(Qt::FramelessWindowHint);//标签类QLabel *l1 new QLabel(this);/…

深入理解Flexbox:构建灵活的布局系统

由于篇幅限制&#xff0c;我将提供一个详细的文章大纲和部分内容。您可以根据这个大纲扩展文章内容&#xff0c;以满足3000字的要求。 深入理解Flexbox&#xff1a;构建灵活的布局系统 引言 在现代web设计中&#xff0c;创建灵活且响应式的布局是非常重要的。Flexbox&#xf…

通达OA inc/package/down.php接口存在未授权访问漏洞

声明 本文仅用于技术交流&#xff0c;请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;文章作者不为此承担任何责任。 一. 产品简介 通达OA&#xff08;Office Anywhere网络智能办公系统&am…

List的元素覆盖问题

问题场景 在备课底层JDBC链接链接数据库时&#xff0c;将读取的数据封装到对象中并添加到list集合中出现了问题。 错误逻辑 代码编写的考量为减少对象占用内存。想通过一个对象完成数据的传递和保存。 核心问题 List集合存储的是每一个对象的引用地址&#xff0c;如果引用的…