谷歌新一代Gemini 1.5多模态模型, 最长可达100万token上下文窗口

news2025/1/7 20:39:16

Google在人工智能领域已经发布了自己的Gemini大模型,其Gemini模型是一个多模态模型,不仅可以支持文字输入,还支持图片输入。而在Gemini ultra发布不久,Gemini 1.5大模型也相继发布。Gemini 1.5在多个维度上都有了显著的改进,并且Gemini 1.5 Pro 实现了与Gemini 1.0 Ultra 相当的质量,但是Gemini 1.5大大降低了运算。

Gemini 1.5在长上下文理解方面也取得了突破。其模型可以持续运行多达 100 万个tokens上下文窗口,实现了迄今为止任何大型基础模型中最长的上下文窗口。其模型支持一个小时的视频,11个小时的音频文件,30k 行代码,700k多的文字的一次性输入。完全可以把一部小说给Gemini 1.5大模型了。若能再配上Sora文生视频大模型,岂不是直接可以输出一部电影或者电视剧了。

动图封面

Gemini 1.5 建立在Transformer模型和MoE架构之上。传统 Transformer模型充当Gemini大型神经网络的框架,而 MoE 模型则分为更小的“专家”神经网络。根据给定输入的类型,MoE 专家模型学会选择性地仅激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的运算效率。通过Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4等研究,Google 一直是深度学习的先驱领袖。很多神经网络的大模型论文都是Google发布的,但是Google的使用场景方面,目前来看还是OpenAI领先一筹。

直接给模型一个阿波罗登陆月球的脚印,就可以愉快的跟Gemini 1.5聊天了。模型不仅支持输入图片,还支持输入视频。

完全可以给模型一个长达1小时的视频,这样就可以跟模型讨论里面的剧情与细节了,岂不是一个完美的电影搭档。

模型还支持30k行的代码与700k 的文字,一个完整项目的代码完全可以交给模型去找bug了。

给模型直接输入一篇长篇小说,就可以跟模型愉快的聊天,愉快的讨论小说内容了。

开发人员可以在Google AI Studio或者Vertex AI中构建基于Gemini 1.5的应用。如何使用Gemini模型,可以参考Gemini的文章。

Gemini 是Google发布的一个多模态模型 ,它是从头开始构建的多模态大模型。这意味着Gemini可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。Gemini 也是Google迄今为止最灵活的大模型 - 能够从数据处理中心到移动设备的所有设备上高效运行。针对三种不同的尺寸优化了 Gemini 1.0版本

Gemini Ultra——最大、最有能力的模型,适用于高度复杂的任务。

Gemini Pro——可扩展各种任务的最佳模型。

Gemini Nano——最高效的移动设备端任务模型。

随着OpenAI Sora大模型的发布,所有公司打出来all in AI的口号,而最近也是看到苹果等高科技公司也宣布退出汽车研发,转型到生成式AI大模型,可见大模型之争必然成为一个趋势。

更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技
微信中复制如下链接,打开,免费使用chatgpt
 
https://wx2.expostar.cn/qz/pages/manor/index?id=1137&share_from_id=79482&sid=24

动画详解transformer   点击链接学习更多transformer

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1488971.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Shell管道和过滤器

一、Shell管道 Shell 还有一种功能,就是可以将两个或者多个命令(程序或者进程)连接到一起,把一个命令的输出作为下一个命令的输入,以这种方式连接的两个或者多个命令就形成了管道(pipe)。 重定…

模拟算法题练习(一)(扫雷,灌溉,回文日期)

目录 模拟算法介绍: (一、扫雷) (二、灌溉) (三、回文日期) 有一说一这题大佬的题解是真的强 模拟算法介绍: 模拟算法通过模拟实际情况来解决问题,一般容易理解但是实…

探索Linux世界:初次接触和基本指令(文件操作)

文章目录 1.基本介绍和准备2.基本指令和Linux的基本操作3.几个重要基本指令3.1 ls - 列出文件和目录3.1.1文件的知识3.1.2 .和..文件 3.2pwd - 显示当前工作目录3.2.1路径知识 3.3 cd - 切换目录3.4 touch - 创建文件或更新时间戳3.5mkdir - 创建新目录3.6rm - 删除文件或目录3…

22.基于springboot + vue实现的前后端分离-汽车票网上预定系统(项目 + 论文PPT)

项目介绍 系统是一个B/S模式系统,采用Spring Boot框架,MySQL 数据库设计开发,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得汽车票网上预订系统管理工作系统化、规范化。本系统的使用使管理人…

解决prettier 报错 Delete `␍`

根目录(么有的话)新建 .prettierrc.js配置文件 module.exports {tabWidth: 2,semi: true,printWith: 80,singleQuote: true,quoteProps: consistent,htmlWhitespaceSensitivity: strict,vueIndentScriptAndStyle: true,// 主要是最后一行endOfLine:aut…

【Quarto】Markdown导出PPT

title: “Quarto Basics” mainfont: “LXGW WenKai Mono” format: revealjs: theme: default incremental: true pptx: incremental: true html: code-fold: true beamer: incremental: true aspectratio: 169 QUARTO 这段代码是一个 YAML 头部(front matter&…

解决NENU研究生教务系统网站“不能创建对象”等兼容性问题

本问题由吴越洋同学首先解决,在阅读了吴越洋同学的博客和他编写的Tempermonkey插件脚本代码后,完成了本项目。 吴越洋同学的博客地址为修复NENU教务系统“不能创建对象”等兼容性问题 - YorkWus Blog 吴越洋同学的插件地址为东北师范大学本科生、研究生教…

Windows10笔记本亮度调节按键失灵

操作:任务管理器 -> 监视器 -> 右键点击 -> 通用即插即用监视器 -> 更新驱动程序 -> 浏览我的电脑以查找我的驱动程序 -> 让我从计算机上的可用驱动程序列表中选取 -> 点击通用即插即用监视器 -> 点击关闭 -> 重启电脑。 第一步&#x…

计算复数x的余弦值计算复数x的反余弦值cmath.cos(x)cmath.acos(x)

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 计算复数x的余弦值 计算复数x的反余弦值 cmath.cos(x) cmath.acos(x) [太阳]选择题 请问cmath.cos(x)的作用是: import cmath print("【执行】cmath.cos(0)") print(cm…

2.3_5 用信号量实现互斥、同步、前驱关系

文章目录 2.3_5 用信号量实现互斥、同步、前驱关系(一)信号量机制实现进程互斥(二)信号量机制实现进程同步(三)信号量机制实现前驱关系 总结 2.3_5 用信号量实现互斥、同步、前驱关系 我们之前学习了进程互…

MySQL学习Day25——数据库其他调优策略

一、数据库调优的措施: 1.调优的目标: (1)尽可能节省系统资源,以便系统可以提供更大负荷的服务 (2)合理的结构设计和参数调整,以提高用户操作的响应速度 (3)减少系统的瓶颈,提高MySQL数据库整体的性能; 2.如何定位调优:用户的反馈、日志…

基于Springboot的无人智慧超市管理系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的无人智慧超市管理系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系…

微软多兴趣召回:Octopus

Octopus: Comprehensive and Elastic User Representation for the Generation of Recommendation Candidates 背景: 多兴趣通道(channel)结构的多兴趣召回模型在兴趣通道数量上面存在两个问题 兴趣通道较少,不能充分学习到用户的多个兴趣。兴趣通道较…

力扣hot9---滑动窗口

题目: 先记录一下(没想到有生之年,还能):其实还能优化,后面会讲述优化思路 思路: 滑动窗口的大小就是固定的,就是len_p。那么依次将窗口从s的最左端向右滑动。在当下的窗口中&#x…

鸿蒙开发就业前景以及发展方向分析~

鸿蒙操作系统作为华为公司自主研发的操作系统,已经成为当下炙手可热的话题。作为一个全新的操作系统,鸿蒙开发为IT行业带来了巨大的就业机会。本文将围绕鸿蒙开发的就业前景以及发展方向展开讨论。 一、鸿蒙开发就业前景 随着鸿蒙操作系统的发布&#…

Windows快速删除大量文件

直接上命令 rmdir 磁盘:\文件夹名字\ /s /q /S 表示除目录本身外,还将删除指定目录下的所有子目录和文件。 /Q 表示安静模式,删除时不需要经过确认。 特别是vue项目中的node_modules,删除贼快!

【代码随想录算法训练营Day34】860.柠檬水找零;406.根据身高重建队列;452.用最少数量的箭引爆气球

❇️Day 34 第八章 贪心算法 part04 ✴️今日任务 860.柠檬水找零406.根据身高重建队列452.用最少数量的箭引爆气球 ❇️860.柠檬水找零 本题看上好像挺难,其实挺简单的,大家先尝试自己做一做。题目链接:https://leetcode.cn/problems/lem…

10W 音频功率放大电路芯片TDA2003,可用于汽车收音机及收录机中作音频功率放大器,内部具有短路保护和过热保护等功能

TDA2003 用于汽车收音机及收录机中作音频功率放大器。 采用 TO220B5 封装形式。 主要特点: ⚫ 内部具有短路保护和过热保护。内部具有地线开路、电源极性接 反和负载泄放电压反冲等保护电路。 ⚫ 输出电流大。 ⚫ 负载电阻可低至 1.6 。 …

【短时交通流量预测】基于单层BP神经网络

课题名称:基于单层BP神经网络的短时交通流量预测 版本时间:2023-04-27 代码获取方式:QQ:491052175 或者 私聊博主获取 模型简介: 城市交通路网中交通路段上某时刻的交通流量与本路段前几个时段的交通流量有关&…

Redis核心数据结构之SDS(一)

数据结构与对象 简单动态字符串 概述 Redis没有直接使用C语言传统的字符串表示(以空字符结尾的字符数组,简称C字符串),而是自己构建了一种名为简单动态字符串(Simple Dynamic String, SDS)的后向类型,并将SDS用作Redis的默认字符串表示。在…