Google引领LLM竞赛:Gemini 1.5 Pro的创新与突破

news2024/12/23 6:46:27

image.png

在科技领域,语言模型(LLM, Large Language Model)的发展总是备受瞩目。多年来,Google在这场竞赛中一直处于追赶的状态,但这一次,他们终于站在了领先的位置。Google近日发布了Gemini 1.5 Pro实验版本,这一模型目前在Chatbot Arena排行榜上位居榜首,得分高达1300分,让人印象深刻。

image.png

Gemini 1.5 Pro的多语言和视觉能力

Gemini 1.5 Pro不只是排名第一的语言模型,它在多语言处理能力上也表现卓越,尤其是在中文和德语上的表现尤为突出。然而,在技术领域上,它仍有一些短板,例如在编码任务中,它仅排名第四,并且在难度较高的英语提示上也表现一般。

尽管如此,Google在这一周的表现还是非常令人赞叹的。就在昨天,他们发布了Gemini 2的2亿参数模型,而今天又有了这款新的Gemini 1.5 Pro。如果你想要体验这款模型,可以前往Google AI Studio。在那里,你可以选择Gemini 1.5 Pro实验版本进行互动,这个版本的上下文窗口达到了令人惊叹的200万tokens,并且通过API免费提供。

Gemini 1.5 Pro的性能评测

我们来看看Gemini 1.5 Pro在实际应用中的表现。首先,我测试了一个无线提示:哪个数字更大,9.11还是9.9?模型正确地回答了9.9更大。即使是Gemini 2 2B模型也能给出这个答案。这可能与训练数据有关,但无论如何,它的表现还是很出色的。

另一个测试是让模型计算单词"strawberry"中字母R出现的次数。Gemini 1.5 Pro正确地回答了三次,并能准确指出字母R的位置。这比GPT-4 O在相同提示下的表现要好得多,后者错误地回答了两次。

在另一个测试中,我问了模型单词"psychology"中字母Y出现的次数,它也能正确回答。这些测试显示了Gemini 1.5 Pro在字符处理上的优势,这可能与其使用的tokenizer有关。

安全设置和JSON输出模式

值得注意的是,Gemini 1.5 Pro还具备安全设置功能,你可以通过UI或API来调整这些设置。与之前的版本一样,这个版本也支持JSON模式输出和代码执行功能,这基本上是一个API背后的代码解释器。

使用API进行代码执行

如果你想使用API进行测试,只需点击"Get Code"按钮,这将为你生成一个Python脚本,你可以将其集成到自己的应用程序中。以下是一些步骤,展示了如何使用这个新的Gemini 1.5 Pro实验版本进行代码执行。

首先,我们需要安装Google的生成式AI包,然后导入生成式AI类,并设置API密钥。接着,我们创建一个模型对象,指定使用Gemini 1.5 Pro实验版本。默认情况下,它不会启用代码解释器,但你可以通过提供code_execution工具来启用这一功能。

通过这些设置,你可以运行各种提示,让模型不仅生成代码,还能执行这些代码并返回结果。例如,我让模型计算前200个质数的和,它能正确地列出所有质数并进行求和。同样,它在字符串处理和数据分析等任务中也表现出色。

多模态能力:图像与文本的结合

Gemini 1.5 Pro还具备多模态能力,能够理解图像。例如,我给模型提供了一张图像和一个系统提示,让它模拟Monty Hall问题。模型不仅能生成相应的Python代码,还能进行模拟并返回结果。

总结

总的来说,Gemini 1.5 Pro在多语言处理、字符处理和代码执行等方面表现出色,尤其是其多模态能力更是让人印象深刻。虽然在某些技术领域上还存在一些不足,但它无疑是目前最先进的语言模型之一。如果你对科技感兴趣,强烈推荐你亲自体验一下Gemini 1.5 Pro的强大功能。

希望这篇文章能帮助你更好地了解Gemini 1.5 Pro的创新与突破。感谢阅读,我们下次再见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1973852.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenAI API continuing conversation in a dialogue

题意:在对话中继续使用OpenAI API进行对话 问题背景: I am playing around with the openAI API and I am trying to continue a conversation. For example: 我正在尝试使用OpenAI API,并试图继续一段对话。例如: import open…

<数据集>航拍车辆识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:6787张 标注数量(xml文件个数):6787 标注数量(txt文件个数):6787 标注类别数:3 标注类别名称:[Car, Truck, Bus] 序号类别名称图片数框数1Car6494791332Truck250576…

【从零开始一步步学习VSOA开发】快速体验SylixOS

快速体验SylixOS 安装完毕RealEvo-IDE 后,同时也安装了RealEvo-Simulator。RealEvo-Simulator 是一个虚拟运行环境,可以模拟各种体系结构并在其上运行 SylixOS。相比于物理板卡,在 RealEvo-Simulator 进行运行调测更加的方便快捷且成本低廉。…

2024年中国数据中台行业研究报告

数据中台丨研究报告 核心摘要: 数据中台是企业数字化建设的重要构成,其通过整合企业基础设施和数据能力,实现数据资产化和服务复用,降低运营成本,支撑业务创新。受宏观经济影响,部分企业减少了对数据中台等…

java中InputStream, OutputStream 的用法

java针对文件的操作有两种1.文件系统操作 File类指定的路径可以使一个不存在的路径。2,文件内容操作,流对象。 流也分为两种1)字节流(二进制文件):以字节为基本单位读写的使用InputStream()和Ou…

什么是kafka的重平衡机制?

背景 kafka重平衡的主要发生在消费者端,重平衡的目的,主要是为了均衡消费者消费kafka的消息而设计的,对于动态加入消费者,减少消费者,以及消息分区变化这些场景中,若不设计消费者重平衡,容易出…

第十五章 数据管理成熟度评估

定义: 能力成熟度评估: 是是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。 数据管理成熟度评估:(Data Management Maturity Assessment, DMMA)可用于全面评估…

MySQL——数据表的基本操作(一)创建数据表

数据库创建成功后,就需要创建数据表。所谓创建数据表指的是在已存在的数据库中建立新表。需要注意的是,在操作数据表之前,应该使用 “ USE 数据库名 ” 指定操作是在哪个数据库中进行,否则会抛出 “ No database selected ” 错误。创建数据表…

大路灯护眼灯有必要买吗?五款护眼大路灯推荐

大路灯护眼灯有必要买吗?许多消费者对护眼大路灯的了解不够,总是被不专业产品“耍”得团团转。就比如市面上很多声称用了眼睛就不近视的产品,实际上它们毫无专业技术沉淀,还疏于调校光线稳定性、光线均匀度等上百项核心参数&#…

【海贼王航海日志:前端技术探索】HTML你学会了吗?(二)

目录 1 -> HTML常见标签 1.1 -> 表格标签 1.1.1 -> 基本使用 1.1.2 -> 合并单元格 1.2 -> 列表标签 1.3 -> 表单标签 1.3.1 -> form标签 1.3.2 -> input标签 1.4 -> label标签 1.5 -> select标签 1.6 -> textarea标签 1.7 -> …

C++类和对象——中

1. 类的默认成员函数 默认成员函数就是⽤⼾没有显式实现,编译器会⾃动⽣成的成员函数称为默认成员函数。⼀个类,我们不写的情况下编译器会默认⽣成以下6个默认成员函数,需要注意的是这6个中最重要的是前4个,最后两个取地址重载不…

数字孪生赋能智慧城市大脑智建设方案(可编辑65页PPT)

引言:随着科技的飞速发展,智慧城市的建设已成为全球城市发展的新趋势。数字孪生技术作为其中的关键技术之一,正逐步赋能智慧城市大脑的建设,推动城市治理从数字化向智能化、智慧化转型升级。本方案旨在简要介绍数字孪生赋能智慧城…

“七人拼团:共赢与互助的奖励之旅“

在七人拼团策略中,其精心构建的奖励体系无疑是吸引并激励参与者踊跃参与的核心驱动力。接下来,我们将深入剖析该策略中三种核心奖励类型——直推奖、滑落奖与团队奖,并探讨它们如何促进成员间的互助合作机制。 奖励体系深度剖析 直推奖&…

python爬虫实践

两个python程序的小实验(附带源码) 题目1 爬取http://www.gaosan.com/gaokao/196075.html 中国大学排名,并输出。提示:使用requests库获取页面的基本操作获取该页面,运用BeautifulSoup解析该页面绑定对象soup&#x…

股票多因子模型实战之因子行业中性化(附python代码)

原创文章第607篇,专注“AI量化投资、世界运行的规律、个人成长与财富自由"。 今天开始,咱们从ETF、可转债正式转到大家最熟悉、最常见的股票市场。 而且切入的方向,仍然是——“多因子模型”。 01 什么是因子? 因子是什么…

qml教程:qml视频播放组件介绍

更多qml教程,请参考QML入门进阶教程专栏:https://mingshiqiang.blog.csdn.net/category_9951228_2.html 文章目录 MediaPlayerVideoOutput视频播放代码示例增加视频效果图片二值化处理视频帧本篇博客介绍qml如何播放视频,以及视频特效处理。 本篇博客提供的代码全部通过Qt6.…

64位Office API声明语句第121讲(终了)

跟我学VBA,我这里专注VBA, 授人以渔。我98年开始,从源码接触VBA已经20余年了,随着年龄的增长,越来越觉得有必要把这项技能传递给需要这项技术的职场人员。希望职场和数据打交道的朋友,都来学习VBA,利用VBA,起码可以提高…

【Mind+】掌控板入门教程02 趣味相框

光影重叠,时间和回忆定格在在一张张相片里。人们通常会用相框把相片装裱起来,展示在家中或者工作的地方,来回味往日的美好时光。但是一个相框只能放一张照片,怎么才能让它展示不同的照片呢?正好此时我们的手边有一块掌…

Python 爬虫项目实战(一):破解网易云 VIP 免费下载付费歌曲

前言 网络爬虫(Web Crawler),也称为网页蜘蛛(Web Spider)或网页机器人(Web Bot),是一种按照既定规则自动浏览网络并提取信息的程序。爬虫的主要用途包括数据采集、网络索引、内容抓…

World of Warcraft [RETAIL] UI Setting

/*测试魔兽世界正式服,界面UI编辑器,UI布局文本 World of Warcraft [RETAIL] UI Setting开头的:1 39 某种类型 : 序号(默认-1,有多个从0开始计数0,1,2,3 未知类型 未知类型 未知类型 控件类型&#xff1…