在科技领域,语言模型(LLM, Large Language Model)的发展总是备受瞩目。多年来,Google在这场竞赛中一直处于追赶的状态,但这一次,他们终于站在了领先的位置。Google近日发布了Gemini 1.5 Pro实验版本,这一模型目前在Chatbot Arena排行榜上位居榜首,得分高达1300分,让人印象深刻。
Gemini 1.5 Pro的多语言和视觉能力
Gemini 1.5 Pro不只是排名第一的语言模型,它在多语言处理能力上也表现卓越,尤其是在中文和德语上的表现尤为突出。然而,在技术领域上,它仍有一些短板,例如在编码任务中,它仅排名第四,并且在难度较高的英语提示上也表现一般。
尽管如此,Google在这一周的表现还是非常令人赞叹的。就在昨天,他们发布了Gemini 2的2亿参数模型,而今天又有了这款新的Gemini 1.5 Pro。如果你想要体验这款模型,可以前往Google AI Studio。在那里,你可以选择Gemini 1.5 Pro实验版本进行互动,这个版本的上下文窗口达到了令人惊叹的200万tokens,并且通过API免费提供。
Gemini 1.5 Pro的性能评测
我们来看看Gemini 1.5 Pro在实际应用中的表现。首先,我测试了一个无线提示:哪个数字更大,9.11还是9.9?模型正确地回答了9.9更大。即使是Gemini 2 2B模型也能给出这个答案。这可能与训练数据有关,但无论如何,它的表现还是很出色的。
另一个测试是让模型计算单词"strawberry"中字母R出现的次数。Gemini 1.5 Pro正确地回答了三次,并能准确指出字母R的位置。这比GPT-4 O在相同提示下的表现要好得多,后者错误地回答了两次。
在另一个测试中,我问了模型单词"psychology"中字母Y出现的次数,它也能正确回答。这些测试显示了Gemini 1.5 Pro在字符处理上的优势,这可能与其使用的tokenizer有关。
安全设置和JSON输出模式
值得注意的是,Gemini 1.5 Pro还具备安全设置功能,你可以通过UI或API来调整这些设置。与之前的版本一样,这个版本也支持JSON模式输出和代码执行功能,这基本上是一个API背后的代码解释器。
使用API进行代码执行
如果你想使用API进行测试,只需点击"Get Code"按钮,这将为你生成一个Python脚本,你可以将其集成到自己的应用程序中。以下是一些步骤,展示了如何使用这个新的Gemini 1.5 Pro实验版本进行代码执行。
首先,我们需要安装Google的生成式AI包,然后导入生成式AI类,并设置API密钥。接着,我们创建一个模型对象,指定使用Gemini 1.5 Pro实验版本。默认情况下,它不会启用代码解释器,但你可以通过提供code_execution
工具来启用这一功能。
通过这些设置,你可以运行各种提示,让模型不仅生成代码,还能执行这些代码并返回结果。例如,我让模型计算前200个质数的和,它能正确地列出所有质数并进行求和。同样,它在字符串处理和数据分析等任务中也表现出色。
多模态能力:图像与文本的结合
Gemini 1.5 Pro还具备多模态能力,能够理解图像。例如,我给模型提供了一张图像和一个系统提示,让它模拟Monty Hall问题。模型不仅能生成相应的Python代码,还能进行模拟并返回结果。
总结
总的来说,Gemini 1.5 Pro在多语言处理、字符处理和代码执行等方面表现出色,尤其是其多模态能力更是让人印象深刻。虽然在某些技术领域上还存在一些不足,但它无疑是目前最先进的语言模型之一。如果你对科技感兴趣,强烈推荐你亲自体验一下Gemini 1.5 Pro的强大功能。
希望这篇文章能帮助你更好地了解Gemini 1.5 Pro的创新与突破。感谢阅读,我们下次再见!