近日,人工智能又掀起一股热潮,Google最新推出的AI大模型Gemini备受瞩目。号称多模态任务处理能力首次超越人类的 AI 模型,不仅可以处理文本内容,还可以无缝丝滑地处理代码、音频、图像和视频等多种模态的信息。
随着Gemini pro版本的开放,为了让用户快速体验新模型的强大能力,我们已率先将新模型接入到集简云和语聚中:
- Gemini pro
- Gemini pro Vision:带视觉识别
您无需API Key、无需开发,即可快速将最新模型接入您的业务系统,为您的业务带来新的变化与突破。
功能亮点
➢ 原生多模态构建
区别于ChatGPT将语音模型Whisper与图像模型DallE单独训练,Gemini可以同时识别文本、图像、音频、视频和代码,拥有强大的交互能力。
➢ 最强编码能力
Gemini可以理解解释和生成世界上最流行的编程语言(如Python、Java、C++)的高质量代码,能够解决需要编程和复杂数学理论知识的问题。
➢ 最强推理能力
该模型能够理解和分析复杂的书面和视觉信息,这意味着它可以深入理解细微的信息并应对复杂的询问,它在解读数学和物理等高难度学科的逻辑推理方面表现尤为出色。
➢ 基准测试超过先进水平
在性能比拼上,在 32 项基准测试中,Gemini 有 30 项领先于 GPT-4,其中包括多任务语言理解基准测试等广泛的整体测试,也有生成 Python 代码能力的测试。
「集简云官网」软件集成可以如此简单www.jijyun.cn/?utm_source=zhihu编辑
Gemini Pro
Gemini是谷歌目前规模最大、能力最强的大模型,而Gemini Pro是 Gemini 模型的通用版本,是最均衡、适用于最多场景的模型,具有 160B 参数。它基于文本的功能比其 6 月份发布的上一代人工智能模型 PaLM 2 的输入成本低 4 倍,输出成本低 2 倍。
它能够在各种任务上扩展,如文本生成、翻译、编程等,支持32K的上下文窗口,并且支持全球180多个国家和地区的 38 种语言。有着强大的推理性能。
例如:从数十万份文件中提取见解,科学研究人员以往只能手动来处理,现在Gemini能够自动区分和过滤与研究领域相关的文献信息,并提取关键数据。
Gemini Pro Vision:带视觉识别
对比GPT-4 Turbo with Version,Gemini pro vision同样突破文本限制,具有图片识别能力,可以直接在聊天框中分析图像照片,提供详细分析以及识别功能。
效果示例
- 电商商品描述文案
- 回答编程问题
「集简云官网」软件集成可以如此简单www.jijyun.cn/?utm_source=zhihu编辑
如何在集简云/语聚中使用
如何在集简云流程中使用
1 Gemini pro和Gemini pro Vision模型可直接在Google PaLM(付费版)-创建对话动作中使用。
2 Google PaLM(付费版)版需要在集简云插件中心开通对应应用后,方可使用。
开通路径:集简云平台 - 插件中心 - 对应应用 - 开通 ,即可开通对应资源包。
如何在语聚AI中使用
您可以在语聚AI话助手中开通该模型,开通后点击配置,在模型选择中您可任意使用Gemini pro和Gemini pro Vision模型。