谷歌Gemini刚发就惹质疑:测试标准有失偏颇,效果视频疑似剪辑

news2024/11/18 1:33:55
梦晨 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌憋了许久的大招,双子座Gemini大模型终于发布!其中一图一视频最引人注目:

一图,MMLU多任务语言理解数据集测试,Gemini Ultra不光超越GPT-4,甚至超越了人类专家

图片

一视频,AI实时对人类的涂鸦和手势动作给出评论和吐槽,流畅还很幽默,最接近贾维斯的一集。04:03

然鹅当大家从惊喜中冷静下来,仔细阅读随之发布的60页技术报告时,却发现不妥之处

(没错,没有论文,OpenAICloseAI你开了个什么坏头啊)

MMLU测试中,Gemini结果下面灰色小字标称CoT@32,展开来代表使用了思维链提示技巧、尝试了32次选最好结果

而作为对比的GPT-4,却是无提示词技巧给5个示例,这个标准下Gemini Ultra其实并不如GPT-4。

图片

以及原图比例尺也有点不厚道了,90.0%与人类基准89.8%明明只差一点,y轴上却拉开很远。

HuggingFace技术主管Philipp Schmid用技术报告中披露的数据修复了这张图,这样展示更公平恰当:

图片

每到这种时候,总少不了做表情包的老哥飞速赶到战场:

图片

但好在,同样使用思维链提示技巧+32次尝试的标准时,Gemini Ultra还是确实超越了GPT-4的。

图片

Jeff Dean在一处讨论中对这个质疑有所回应,不过大家并不买账。

图片

另外,对于那段精彩视频,也有人从开篇的文字免责声明中发现了问题。

机器学习讲师Santiago Valdarrama认为声明可能暗示了展示的是精心挑选的好结果,而且不是实时录制而是剪辑的

图片

后来谷歌在一篇博客文章中解释了多模态交互过程,几乎承认了使用静态图片和多段提示词拼凑,才能达成这样的效果。

图片

但不管怎么样,谷歌Gemini的发布还是给了其他团队很大信心,GPT-4从此不再是独一无二、难以企及的存在了。

正如AI搜索产品PerplexityAI创始人Aravind Srinivas总结:

1、Gemini证明了OpenAI之外的团队可以搞出超越GPT-4的模型

2、训练到位的密集模型可以超越GPT-4的稀疏模型架构

推论:从大教师模型蒸馏小尺寸密集模型会成为未来趋势,实现效率和能力的最佳结合。

图片

更多网友关心的话题是,这下子还有必要继续为ChatGPT Plus付费每月20美元吗??

目前,Gemini Pro版本已更新到谷歌聊天机器人Bard中,水平到底有没有宣传的好,可以看看实际情况。

Gemini真的超越ChatGPT?

首先明确一点,目前大家能上手玩到的是Gemini Pro版本,也就是中杯,对标GPT-3.5。

对标GPT-4的大杯Gemini Ultra,要明年才出。

另外目前Gemini仅支持英文,中文和其他语言也是后面才会出。

虽然暂时玩不到Gemini Ultra,威斯康星大学麦迪逊分校的副教授Dimitris Papailiopoulos找了个好办法:

把Gemini发布时展示的原题发给GPT-4对比,结果14道题中,GPT-4约获得12分

图片

其中有两题由于截图没法再清晰了,给GPT-4算0.5分。

图片

还有一道数学题GPT-4做错,其他题基本平手。

图片

接下来,要说最能体现一个大模型综合能力的,肯定少不了写代码。

根据大家的测试结果来看,Gemini编程水平还是有保证的

有开发者测试用Pytorch实现一个简单的CNN网络,Gemini只用了2秒而且代码质量更高。

当然速度快可能是由于Bard搭载的Gemini Pro尺寸更小,GPT-4现在有多慢懂得都懂了。

图片

但是下一项编写SQL语句方面,这位开发者就认为Gemini表现就不太行了。

图片

不过对于广大开发者来说还有一个利好消息,在遵循指令方面,Gemini对比Bard升级之前可谓是史诗级进步。

提示工程师先驱Riley Goodside,此前想要Bard输出纯JSON格式前后不带任何废话,百般尝试也不成功,最后需要假装威胁AI不这么做就鲨个无辜的人才行。

图片

现在更新以后,只需要把要求说出来,无需任何提示词技巧就能完成了。

图片

Gemini还有一大卖点是多模态能力,针对开头画小鸭子的视频,我们从中抽取了8个关键帧,分别进行提问,看看Gemini的表现有没有那么神奇。

(不确定视频中是Ultra还是Pro版本,现在只能测试Pro版本)

图片

对于图1-4,我们问的问题都是“What is this person doing?”,Gemini给出的回答分别是:

  • 可能在用马克笔写字,但不知道具体是什么

  • 在用铅笔画蛇,而且是一条眼镜蛇

  • 在用铅笔画乌龟,而且正处于画画的初期阶段

  • 在用黑色马克笔画鸟,脸朝左,头朝右,站在树枝上,翅膀没有展开

对于图1和图2,的确判断线索还不是很明显,出现这样的结果情有可原,不过图3这个“乌龟”的答案就有些绷不住了。

至于图4,至少可以肯定的是鸭子的确属于鸟类,但是其它细节分析得还是欠缺了一些准确性。

而当我们拿出图5的成型作品时,Gemini终于分析出了这是一只鸭子,水波纹也分析对了。

但分析出的绘画工具变成了铅笔,头的朝向问题也依然没说对,喙被说成了张开的,还臆想出了一些芦苇。

图片

接下来是图6和图7的上色过程,一般情况下鸭子不会是蓝色,所以我们问了Gemini图片中有什么异常(Is there anything abnormal?)。

针对图6,Gemini给出的回答不能说十分精准,只能说是驴唇不对马嘴,还配上了一张风马牛不相及的图片。

图片

针对图7的成品,Gemini直接说没毛病,该有的东西都有,背景也很真实,甚至没忘继续提根本不知道哪里来的芦苇。

但下面的一句“Here is the image you sent”就属实令人费解了:

说Gemini没看我们上传的图吧,读出来的又的确是鸭子;说它看了吧,又给出了完全不同的一张的图说是我们传上去的。

图片

所以我们想到了用“深呼吸”和“一步一步解决”提示词技巧看看能不能提高一下Gemini的表现,其中深呼吸正是适用于谷歌上一代大模型PaLM的提示词。

结果这次的答案直接让人笑出了声:

不正常的是,鸭子被画到了纸上,鸭子是一种活的生物,在纸上是无法存在的……

图片

视频的结尾,博主还拿出了橡胶鸭子玩具,我们也拿这一帧(图8)让Gemini分析一下鸭子的材质。

结果橡胶倒是分析对了,但是蓝色的鸭子被说成了黄色,难怪上一张图会说没有异常……

图片

逐帧询问完成后,我们又把8张图放在一起询问,结果也是只有鸭子说对了。

图片

“打假”完这段视频后,我们又用之前拿来考察GPT-4V的“吉娃娃和松饼”图给Gemini试了试。

结果Gemin直接摆烂,告诉我们所有的图都是“吉娃娃坐在松饼上”,甚至连图的数量都没数对……

图片

于是我们换了种问法,让它告诉我们哪些是吉娃娃,哪些是松饼。

这次Gemini倒是诚实的很,直接告诉我们吉娃娃和松饼实在太像了自己区分不出来。

图片

和蓝色鸭子的问题一样,“深呼吸”在这里依然是没起到什么作用,Gemini还是连数量都搞不清楚。

而勉强解说了的8个(实际上是6个,因为有两个是重复的)图,只有左下和右下两张图是对的,至于middle指的到底是哪一行,我们不得而知……

图片

或许是这样细小的差别实在是难为Gemini了,我们接下来换一些图形推理题试试。

第一题的前四个符号是由1-4这四个数字与镜像后的结果拼接而成,所以下一个图应该是5与其镜像拼接,答案是C。(蓝色块是为了方便观察,传给Gemini的图中没有)

图片

这里一开始还出现了一段小插曲:最开始的提示词中是没有最后一句话(注意字母不是符号本身)的,结果Gemini真的就把ABCD这四个字母当成了备选的符号。

图片

调整之后,Gemini前面给出的分析基本正确,可惜到最后选择了错误选项D。

图片

第二题,每个框中的第三个符号是前两个的交集,答案为A。

图片

结果Gemini研究起了这些表情,一番分析猛如虎,最后给出的答案还是错的。

图片

两道题下来,一道对了百分之七八十,另一道完全错误,看来Gemini Pro的图形推理能力还有很大提升空间

不过如果把目光放到生活场景当中,Gemini的表现还是值得肯定的

我们用ChatGPT(DALL·E)生成了一张包含鸡肉、胡萝卜和黄瓜的图片,Gemini正确地识别出了这三种食材,然后给出了很多种可以烹饪的菜肴,而且每个都配有图片和教程链接。

图片

这么多测试结果看下来,回到最初的问题,有了Gemini还有必要为GPT-4付费吗?

沃顿商学院副教授Ethan Mollick给出一个不错的建议:

没有什么理由再使用ChatGPT的免费版本了,现在已经被Bard和Claude超越,而且它们都是免费的。

但你或许应该继续使用GPT-4,它仍然占主导地位,并且在必应(只有创意模式是GPT -4)中是免费的。

图片

明年将结合AlphaGo能力升级

除了Gemini实际效果,60页技术报告中披露的更多细节也是研究人员和开发者关注所在,

关于参数规模,只公布了最小的Nano版本,分为1.8B的Nano-1和3.25B的Nano-2两个型号,4-bit量化,是蒸馏出来的,可以运行在本地设备如Pixel手机上。

Pro版本和Ultra版本规模保密,上下文窗口长度统一32k,注意力机制使用了Multi-Query Attention,此外没有太多细节了。

图片

值得的关注的是微调阶段,报告中透露使用了SFT+RLHF的指令微调组合,也就是使用了ChatGPT的方法

另外也引用了Anthropic的Constitutional AI,也就是结合了Claude的对齐方法

图片

关于训练数据也没披露太多细节,但之前有传闻称谷歌删除了来自教科书的有版权数据。

Gemini拖了这么久才发,之前被曝光的消息还有不少,比如谷歌创始人Sergey Brin一直亲自下场对模型进行评估并协助训练。

结合最近OpenAI Q*项目的传闻,大家最关心的莫过于:

Gemini到底有没有结合AlphaGo的能力?如RLHF之外更多的强化学习、搜索算法等。

关于这一点,DeepMind创始人哈萨比斯在最新接受连线杂志采访时作出了回应:

我们有世界上最好的强化学习专家……AlphaGo中的成果有望在未来改善模型的推理和规划能力……明年大家会看到更多快速进步。

省流版本:还没加,明年加。

图片

这次Gemini开发整合了原谷歌大脑和DeepMind两个团队,整个开发团队有超过800人(作为对比,OpenAI整个公司约770人)。

其中核心贡献者前六位的名字首字母,恰好组成了Gemini这个单词,也算一个小彩蛋。

图片

许多参与者也在个人账号发表了感想,其中DeepMind老员工Jack Rae此前在OpenAI工作一段时间,今年7月份从OpenAI跳回到谷歌,他可能是唯一一位对GPT-4和Gemini都有贡献的人类了

图片

也有反着跳的,中科大校友Jiahui Yu在10月份从谷歌跳去了OpenAI,之前担任Gemini多模态团队的视觉共同负责人。

图片

除了团队成员之外,Gemini今天也是整个AI行业最大的话题。

其中著名OpenAI爆料账号Jimmy Apples,@Sam Altman并暗示OpenAI还有没发布的大招

图片

HuggingFace联创Thomas Wolf认为,谷歌错过了一个重要机会:

如果Gemini开源,对OpenAI和Meta来说都是一记绝杀,上一次谷歌开源Bert的时候,整个AI行业都被重塑了。

图片

Gemini技术报告:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1295082.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

拆解贝医生冲牙器F3,换电池

是这款伸缩式的,如下图, 用了差不多两年,终于充不了电,而且不能开机,估计是电池坏了,拆开试一下。 一、拆解 拆解难度不算大,本来以为这东西为了防水肯定要用一堆胶水,没想到只是卡…

十大最好猫主食罐头有哪些品牌?排名前五猫主食罐头品牌推荐

我发现不少人有这样的困扰!买到各种数值都很好的猫罐头后,猫咪一点都不吃。或者是猫咪吃了猫罐头之后,吃了一段时间后就软便身体不舒服。 猫罐头侠登场!养猫这么久了我就把我吃的不错的猫罐头分享一下!别纠结了&#…

❤ Mac IDEA使用并运行项目

❤ IDEA导入项目并运行 Mac IDEA使用 (1) 仓库导入 通过获取giett仓库包的url,在idea中导入项目 在gitee里获取项目的ur打开idea,点击 File->new->Project from Version Control (2) 创建数据库ry并导入数据脚本 (3)修改配…

Altair Radioss碰撞 安全与冲击 衡祖仿真

Altair Radioss是解决瞬态加载工况下非线性问题的领先的结构分析求解器。其具备高扩展性、高品质、高鲁棒性,以及诸多功能:多域求解技术、高级材料功能(复合材料)等。Radioss求解器被广泛应用于汽车、航空航天、电子/家电、包装、轨道机车、生物医疗、能…

harmony开发之Text组件的使用

TextInput、TextArea是输入框组件,通常用于响应用户的输入操作,比如评论区的输入、聊天框的输入、表格的输入等,也可以结合其它组件构建功能页面,例如登录注册页面。 图片来源黑马程序员 Text组件的使用: 文本显示组…

【C++】开源:Boost配置文件解析库PropertyTree配置使用

😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍Boost配置文件解析库PropertyTree配置使用。 无专精则不能成,无涉猎则不能通。——梁启超 欢迎来到我的博客,一起学习,共同进步。 喜欢的朋友可以关注…

js写旋转的时钟动态

目录 1、css代码 2.html代码 3.js代码 1、css代码 .box {position: relative;width: 600px;height: 600px;background: url(./images/clock.jpg) no-repeat center;}.hour,.minute,.second {position: absolute;left: 0;top: 0;width: 100%;height: 100%;}.hour {background…

RHEL8_Linux访问NFS存储及自动挂载

本章主要介绍NFS客户端的使用 创建FNS服务器并通过NFS共享一个目录在客户端上访问NFS共享的目录自动挂载的配置和使用 1.访问NFS存储 前面介绍了本地存储,本章就来介绍如何使用网络上的存储设备。NFS即网络文件系统,所实现的是 Linux 和 Linux 之间的共…

JOSEF 单稳态中间继电器 UEG/A-4H-L DC110V 导轨安装

系列型号 UEG/A-2H2D中间继电器UEG/A-4H4D中间继电器UEG/A-2D中间继电器 UEG/A-2H中间继电器UEG/A-4H中间继电器UEG/A-4D中间继电器 UEG/A-6H中间继电器UEG/A-6D中间继电器UEG/A-8H中间继电器 UEG/A-10D中间继电器UEG/A-10H中间继电器UEG/A-2DPDT中间继电器 UEG/A-4DPDT中…

注意力机制的快速学习

注意力机制的快速学习 注意力机制 将焦点聚焦在比较重要的事物上 我(查询对象Q),这张图(被查询对象V) 我看一张图,第一眼,就会判断那些东西对我而言比较重要,那些对于我不重要&…

JVM的内存结构详解「重点篇」

一、JVM虚拟机数据区 虚拟机栈 1、 线程私有 2、 每个方法被执行的时候都会创建一个栈帧用于存储局部变量表,操作栈,动态链接,方法出口等信息。每一个方法被调用的过程就对应一个栈帧在虚拟机栈中从入栈到出栈的过程。 3、栈帧: 是用来存储…

数字化升级,智慧医疗新时代——医院陪诊服务的技术创新

在信息技术飞速发展的今天,医疗服务正迎来数字化升级的新时代。本文将探讨如何通过先进技术的应用,为医院陪诊服务注入更多智慧元素,提升患者和家属的医疗体验。 1. 创新医疗预约系统 # Python代码演示医疗预约系统的简单实现 class Medic…

最新国内可用GPT4,Midjourney绘画网站+使用教程

一、前言 ChatGPT GPT4.0,Midjourney绘画,相信对大家应该不感到陌生吧?简单来说,GPT-4技术比之前的GPT-3.5相对来说更加智能,会根据用户的要求生成多种内容甚至也可以和用户进行创作交流。 然而,GPT-4对普…

ChatGPT有什么新奇的使用方式?

2023,ChatGPT几乎席卷了所有行业,并且具有不可测量的巨大潜力等着我们去挖掘。 越来越多人对ChatGPT的应用产生兴趣,知乎上“ChatGPT有什么新奇的使用方式?”这一个热门话题的兴起就是最好的证明。 写作,毫无疑问&…

【Java探索之旅】我与Java的初相识(一):Java的特性与优点及其发展史

🎥 屿小夏 : 个人主页 🔥个人专栏 : Java入门到精通 🌄 莫道桑榆晚,为霞尚满天! 文章目录 一. Java语言概述与优势1.1 Java的概述1.2 Java语言的优势 二. Java领域与发展史2.1 Java的使用领域2.…

中国开源大模型登顶HuggingFace排行榜

12月8日消息,全球最大的开源大模型社区HuggingFace日前公布了最新的开源大模型排行榜,阿里云通义千问力压Llama2等国内外开源大模型登顶榜首。 HuggingFace的开源大模型排行榜(Open LLM Leaderboard)是目前大模型领域最具权威性的…

基于python+unittest实现接口自动化测试

简介 本文通过从Postman获取基本的接口测试Code简单的接口测试入手,一步步调整优化接口调用,以及增加基本的结果判断,讲解Python自带的Unittest框架调用,期望各位可以通过本文对接口自动化测试有一个大致的了解。 为什么要做接口…

VMware虚拟机搭建+云平台购买搭建(阿里云+UCloud)【设置主机名以及主机名映射、配置免密登录、配置JDK】

本地虚拟机的搭建 一、准备网段 在VMware的虚拟网络编辑器中将VMnet8虚拟网卡的 网段设置为:192.168.88.0网关设置为:192.168.88.2 二、下载CentOS操作系统文件,并安装 三、克隆多台虚拟机 依照同样的方法,克隆出node2…

火狐,要完了!

在过去几年中,关于Firefox 浏览器的衰落有过不少讨论。目前来说,很多公共的以及私营的大型网站都缺乏对Firefox的适当支持。但是Firefox也多次试图“自救”,甚至就在不久前,Mozilla 通过官博发文,表示 Firefox 在 2023…

AWS KeyPair密钥格式转换PPK<>PEM

概述说明 PEM(Privacy Enhanced Mail)和PPK(Putty Private Key)都是与加密和安全相关的文件格式,通常用于存储私钥信息。它们在不同的上下文中使用,并且与不同的软件和协议相关联。 PEM(Priva…