AI奥林匹克竞赛:Claude-3.5-Sonnet对决GPT-4o,谁是最聪明的AI?

news2024/10/6 2:25:03

目录

实验设置

评估对象

评估方法

结果与分析

针对学科的细粒度分析

GPT-4o vs. Claude-3.5-Sonnet

GPT-4V vs. Gemini-1.5-Pro

结论


AI技术日新月异,Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:

Claude-3.5-Sonnet是否已经取代OpenAI的GPT-4o成为世界上“最聪明的AI”?

回答这个问题的挑战在于我们首先需要一个足够挑战的智力测试基准,使得我们可以区分目前最高水平的AI。

上海交通大学生成式人工智能实验室(GAIR Lab)推出的OlympicArena(奥林匹克竞技场)满足了这个需求。

奥林匹克学科竞赛不仅是对人类(碳基智能)思维敏捷性、知识掌握和逻辑推理的极限挑战,更是AI(“硅基智能”)锻炼的绝佳练兵场,是衡量AI与“超级智能”距离的重要标尺。

OlympicArena是一个真正意义上的AI奥运竞技场。在这里,AI不仅要展示其在传统学科知识上的深度(数学、物理、生物、化学、地理等顶级竞赛),还要在模型间的认知推理能力上展开较量。

近日,研究团队首次提出使用“奥林匹克竞赛奖牌榜”的方法,根据各AI模型在奥林匹克竞技场(各学科)的综合表现进行排名,选出迄今为止智力最高的AI。

在此次竞技场中,研究团队重点分析并比较了最近发布的两个先进模型——Claude-3.5-Sonnet和Gemini-1.5-Pro,以及OpenAI的GPT-4系列(如GPT-4o)。

 没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Tubo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

通过这种方式,研究团队希望能够更有效地评估和推动AI技术的发展。

实验结果表明:

  • Claude-3.5-Sonnet在整体表现上与GPT-4o相比极具竞争力,甚至在一些科目上超过了GPT-4o(比如在物理、化学和生物学上)。

     
  • Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后,但它们之间存在明显的表现差距。

     
  • 来自开源社区的AI模型性能明显落后于这些专有模型。

     
  • 这些模型在此基准测试上的表现不尽人意,表明我们在实现超级智能之路上还有很长的路要走。

实验设置

研究团队采取OlympicArena的测试集进行评估。该测试集的答案并未公开,有助于防止数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of Thought)提示词。

评估对象

研究团队评估了一系列开源和闭源的多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LMMs,选择了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等闭源模型,此外还评估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等开源模型。

对于LLMs,主要评估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等开源模型。

此外,研究团队特别包括了新发布的Claude-3.5-Sonnet以及Gemini-1.5-Pro,并将它们与强大的GPT-4o和GPT-4V进行比较,以反映最新的模型性能表现。

评估方法

衡量标准 鉴于所有问题都可以通过基于规则的匹配进行评估,研究团队对非编程任务使用准确率,并对编程任务使用公正的pass@k指标,定义如下:

结果与分析

分析内容主要关注Claude-3.5-Sonnet和GPT-4o,同时也对Gemini-1.5-Pro的性能表现进行了部分讨论。

根据表格的总体结果,可以观察到:

  • 新发布的Claude-3.5-Sonnet性能强大,达到了几乎与GPT-4o相当的水平。两者的整体准确率差异仅约1%。

  • 新发布的Gemini-1.5-Pro也展现出了相当的实力,在大多数学科中的表现超过了GPT-4V(OpenAI当前第二强大的模型)。

  • 值得注意的是,在撰写本报告时,这三个模型中最早的发布时间仅为一个月前,反映了这一领域的快速发展。

针对学科的细粒度分析

GPT-4o vs. Claude-3.5-Sonnet

尽管GPT-4o和Claude-3.5-Sonnet在整体表现上相似,但两个模型在不同学科上展现了各自的优势。GPT-4o在传统的演绎和归纳推理任务上表现更为出色,特别是在数学和计算机科学方面。相对而言,Claude-3.5-Sonnet在物理、化学和生物学等学科表现优异,尤其在生物学上,它超过了GPT-4o 3%。

GPT-4V vs. Gemini-1.5-Pro

在Gemini-1.5-Pro与GPT-4V的比较中,也可以观察到类似的现象。Gemini-1.5-Pro在物理、化学和生物学方面的表现显著优于GPT-4V。然而,在数学和计算机科学方面,Gemini-1.5-Pro的优势不明显,甚至不如GPT-4V。

结论

从这两组比较中可以看出:

  • OpenAI的GPT系列:在传统的数学推理和编程能力上表现突出。这表明GPT系列模型已经经过了严格训练,以处理需要大量演绎推理和算法思维的任务。
     
  • Claude-3.5-Sonnet和Gemini-1.5-Pro:在涉及需要将知识与推理结合的学科(如物理、化学和生物学)时,展现出了更具竞争力的表现。这体现了不同模型在专业领域的优势以及潜在的训练重点,表明在推理密集型任务和知识整合型任务之间可能存在的权衡。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:


超越GPT-4o!新王Claude 3.5 Sonnet来啦!

CVPR‘24 最佳学生论文,从灵感到成稿仅用一个月,源自业余创意!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1878661.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LabVIEW材料样本结构缺陷检测

本文介绍了一种基于LabVIEW的实验室振动特性分析测试装置,通过分析振动特性来检测结构缺陷。文章详细描述了具体案例、硬件型号、工作原理、软件功能以及注意事项。 硬件型号 振动传感器:PCB Piezotronics 352C33加速度计 数据采集卡:NI PXI…

笔灵AI写作:释放创意,提升写作效率的秘诀

内容为王,在内容创作的世界中尤为重要。然而,面对写作时常常感到无从下手:有时缺乏灵感,有时难以表达清楚自己的想法。AI写作助手的出现,为这些问题提供了创新的解决方案,极大地改变了内容创作的过程。 今…

从零开始三天学会微信小程序开发(三)

看到不少入门的小程序开发者不断的问重复性的问题,我们从实战角度开发了这个课程,希望能够帮助大家了解小程序开发。 课程分三天: 第一天:微信小程序开发入门第二天:给小程序接入云端数据第三天:完善我的…

STM32——使用TIM输出比较产生PWM波形控制舵机转角

一、输出比较简介: 只有高级定时器和通用寄存器才有输入捕获/输出比较电路,他们有四个CCR(捕获/比较寄存器),共用一个CNT(计数器),而输出比较功能是用来输出PWM波形的。 红圈部分…

【知识学习】Unity3D中Shader Graph的概念及使用方法示例

Unity3D中的Shader Graph是一个强大的可视化Shader编辑工具,它允许用户通过拖拽和连接节点的方式来创建Shader,而不是通过传统的编写代码的方式。Shader Graph使得Shader的创建过程更加直观和易于理解,特别是对于那些不熟悉Shader语言编程的美…

gitee配置ssh教程

生成公钥 执行命令: ssh-keygen -t rsa查看公钥 cat ~/.ssh/id_rsa.pub这个公钥就是要复制粘贴到Gitee中的ssh公钥。 配置Gitee SSH公钥 来到Gitee的ssh公钥中,配置

git通过命令方式push代码到远程

本地仓库和远程仓库关联操作 通过关联远程分支可以将本地的分支与远程仓库中的分支进行关联,从而实现本地分支与远程分支的同步和交互。 关联远程分支的步骤如下: 1. 首先,使用git remote -v命令查看当前仓库关联的远程仓库。 git remote …

C#语言编写的仅有8KB大小的简易贪吃蛇开源游戏

前言 今天大姚给大家分享一款由C#语言编写的仅有8KB大小的简易贪吃蛇开源游戏:SeeSharpSnake。 项目特点 该仓库中的项目文件和脚本可以用多种不同的配置构建相同的游戏,每个配置生成的输出大小也不同。 项目源码运行 F5 运行 SeeSharpSnake项目&…

Python 面试【★★★★】

欢迎莅临我的博客 💝💝💝,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

安卓短视频去水印v1.7 简洁好用

各大平台视频无水印提取,登录即永久会员! 无水印提取,图片无水印提取 视频旋转,倒放,转gif等功能 链接:https://pan.baidu.com/s/1buoJmAvSFBiRkBmHc7Nn5w?pwd2fu4 提取码:2fu4

考试如果出现汉诺塔问题怎么办?

对于这道题来说 就按照测试案例里的数字进行输入 测试案例用100 那这三只鸡的具体最多能有多少只鸡呢? 用总数除以这只鸡的单价>>>>>>>即为这只鸡最多有 >>>>>>>> n / 单价 修改后 >>>>> 不只适…

input子系统学习(一)

1、输入子系统框架 2、编写一个简单的设备驱动层代码 #include<linux/module.h> #include<linux/init.h> #include<linux/input.h> #include<linux/time.h>struct input_dev *my_input_dev;static void timer_function(struct timer_list *t); DEFINE…

.NET 一款用于入口打点的免杀WebShell

01阅读须知 此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等&#xff08;包括但不限于&#xff09;进行检测或维护参考&#xff0c;未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失&#xf…

云计算【第一阶段(21)】Linux引导过程与服务控制

目录 一、linux操作系统引导过程 1.1、开机自检 1.2、MBR引导 1.3、GRUB菜单 1.4、加载 Linux 内核 1.5、init进程初始化 1.6、简述总结 1.7、初始化进程centos 6和7的区别 二、排除启动类故障 2.1、修复MBR扇区故障 2.1.1、 实验 2.2、修复grub引导故障 2.2.1、实…

Burpsuite靶场中信息泄露相关的实验通关

目录 第一关&#xff1a;错误消息中的信息披露 第二关&#xff1a;调试页面信息披露 第三关&#xff1a;通过备份文件披露源代码 第四关&#xff1a;通过信息披露绕过身份验证 第五关&#xff1a;版本控制历史中的信息披露 最近看大佬的文章&#xff0c;发现了很对自己没有…

Android 遥控器

遥控器源码 import android.content.Context; import android.graphics.Canvas; import android.graphics.Color; import android.graphics.Paint; import android.graphics.Path; import android.graphics.RadialGradient; import android.graphics.Region; import android.g…

为什么word生成的PDF内容显示不全?

在现代办公环境中&#xff0c;将文档从一个格式转换为另一个格式是一个常见的任务。然而&#xff0c;有时候我们可能会遇到意想不到的问题&#xff0c;比如使用Word转换成PDF时&#xff0c;生成的PDF文件只显示了整个界面的四分之一内容。这种问题不仅令人困扰&#xff0c;也可…

Search for documents with similar texts

题意&#xff1a;搜索具有相似文本的文档 问题背景&#xff1a; I have a document with three attributes: tags, location, and text. 我有一份文档&#xff0c;包含三个属性&#xff1a;标签、位置和文本。 Currently, I am indexing all of them using LangChain/pgvecto…

Lua: 轻量级多用途脚本语言

Lua 是一种高效而轻量级的脚本语言&#xff0c;具备强大的扩展性和灵活性&#xff0c;广泛应用于游戏开发、嵌入式系统、Web 应用等多个领域。本文将深入探讨 Lua 的特性、应用场景以及如何使用 Lua 进行开发。 1. Lua 的起源与发展 Lua 的发展始于上世纪90年代初&#xff0c;…

GPT-5:AI新时代的领航者与我们的未来

一、引言&#xff1a;GPT-5的崭新时代 在科技的浪潮中&#xff0c;人工智能&#xff08;AI&#xff09;领域正迎来一个崭新的纪元。GPT-5&#xff0c;作为OpenAI的最新成果&#xff0c;无疑将成为这个新时代的领航者。从GPT-1到GPT-4&#xff0c;我们见证了AI在自然语言处理领域…