上交举办“大模型奥林匹克竞赛”,GPT-4o仅得39分

news2024/11/20 15:27:26

大模型的奥林匹克竞赛来了!

最近,上交构建了一个全面、极具挑战性的奥赛级别的基准——OlympicArena,从来自62个不同奥林匹克竞赛中筛选出11,163个问题,涵盖数学、物理、化学、生物、地理、天文学和计算机科学等七个学科,细分为34个专业领域。除了8类逻辑推理任务外,还有5类视觉推理能力,分为13种答案类型(如表达式、区间)。

论文标题:
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

论文链接
https://arxiv.org/pdf/2406.12753

奥林匹克竞赛,作为选拔拔尖青少年人才的竞赛,其难度与挑战性不言而喻。在奥赛中获得优异成绩的同学可以获得保送名牌大学和参加自主招生考试的资格。

那么大模型在奥赛中的表现如何呢?

作者提供了一套全面的资源来支持AI研究,包括基准数据集、开源标注平台、详细的评估工具和带有自动提交功能的排行榜:

https://github.com/GAIR-NLP/OlympicArena

数据提取与标注

该基准的数据来源于各种竞赛的URL,支持以PDF格式公开下载。作者使用Mathpix4工具将PDF文档转换为Markdown格式,以便与模型的输入要求兼容。对于计算机科学的编程问题,还额外收集了相应的测试用例。然后聘请了约30名具有科学和工程背景的学生进行标注。并开发了一个多模态数据标注界面:

https://github.com/GAIR-NLP/OlympicArena/tree/main/annotation

最终基准统计情况如下表所示:

作者使用GPT-4V作为标注器对问题进行难度分类,分为知识回忆、概念应用和认知推理三级,并与相关基准对比,该基准第三级难度(认知推理)的问题占大多数,而其他基准相对较少。

在简单了解了该基准的规模,我们进入正题,看一看大模型在奥赛上的表现吧!

GPT-4o的整体准确率仅为39.97%

目前最强大模型GPT-4o的整体准确率仅为39.97%,而其他开源模型更是只有20%左右。

在不同学科的任务中,数学和物理仍然是最具有挑战性的两个学科。另外计算机编程竞赛的难度同样不容忽视,部分开源模型的准确率甚至为0,反映出当前模型在复杂算法设计上的不足。

大模型在逻辑推理和视觉推理上表现各不相同

为了进行更好的细粒度分析,作者从逻辑和视觉两个角度对认知推理能力进行了分类。逻辑推理能力包括: 演绎推理(DED)、归纳推理(IND)、假设推理(ABD)、类比推理(ANA)、因果推理(CAE)、批判性思维(CT)、分解推理(DEC)和定量推理(QUA)。视觉推理能力包括模式识别(PR)、空间推(SPA)、图表推理(DIA)、符号解释(SYB)和比较可视化(COM)。

从图中来看,几乎所有模型在各类逻辑推理能力上展现相似的表现趋势——即在归纳和因果推理方面表现出色,能准确识别信息中的因果关系;但在演绎和分解推理上则稍显不足,这主要由于奥赛级别问题的多样性和复杂性,非常需要分解问题的能力,而这也是大模型的短板。

对视觉推理,模型在模式识别和可视化比较上表现良好,但在处理空间和几何推理以及理解抽象符号的任务时则面临挑战。

大多数LMMs无法熟练利用视觉信息

如下图a所示,只有少数LMM(如GPT-4o和Qwen-VL-Chat)在有图像输入时相对于其文本版有显著提升。许多LMM在处理图像输入时并未表现出增强效果,甚至不升反降。

可能有以下原因:

  1. LMM在处理文本和图像时可能过度关注文本,忽略了图像信息。

  2. 某些LMM在通过文本模型训练视觉能力时,可能丧失部分固有的语言能力(如推理能力)。

  3. 鉴于问题中复杂的文本与图像交错格式,部分模型难以有效处理和理解嵌入在文本中的图像位置信息。

大模型虽不能得出正确答案,但能正确执行部分中间步骤。

为了深入研究推理步骤的正确性, 确保对模型认知能力的严格评估, 作者还进行了过程级评估。从OlympicArena中随机选取96个有参考解法的问题。我们使用GPT-4将参考解(即黄金解法)和模型生成的解法转换为结构化的逐步解答格式。然后将这些解法提供给GPT-4V,对每个步骤的正确性打分,范围从0到1。

从下图b中,可以看到过程级评估与答案级评估通常高度一致。这说明当模型产生正确答案时,推理过程的质量大多较高。

另外过程层面的准确性通常高于答案层面。即使面对非常复杂的问题,模型也能正确执行部分中间步骤。 因此,模型在认知推理方面可能有大量未开发的潜力。

此外,作者对错误步骤的位置进行了统计分析,如下图。结果显示,错误容易出现在后期。这表明随着推理的深入,模型更容易出错,因此需要在处理逻辑推理的长链上进行改进。

错误分析:推理错误比例最高

为了具体评估模型的表现,作者从GPT-4V的回答中随机选取错误回答,让人类分析并标注这些错误的原因。

推理错误(包括逻辑和视觉上的)比例最高,该基准有效地突显了当前模型在认知推理能力上的不足。

此外,相当一部分错误源于知识匮乏,表明当前模型仍然缺乏专家级的领域知识以及利用这些知识进行推理的能力。另一种类型的错误源于理解偏差,这可能是由于模型对上下文理解有误,或是整合复杂语言结构和多模态信息时遇到了困难。

数据泄露检测

随着预训练数据集规模的扩大,有必要检测基准数据是否已经泄露。

作者引入了N-gram预测准确率这一实例级泄漏检测指标。该指标为每个实例均匀采样多个起始点,预测每个起始点的下一个n-gram,并检查所有预测的n-gram,如果都正确,则表明模型可能已经遇到了这个实例,该实例已经被泄露。

从统计数据来看,尽管数量相对较少,但一些模型确实可能已经看过了基准实例。

既然数据已经被泄露了,那么模型能否正确回答这些实例?有趣的是,能回答正确的非常少。

这些结果表明,该基准数据泄漏风险极低,且对模型来说具有足够的挑战性。

结论

本文提出了一个用于评估大模型在奥赛级别问题上的认知推理能力的基准——OlympicArena。目前最强大的模型GPT-4o在运用认知推理解决复杂问题时都表现不佳,大模型在复杂推理和多模态整合方面仍存在局限性。该基准有望推动大模型向超级智能迈进!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1887305.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RHCE——四:web服务器的高级优化方案

文章目录 一、基于https协议的静态网站1.概念解释2. SSL协议提供的服务:3.web服务的配置详解web服务的常用种类nginx的基本配置参数 4.使用nginx的http_ssl模块建立加密认证网站查看配置文件:ssl配置文件的主要参数实验一:搭建nginxssl的加密…

pads layout 脚本导出不能运行excle解决办法

在一台新的电脑上安装好PADS,打开PCB文件导出坐标文件时: 出现“ActiveX Automation: server could not be found.”的问题,导致无法成功导出文件,错误提示截图如下: 导致上述问题的原因是在我们配置导出带坐标的脚本时,默认使用的是微软…

eclipse断点调试(用图说话)

eclipse断点调试(用图说话) debug方式启动项目,后端调试bug调试 前端代码调试,请参考浏览器断点调试(用图说话) 1、前端 选中一条数据,点击删除按钮 2、后端接口打断点 断点按钮 介绍 resum…

软件鉴定测试的工作内容是什么?专业软件鉴定测试报告获取指南

软件鉴定测试是指对软件产品进行全面的检测和评估,以验证其是否符合规定的标准和要求。通过测试,能够发现软件中存在的问题和缺陷,并提供相应的改进建议。在不同的测试阶段,使用不同的测试方法和工具,包括功能测试、性…

Webpack: Loader开发 (2)

概述 在上一篇文章中,我们已经详细了解了开发 Webpack Loader 需要用到的基本技能,包括:Loader 基本形态、如何构建测试环境、如何使用 Loader Context 接口等。接下来我们继续拓展学习一些 Loader 辅助工具,包括: 了…

深度学习之半监督学习:一文梳理目标检测中的半监督学习策略

什么是半监督目标检测? 传统机器学习根据训练数据集中的标注情况,有着不同的场景,主要包括:监督学习、弱监督学习、弱半监督学习、半监督学习。由于目标检测任务的特殊性,在介绍半监督目标检测方法之前,我…

【产品运营】SaaS企业产品运营人员沦为打杂工

在职场上,谁都希望自己做的是核心业务或者是重要的工作。但实际上,很多运营的同学到最后,都会沦为打杂的工具人,到底问题出在哪里? 第一个问题:思维方式问题 为什么别人认为你会是打杂的呢?你自…

PHP7源码结构

PHP7程序的执行过程 1.PHP代码经过词法分析转换为有意义的Token; 2.Token经过语法分析生成AST(Abstract Synstract Syntax Tree,抽象语法树); 3.AST生成对应的opcode,被虚拟机执行。 源码结构&#xff1…

如何在 Odoo 16 中将按钮添加到所有表单视图的操作按钮

在 Odoo 中,操作按钮是关键组件,允许用户触发与特定表单视图相关的特定操作或工作流。这些按钮策略性地放置在用户界面中,可简化操作并提高用户效率。它们可以自定义以执行各种任务,例如创建记录、更新信息或启动特定流程。 操作…

个人微信二次开发

​ 由于自身在机器人方面滚爬多年,现在收藏几个宝藏机器人 推荐一下自己常用的机器人: 适合有技术开发的公司,可以自主开发所需要的功能!十分齐全 测试问文档:https://www.wkteam.cn/ 有需要的兄弟可以看一下&#…

红酒与露营:户外时光的好伴侣

在繁忙的都市生活中,人们总是渴望逃离喧嚣,寻找一处宁静的天地,与大自然亲密相拥。露营,作为一种返璞归真的户外生活方式,成为了许多人心中的理想选择。而在露营的浪漫时光里,一瓶雷盛红酒的陪伴&#xff0…

《大海》这歌为何经久不衰?你看歌词写的多美妙!

《大海》这歌为何经久不衰?你看歌词写的多美妙! 《大海》是一首由陈大力作词,陈大力、陈秀男作曲,Ricky Ho编曲,张雨生演唱的国语流行歌曲。该曲收录在张雨生1992年11月30日由飞碟唱片发行的同名专辑《大海》中。 作为…

nexus未开启匿名访问Anonymous Access,访问maven元数据maven-metadata,报401未授权Unauthorized错误

一、背景 下午在调试nexus的时候,其他同事不小心把匿名访问停用了,导致客户端android打包的时候,报错: Received status code 401 from server: Unauthorized。 访问http://192.168.xx.xx:8081/repository/public/com/xxx/xxxcor…

超越所有SOTA达11%!媲美全监督方法 | UC伯克利开源UnSAM

文章链接:https://arxiv.org/pdf/2406.20081 github链接:https://github.com/frank-xwang/UnSAM SAM 代表了计算机视觉领域,特别是图像分割领域的重大进步。对于需要详细分析和理解复杂视觉场景(如自动驾驶、医学成像和环境监控)的应用特别有…

主干网络篇 | YOLOv8改进之引入YOLOv10的主干网络 | 全网最新改进

前言:Hello大家好,我是小哥谈。YOLOv10是由清华大学研究人员利用Ultralytics Python软件包开发的,它通过改进模型架构并消除非极大值抑制(NMS)提供了一种新颖的实时目标检测方法。这些优化使得模型在保持先进性能的同时,降低了计算需求。与以往的YOLO版本不同,YOLOv10的…

kettle从入门到精通 第七十四课 ETL之kettle kettle调用https接口教程,忽略SSL校验

场景:kettle调用https接口,跳过校验SSL。(有些公司内部系统之间的https的接口是没有SSL校验这一说,无需使用用证书的) 解决方案:自定义插件或者自定义jar包通过javascript调用https接口。 1、http post 步…

怎样在《好作文》期刊上发表文章?

怎样在《好作文》期刊上发表文章? 《好作文》知网 G4 2版2500字符 小学语文阅读写作方向 24年8-9月不要摘要参考文献(小学语文阅读写作方向内容,不收纯教学文章,以学生角度为主,出刊晚2-3个月左右,一周内…

基于SpringBoot的漫画网站系统

你好呀,我是计算机学姐码农小野!如果有相关需求,可以私信联系我。 开发语言:Java 数据库:MySQL 技术:B/S架构模式、Java技术 工具:Visual Studio、MySQL数据库开发工具 系统展示 首页 用户…

SWAT模型全套教程

SWAT模型全套教程https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247607904&idx3&snead0faca7f5fc35585f9cfa214ce03ef&chksmfa826787cdf5ee917c64f518225b29c75bc1c5276b94ef2e6aeeede6a85c718d7b8007b51e11&token1917568310&langzh_CN#rd 一…

操作系统大题复习

磁盘调度算法 一次磁盘读写需要的时间 寻道时间 先来先服务FCFS 优点:公平 缺点:性能差,寻道时间长 最短寻道时间有限SSTF 缺点:可能产生饥饿现象 扫描算法SCAN 优点:不会产生饥饿现象 缺点:响应频率…