GPT-4o文科成绩超一本线,理科为何表现不佳?

news2024/10/6 21:20:04

目录

01 评测榜单

02 实际效果


什么?许多大模型的文科成绩竟然超过了一本线,还是在竞争激烈的河南省?

没错,最近有一项大模型“高考大摸底”评测引起了广泛关注。

河南高考文科今年的一本线是521分,根据这项评测,共有四个大模型的分数大于或等于这个分数,其中最值得关注的是前两名:

GPT-4o:562分

字节豆包:542.5分

……



从结果来看,GPT-4o依旧表现领先,而在国产大模型中,豆包的成绩尤为亮眼。


没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!官网有更详细介绍:WildCard


在语文和历史等科目上,豆包超越了GPT-4o。

这让不少网友感叹:

AI在文科成绩上表现如此出色,看来在处理语言和逻辑方面确实有优势。


不过,考虑到国产大模型的竞争如此激烈,这份评测的排名真的靠谱吗?



01 评测榜单


要回答这些问题,我们不妨先查一查豆包在最新的权威评测榜单中的表现是否一致。

首先来看由智源研究院发布的FlagEval(天秤)。

它的评测方式如下:



对于开源模型,FlagEval会综合概率选择和自由生成两种方式来评测;对于闭源模型,FlagEval只采用自由生成的方式来评测,两种评测方式的区别参照。

在主观评测时,部分闭源模型对极小部分题目有拒绝回答的情况,这部分题目并没有计入能力分数的计算。

在“客观评测”这个维度上,榜单成绩如下。



不难看出,在FlagEval的客观评测维度中,前四名的成绩与“高考大摸底”的名次一致。

大模型依旧分别来自OpenAI、字节跳动、百度和百川智能。

并且豆包在“知识运用”和“数学能力”两个维度上的成绩还高于第一名的GPT-4。

如果将评测方式调整至“主观评测”,结果如下。

此时,百度的大模型跃居第一,而字节的豆包依旧稳居第二。

由此可见,无论是主观还是客观维度,前几位的名次都与“高考大摸底”的成绩相当接近。

02 实际效果

接下来的实际效果测试,采用“LLM链路+数学”的方式进行。

首先,试试这次的选择题:

把题目在PC端“喂”豆包之后,它的作答如下:

因此,豆包给出的答案是:

A、C、D、D、B、B、A、A

这里我们再来引入排名第一选手GPT-4o的作答:

A、D、B、D、C、A、C、B

对于更多的数学题的作答,其实复旦大学自然语言处理实验室在高考试卷曝光后第一时间做了更加全面的测试(所有大模型只能依靠LLM推理答题,不能通过RAG检索答案):

由此可见,大模型并不能完全应对高考数学题目,并且不同人生成的答案结果也会有所偏差。

反复测试后发现,在对话答题时存在一定的随机性,多轮测试的结果并不完全一致。上文仅展示了其中一轮的结果。

这也正如广大网友所反馈的那样——大模型在文科方面表现强劲,而在理科方面则相对较弱。


推荐阅读:

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1883560.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

notepad++安装并打开json文件

1、notepad安装 1、首先下载Notepad.exe 2、选择简体中文安装 点击下一步 点击“我接受” 选择安装目录,进行下一步安装 默认下一步 选择安装 等待安装完成 点击完成 2、保存json文件 复制返回结果 先把返回结果复制出来。保存到text里面 把文件另存为json格式 3、…

代码随想录-Day44

322. 零钱兑换 给你一个整数数组 coins ,表示不同面额的硬币;以及一个整数 amount ,表示总金额。 计算并返回可以凑成总金额所需的 最少的硬币个数 。如果没有任何一种硬币组合能组成总金额,返回 -1 。 你可以认为每种硬币的数…

Qt:8.QWidget属性介绍(focuspolicy属性-控件焦点、stylesheet属性-为控件设置样式)

目录 一、focuspolicy属性-控件焦点: 1.1focuspolicy属性介绍: 1.2设置焦点策略——setFocusPolicy(): 1.3获取控件的焦点策略——focusPolicy(): 二、stylesheet属性——为控件设置样式: 2.1 stylesheet属性介绍…

虚拟机网络配置(静态网络)

解决问题:VMware中创建centOS虚拟机后使用ifconfig没有ip地址,但我想在主机(Windows)系统下使用shell连接虚拟机从而方便后续交互。 VMware中编辑->虚拟网络编辑器 (注意需要管理员身份不然会无法修改)…

Python容器 之 列表--定义

1.什么是列表呢? 列表(list)是 Python 中使用最频繁的数据类型, 在其他语言中通常叫做数组, 专门用来存储一组数据 列表,list, 使用 [ ] 列表可以存放任意多个数据 列表中可以存放任意类型的数据 列表中数据之间 使用 逗号隔开 2.列表如何定义? &#…

Android Compose 十二:常用组件列表 上拉加载

列表 上拉加载 当前思路 判断 列表最后一个显示的条目 为 数据集合的长度-1 用来记录刷新状态 var refreshing by remember {mutableStateOf(false)}数据集合 val list remember{List(10){"条目》》${it}"}.toMutableStateList()}用来记录列表当前状态及状态变化…

切片的基础知识

文章目录 ● Slice 的底层实现原理?● array 和 Slice 的区别?● 拷贝大切片一定比小切片代价大吗?● Slice 深拷贝和浅拷贝?● 零切片、空切片、nil切片?● Slice 的扩容机制?● Slice 为什么不是线程安全…

HarmonyOS Next开发学习手册——Native XComponent

场景介绍 Native XComponent是XComponent组件提供在Native层的实例,可作为JS层和Native层XComponent绑定的桥梁。XComponent所提供的NDK接口都依赖于该实例。接口能力包括获取Native Window实例、获取XComponent的布局/事件信息、注册XComponent的生命周期回调、注…

理性决策的艺术:从购房到择偶的数学智慧;37% 规则,做出最佳决策的秘诀;用数学模型解决人生难题

在面对人生重大决策时,如购房或择偶,我们常常感到迷茫和困惑。然而,如果我们能够将这些看似复杂的问题简化为数学模型,我们就能以更加理性和系统的方式做出决策。 37%规则 1950年代,当时几位数学家开始研究这样一个问…

钉钉开放AI生态战略的真正价值到底是什么?很多人都没看懂

来源: 首席数智官 hello 大家好,我们是数字化领军者都在看的首席数智官。 关注我,每天给你讲一个商业案例。 今天我们要给你讲的是:钉钉开放AI大模型生态的战略意义到底是什么? 「谁先赢得苹果,谁就赢得…

C++实现简化版Qt的QObject(3):增加父子关系、属性系统

前几天写了文章: C实现一个简单的Qt信号槽机制 C实现简化版Qt信号槽机制(2):增加内存安全保障 之后感觉还不够过瘾,Qt中的QObject体系里还有不少功能特性没有实现。为了提高QObject的还原度,今天我们将父子…

欢迎回家!揭秘“嫦娥六号”背后的守望者

6月25日,嫦娥六号返回器携带来自月背的月球样品安全着陆在内蒙古四子王旗预定区域。这是时隔3年多后,中国探月工程的又一关键节点任务,也是时隔5年多后,嫦娥探测器再去月球背面。 在此次任务中,同元软控数字伴飞团队为…

C++使用Poco库封装一个HTTP客户端类

0x00 前言 我们在使用HTTP协议获取接口数据时,通常需要在Header和Query中添加参数,还有一种就是在Body中追加XML或者JSON格式的数据。本文主要讲述使用Poco库提交HTTP Post请求的Body中附加XML格式的数据,JSON格式的数据类似。 0x01 HttpCl…

Zuul介绍

Zuul 是 Netflix 开源的一个云平台网络层代理,它主要用于路由、负载均衡、中间件通信和动态路由。Zuul 本质上是一个基于 JVM 的网关,它提供了以下功能: 1.路由:Zuul 允许客户端和服务器之间的所有入站和出站请求通过一个中心化的…

Hadoop页面报错Permission denied: user=dr.who, access....

1、临时解决 hdfs dfs -chmod -R 777 /这种方法,存在一个不足,就是后面重新创建的文件夹,页面进行删除的时候,依然报这个错。 但是,对于应付紧急客户需求,可以临时用一下。 2、永久解决 查看页面的Owner…

超声波清洗机怎么选?极力推荐四款口碑大牌超声波清洗机

相信大家都知道超声波清洗机,每次眼镜脏的时候,去眼镜店里让老板帮忙清洗,她们用的就是超声波清洗机,通过超声波的原理深入物品深处清洁,清洁效果非常好。相对手洗的方式,超声波清洗机能够保护镜片在清洗过…

SpringCloud_Ribbon负载均衡

概述 SpringCloud底层其实是利用了一个名为Ribbon的组件,来实现负载均衡功能的。 源码 LoadBalancerInterceptor 其中含有intercept方法,拦截用户的HttpRequest请求: request.getURI() 获取请求uri,即http://userservice/use…

【哈哈大一上学的全忘了,重开!!】STM32从零入门物联网开发

本笔记资料来源 :STM32物联网入门30步=单片机物联网入门教程 WIFI连接阿里云物联网CubeMXHAL库蓝牙ESP8266杜洋主讲_哔哩哔哩_bilibili IOT:Internet of things 学习目标: 1.掌握洋桃IoT开发板的各功能以及驱动与基本应用 2.掌…

Python容器 之 字符串--字符串的常用操作方法

1.字符串查找方法 find() 说明:被查找字符是否存在于当前字符串中。 格式:字符串.find(被查找字符) 结果:如果存在则返回第一次出现 被查找字符位置的下标 如果不存在则返回 -1 需求: 1. 现有字符串数据: 我是中国人 2. 请设计程序…

vue根据文字长短展示跑马灯效果

介绍 为大家介绍一个我编写的vue组件 auto-marquee ,他可以根据要展示文本是否超出展示区域,来判断是否使用跑马灯效果,效果图如下所示 假设要展示区域的宽度为500px,当要展示文本的长度小于500px时,只会展示文本&…