当四款AI大模型遇上考公真题,谁被难倒了?

news2024/12/27 0:51:22

在当今社会,人工智能(AI)正以不可思议的速度发展,并在各个领域崭露头角,给人们的生活和工作带来许多便利。AI大模型被誉为人类“第二大脑”,成为人们学习、生活、工作的 “智能助手”。

公务员考试在我国教育领域独具特色,受到了众多考生的关注和青睐。众所周知,在公务员考试的过程中,行测真题中以数量关系最难也最耗时,使得考生们备考压力不小。在这样的背景下,用AI大模型来做行测真题,它们能做对吗?

今天,我们来简单测评一下GPT-3.5、GPT-4、文心一言及通义千问在特定的场景下的实际能力究竟如何。

我们选取21年国家公务员考试《行测》真题

某地调派 96 人分赴车站、机场、超市和学校四个人流密集的区域进行卫生安全检查,其中公共卫生专业人员有 62 人。已知派往机场的人员是四个区域中最多的,派往车站和超市的人员中,专业人员分别占 64%和 65%, 派往学校的人员中,非专业人员比专业人员少 30%,问派往机场的人员中,专业人员的占比在四个区域中排名第几?

正确答案:排名第一

第一位AI大模型选手:GPT-4

简介:GPT-4是OpenAI发布的最新一代语言模型,于2023年3月14日正式发布,并通过API和ChatGPT Plus平台向用户开放。

答案:在四个区域中,机场的专业人员占比排名是第1


答案完全正确,过程十分详尽。

第二位AI大模型选手:GPT-3.5

简介:OpenAI于2023年3月1日正式发布GPT-3.5-turbo,它是目前最大规模的预训练语言模型之一,包含超过1亿个参数,可用于各种自然语言处理任务。

答案:在四个区域中排名第2

错误。

第三位AI大模型选手:通义千问

简介:通义千问是阿里巴巴推出的预训练语言模型。它是达摩院自主研发的超大规模语言模型,也能够回答问题、创作文字,还能表达观点、撰写代码。

答案:因此,在四个区域中,专业人员的占比排名为第 4 位

错误。

第四位AI大模型选手:文心一言

简介:文心一言(英文名:ERNIE Bot)是百度基于文心大模型技术推出的生成式对话产品,被外界誉为“中国版ChatGPT”,将于2023年3月份面向公众开放。

答案:在四个区域中排名第2

错误。

Beezy点评

1.准确性

GPT-4的回答

通过建立多个方程并进行代数运算,最终得到了机场的专业人员占比排名是第一。整个过程有明确的推导过程,考虑了所有限定条件。过程详尽且答案完全正确。

GPT-3.5的回答

不等式形式的推导不清晰、且错误,没有给出具体实际情况下的求解。

通义千问的回答

通过计算在四个区域的专业人员占比及非专业人员占比,然后求取排名,这个过程中存在明显错误。在计算四个区域的专业人员比例时,通义千问未考虑到不同区域的总人数已知且有限制条件,而直接将比例相加。此回答是错误的。

文心一言的回答

未建立方程,也没有给出详细推导过程,仅仅给出了结论。在准确性上,此回答并不可靠。

2.实用性

从实用性方面出发,GPT-4的回答明确描述了解题思路,并通过方程的建立及化简找到答案。相对于其他回答者,实用性更强。但考虑考公行测有非常强的时间限制,解题需要早1-2分钟内完成,因此,GPT-4可能在奥数方面不占优势。

3.数学逻辑推导

GPT-4的回答有明确的方程建立,符合题意,通过代入及化简,达到求解目的。推导过程较为严谨。

GPT-3.5的回答由于不等式条件的错误,导致其推导不清晰且错误,不符合题目条件。

通义千问的回答虽然有一定的推导过程,但其错误地将比例相加而未考虑实际限制条件,计算过程错误。

文心一言的回答没有建立方程,缺乏严谨的数学推导过程。

综合来看:GPT-4的回答在准确性、实用性和数学推导方面具有较优的表现。GPT-3.5、通义千问、文心一言三个回答的问题分别在于不等式条件错误、计算过程错误和缺乏推导过程。但结合实际考公行测过程中,严苛的时限性质,其实AI大模型未未必能完全达标。

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/555528.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

firewalld防火墙

firewalld防火墙 1:firewalld概述 firewalld防火墙是Centos7系统默认的防火墙管理工具,取代了之前的iptables防火墙,也是工作在网络层,属于包过滤防火墙。firewalld和iptables都是用来管理防火墙的工具(属于用户态&a…

如何使用ChatGPT对论文进行润色

本文提供两种基于chatGPT的润色方式: (1)在chatGPT中利用editGPT插件润色 (2)chatGPT对话框引导chatGPT按照具体的意见进行润色。 1. 安装editGPT插件 问:为什么安装 editGPT? 答:…

STM32手柄PS2

PS2手柄介绍 PS2手柄由手柄与接收器两部分组成,手柄主要负责发送按键信息;接收器与单片机(也可叫做主机)相连,用于接收手柄发来的信息,并传递给单片机,单片机也可通过接收器,向手柄…

提示词工程师入门 百度文心Prompt课之十大技巧(适用所有AI大模型)

Promot知识 大模型基本原理 给模型输入什么数据,模型就会尝试学习什么内容Prompt十个技巧 三大类 迭代法 1、定基础 优先保证任务生成主体能够生成出我们想要的内容细节形式 在给出任务生成主体的情况下,模型生成效果较差,可增加细节词也无济…

百度API实现logo商标识别接口介绍

作者介绍 严松,男,西安工程大学电子信息学院,2022级研究生 研究方向:机器人抓取检测 电子邮件:2448052777qq.com 王泽宇,男,西安工程大学电子信息学院,2022级研究生,张…

建设一站式DevOps平台,腾讯云研发效能提升实践

本文作者:张渝 导语 | 近年来,研发效能提升越来越受到业界重视,许多厂商都在不断探索研发效能提升之路,从而实现研发效率和质量的持续优化,以应对日趋复杂的产品开发。那么腾讯云的研发效能相关工作是如何开展和落地的…

【遥感图像】目标检测系列.1

目录 Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment and Entropy Minimization, TGRS2022 Semi-Supervised Cloud Detection in Satellite Images by Considering the Domain Shift Problem, RS2022 CoF-Net: A Progressive Coa…

深度学习笔记之递归网络(四)铺垫:Softmax函数的反向传播过程

深度学习笔记之递归网络——铺垫:Softmax的反向传播过程 引言总结:递归神经网络的前馈计算过程场景构建前馈计算描述 铺垫: Softmax \text{Softmax} Softmax的反向传播过程场景构建 Softmax \text{Softmax} Softmax反向传播过程 引言 上一节…

OpenSIPS 3.1 负载均衡 MRCP 服务器的实现

文章目录 1. 方案设计2. 实现方式2.1 FreeSWITCH 的配置2.2 OpenSIPS 3.1 的配置2.2.1 OpenSIPS 保存 MRCP 服务器地址2.2.2 OpenSIPS 脚本开发 2.3 实现效果 1. 方案设计 FreeSWITCH 通过 unimrcp 模块来对接 MRCP 服务器,该模块在启动时会根据 mrcp profile 配置…

【Java|golang】1080. 根到叶路径上的不足节点--dfs

给你二叉树的根节点 root 和一个整数 limit ,请你同时删除树中所有 不足节点 ,并返回最终二叉树的根节点。 假如通过节点 node 的每种可能的 “根-叶” 路径上值的总和全都小于给定的 limit,则该节点被称之为 不足节点 ,需要被删…

【Linux基本指令(2)】几十条指令快速入手Linux/深入理解什么是指令

本文思维导图: 文章目录 Tips:7.man指令(重要):echo指令和输出重定向,追加重定向,输入重定向 8、cp指令(重要)9.mv指令(重要)10.cat指令11.more指…

weblogic CVE 2017-10271

weblogic ip :192.168.27.128:7001 使用weblogicscan对目标进行探测 python3 WeblogicScan.py -u 192.168.27.128 -p 7001 扫到了不少洞,现在开搞2017-10271 漏洞原理 CVE-2017-10271漏洞主要是由WebLogic Server WLS组件远程命令执行漏洞,主要由wls-…

自动化如何做?爆肝整理企业自动化测试工具/框架选择实施,你要的都有...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 Python自动化测试&…

电容的电介吸收性质

电介质吸收 我们首先讨论电介质吸收, 也称为“浸润” , 有时也称为“电介质迟滞” , 这可能是我们了解最少而潜在破坏性最高的一种电容效应。 放电时, 多数电容都不愿意放弃之前所拥有的全部电荷。 图2 显示了这一效应。 电容在时…

科技云报道:穿行数字经济时代,数据如何找到“安全感”?

科技云报道原创。 数据作为数字经济时代的新型生产要素,正快速融入经济社会的方方面面,甚至常常被形容为“未来的石油”。 在数字经济时代,数据安全与数据流通同等重要。但随着我国数字经济驶入快车道,数据流动和安全发展的矛盾…

idea中关联Git

注意:未安装和配置Git软件,请先跳转到 Git宝典_没办法,我就是这么菜的博客-CSDN博客 idea关联git 关联git.exe 选择你的Version Control 下的Git 选择你的Git安装目录bin下的git.exe,点击ok 点击Test,显示版本号…

opencv文字识别

OpenCV(开源计算机视觉库)是一个用于实现计算机视觉和机器学习的开源库。它包含了许多预先训练的模型和算法,可以帮助开发者快速实现图像处理、对象检测和识别等功能。在文字识别方面,OpenCV也有一些实用的工具和方法。 要在OpenC…

【使用ChatGPT写思维导图】

内容目录 一、利用ChatGPT生成思维导图内容1. 打开ChatGPT:2. 输入需求:3. 复制: 二、制作生成思维导图1. 打开思维导图制作网站:2. 网页版下侧 - Try it out → - 粘贴Markdown内容,就会自动生成。3. 自行下载。 一、…

四川省信创联盟2023年第一次理事会顺利召开,MIAOYUN荣获“信创企业优秀奖”!

5月18日,四川省技术创新促进会信创工委会(四川省信创产业联盟)在成都市高新区新川科技园成功召开《2023年第一次理事单位(扩大)会议》,四川省技术创新促进会专家组杜纯文副组长、四川省技术创新促进会任渝英…

构建完善的帮助中心,降低企业客户服务成本

随着信息技术的发展和应用的普及,越来越多的企业已开始意识到,通过构建完善的帮助中心,可以有效地降低企业客户服务成本,提高客户满意度。一个完善的帮助中心不仅仅是企业用于回答客户问题的工具,更是客户自主获取和消…