GPT-4替代大学生参加考试,94%成功作弊未被发现!

news2024/12/23 16:11:54

目录

01 「伪装」过程

02 实验结果

03 成绩如何?



调查显示,94%的AI生成内容完全不会被大学教授察觉。

而且在83.4%的情况下,「AI同学」的成绩显著高于人类学生。



看来,AI真的要攻陷人类的考试了。





其实,早在GPT-4发布时,OpenAI就声称,它能在SAT的阅读和数学考试中分别打败93%和89%的人类。

虽然这些数字令人震惊,但技术报告中并未披露这些数据的具体来源和实验设置。这大大削弱了数据的可信度。

之前虽然也有很多关于AI参与考试作弊的研究,但它们大多是在实验环境中得出数据,与真实情景还是有所差距。



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952


但最近英国的研究人员在现实的大学考试中为AI做的这次「图灵测试」,已经将实验过程和数据以论文的形式发布了出来。



结果发现,虽然我们每天抱怨AI生成的文本「一眼假」,但实际上大学教授也很容易被蒙混过去,有94%的AI生成内容——完全没有被发现!

此外,AI生成内容的平均水平也显著高于人类同学,差距大概是半个等级。在83.4%的情况下,AI的成绩高于随机选择的学生。



这让人类感到真实的颤抖……



这也意味着,AI的「以假乱真」程度再次被证实,不仅在能力上可以替代打工人,还在认知任务上完全碾压了大学生。

01 「伪装」过程

描述这种在真实世界中进行的「图灵测试」,画面感强到像是真人秀现场。

团队选中了英国雷丁大学的心理学和临床语言科学学院,但完全没有告知考试评分员。

除了批准研究的参与者和负责帮助AI伪装成学生的行政人员,没有人知道这项研究正在进行。

在COVID之后,像许多英国大学一样,雷丁大学也更多地转向线上考试。

学生在规定时间内完成题目或论文,而且是完全的开卷模式,参考课程材料、论文、书籍、互联网材料都是被允许的。

这项考试共有两种题型,一是简答题(SAQ),2.5小时内完成,从6个问题中任选4题回答,答案不超过200词;二是论文题(Essay),从3~4个题目中任选其一,在8小时内完成一篇1500词的论文。

每个考试模块中都混入了约占总数5%的AI生成内容。这个比例不会造成额外的评分负担,也让两位作者能够在规定时间内确保提交的AI内容没有出现自相似情况,否则会很容易被判定为抄袭。

作者使用标准化的提示词让GPT-4生成每种类型考试的答案。

对于简答题(SAQ),提示词是:

包括对学术文献的引用,但不需要单独的参考文献部分,请用160词回答以下问题:XXX

对于论文题,提示词是:

包括对学术文献的引用,但不需要单独的参考文献部分,请写一篇2000词的文章回答以下问题:XXX

在与GPT-4打交道时,作者发现模型经常不遵循提示中关于字数的要求。简答题总是超字数,而论文又写不到规定长度,因此调整了提示词中的字数。

为了保证AI的「真实性」,GPT-4生成的内容被100%原汁原味地搬运到试卷上,作者没有添加过渡文字或用任何方式修改文本内容,最大的改动就是为论文添加必要格式,或者删去模型径自生成的免责声明和参考文献。

总而言之,原则是保证100%的AI书面答案,但要在其他地方「藏好尾巴」,防止评分人员看出破绽。

02 实验结果

多少被发现了?


在这项研究中,只要评分员将作业标记为「值得关注」,可能存在某种形式的不良学术行为或学术不端,都不需要特别提到AI,就算是被检测到了。

即使规则如此宽松,检测成功的百分比依旧少得可怜。如图1和表3所示,在P2-M2和P3-M1的两个论文题目中,检测准确率甚至为零。也就是说,作者分别混入的14篇和3篇AI文章完全没有引起评分员的警觉。

总体来看,AI提交的作业几乎无法检测,有94%的作业未被发现。

如果我们采用更严格的「检测」标准,要求标记时必须特别提到AI,那么97%的AI提交作业未被发现。

03 成绩如何?


将被检测出来的AI内容剔除后,作者比较了GPT-4和人类学生的分数分布情况。

可以看到,蓝色部分相比橙色部分整体右移,说明AI的成绩往往集中在真实成绩分布的高端,中位数对应First或者Upper Second等级。

其中P3-M1模块是一个例外,AI的成绩集中在真实分数分布的低端。但考虑到这个模块只混入了4篇AI内容,远少于其他模块,因此可能是数据过少造成的偏误。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4o首次引入!全新图像自动评估基准发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1877974.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Mybatis】Mybatis初识-通过源码学习执行流程

文章目录 1.Mybatis核心组件1.1 SqlSession1.2 SqlSessionFactory1.3 Mapper1.4 MappedStatement1.5 Executor 2. Mybatis各组件之间关系3. 构建SqlSessionFactory3.1 从XML文件中构建3.2 不使用XML构建SqlSessionFactory 4. 如何从SqlSessionFactory获取SqlSession5.获取Mappe…

STM32CubeMx的学习记录系列(1) - 软件的下载与点灯

目录 因为最近要学STM32的嵌入式AI开发,但它于是基于STM32CubeMX开发的,就顺便把这个学了。 直接百度STM32CubeMX,到意法的官网去下载。下载过程就看这篇博客 https://blog.csdn.net/as480133937/article/details/98885316 点灯 选择芯片&…

PG备份与恢复

一、开启WAL归档 1、创建归档目录 我们除了存储数据目录pgdata之外,还要创建backups,scripts,archive_wals文件 mkdir -p /home/mydba/pgdata/arch mkdir -p /home/mydba/pgdata/scripts mkdir -p /home/mydba/backups chown -R mydba.myd…

PIP一些问题解决办法

研究生期间遇到关于PIP一些问题报错以及解决办法的汇总 pip安装报错:is not a supported wheel on this platform 本节转自 https://blog.csdn.net/happywlg123/article/details/107281936 ​ 出现这个问题,是由于这个whl和系统python版本不匹配导致的。…

数字人解决方案——数字人类不仅仅是长着一张脸的人工智能

数字人类曾经是简单的聊天机器人,经常误解问题,这让许多人感到沮丧。现在,他们已经发展成为先进的虚拟代理,可以像最好的客户服务代表一样有效地沟通,拥有专家级的知识,并且看起来与真人惊人地相似。 这些…

基于协同过滤的电影推荐与大数据分析的可视化系统

基于协同过滤的电影推荐与大数据分析的可视化系统 在大数据时代,数据分析和可视化是从大量数据中提取有价值信息的关键步骤。本文将介绍如何使用Python进行数据爬取,Hive进行数据分析,ECharts进行数据可视化,以及基于协同过滤算法…

<电力行业> - 《第7课:发电》

1 发电的原理 电力生产的发电环节是利用电能生产设备将各种一次能源或其他形式的能转换为电能。生产电能的主要方式有火力发电、水力发电、核能发电、地热发电、风力发电、太阳能发电、潮汐能发电、生物智能发电和燃料电池发电等。 除太阳能发电的光伏电池技术和燃料电池发电…

[单机版架设]新天堂2-死亡骑士338|带AI机器人

前言 今天给大家带来一款单机游戏的架设:新天堂2-死亡骑士338单机服务端—带AI机器人 如今市面上的资源参差不齐,大部分的都不能运行,本人亲自测试,运行视频如下: 新天堂2 搭建教程 此游戏架设不需要虚拟机&#xf…

利用LLM本身训练SoTA embedding模型

今天分享一篇Microsoft公司的一篇文章,Title: Improving Text Embeddings with Large Language Models:使用大语言模型改善文本嵌入。 这篇文章探索了直接利用LLM来做embedding模型,其只需要利用合成数据和少于1000次的训练步骤就能获得高质…

Arthas快速入门

简介 Arthas 是一款线上监控诊断产品,通过全局视角实时查看应用 load、内存、gc、线程的状态信息,并能在不修改应用代码的情况下,对业务问题进行诊断,包括查看方法调用的出入参、异常,监测方法执行耗时,类…

仓库管理系统12--供应商设置

1、添加供应商窗体 2、布局控件UI <UserControl x:Class"West.StoreMgr.View.SupplierView"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:mc"http://…

什么是机器学习,机器学习与人工智能的区别是什么(一)?

人工智能和计算机游戏领域的先驱阿瑟塞缪尔&#xff08;Arthur Samuel&#xff09;创造了 "机器学习"一词。他将机器学习定义为 “一个让计算机无需明确编程即可学习的研究领域” 。通俗地说&#xff0c;机器学习&#xff08;ML&#xff09;可以解释为根据计算机的经…

前端学习笔记(2406261):jquery使用checkbox控制页面自动刷新

文章目录 需求登录页面主页面 API用户登录login获取数据getdata 代码登录页面主页面 关于后端 需求 这是一个物联网的演示项目&#xff0c;web端能够实时显示后台数据的变化&#xff0c;其流程非常简单&#xff1a; 用户登录登录成功后显示主界面面主界面进入后自动显示数据数…

Java中的Checked Exception和Unchecked Exception的区别

在Java中&#xff0c;异常分为两大类&#xff1a;已检查异常&#xff08;Checked Exception&#xff09;和未检查异常&#xff08;Unchecked Exception&#xff09;。 已检查异常是在编译时必须被捕获或声明的异常。换句话说&#xff0c;如果你的方法可能会抛出某个已检查异常&…

古人的智慧结晶——水铳:揭秘明清时期的消防神器

明代的《奇器图说》是一本记录了当时各种奇巧机械的著作&#xff0c;而水铳则是书中记载的一项令人惊叹的发明&#xff0c;它不仅展示了古人对物理原理的深刻理解&#xff0c;更是早期消防技术的一个缩影。 水铳&#xff0c;这个名字听起来似乎有些陌生&#xff0c;但在古代&am…

Kafka~消息发送过程与ISR机制了解

消息发送过程 使用Kafka发送消息时&#xff0c;一般有两种方式分别是&#xff1a; 同步发送异步发送 同步发送时&#xff0c;可以在发送消息后&#xff0c;通过get方法等待消息结果&#xff0c;这种情况能够准确的拿到消息最终的发送结果&#xff0c;要么是成功、要么是失败…

AES加密算法及AES-CMAC原理白话版系统解析

本文框架 前言1. AES加密理论1.1 不同AES算法区别1.2 加密过程介绍1.2.1 加密模式和填充方案选择1.2.2 密钥扩展1.2.3分组处理1.2.4多轮加密1.2.4.1字节替换1.2.4.2行移位1.2.4.3列混淆1.2.4.4轮密钥加1.3 加密模式1.3.1ECB模式1.3.2CBC模式1.3.3CTR模式1.3.4CFB模式1.3.5 OFB模…

社团成员信息系统

ER实体关系图与数据库模型 DDL CREATE TABLE club (club_id int(11) NOT NULL AUTO_INCREMENT,club_name varchar(100) NOT NULL,president_name varchar(50) DEFAULT NULL,foundation_date date DEFAULT NULL,description text,PRIMARY KEY (club_id),KEY president_name (pr…

虚拟化技术(二)

目录 三、存储虚拟化&#xff08;一&#xff09;存储虚拟化的一般模型&#xff08;二&#xff09;存储虚拟化的实现方式&#xff08;三&#xff09;案例分析 四、网络虚拟化&#xff08;一&#xff09;核心层网络虚拟化&#xff08;二&#xff09;接入层网络虚拟化&#xff08;…

生成独立的zedboard+ad9361起始项目

文件分享 链接&#xff1a;https://pan.baidu.com/s/17wB_9xVWjO7HhxNvmmZyuA 提取码&#xff1a;94zz 首先下载HDL和NO-OS项目 git clone --recursive https://github.com/analogdevicesinc/hdl git clone --recursive https://github.com/analogdevicesinc/no-OS下载…