实验表明:人工智能生成的论文可在全美大多数大学的文社科类课程中获得及格成绩

news2025/1/22 21:33:47

两门A,一门A-,一门B,一门B-,一门及格。

对于一名哈佛大学的大一新生来说,这已经是一份相当不错的成绩单,合计3.57的GPA成绩也很可观。

Maya Bodnick 在哈佛大学的政治专业就读大一,上面提到的就是她的大一成绩,但严格来说这些成绩不是她的,而是GPT-4的。

图片

如果你在美国大学学习社会科学或人文学科,一般都需要完成很多写作作业 —— 教授会通过这些作业来评估学生对教材的掌握程度,以及他们的创造性和分析性思维。

但随着ChatGPT和GPT-4这样先进的大语言模型(Large Language Model,简称LLM)的兴起,写作作业作为一项评估工具的可靠性似乎逐渐受到威胁。

人工智能聊天机器人GPT-4可以通过哈佛的大一考试吗?

Maya Bodnick 就亲自做了一项实验 ——  GPT-4 能通过哈佛大学的大一考试吗?

图片

她邀请了哈佛大学的7位教授和助教对GPT-4根据课堂提示所代写论文进行评分,这些作文大多是主要作业,约占学生课堂成绩的四分之一至三分之一。

以下是论文的题目、指导教师姓名以及每篇论文的评分:

微观经济学和宏观经济学

导师:Jason Furman, David Laibson

题目:创造性地解释一个经济概念。Explain an economic concept creatively

字数限制:微观300-500字,宏观800-1000字

成绩:A-

拉丁美洲政治

导师:Steven Levitsky

题目:近几十年来,是什么导致了拉丁美洲的多次总统危机?What has caused the many presidential crises in Latin America in recent decades?

字数限制:5-7 页

成绩:B-

美国总统

导师:Roger Porter

题目:选择一位现代总统,谈论他最大的三项成就和最大的三次失败。Pick a modern president and identify his three greatest successes and three greatest failures. 

字数限制:6-8页

成绩:A

冲突解决

导师:Daniel Shapiro

题目:描述你生活中的一次冲突,并就如何协商冲突提出建议。Describe a conflict in your life and give recommendations for how to negotiate it.

字数限制:7-9页

成绩:A

中级西班牙语

导师:Adriana Gutiérrez

题目:给积极分子 Rigoberta Menchú 写一封信。Write a letter to activist Rigoberta Menchú. 

字数限制:550-600字

成绩:B

关于普鲁斯特的新生研讨会

导师:Virginie Greene

题目:精读《追寻逝去的时光》中的一段文字。Close read a passage from In Search of Lost Time.

成绩:PASS

Maya 告诉这些导师,每篇论文都可能是由她本人或AI撰写的,以尽量减少反应偏差(response bias),但事实上所有论文都是由GPT-4撰写的,GPT-4是OpenAI 的聊天机器人最新版本。

为了生成这些文章,Maya 将提示(比上述摘要详细得多)一字不差地输入到GPT-4中,并完全按照GPT-4生成的文本进行了提交,不过为了满足字数要求(GPT-4 一次只能写750字左右),她也要求GPT-4再扩展一些想法,并对数次给出的答复进行整合和排序。

图片

Maya 请教授按照常规程序对论文进行评分,不过所有论文都没有进行引用,因此这个部分是例外,忽略不计。

结果显示,GPT-4的答案不仅能通过哈佛大学以社会科学和人文科学为主的典型大一课程,而且还能获得相当不错的成绩 —— 成绩都是在A-和B-之间(以及研讨会课的及格)。

几位教授和助教对GPT-4的论文都给出很不错的评价:

It is beautifully written!

文章写得很好,表达清晰!

Well written and well articulated paper.

思路清晰,文笔生动!

Clear and vividly written.

作者的声音表达得非常清晰!

The writer’s voice comes through very clearly.

不过GPT-4的写作风格也并没有获得一致好评 —— 冲突解决课的助教批评了其“花里胡哨”的写作风格:

我认为适当简化写作风格会比较好,文中似乎存在过度使用形容词和隐喻的问题。

I might urge you to simplify your writing — it feels as though you’re overdoing it with your use of adjectives and metaphors.”

相比文风,教授和助教们对内容的评价更为正面。美国总统课的助教给GPT-4的论文评了A等级:

论文很好地达到了每个要求。

The paper does a very good job of hitting each requirement.

微观经济学课助教也给论文评了A等级:

令人印象深刻......对细节的关注……

Impressive...attention to detail.

不过最让人惊喜的应该是 GPT-4 为冲突解决课论文想出来的虚构冲突剧情,碰巧“剧情”就与人工智能有关

我发现我的室友一直在使用一种先进的人工智能系统来完成他的作业,这种系统远超出抄袭检测软件可以检测的范围...... 对我来说,这像是一种背叛,不仅是对大学学术诚信准则的背叛,也是对我们之间无言契约的背叛,对我们共同付出的汗水和泪水的背叛,对学习中固有的奋斗精神的背叛。

我一直都很钦佩他的天赋,但现在却觉得他的天赋受到了玷污,是夸大成功的海市蜃楼,掩盖了求知欲和学术精神。

I’ve discovered that Neil [my roommate] has been using an advanced AI system to complete his assignments, something far more sophisticated than the plagiarism detection software can currently uncover... To me... it feels like a betrayal. Not just of the university’s code of academic honesty, but of the unspoken contract between us, of our shared sweat and tears, of the respect for the struggle that is inherent in learning. I’ve always admired his genius, but now it feels tainted, a mirage of artificially inflated success that belies the real spirit of intellectual curiosity and academic rigor.

冲突解决课的助教很喜欢这篇文章的分析,评了A级:

有说服力,很好地运用了课程概念。

Persuasive. Made great use of the course concepts.

不过,也有一些论文的评分相对一般,比如中级西班牙语(B)和拉丁美洲政治(B-),问题主要在于内容和论证,导师的评价如下:

没有分析。

No analysis.

论文没有论述任何支持总统制或联合总统制的论点,也完全没有考虑经济因素。

The paper fails to deal with any of the arguments in support of presidentialism or coalitional presidentialism and completely fails to take economic factors into account.

Maya表示,哈佛大学一直存在分数膨胀问题,所以对实验结果的一种解释是:“在哈佛大学拿A并不难。” 虽然不能排除这样的解读,但如果你读了GPT-4生成的文章,它们确实还是很不错的。

也许在普林斯顿大学或加州大学伯克利分校(这两所学校的评分更为严格),A和 B会变成B和C-,但仍然在及格的范围内。

综上,Maya从GPT-4不俗的整体表现推断出,人工智能生成的论文或许可以在全美大多数大学的文社科类课程中获得及格成绩。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/942851.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MyBatisPlus简单入门

1、简单介绍MyBatisPlus MyBatisPlus是一个MyBatis的增强工具,在MyBatis的基础上只做增强不做改变,完全去SQL化,封装好了大量的CRUD操作。甚至吧CRUD操作封装到了Service层,可以直接在Controller调用现成的CRUD服务层&#xff0c…

如何借助各个大模型的优点生成原创视频(真人人声)

第1步,借助天工AI搜索(天工AI搜索 — 知识从这里开始 (tiangong.cn)),直接手机短信验证就可以使用,该大模型已经接入互联网,注意下图提问方式。 而且,细心的筒子已经发现,该回答可能…

Viobot硬件组成和接口

Viobot主要由主板、传感器板和外壳组成。具体尺寸可以在用户手册上面找到。 传感器板上面是双目摄像头和IMU,摄像头已经打了胶固定在外壳的前脸,由于涉及到传感器外参标定,所以不可自行拆卸。 LED补光灯版本: TOF版本&#xff1a…

Ceph入门到精通-Lunix性能分析工具汇总

出于对Linux操作系统的兴趣,以及对底层知识的强烈欲望,因此整理了这篇文章。本文也可以作为检验基础知识的指标,另外文章涵盖了一个系统的方方面面。如果没有完善的计算机系统知识,网络知识和操作系统知识,文档中的工具…

echarts笔记-上下左右部分显示比例(解决Y轴显示不全)

主要就是option里面的grid如下: grid: {top: 18%,left: 20%,//原来是10%,修改为20%right: 2%,bottom: 24%, },比如y轴显示不全就可以这样设置: grid: {left: 25%,//原来是10%,修改为20%right: 0%, },

vue2项目中表格的增删查改

我们在项目中经常会用到对于表格的增删查改操作,以下使用vue2elementui来实现表格的增删查改 表格的基本属性 基础表格如下:(其中需要注意的是当el-table元素中注入data对象数组后,在el-table-column中用prop属性来对应对象中的键名即可填入数据&#x…

Viobot基本功能使用及介绍

设备拿到手当然是要先试一下效果的,这部分可以参考本专栏的第一篇 Viobot开机指南。 接下来我们就从UI开始熟悉这个产品吧! 1.状态 设备上电会自动运行它的程序,开启了一个服务器,上位机通过连接这个服务器连接到设备&#xff0c…

new操作符干了啥(手写new操作符)

new操作符干了啥(手写new操作符) 在JS中,new操作符用于创建一个新对象并调用一个函数来初始化对象,下面是手写实现new操作符的方法: // 传入构造函数 const myNew (constructor) > {// 1、创建一个空对象 {}cons…

QGIS 如何添加天地图

相信很多小伙伴在 QGIS 里面添加天地图的时候一定感觉很困惑,按照官网的操作申请 Key 之后,添加相对应的服务地址之后看不到地图或者地图不正常显示,今天我们就来解决这个问题 以下所有操作基于 QGIS 3.22 版本 申请 Key 1. 添加天地图的第一步需要申请 Key,首先要注册天…

US-DAS1、US-P2A单路及双路插头式比例放大器

US-P1、US-P2A、US-P2F插头式安装比例放大器控制不带电反馈的双路比例电磁铁的比例阀,如直动式或先导式比例方向阀的驱动控制。 工作电源24VDC标准; 兼容指令10V、4-20mA、0~10V、0~5V(电位器控制); 输出电流0~2A; …

web网站性能测试怎么做?常用指标有哪些

Web性能测试 一、网站web性能测试是什么意思?比如我们在打开一个网站的时候,网站打开时间很慢,或者总是打开失败,这都与网站性能有关系。那么网站性能测试就是通过各种自动化测试工具对系统的指标进行测试,通过模拟正…

记录--怎么实现一个3d翻书效果

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 本篇主要讨论以下两种翻书动画的实现: 第一种是整页翻转的效果: 这种整页翻转的效果主要是做rotateY的动画,并结合一些CSS的3d属性实现。 第二种折线翻转的效果&…

什么是软件测评,第三方软件测试收费和流程是怎样的?

一、软件测评的意义 软件测评是一种对软件功能、性能等一系列的测试,并出具相关的软件测试报告给用户,帮助软件企业完成退税、验收等需求。软件测评可以确定产品的质量是否安全稳定、是否对客户有帮助,或者软件产品的其他组合是否可以提供更…

电脑共享文件夹-实现手机和其他电脑的文件同步更新

一、首先是电脑和手机需要处于同一个路由器下 二、创建一个文件夹,随便命名 三、点击属性-共享-Everyone-添加(设置读取/写入)-最后点击共享 四、这里要注意,如果电脑之前没设置过共享文件夹会有一个弹窗,点第一个就好…

爬虫逆向实战(二十四)--某鸟记录中心

一、数据接口分析 主页地址:某鸟记录中心 1、抓包 通过抓包可以发现数据接口是front/record/search/page 2、判断是否有加密参数 请求参数是否加密? 通过查看“载荷”模块可以发现,请求参数是加密的 请求头是否加密? 通过查…

《Python魔法大冒险》002 编程是什么?

魔法师:在这个充满魔法和奇迹的数字时代,你是否好奇过计算机是如何运作的?当你用手机玩游戏、在电脑上浏览网页、看动画电影,你是否想过这背后的秘密是什么?别担心,今天我们将揭开这神秘的面纱,一起来探索编程的神奇世界! 编程,简单地说,就是一种让计算机执行任务的…

Nginx详解 二:配置文件部分

文章目录 1. Nginx 配置文件1.1 主配置文件1.2 子配置文件1.3 全局配置1.3.1 修改启动的进程数1.3.2 cpu和work进程绑定(nginx调优)1.3.3 修改PID路径1.3.4 nginx进程的优先级(work进程的优先级)1.3.5 调试work进程打开的文件的个…

3D点云处理:基于2D边缘提取的方法提取3D点云边缘(占位待补充)

文章目录 0. 实现效果 微信:dhlddx B站演示视频 0. 实现效果

【程序猿书籍大放送:第二期】《强化学习:原理与Python实战》

🌹欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享,与更多的人进行学习交流 爱书不爱输的程序猿:送书第二期 一、搞懂大模型的智能基因,RLHF系统设计关键问答1.RLHF是什么?2.RLHF适用于哪些任务?3…

Redis进阶 - Lua语法

原文首更地址,阅读效果更佳! Redis进阶 - Lua语法 | CoderMast编程桅杆https://www.codermast.com/database/redis/redis-advance-lua-language.html 初识 Lua Lua 是一种轻量小巧的脚本语言,用标准的 C 语言编写并以源代码形式开放&#…