一个机器学习工程师发推特说:“这太疯狂了!”一家专注于人工智能新闻的账号称这是一项“开创性的研究”。这项研究声称,ChatGPT能够以100%的准确率完成麻省理工学院的数学、计算机科学和电气工程本科课程。
它每个问题都答对了。
然而,就在发布后不久,三位麻省理工学院的学生仔细研究了这项研究的方法以及作者用来得出结论的数据。
这项研究于6月中旬发布,是一篇未经同行评审的预印本。但它有15位作者,其中包括几位麻省理工学院的教授。研究中有着彩色编码的图表和充满统计数据的表格。考虑到最近几个月聊天机器人表现出的无所不知的能力,AI能够毕业于麻省理工学院似乎并不完全不可思议。
他们对发现的内容感到“惊讶和失望”,发现存在“明显的问题”,据他们看来,这意味着ChatGPT通过欺骗的方式顺利通过了麻省理工学院的课程。他们把他们详细的批评命名为“不,GPT4并不能在麻省理工学院表现出色”,并加了一个捂脸的表情符号以强调他们的评估。
刚开始的时候,这篇研究似乎是记录人工智能快速进展的一个里程碑,但在这些学生揭露的事实面前,它更像是一种尴尬,或者说是一个警示。
其中一位学生Neil Deshmukh在阅读论文时持怀疑态度。他怀疑ChatGPT是否真能应对麻省理工学院的课程,考完所有的期中和期末考,而且还完美无瑕地完成。Deshmukh在一个对机器学习感兴趣的麻省理工学院学生的群聊中分享了论文链接。另一位学生Raunak Chowdhuri阅读了论文后立刻发现了一些警示信号。他提议他和Deshmukh一起撰写关于他们担忧的内容。
他们两人和第三位学生David Koplow开始深入研究研究结果,并通过短信互相交流他们的发现。一个小时后,他们对研究的方法论产生了怀疑。两个小时后,他们对数据本身产生了怀疑。
首先,他们发现一些问题根本无法在作者提供的信息下得出答案,因为上下文信息太少了。还有一些所谓的“问题”根本不是问题,而只是代写作业而已:ChatGPT如何完成这些作业,按照什么标准进行评分?学生们写道:“要么是答案在提示中泄漏了,要么是这些问题的评分不正确。”
这项研究使用了所谓的few-shot prompting技术,这是训练像ChatGPT这样的大型语言模型执行任务时常用的技术。这个技术涉及向聊天机器人展示多个示例,以使其更好地理解任务要求。在这种情况下,多个示例与答案本身非常相似,他们写道,就像“一个学生在考试前被告知答案然后再参加考试”。
他们在一个星期五的下午开始撰写批评,一直忙到深夜。他们反复检查自己的发现,担心自己可能误解了或对论文的作者们不公平,其中一些作者是他们的同学,还有一些是他们所就读大学的教授。“我们真的无法想象列出的15位作者会忽略所有这些问题,”Chowdhuri说道。
他们发布了批评并等待反应。这三人很快就被通知和祝贺信息淹没。他们的批评链接发表的推文获得了超过3000个赞,引起了包括人工智能知名学者Yann LeCun在内的高知名度学者的关注,后者被认为是AI的“教父”之一。
对于论文的作者们来说,这样的关注并不受欢迎,他们急于弄清楚出了什么问题。其中一位作者是MIT的电气工程和计算机科学系教授、该校计算机科学和人工智能实验室的副主任Armando Solar-Lezama。他说他不知道论文会作为预印本发布。此外,他也不知道有人声称ChatGPT能在麻省理工学院的本科课程中表现出色。他称这个想法是“荒谬的”。
虽然ChatGPT在某些方面表现出色,但它并不是一个全能的系统。学生们的批评揭示了ChatGPT在处理复杂问题和详细信息方面的局限性。尽管人工智能在某些领域取得了巨大进展,但它仍然远远落后于人类在理解和创造方面的能力。