用「图灵测试」检验AI尤其是大语言模型,真的科学吗?

news2024/9/20 12:38:00

当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否像人一样聪明呢?

在发布后的近两年时间里,ChatGPT 表现出了一些非常类似人类的行为,比如通过律师资格考试。这让一些人怀疑,计算机的智力水平是否正在接近人类。大多数计算机科学家认为,机器的智力水平还不能与人类相提并论,但他们还没有就如何衡量智力或具体衡量什么达成共识。

检验机器智能的经典实验是图灵测试,由艾伦・图灵在其 1950 年发表的论文《Computing Machinery and Intelligence》中提出。图灵认为,如果计算机能让与之进行打字对话的人相信它是人类,这可能就是智能的标志。大型语言模型(LLM),如 GPT,擅长像人一样说话,但尚未令人信服地通过图灵测试。

2023 年,加州大学圣迭戈分校(UCSD)的研究人员公开进行了一次图灵测试,目的是比较最新的 LLM 与 20 世纪 60 年代开发的聊天机器人 Eliza 的表现。在律师资格考试中获得高分的 GPT-4 表现相当出色,在 41% 的游戏中,评委认为它与人类无异。而它的前身 GPT-3.5 只通过了 14% 的游戏,低于 Eliza 的 27%。人类在 63% 的游戏中通过(被判定为人类)。

_论文链接:https://arxiv.org/pdf/2310.20216v1

负责这项实验的 UCSD 认知科学博士生 Cameron Jones 说,人类得分如此之低并不奇怪。这是因为玩家预计模型会表现出色,所以他们更容易认为人类只是一个听起来像人类的模型。Jones 说,目前还不清楚聊天机器人必须达到多少分才能赢得游戏。

图灵测试可用于检查客服聊天机器人是否以人们乐于接受的方式与人互动,从而展示 Jones 所说的灵活的社交智能。不过,它能否识别出更通用的智能还很难说。Jones 说:「我们对什么是人类的智能还不甚了解。如果我们能更快地通过模型解决这个问题,我会感到很惊讶。」

圣塔菲研究所复杂性学教授 Melanie Mitchell 说:「我认为图灵测试的整个概念都被过于字面化了。」她认为,图灵提出的「模仿游戏」是一种思考机器智能可能是什么样子的方法,而不是一种定义明确的测试。「人们轻率地使用这个术语,说大型语言模型通过了图灵测试,而事实上它们并没有通过测试。」

新的测试

不过,如果图灵测试不能可靠地评估机器智能,那就提出了一个问题:什么方法可以?普林斯顿大学心理学家 Philip Johnson-Laird 和德国开姆尼茨工业大学预测分析学教授 Marco Ragni 在 2023 年 11 月发表在《智能计算》杂志上的一篇论文中提出了一个不同的测试方法:他们建议把模型当作心理实验的参与者,看看它能否理解自己的推理过程。

例如,他们会向一个模型提出这样的问题:「如果 Ann 很聪明,那么她是聪明还是富有,或者两者都是?」虽然根据逻辑规则,可以推断出安是聪明人、富人或两者都是,但大多数人类都会拒绝这个推断,因为设定中没有任何东西表明她可能是富人。如果模型也拒绝了这一推断,那么它的行为就和人类一样,研究人员就会进入下一步,要求机器解释其推理。如果它给出的理由与人类相似,第三步就是检查源代码中模拟人类表现的组件。

这些组件可能包括一个快速推理系统、另一个更深思熟虑的推理系统,以及一个根据上下文改变 「或」等词的解释的系统。研究人员认为,如果模型通过了所有这些测试,就可以认为它模拟了人类智能。

英国考文垂大学研究机器智能并进行过图灵测试的计算机教授 Huma Shah 说,Johnson-Laird 和 Ragni 的方法可能确实会提供一些有趣的见解,但质疑一个模型的推理能力并不是什么新鲜事。「图灵测试允许这种逻辑质疑,」她说。

Shah 还表示,试图测试智力的麻烦在于,这首先取决于人们如何定义智力。是模式识别能力、创新能力,还是创造音乐或喜剧等创意的能力?「因此,如果我们没有就人工智能中的『I』达成一致,那么我们怎么能建立通用人工智能(AGI)呢?」

谷歌的软件工程师和人工智能专家 Francois Chollet 则认为图灵测试并不是特别有用。他说,一个好的测试应该有一个确切的、形式化的目标,并且应该衡量一个系统有多接近这个目标。他指出:「图灵测试并没有做到这些。」

Chollet 说,LLM 在图灵测试中的表现只能说明他们擅长使用语言,而这种技能完全来自于对大量数据的记忆。他认为,真正的智能并不在于掌握某项技能,而在于把学到的知识运用到新的、不同的情境中。「LLM 百分之百都是记忆。他们没有智能。他们没有适应能力。」Chollet 说。

在他看来,智力是一种有效获得新技能的能力,而这些技能是训练过程中没有准备好的,目的是完成与系统之前所见过的任务差异足够大的任务。人类终其一生都在与世界互动,本质上是在进行实验,以便建立一个反映世界如何运行的模型。这样当他们遇到新情况时,就能学会如何处理。新技能的范围越广,计算机就越接近实现通用人工智能。

Chollet 说:「如果你能让学习过程像人类大脑一样高效地处理信息,那么你就拥有了 AGI。」到目前为止,机器的学习效率远远落后于人脑,大约比人脑低 1 万倍。例如,计算机需要数百万张图片才能学会识别猫的图片,而人类只需一两个例子就能学会识别猫。

为了测试他定义的智力,Chollet 开发了抽象与推理语料库(ARC)。ARC 的挑战是通过基本的积木,如形状或大小等简单概念来完成的。这些积木用于创建任务,如按大小对物体进行分类或补全对称图案。测试对象会看到三个示例,他们应该能够识别目标并完成任务。Chollet 说,最好的 AI 大约有 30% 的时间能够实现目标,而人类则有 80% 的时间能够做到。

_项目链接:GitHub - fchollet/ARC-AGI: The Abstraction and Reasoning Corpus

每项任务都不同于测试对象以前见过的任何任务,因此死记硬背无济于事。他说:「这是一场无法练习的游戏。当 GPT-4 通过律师资格考试时,很可能是因为它见过足够多与考试相似的例子,所以它能给出合理的答案,而不需要对法律有任何内在的理解。」

「这不是一个完美的测试。它有很多局限性和缺陷,」Chollet 说。例如,任务中存在足够多的冗余,在举出足够多的例子后,测试对象可能会对答案做出有根据的猜测。不过,他说,它的基本思想是可靠的。

前面提到的圣塔菲研究所复杂性学教授 Melanie Mitchell 认为,要想获得类似人类的通用智能,就必须有能力完成远远超出训练数据的任务。她和她的小组提出了 ARC 的修订版,围绕基本概念组织任务,例如一物在另一物之上,或一物在另一物之内。

ConceptARC 的理念是测试计算机解决方案的稳健性,方法是让计算机推导出一个概念的规则,然后将该概念应用到新任务中。

论文链接:https://arxiv.org/pdf/2305.07141

例如,她可能会向人工智能展示一个网格,在这个网格中,黄色方格位于蓝色方格之上,而这个蓝色方格又位于黄色方格之上。接着可能是一个红色圆圈在一个绿色圆圈上面,然后又换成一个绿色圆圈在一个红色圆圈上面。人类应该很容易理解的概念是,颜色在垂直位置上互换。然后,计算机必须将这一规则应用到一对新的图形中。Mitchell 说,这些任务对人类来说很容易,但对机器来说似乎仍然非常具有挑战性。

Mitchell 说,在某些情况下,比如试图在海量数据中做出发现,计算机最好有自己的抽象方法。但在与人交互的情况下,例如驾驶汽车,以人类的方式理解世界就非常重要。

「我不认为智能是全有或全无。它是一个范围,计算机做的某些事情是智能的,」Mitchell 说。「如果你想谈论完全的、人类水平的智能,我会说我们还有些遥远,因为人类水平的智能有许多方面是我们看不到的。」

作者:机器之心
链接:https://juejin.cn/post/7408606153393831948

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2092084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++习题28-计算2的N次方

目录 一&#xff0c;题目 二&#xff0c;思路 三&#xff0c;代码 一&#xff0c;题目 描述 任意给定一个正整数N(N<100)&#xff0c;计算2的n次方的值。 输入描述 输入一个正整数N。 输出描述 输出2的N次方的值。 用例输入 1 5 用例输出 1 32 二&#xff0…

【python入门到精通专题】1.知识与环境准备

小节目标: 计算机基础知识了解编程语言python安装与卸载pycharm安装与卸载终端的使用 一.计算机基础 程序员要想让计算机工作&#xff0c;必须知道计算机能干什么&#xff0c;怎么干的&#xff0c;这也就是我们必须学习计算机基础的原因 1.硬件系统 理解方式: 你通过耳朵和…

英文文献翻译工具推荐哪个?高效学习新选择

在学习英语的旅途中&#xff0c;我们难免会遇到难以理解的词汇、句子或整篇文章。 这时&#xff0c;一款优秀的英文文献翻译软件就显得尤为重要。它不仅能助你一臂之力&#xff0c;还能让你的学习过程更加高效。 本文将为你推荐五款英文文献翻译软件免费版&#xff0c;它们将…

【十滴水 / 4】

题目 代码 #include <bits/stdc.h> using namespace std; const int N 3e510; unordered_map<int, int> mp; int c, m, n; int res; struct grid{int l;int r;int pos;int val;bool explode;bool const operator < (const grid& a){return pos < a.pos…

【JDBC】DAO和增删改查通用方法 | 案例

九、DAO和增删改查通用方法 DAO&#xff1a;Data Access Object访问数据信息的类和接口&#xff0c;包括了对数据的CRUD&#xff08;Create、Retrival、Update、Delete&#xff09;&#xff0c;而不包含任何业务相关的信息 作用&#xff1a;为了实现功能的模块化&#xff0c;…

【推荐100个unity插件之30】只需拖放即可实现Unity UI动画——AnimationUI插件的视野

地址 github&#xff1a;https://github.com/DhafinFawwaz/Unity-AnimationUI gitee&#xff1a;https://gitee.com/xiangyuphp/Unity-AnimationUI 介绍 AnimationUI是一个统一的工具&#xff0c;可以轻松创建UI动画&#xff0c;无需代码。您可以简单地拖放来创建一些平滑的…

鸿蒙开发5.0【基于Swiper的页面布局】

场景一&#xff1a;Swiper页面支持自定义动画 方案&#xff1a; 给Swiper组件设置.nextMargin(50).prevMargin(50)属性。 给Swiper组件添加onChange事件&#xff0c;设置当前this.currentIndexindex&#xff0c;当currentIndex为首页或者尾页时&#xff0c;设置上一张以及下一…

“喂饭级”教程!建筑AI生成设计Stable Diffusion看这篇就够了!

前言 你最近是否看过这样的“魔法案例”&#xff0c;由一张简单的SU体块图片&#xff0c;快速生成多个设计方案&#xff0c;就像这样&#xff1a; ©绘图空间 而看过之后&#xff0c;你是否也在心里想着——“教练&#xff01;我要学这个&#xff01;” 今天我们就将带你…

YOLOv7输出层之间的热力图

我们经常看到一些论文里绘制了不同的热力图&#xff0c;来直观的感受其模型的有效性。特别是使用了注意力模块的网络&#xff0c;热力图就可以验证注意力机制是否真正聚焦到了预期的重要特征上&#xff0c;以便对模型的有效性和合理性进行评估。 例如Centralized Feature Pyra…

青蛙跳台阶与汉诺塔问题

hello&#xff0c;各位小伙伴们上次我们复习了C语言小tip之函数递归&#xff0c;这次我们来使用函数递归来完成青蛙跳台阶和汉诺塔问题&#xff01; 青蛙跳台阶问题 青蛙跳台阶问题&#xff1a;一只青蛙跳n阶台阶&#xff0c;一次可以跳1阶或者两阶&#xff0c;问有多少种情况…

【精选】基于Hadoop的热点事件分析的设计与实现(全网最新定制,独一无二)

博主介绍&#xff1a; ✌我是阿龙&#xff0c;一名专注于Java技术领域的程序员&#xff0c;全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师&#xff0c;我在计算机毕业设计开发方面积累了丰富的经验。同时&#xff0c;我也是掘金、华为云、阿里云、InfoQ等平台…

Ubuntu 24.04 LTS源码安装doccano

引言 doccano是一款面向机器学习从业者的开源数据标记工具。您可以使用 doccano 执行不同类型的标记任务&#xff0c;支持多种数据格式。要了解 doccano 的功能&#xff0c;请试用doccano 演示版。 1.软件下载 git clone https://github.com/doccano/doccano.git cd doccano …

python学习——爬虫之session请求处理cookie

import requestssessionrequests.session() url"https://passport.17k.com/ck/user/login" data{"loginName": "19139186287","password":"2001022600hzk"} ressession.post(url,datadata) print(res.text)# session通过会话…

vue-创建项目、工程

安装node.js 自己百度 安装vue-cli 在cmd 命令行窗口输入 npm install --global vue-cli,vue-cli是创建脚手架的工具 安装完成之后&#xff0c;输入 vue -V 查看版本号,出现版本号说明安装成功 创建vue项目 默认创建 首先创建一个test测试文件夹 然后在文件内的地址栏输入…

Kimi 化身为你的私人翻译神器

在这个全球化的时代&#xff0c;无论是职场上的无缝沟通、学习资料的快速获取&#xff0c;还是日常生活中的轻松跨语言交流&#xff0c;我们都渴望拥有一个强大且便捷的翻译伙伴。Kimi&#xff0c;正是这样一位值得信赖的翻译神器。今天&#xff0c;就让我们一同探索如何高效地…

使用nvitop来监控 NVIDIA GPU 的使用情况

1.安装nvitop&#xff1a; pip install nvitop2.运行 nvitop: nvitop显示如下&#xff1a; 显示信息含义 1. 顶部信息栏 当前时间&#xff1a;显示当前的系统时间&#xff08;Sat Aug 31 16:33:03 2024&#xff09;。提示信息&#xff1a;提示可以按 h 键获取帮助或按 q 键…

论文4解析(复现):带有初速度的S形路径轨迹规划方法

论文&#xff1a;带有初速度的S形路径轨迹规划方法&#xff0c;史伟民 论文介绍了一种带有初速度的情况下进行轨迹规划的方法。 总得来说&#xff0c;是可以实现在运动过程中重新进行轨迹规划。 指数加减速&#xff1a;..... 直线型加减速&#xff1a;..... S形加减速&…

中仕公考:公务员考试缺考有影响吗?

公务员考试缺考的影响根据考试阶段的不同又所区别&#xff0c;中仕为大家介绍一下&#xff1a; 笔试阶段的缺考后果&#xff1a; 在公务员考试中&#xff0c;若考生未能按时参加笔试&#xff0c;将自动视为放弃该次考试机会。此行为不会对考生的个人信用产生任何负面效应&…

2024最新软件测试面试题(含答案解析+文档)

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一、软件测试基础面试题 1、阐述软件生命周期都有哪些阶段? 常见的软件生命周期模型有哪些? 软件生命周期是指一个计算机软件从功能确定设计&#xff0c;到…

软件测试面试八股文(答案解析+文档)

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一、软件测试基础面试题 1、阐述软件生命周期都有哪些阶段? 常见的软件生命周期模型有哪些? 软件生命周期是指一个计算机软件从功能确定设计&#xff0c;到…