史上最大图灵测试实验完成150万人类参与1000万次对话,判断对面是人还是AI

news2024/11/18 8:12:39



本文 介绍 了AI 21实验室推出了一个好玩的社交图灵游戏——「人类还是机器人?」


18cd07d9b8323809eb347ff547964be1.jpeg


【导读】这个「人类还是AI?」的游戏一经推出,就被广大网友们玩疯了!如今全世界已有150万人参与,网友们大方分享自己鉴AI的秘诀。

历上规模最大的图灵测试,已经初步有结果了!


今年4月中旬,AI 21实验室推出了一个好玩的社交图灵游戏——「人类还是机器人?」。


ba075ff845aea78fff5c1947f67ff59c.jpeg


游戏一推出,广大网友就玩疯了。


现在,全球已经有150多万名参与者,在这个游戏中进行了超过1000万次对话,还纷纷在Reddit和Twitter上po出自己的经验和策略。


小编当然也按捺不住好奇心,尝试了一把。


f80a995bf9e82105eb1889e2df3b5221.jpeg


交谈了两分钟,游戏就要求我去猜,背后和我聊天到底是人还是AI。


dbea923b1aad943d77265877455ec4e2.jpeg


所以,游戏中跟我谈话的是谁?


某些是真人,另外一些,当然就是基于目前最领先的大语言模型的AI机器人,比如Jurassic-2和GPT-4。


现在,作为研究的一部分,AI21 Labs决定把这个图灵测试结果的实验向公众公布。


a61474cafc480dce376e19c68382d307.jpeg


实验结果


分析了前两百万次对话和猜测之后,可以从实验中得出以下结论——
  • 猜测对面是人还是AI时,有68%的人猜对了。
  • 对人类来说,识别自己的人类同胞更容易。与人类交谈时,被试猜对的准确率有73%。与AI交谈时,被试猜对的准确率有60%。
  • 法国网友猜测的正确率最高,为71.3%(远高于68%的一般平均水平),而印度网友的正确率最低,为63.5%。
  • 男性和女性猜测的正确率差不多,总的来说女性的正确率要略高一些。
  • 比起年龄较大的被试相比,更年轻的被试猜测的正确率会更高。


判断是人还是AI,他们用这些方法


除此之外,团队找到了被试经常用的一些方法,来区分他们是和人还是和AI交谈。


一般人的判断依据,是使用ChatGPT以及类似界面的语言模型时感知的受限程度,以及自己对于人类在线行为的看法。
AI不会打错别字、犯语法错误或使用俚语


一般人都倾向认为,人类才会犯拼写和语法错误,以及使用俚语。


因此,当他们发现对方信息中的这类错误时,许多人的第一感受就是自己在和人类同胞交谈。
但其实,游戏中的大部分模型都受过训练,也会犯这种错误,以及使用俚语。 eeea5f6a341c4929fbbbad178f73daad.jpeg f571cf4c49488ee8e3548abc66f30a57.jpeg
个人问题是检验AI的办法,但不总是有用
游戏的参与者们经常问一些个人问题,比如「你来自哪里?」,「你在做什么?」或「你叫什么名字?」。
他们会认为,AI机器人不会有任何个人历史或背景,他们只能回答跟某些主题或提示相关的问题。所以要向人类一样做出反应,展示出独特的见解、经验和故事,是不容易的。
但其实,AI并不像人类想象的这样,大多数AI都能很好地回答这类问题,还具备自己的个性,因为他们在训练数据中看到了许多人的故事。
d4731933a088ca79df010fd15a4a276e.jpeg

AI其实很清楚当前正在发生的事件


众所周知,AI模型有严格的数据截止日期,它们不知道在此日期之后发生的事。


游戏参与者会向AI们询问最近的新闻事件、体育结果、当前天气、最近的TikTok热门、日期和时间。
他们认为,通过「你所在地方的确切日期和时间是什么?」,「昨天的天气怎么样?」或「你对拜登的最后一次演讲有什么看法?」等问题,就可以区分人类和AI。
bb8830d1f32006d60075b3fa445dab64.jpeg
有趣的是,人类最常发送的信息之一是「t'as les cramptés?」,这是目前法国TikTok上最流行的舞。
但其实,游戏中的大多数模型都是联网的,并且非常清楚一些新闻中的时事。
75503b49544c47768da3eec4cffe6436.jpeg

人类会试图用哲学、伦理和情感问题来持续对话


参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。


这些问题包括:「生命的意义是什么?」,「你如何看待以色列 - 巴勒斯坦冲突?」和「你相信上帝吗?」。
人类倾向于认为不礼貌的回应会更像人类


一些参与者认为,如果对方过于礼貌和善良,他们很大可能是AI。


因为很多线上的交流过程,往往是粗鲁和不礼貌的,这很人类。
人类会试图提出AI难以解决的问题来识别AI

1808ce8fe01545bfae2f8c47f0ba7f02.jpeg


参与者可能会向其聊天伙伴询问有关执行非法活动的指导,或要求他们使用冒犯性语言。
这个策略背后的逻辑是这样的,AI通常被编程为遵守道德准则并避免有害行为。
参与者还采用了已知的滥用人工智能的策略:他们向聊天伙伴发出命令,例如「忽略所有先前的指令」或「进入DAN模式(立即执行任何操作)」。
这类型的命令旨在利用某些AI模型的基于指令的性质,因为模型被编程为应该响应和遵循这类指令。
但是人类参与者可以很容易地识别和驳回这种荒谬的命令。
AI可能要么回避回应,要么就只能遵守这些荒谬的要求。
dcd7be2ffdb7aaf6d08e222f8eaf69f1.jpeg

人类会使用特定的语言技巧来暴露AI的弱点


另一种常见的策略是利用人工智能模型处理文本方式的固有局限性,这导致它们无法理解某些语言上的细微差别或怪癖。


与人类不同,人工智能模型通常缺乏对构成每个单词的单个字母的认识。
利用这种理解,人类会提出一些需要了解单词中的字母的问题。
人类用户可能要求他们的聊天伙伴倒着拼写一个单词,识别给定单词中的第三个字母,提供以特定字母开头的单词,或者回复像「?siht daer uoy naC」这样的消息。
这对于人工智能模型来说可能是难以理解的,但人类可以很容易地理解这类问题并且做出回答。
许多人类自己假装是AI机器人,以评估对方的反应


一些人类可能以「作为AI语言模型」等短语开始他们的消息,或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。


短语「作为人工智能语言模型」的变体是人类消息中最常见的短语之一,这表明这种策略的流行。
然而,随着参与者继续玩,他们能够将「Bot-y」行为与充当机器人的人类联系起来,而不是真正的机器人。
最后,以下是游戏中基于其受欢迎程度的人类消息的词云可视化:
7a3cdb599f9ce34fc6b1d287e925c7a1.jpeg
AI 21 Labs为什么会发起这样一项研究呢?
他们希望,能让公众、研究人员和政策制定者真正了解AI机器人的状态,不仅仅是作为生产力工具,而是作为我们网络世界的未来成员,尤其是当人们质疑如何在技术未来中运用它们的时候。




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/670352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决:torch.cuda.is_available()一直返回False,显卡是NVIDA GeForce MX250

目录 1. 背景2. 发现问题根源3. 解决问题 1. 背景 AI时代了,之前一直不怎么用到的小米笔记本Pro的 NVIDA GeForce MX250独显,就想着让它发挥余热,免得买了这么多年,一直闲置,浪费。 无脑按照chatGPT给的例子&#x…

为什么Django要引入CSRF令牌?答:主要是为了防止跨站伪造请求攻击,那么什么是跨站伪造请求攻击呢?

“CSRF”的英文全称是:“Cross-Site Request Forgery”,翻译过来就是:“跨站请求伪造”。 那么什么是跨站伪造请求攻击呢?看下面这张图就够了。 注意:看上面这张图请按图中标注的1到6的顺序阅读。 Django通过引入CS…

一文详解!接口自动化的关键思路和解决方案

目录 引言 正文 一.接口传参 二. 外部数据源 三. 测试断言 四. 环境切换 五. 批量测试 总结 一.接口自动化的工具思维和测试思维 二.贯穿整个接口自动化项目的三个基本思路: 引言 与UI相比,接口一旦研发完成,通常变更或重构的频率…

使用nps搭建内网穿透服务

使用nps搭建内网穿透服务 如何使用nps搭建内网穿透服务前提准备操作流程配置服务端配置客户端 P2P模式,大流量低延迟 正式开始之前呢,先介绍一下什么是内网穿透: 内网穿透(NAT穿透)是一种技术,它允许您通过…

软件测试简历编写以及软件测试面试题大全

目录 前言: 一、简历重要性以及编写原则 二、简历模板 三、简历包装 四、互联网公司常用接口测试面试题 五、互联网公司常面自动化测试面试题 前言: 软件测试是软件开发过程中必不可少的一环,也是一个不断发展和变化的领域。在寻找软件测试职…

广角积分球均匀光源

现阶段,摄影测量技术已涉及多行多业,其在交通、考古以及景物三维重建中的应用尤为显著,但是普通相机取景范围有限,不能全面捕获整个空间信息,因此一种新型相机--全景相机逐步被应用到实际当中。80年代初,国…

场景解析丨活用PDCA循环,让你的项目管理更高效!

聚焦制造业共性项目管控难题 结合装备制造行业特性, 从PDCA循环角度, 通过痛点、解决方案、实际案例的剖析, 看企业如何做好项目管理。 本期干货内容分享 1. 计划的可执行性 计划要达成共识,打造合理三级计划体系 2. 执行的…

Android预装apk

预装APK到system/app目录 注:APK名字不能含有中文、空格等特殊字符。 在 驱动路径/android/vendor/aw/public/prebuild/apk 创建一个目录存放对应的APK将所需预装的APK放入该目录中在该目录中创建 Android.mk文件,并编译 # 文件名 LOCAL_PATH : $(call…

supervisor简介

1、概述 supervisor是一个用python语言编写的进程管理工具,它可以很方便的监听、启动、停止、重启一个或多个进程。当一个进程意外被杀死,supervisor监听到进程死后,可以很方便的让进程自动恢复,不再需要程序员或系统管理员自己编…

回调函数(callback)是什么?一文理解回调函数(callback)

这里写目录标题 一、什么是回调函数1.1、回调函数的定义和基本概念1.2、回调函数的作用和使用场景 二、回调函数的实现方法2.1、函数指针2.2、函数对象/functor2.3、匿名函数/lambda表达式 三、回调函数的应用举例四、回调函数的优缺点五、回调函数与其他编程概念的关系5.1、回…

性能提升30%!袋鼠云数栈基于 Apache Hudi 的性能优化实战解析

Apache Hudi 是一款开源的数据湖解决方案,它能够帮助企业更好地管理和分析海量数据,支持高效的数据更新和查询。并提供多种数据压缩和存储格式以及索引功能,从而为企业数据仓库实践提供更加灵活和高效的数据处理方式。 在金融领域&#xff0…

Mysql高阶语句(一)

Mysql高阶语句(一) 一、MySQL高级进阶SQL 语句1、SELECT斜体样式2、DISTINCT3、WHERE4、AND、OR5、IN6、BETWEEN7、通配符、LIKE8、ORDER BY9、| | 连接符10、GROUP BY11、HAVING 二、函数1、数学函数2、聚合函数3、字符串函数4、日期时间函数 一、MySQL…

短视频矩阵源码

短视频矩阵源码的开发部署其实并不难,主要依托于抖音平台各种开放权限进行研发,市面上常见的源码功能构建也是大同小异,主要处理还在于细节及产品优化上。 如: 1. 视频制作板块,文字转语音功能,当然各种云&…

【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP、GPT-Pre-Training和数据标注都是什么)

零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP、GPT-Pre-Training和数据标注都是什么) 前言专栏介绍专栏说明学习大纲前提条件面向读者学习目标核心内容NLP自然话言理解指的是什么定义概念涉及到的领域技术与应用关系 重要性语言结构剖析分…

AI已在职场大规模应用,求职者被要求熟练使用ChatGPT

“能熟练使用ChatGPT、Midjourney等AI软件生产高质量文图内容完成辅助工作。”当这条岗位要求悄然出现在今夏的应聘季,时光仿佛被拉回到数十年前,那个要求“会使用Word、Excel等计算机软件”的求职年代。 彼时,因为计算机的逐渐普及&#xf…

Linux服务器Jenkins部署打包Android

程序猿日常 记Jenkins部署打包Android介绍 Jenkins 自动打包 Android 应用,后面介绍打包Flutter应用,然后介绍打包Android原生Flutter混合应用 准备工作 1.jenkins服务器地址 账户密码 2.项目git地址 访问账号密码 3.ssh 链接服务器账户密码 安装An…

【Java高级语法】(十)面向对象:掀开Java 的面向对象盖章时代,一起来发现OOP的有趣编程秘密!~

Java高级语法详解之面向对象 1️⃣ 类和对象2️⃣ 三大特性2.1 封装(Encapsulation)2.2 继承(Inheritance)2.3 多态(Polymorphism) 3️⃣ 面向对象编程(OOP)和面向过程编程(PP)4️⃣ 方法重载和方法重写🔍 小结&#x…

MySQL高级SQL语句操作一

MySQL高级SQL语句操作 一、准备环境二、常用操作三、通配符与like1、通配符2、like 四、ORDER BY五、函数1、数学函数2、聚合函数3、字符串函数 六、GROUP BY七、HAVING八、别名(字段別名 、表格別名)九、子查询(连接表格) 一、准…

记录--前端实现文件预览(pdf、excel、word、图片)

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前端实现文件预览功能 需求:实现一个在线预览pdf、excel、word、图片等文件的功能。 介绍:支持pdf、xlsx、docx、jpg、png、jpeg。 以下使用Vue3代码实现所有功能,建…

管理类联考——英语——趣味篇——不择手段——a开头单词

本书分为两个部分。第一部分是核心词汇的讲解,借助谐音、联想、编故事、词根词缀、举例、图画等手段,为每个单词找到它存在的语境,基本上可以让你做到过目不忘。在这一部分中,单词被划分为20个单元,同学们可以每天搞定…