GPT-4在概念推理任务表现不如人类，还需继续学习提高！

GPT-4在概念推理任务表现不如人类，还需继续学习提高！

news2026/2/15 0:33:43

圣达菲研究所的科研人员对 GPT-4在推理和抽象能力方面与人类的差距进行了定量研究。他们使用 ConceptARC 基准测试评估了 GPT-4在文本和多模态方面的表现，并发现 GPT-4仍然与人类存在较大差距。对于 GPT-4的抽象推理能力，研究人员发现，无论是纯文本版还是多模态版，GPT-4在抽象推理方面的准确率都远远不及人类。文章指出，要想从 GPT-4的水平发展出 AGI（人工通用智能），还有很长的路要走。

研究论文链接：https://arxiv.org/abs/2311.09247
更多消息：AI人工智能行业动态，aigc应用领域资讯

ConceptARC 是如何测试的？

ConceptARC 是一套基于人工推理与抽象概念的评测系统。它包含了1000多个手动设计的类比谜题任务，每个任务都含有一小段（通常2-4个步骤）网格变换的演示过程，以及一个待检测的“测试输入”网格。被测试对象需要根据演示中的线索，归纳出变换背后的基本规则，然后将规则应用到测试输入网格上，生成出经过相同变换后的结果网格。

如下图，通过观察演示的规则，挑战者需要生成一个新的网格。

ARC（人工概念能力测试）项目的设计目的是强调从有限样本中总结出普遍规律或模式，并能够灵活应用于新的未见样本。这与语言或先前训练数据依赖的“近似匹配”不同，后者可能会在基于语言的推理任务中获得表面成果。

ConceptARC在此基础上进行改进。它收集并组织了480个任务，这些任务围绕若干核心空间和语义概念(如上下、内外、中心、相同不同等）进行了系统化设计。每个任务以不同方式实现某一概念，抽象程度不尽相同。

这种设计改进使概念表征变得更加抽象，从而对人类来说难度相对降低。同时也可以更好地评估GPT模型与人类在解决涉及这些关键概念的抽象推理问题方面的能力差异。这对评估自然语言处理模型在概念推理能力方面的深度提供了一个较好的测试平台。

测试结果，GPT-4比起人类还有很大差距

对于纯文本版本的GPT-4,研究人员给予它更充足的提示信息进行评估。这些提示包含任务说明和示例解答，如果GPT-4答错，会要求它提供二次和三次答案。

研究人员在不同的温度参数设置下测试GPT-4。温度参数控制生成文本的多样性和不确定性程度，温度值越高，表现越随机。对480个完整任务,GPT-4在各温度参数下的正确率都明显低于人类。

相比于纯文本版本，研究人员也测试了多模态版本的GPT-4。它可以利用视觉和语义信息，避免仅依靠语言推理的限制。测试结果显示，在ConceptARC类比推理任务中，多模态GPT-4的表现有了明显提升，但与人类水平的差距还很大，表明模型在概念级抽象推理能力还有很大提升空间，如下图所示。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1351031.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

浏览器---善用的一些调试技巧

浏览器---善用的一些调试技巧

https://www.cnblogs.com/dasusu/p/17932742.html

阅读更多...

初识Linux下进程

初识Linux下进程

🌎初识进程初识进程简单认识一下进程如何管理进程进程属性信息内核运行队列查看进程通过系统调用获取进程标识符父子进程查看运行中的进程总结前言： 我们在电脑上点开的一个个应用，其实就是一个个进程&am…

阅读更多...

计算机网络（7）：网络安全

计算机网络（7）：网络安全

网络安全问题计算机网络上的通信面临以下的四种威胁: (1)截获(interception)攻击者从网络上窃听他人的通信内容。 (2)中断(interruption)攻击者有意中断他人在网络上的通信。 (3)篡改(modification)攻击者故意篡改网络上传送的报文。 (4)伪造(fabrication)攻击者伪造信息在网…

阅读更多...

DrGraph原理示教 - OpenCV 4 功能 - 阈值

DrGraph原理示教 - OpenCV 4 功能 - 阈值

普通阈值 OpenCV中的阈值用于相对于提供的阈值分配像素值。在阈值处理中，将每个像素值与阈值进行比较，如果像素值小于阈值则设置为0，否则设置为最大值（一般为255）。在OpenCV中，有多种阈值类型可供选择&am…

阅读更多...

融资项目——异常处理

融资项目——异常处理

当前端请求后端服务的时候，如果后端出现bug。会返回给前端通用的500异常结果。但是在项目开发中，我们一般会定义一个统一结果类R用于返回结果数据，所以我们希望将错误也用统一结果类对象返回给前端。 1. 同一异常处理器。面对一般的错误&…

阅读更多...

二维码地址门牌系统技术服务：让您的生活更便捷，一码通行，安全无忧

二维码地址门牌系统技术服务：让您的生活更便捷，一码通行，安全无忧

文章目录前言一、融合二维码技术与门牌的便捷服务二、手机开门便捷功能三、智能化安全保障四、智能化、便捷化的新型技术前言在数字化时代，二维码门牌系统技术应运而生，为了满足人们对安全、便捷生活的需求。这项技术将二维码与门牌结合，…

阅读更多...

关于各种浏览器或操作系统深色模式的设置，看这篇文章就够了

关于各种浏览器或操作系统深色模式的设置，看这篇文章就够了

无论你是在家里设立办公室，还是带着笔记本电脑去当地的咖啡馆，或者在格子间度过一天，都可以通过在网络浏览器中启用深色模式来让你的眼睛休息一下。深色模式不会改变你访问的页面的颜色（这是由网站开发者设置的）；它将使工具栏和“设置”页面更容易查看，尤其是在冬季较…

阅读更多...

centos7通过systemctl启动springboot服务代替java -jar方式启动

centos7通过systemctl启动springboot服务代替java -jar方式启动

背景：以前启动jar包都是通过java -jar，后面了解到一种注册服务式启动jar包的方式，所以做个记录。注意：我在写该篇博客的时候，给脚本代码都加了#注释来解释该行脚本命令的意思，所以可能出现复制该篇博客脚本…

阅读更多...

gookit/color - Go语言命令行色彩使用库教程

gookit/color - Go语言命令行色彩使用库教程

gookit/color - Go语言命令行色彩使用库教程 1.安装2.基础颜色(16-color)3.256色彩/RGB风格 1.安装 go get github.com/gookit/color2.基础颜色(16-color) 提供通用的API方法：Print Printf Println Sprint Sprintf 1、例如： color.Yellow.Println(&q…

阅读更多...

Elasticsearch：使用 ELSER v2 文本扩展进行语义搜索

Elasticsearch：使用 ELSER v2 文本扩展进行语义搜索

Elastic 提供了一个强大的 ELSER 供我们进行语义搜索。ELSER 是一种稀疏向量的搜索方法。我们无需对它做任何的微调及训练。它是一种 out-of-domain 的模型。目前它仅对英文进行支持。希望将来它能对其它的语言支持的更好。更多关于 ELSER 的知识，请参阅文章 “Elas…

阅读更多...

关键字：new关键字

关键字：new关键字

在 Java 中，new关键字用于创建对象实例。它是对象创建的语法糖，用于分配内存空间并调用构造函数来初始化对象。以下是new关键字的基本语法： 在上述语法中，ObjectType是要创建对象的类名，objectName是对象的引用变量…

阅读更多...

Android textview展示富文本内容

Android textview展示富文本内容

今天实现的内容，就是上图的效果，通过Span方式展示图片，需要支持文字颜色改变、加粗。支持style\"color:green; font-weight:bold;\"展示。尤其style标签中的font-size、font-weight是在原生中不被支持的。所以我们今天需要使用自…

阅读更多...

听GPT 讲Rust源代码--compiler(2)

听GPT 讲Rust源代码--compiler(2)

File: rust/compiler/rustc_codegen_cranelift/build_system/prepare.rs 在Rust源代码中，rust/compiler/rustc_codegen_cranelift/build_system/prepare.rs文件的作用是为Cranelift代码生成器构建系统准备依赖项。具体来说，该文件的主要目标是处理Crane…

阅读更多...

HarmonyOS自学-Day3(做个登录功能小案例)

HarmonyOS自学-Day3(做个登录功能小案例)

目录文章声明⭐⭐⭐让我们开始今天的学习吧！登录功能小案例文章声明⭐⭐⭐ 该文章为我（有编程语言基础，非编程小白）的 HarmonyOS自学笔记，此类文章笔记我会默认大家都学过前端相关的知识知识来源为 HarmonyOS官方文…

阅读更多...

信息管理就业方向之产品经理

信息管理就业方向之产品经理

学长分享自己确定互联网产品经理的工作方向以及产品经理的相关工作情况。互联网领域产品经理是对一个软件或者平台产品的运维和设计。比如网上订机票业务，需要根据筛选用户的需求，确定要实现的某个需求，然后画出原型图，流程图等…

阅读更多...

blender mix节点和它的混合模式

blender mix节点和它的混合模式

Mix 节点是一种用于混合两个颜色或者两个图像的节点，它有以下几个输入和输出： Color1：用于接收第一个颜色或者图像，也就是基色。Color2：用于接收第二个颜色或者图像，也就是混合色。Fac：用于控制…

阅读更多...

一个计算机视觉从业者2023回顾

一个计算机视觉从业者2023回顾

作为一个计算机视觉从业者，我非常认同上面所列的技术发展规划。在计算机视觉领域，我认为要实现这些规划，需要注重以下几个方面的发展和预测： 深入学习新技术：计算机视觉领域的技术发展非常迅速，不断涌现出新…

阅读更多...

原生与封装Ajax

原生与封装Ajax

Ajax 一.Ajax概述 1.应用场景在线视频、直播平台等…评论实时更新、点赞、小礼物、…会员注册时的信息验证，手机号、账号唯一百度关键搜索补全功能 2.简介 Ajax 即“Asynchronous Javascript And XML”（异步 JavaScript 和 XML）&#x…

阅读更多...

全面分析解决mfc110u.dll丢失的5种方法，简单三步即可搞定

全面分析解决mfc110u.dll丢失的5种方法，简单三步即可搞定

在计算机使用过程中，我们可能会遇到一些错误提示，其中“找不到mfc110u.dll”是常见的一种。mfc110u.dll是Microsoft Foundation Class（MFC）库中的一个动态链接库文件，它提供了许多用于开发Windows应用程序的函数和类。…

阅读更多...

Win7/Win10/Win11系统优点缺点

Win7/Win10/Win11系统优点缺点

Windows7优点： 熟悉的用户界面：Windows 7具有传统的用户界面，对于习惯了Windows XP或Windows Vista的用户来说很容易上手。稳定性高：Windows 7在稳定性方面表现良好，大多数用户都能够获得可靠的性能和运行体验。兼容…

阅读更多...

推荐文章

最新文章