苹果最新论文:LLM只是复杂的模式匹配 而不是真正的逻辑推理

news2024/11/24 11:23:59

大语言模型真的可以推理吗?LLM 都是“参数匹配大师”?苹果研究员质疑 LLM 推理能力,称其“不堪一击”!苹果的研究员 Mehrdad Farajtabar 等人最近发表了一篇论文,对大型语言模型 (LLM) 的推理能力提出了尖锐的质疑,他认为,LLM 的“推理” 能力,其实只是复杂的模式匹配,不堪一击!

在这里插入图片描述
论文作者研究了包括 Llama、Phi、Gemma、Mistral 等开源模型,以及 GPT-4o 和 o1 系列等闭源模型。需要指出的是,在 OpenAI 发布 GSM8K 的三年里,模型的性能有了显著提升,从 GPT-3 (175B) 的 35% 提升到了现在 30 亿参数模型的 85% 以上,更大的模型甚至超过了 95%。但 Farajtabar 认为,这并不能证明 LLM 的推理能力真的提高了

在这里插入图片描述
为了测试 LLM 的数学推理能力的极限,Farajtabar 和他的团队开发了一个名为 GSM-Symbolic 的新工具,它可以根据 GSM8K 测试集创建符号模板,从而能够生成大量实例并设计可控实验。他们生成了 50 个独特的 GSM-Symbolic 集合,这些集合本质上就像 GSM8K 示例,但具有不同的值和名称

在这里插入图片描述
GSM8K 是 “Grade School Math 8K” 的缩写,是一个用来评估数学问题解决能力的数据集。这个数据集主要包含小学级别的数学题目(大约 8,000 道题目),通常用于训练和测试机器学习模型,特别是在自然语言处理领域的模型如何处理和解决数学问题

实验结果,令人大跌眼镜:

1.当前 GSM8K 的准确率并不可靠! 不同模型在 GSM8K 上的表现差异巨大,例如 Llama 8B 的得分在 70% 到 80% 之间,Phi-3 的得分在 75% 到 90% 之间,等等。对于大多数模型,在 GSM-Symbolic 上的平均性能低于在 GSM8K 上的平均性能

在这里插入图片描述
在这里插入图片描述
2.所谓的 LLM 推理能力不堪一击! LLM 对专有名词和数字的更改非常敏感,这说明它们并没有真正理解数学概念。就像一个小学生,如果我们只是更改了数学测试题中的人名,他的分数就会下降 10% 吗?显然不会

在这里插入图片描述
3.随着问题难度的增加 (M1 → Symbolic → P1 → P2)。引入了 GSM-Symbolic 的三个新变体来研究模型行为:删除一个分句(GSM-M1)、增加一个分句(GSM-P1)或增加两个分句(GSM-P2),模型的性能下降,方差上升, 这意味着模型的可靠性越来越差
在这里插入图片描述
4.引入 GSM-NoOp 后,模型性能断崖式下跌! GSM-NoOp 是在 GSM-Symbolic 的基础上,添加了一个看似相关但不影响整体推理的子句。所有模型,包括 o1 模型,都表现出了显著的性能下降。这说明,即使是强大的 o1 模型,也无法真正理解数学问题的逻辑结构

在这里插入图片描述
5.即使是 OpenAI 的 o1 系列模型,也无法完全避免这些问题。 o1-preview 虽然有所改进,但仍然会犯一些低级错误,例如无法理解“现在”和“去年”的区别,这可能是因为训练数据中包含了“通货膨胀”的模式,模型只是简单地模仿了这种模式

在这里插入图片描述
Farajtabar 认为,

LLM 的这些表现,更好地解释是复杂的模式匹配,而不是真正的逻辑推理。 即使我们增加数据、参数和计算量,或者使用更好的训练数据,也只是得到了“更好的模式匹配器”,而不是“更好的推理器”

Denny Zhou (Google DeepMind 的 LLM 推理团队负责人) 也参与了讨论,他指出:

“这项工作的一个关键发现是:向 GSM8k 问题添加不相关的上下文会导致 LLM 无法解决这些问题,正如我们在 ICML 2023 年的论文‘大型语言模型很容易被不相关的上下文分散注意力’ 中所证明的那样。提示构建的差异在我看来仍然很有趣。”

Yuandong Tian (Meta AI 的研究科学家总监) 也表达了他的观点:

“核心问题是:凭借我们的领域知识,我们可以构建权重,使 LLM 在特定问题中进行良好的推理;然而,梯度下降可能无法学习到这样的权重;我们仍然依赖梯度下降,因为它为许多领域带来了魔力——如果它在其他领域变得愚蠢,我们也无能为力。”

结论

总的来说,这篇论文研究结果没有在包括 Llama、Phi、Gemma 和 Mistral 等开源模型,以及最近的 OpenAI GPT-4o 和 o1 系列等领先闭源模型在内的语言模型中,找到任何形式推理的证据。他们的行为可以用复杂的模式匹配来更好地解释——如此脆弱,以至于更改名称都会使结果改变约 10%!我们可以扩展数据、参数和计算量——或者为 Phi-4、Llama-4、GPT-5 使用更好的训练数据。但这可能只会产生“更好的模式匹配器”,而不是“更好的推理器”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2212521.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

<<迷雾>> 第11章 全自动加法计算机(5)--顺序取数 示例电路

顺序地从存储器里取数的电路方案. info::操作说明 在开始之前, 地址计数器 AC 需要清零, 以指向地址 0000. 按一下开关 KAR, 将 AC 当前的地址锁存到 AR 地址寄存器. 按住 KRD, 不要松开(注: 系统中使用的是普通开关, 无需按住), 再按一下 KDR, 数据保存到寄存器 DR 中, 最后,…

Mapstruct的使用备忘【代替BeanUtils高效率属性拷贝】

文章目录 Mapstruct的使用备忘【代替BeanUtils高效率属性拷贝】1. 引入mapstruct依赖2. 数据准备2-1 准备一个子类,TestData2-2 准备两个类,SourceData,TargetData,属性完全一样 3. 定义Mapper接口【注:这里的Mapper是…

AIGC毕设项目分享:基于RAG的数字人对话系统及其应用

本研究的主要目标是设计并实现一个基于检索增强生成(RAG)技术的数字人对话系统,旨在提升数字人系统在多轮对话中的上下文管理、情境感知能力以及动态内容生成效果。系统结合了深度学习中的最新大语言模型技术,通过引入RAG框架来增…

概率论基础01_事件概率

目录 一、事件 1、概率 1.1基本事件 1.3必然事件 1.4不可能事件 1.5样本空间 1.6样本点 2、事件间的关系 2.1包含关系 2.2并集 2.3交集 2.4差集 2.5互斥事件 2.6对立事件 2.7完备事件组 3、运算律 3.1交换律 3.2结合律 3.3分配律 3.4对偶律 二、概率 1、…

10.MySql全局参数优化

从上图可以看出SQL及索引的优化效果是最好的,而且成本最低,所以工作中我们要在这块花更多时间。 一、全局参数 配置文件my.ini(windows)或my.cnf(mac)的全局参数: 假设服务器配置为: CPU:32核 内存:64G…

2025推荐选题|基于MVC的农业病虫害防治平台的设计与实现

作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验,被多个学校常年聘为校外企业导师,指导学生毕业设计并参与学生毕业答辩指导,…

机器视觉AI场景为什么用Python比C++多?

好多开发者在讨论机在机器视觉人工智能领域的时候,纠结到底是用Python还是C,实际上,Python 和 C 都有广泛的应用,选择 Python而不是 C 可能有以下一些原因: 语言易学性和开发效率 语法简洁: Python 语法简…

【部署篇】Redis-01介绍‌

一、Redis介绍‌ 1、什么是Redis? ‌Redis,英文全称是Remote Dictionary Server(远程字典服务),Redis是一个开源的、使用‌ANSI C语言编写的‌Key-Value存储系统,支持网络、可基于内存亦可持久化。‌ 它提…

Android Compose 控件基本属性

本文的代码由上一篇文章的Demo进一步书写完成, 传送门:Android Compose的基本使用-CSDN博客 _____________________________________________________________________________ 以下代码分别列举了控件的: 内边距,外边距,内容居中,渐变自定义边框,宽度权重,string资源引用等…

走进面向对象编程的奇妙世界

在当今的编程领域,面向对象编程(Object - Oriented Programming,简称 OOP)犹如一颗璀璨的明星,照亮了软件开发的道路。 面向对象编程是一种基于对象概念的编程范式。那么,什么是对象呢?对象可以…

Windows系统C盘爆满了,如何清理?

Windows系统C盘爆满了,如何清理? 大家好,我是秋意零。 相信使用过Windows系统的朋友,都见过C盘那道靓丽的 “红色风景线” ! 我自己的Win10系统,已经使用了4-5年时间了。最近频频出现"红色风景线&q…

免费送源码:Java+Springboot+MySQL 水环境检测系统的设计与实现 计算机毕业设计原创定制

摘 要 在我国,水源的污染是不可忽视的问题。对于水质监测进行数据的采集工作,目前主要通过人工实现。因此,部分地区的采集工作,实施起来难度很大,比如恶劣环境和偏僻山区等地。所以,目前对于水质监测的研究,主导方向是建立更加高效完善,智能化的水质监测系统。近几年,无线传感器…

OpenUAV:首个专为现实无人机视觉语言导航设计的大规模轨迹数据集,由大约 12k 个轨迹组成,涵盖了多种环境和复杂的飞行动态。

2024-10-10,由北京航空航天大学人工智能研究所、香港中文大学MMLab以及感知与交互智能中心共同创建了OpenUAV数据集,首个专为现实无人机(UAV)视觉语言导航(VLN)任务设计的大型轨迹数据集,该数据…

java数据库操作-cnblog

创建lib目录,填入jar包 选择 libraries添加lib目录 package nb;import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException;public class JDBCtest {private static final String url "jdbc:mysql://localhost:3306/test?c…

ubuntu下打开摄像头

ubuntu下打开摄像头 在Ubuntu下,你可以使用cheese,这是一个开源的摄像头应用程序。如果你还没有安装它,可以通过以下命令安装: sudo apt-get updatesudo apt-get install cheese 安装完成后,你可以通过命令行启动它: cheese 或者,你也可以使用ffmpeg来打开摄像头并进…

navicate可视化数据库操作-cnblog

1 连接数据库 点击链接,自定义名称,输入root密码 2 准备按照图例创建数据库demo 3 新建数据库

使用 Visual Studio Installer Projects 打包 C# WinForms 程序的教程

前言 在开发完成一个 C# WinForms 程序后,打包成安装程序是发布和分发软件的重要步骤之一。通过使用 Visual Studio Installer Projects, 可以轻松创建一个 .exe 或 .msi 格式的安装包供用户安装。本文将详细介绍如何使用 Visual Studio Installer Proj…

springcloud之基于github webhook动态刷新服务配置

前言 在实际开发中经常会有一个叫做配置中心的服务,这个服务经过变更参数来动态刷新线上业务数据行为配置。比如;行为开关、活动数据、黑白名单、本地/预发/线上环境切换等等,这些配置信息往往需要在我们不重启系统的时候就可以被更新执行。那…

2.1 使用点对点信道的数据链路层

欢迎大家订阅【计算机网络】学习专栏,开启你的计算机网络学习之旅! 文章目录 前言1 通信信道类型2 数据链路3 帧4 透明传输5 差错检测 前言 在计算机网络通信中,数据链路层起着关键作用。它为直接相连的网络设备之间提供可靠的数据传输服务。…

Mysql高级篇(下)——数据库设计范式

Mysql高级篇(下)——数据库设计范式 一、键和相关属性概念二、关系型数据库中常见的六种设计范式1. 第一范式(1NF)- 消除重复列,保证每列都是原子值2. 第二范式(2NF)- 消除部分依赖3. 第三范式&…