文献阅读:The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”

news2024/11/27 14:30:52
  • 文献阅读:The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”
    • 1. 文章简介
    • 2. 实验 & 结果考察
      • 1. finetune实验
      • 2. 真实知识问答
    • 3. 结论 & 思考
  • 文献链接:https://arxiv.org/abs/2309.12288

1. 文章简介

这篇文章是前阵子挺受到关注的一篇文章,在各大公众号上面都有转发,因为里面的结论实在是有点惊人……

具体来说,文中对大模型的基础推理能力进行了一定的考察,结果发现大模型出人意料地并没有多少逻辑推理能力,更多的还是依赖其本身训练所使用的超大规模语料学习到的知识进行生成。

而关于这个结论的考察方法,文中则是主要采用了两方面的方法:

  1. 直接使用LLM,考察以名人为主语的问题以及以名人为答案的问题,然后对比回答的准确率;

    在这里插入图片描述

  2. 基于LLM直接在"A is B"的语料上进行finetune,然后让模型分别回答"A is B"类型的问题以及"B is A"类型的问题,考察回答的准确率。

    在这里插入图片描述

结论而言,两个实验都证明了LLM事实上对于逻辑推理能力的缺失,对于这类极其简单直接的逻辑关系的推理都无法获得正确的回答,这个结论基本就是对如今火热的LLM风潮狠狠地泼了一盆冷水,即便是我这种对于LLM并没有如此乐观的人,对于这个结论也是完完全全被惊呆了,实在是有点过于夸张了……

下面,我们就来看一下文中具体的实验细节以及得到的对应的结论。

2. 实验 & 结果考察

1. finetune实验

首先,第一部分的实验,文中考察了一下模型的finetune之后对于正反方向知识的回答准确性。

具体做法的话就是使用大量的"A is B"句式的文本对模型进行finetune,然后去考察"A is B"和"B is A"两类问题的回答准确性。

整体的实验示意图如下所示:

在这里插入图片描述

为了确保模型不会受到预训练大语料的影响,这里在finetune当中使用的实体与描述文本都是通过GPT生成的虚假存在,因此模型必须通过文本内容的理解来做出正确的回答。

文中得到的实验结果如下图所示:

在这里插入图片描述

可以看到:

  • 正向与反向提问的结果在回答准确率上表现出了极大的准确率差异,大部分同为"A"是什么的问题都能够得到很好的回答,但是反向问"B"是什么的问题几乎都全军覆没了……

更加杀人诛心的是,文中还直接对比了反向回答当中正确答案与随机一个回答的log概率对比,得到结果如下:

在这里插入图片描述

可以看到:

  • 模型对于正确答案的会大概率和随便蒙一个答案的概率事实上也没有相差多少。
  • 而且,不只是仅在某一个大模型下,几乎在各类参数尺寸的大模型下,模型都表现出了相似的特性……

也就是说模型基本就是在乱蒙,根本没有理解文本的内容。哪怕对于模型的效果呈最悲观态度的人恐怕对于这个结果也是有些难以置信的……

2. 真实知识问答

不过,上述实验毕竟让模型经过了finetune,不再是原始的模型了,因此虽然概率不太大,但也有可能是finetune将模型给学坏了。

因此,文中还是用原始的模型也进行了一下实验,具体实验方式的话就如文中第一张图所示的那样(虽然文献中图片的第一个问题事实上写错了……),分别问名人的双亲是谁以及给出名人的双亲反推这个名人是谁,然后比较两类问题的回答表现。

文中得到的实验结果如下所示:

在这里插入图片描述

可以看到:

  • 通过名人闻讯相关信息的准确率远高于给定名人的相关信息反猜名人的回答准确率。

这基本也能证明原始的大模型同样对于语义理解能力的缺失……

3. 结论 & 思考

综上,我们从这一系列实验中看到,目前的LLM基本都仅仅是依赖于从极大量的预训练语料当中学习并记住了海量的知识和句式才能够做到当前的模型效果的,但其本身依然是缺乏语义的理解能力的,哪怕是通过"A is B"反向推断"B is A"这种简单问题大模型居然依然缺乏理解能力。

固然,"A is B"这类问题还存在一对多,多对一,多对多这些情况的存在,因此要靠"A is B"推断"B is A"也并非是那么直接的情况,但是模型如此离谱的完全没有学到相应的知识也是委实有点过于夸张了,真就哪怕对LLM持有最悲观态度的人对于这类的结果也是多少有些难以置信了……

事实上,我个人也去chatgpt上面问了下诸如Messi,Bill Gates或者Justin Bieber等人的相关信息,并没有观察到文中所提到的现象,无论是回答亲属还是从亲属反推他们,ChatGPT都能够获得正确的回答,这个和文中的实验结果还是相悖的。

所以还是先等子弹再飞一会吧,还是希望LLM并非只是真的强行记住了知识,而是真的从大量的语料当中真的学到了一些语言当中的逻辑关系吧,否则真的只能寄希望于有人能够更进一步提出一个新的模型结构来替换Transformer了,而这个真的是太难了……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1122151.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FPGA设计FIR滤波器低通滤波器,代码及视频

名称:FIR滤波器低通滤波器 软件:Quartus 语言:Verilog/VHDL 本资源含有verilog及VHDL两种语言设计的工程,每个工程均可实现以下FIR滤波器的功能。 代码功能: 设计一个8阶FIR滤波器(低通滤波器&#xff…

使用AI编写测试用例——详细教程

随着今年chatGPT的大热,每个行业都试图从这项新技术当中获得一些收益我之前也写过一篇测试领域在AI技术中的探索:软件测试中的AI——运用AI编写测试用例现阶段AI还不能完全替代人工测试用例编写,但是如果把AI当做一个提高效率的工具&#xff…

关于Git的入门教程(附GitHub和Gitee的使用方法)

一. Git 概述 Git是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目。Git易于学习、占地面积小、性能极快。它具有廉价的本地库,方便的暂存区域和多个工作流分支等特性。其性能优于Subversion、CVS、Perforce和ClearCas…

基于DF模式的协作通信技术matlab性能仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1、DF概述 4.2、DF基本原理 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2013b 3.部分核心程序 clc; clear; close all; warning off; addpath(genpath(pwd))…

【C++】继承 ⑦ ( 继承中的对象模型分析 | 继承中的构造函数和析构函数 )

文章目录 一、继承中的对象模型分析1、继承代码示例2、基类与派生类内存模型3、问题引入 - 派生类对象构造函数和析构函数调用4、完整代码示例 - 派生类对象内存模型 二、继承中的构造函数和析构函数1、子类构造函数与析构函数调用顺序2、子类构造函数参数列表3、代码示例 - 继…

项目经理之如何组建跨部门项目团队

在跨组织、跨部门、跨专业的临时性合作项目中,如何组建一个高效的跨部门项目团队是确保项目成功实施的关键。本篇幅将介绍如何组建一个成功的跨部门项目团队,包括明确项目目标与范围、确定项目组织模型、明确角色与职责、合理划分团队结构、制定沟通机制…

app分发的一些流程

应用分发的流程通常包括以下步骤: 开发应用程序:首先,您需要开发您的应用程序。这包括编写代码、设计用户界面、测试应用程序等等。确保您的应用程序符合各个应用商店的规范和要求,以确保顺利通过审核。 准备应用材料&#xff1a…

操作系统——吸烟者问题(王道视频p34、课本ch6)

1.问题分析:这个问题可以看作是 可以生产多种产品的 单生产者-多消费者问题 2.代码——这里就是由于同步信号量的初值都是1,所以没有使用mutex互斥信号, 总共4个同步信号量,其中一个是 finish信号量

冲刺学习-MySQL-常见问题

MySQL索引的最左原则 联合索引的说明 建立三个字段的联合索引联合索引(a,b,c)相当于建立了索引:(a),(a,b),(a&#xff0…

【力扣刷题】二叉树的中序遍历、二叉树的最大深度、翻转二叉树、对称二叉树

🐌个人主页: 🐌 叶落闲庭 💨我的专栏:💨 c语言 数据结构 javaEE 操作系统 Redis 石可破也,而不可夺坚;丹可磨也,而不可夺赤。 刷题篇 一、二叉树的中序遍历1.1 题目描述1…

分布式共识算法及落地

摘要 本文介绍常见的分布式共识算法,使用场景,以及相关已经落地了的程序或框架 1. 为什么要分布式共识算法 在分布式系统中,不同节点之间可能存在网络延迟、故障等原因导致彼此之间存在数据不一致的情况,为了保证分布式系统中的…

【Qt】消息机制和事件

文章目录 事件event()事件过滤器案例:检测鼠标事件案例:定时器 事件 事件(event)是由系统或者 Qt 本身在不同的时刻发出的。当用户按下鼠标、敲下键盘,或者是窗口需要重新绘制的时候,都会发出一个相应的事…

微信小程序进阶——后台交互个人中心授权登录

目录 一、小程序登录微信登录接口演示 1.1 项目导入 1.2 method1 1.3 method2 二、小程序授权登录 2.1 登录过程 2.1.1 详解 2.1.2 图解 2.2 后端代码导入 2.3 前端代码导入 ​编辑 2.4 案例演示 前端代码如下: 2.4.1 前端调用接口地址 2.4.2 个人中…

Power BI 傻瓜入门 5. 准备数据源

本章内容将介绍: 定义Power BI支持的数据源类型探索如何在Power BI中连接和配置数据源了解选择数据源的最佳做法 现代组织有很多数据。因此,不用说,微软等企业软件供应商已经构建了数据源连接器,以帮助组织将数据导入Power BI等…

瑞萨e2studio(27)----使用EZ-CUBE3烧录

瑞萨e2studio.27--使用EZ-CUBE3烧录 概述视频教学样品申请引脚配置EZ-CUBE3 仿真器开关设置对RA族MCU进行Flash编程蓝色 LED 指示灯的状态信息 概述 EZ-CUBE3(CYRCNEZCUBE03)是具有Flash存储器编程功能的片上调试仿真器,可以用于调试MCU程序…

合同管理怎么做?套用Excel合同管理台账模板,真可以省心省力!

对于从事日常行政办公管理的人来说,最难受得就是各种合同乱糟糟,合同数据又多又杂,一不小心就会出错,而且有的合同数据到期了我们太忙也不知道,所以就很麻烦…… 想做好合同台账,其实很简单,今天…

基于stm32控制的ESP8266在设备模式下通讯

一、文章中要用的指令 指令作用ATUART115200,8,1,0,0之前的51通讯是9600,这里的321用的是115200,需要改一下波特率ATCWMODEXX是1代表station(设备)模式 ,X是2代表AP(路由)模式 ,X是…

微信小程序之个人中心授权登录

🎬 艳艳耶✌️:个人主页 🔥 个人专栏 :《Spring与Mybatis集成整合》《Vue.js使用》 ⛺️ 越努力 ,越幸运。 1.了解微信授权登录 微信登录官网: 小程序登录https://developers.weixin.qq.com/miniprogram/d…

YOLOv5源码中的参数超详细解析(2)— 配置文件yolov5s.yaml(包括源码+网络结构图)

前言:Hello大家好,我是小哥谈。配置文件yolov5s.yaml在YOLOv5模型训练过程中发挥着至关重要的作用,属于初学者必知必会的文件!在YOLOv5-6.0版本源码中,配置了5种不同大小的网络模型,分别是YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,其中YOLOv5n是网络深度和宽度最小…

5G技术的飞速发展:连接未来

随着科技的日益进步,5G通讯技术已经成为了全球科技领域的热门话题。5G,即第五代移动通信技术,带来的不仅仅是更快的网络速度,它的高带宽和低延迟特性将为未来的数字世界奠定基础。 速度与效率的飞跃: 5G技术的最大亮点是它极高的下…