GLoRE:大型语言模型的逻辑推理能力探究

news2025/1/17 15:48:03

e45b9c516745c16c92284f788ace7386.png

最新研究揭示,尽管大语言模型LLMs在语言理解上表现出色,但在逻辑推理方面仍有待提高。为此,研究者们推出了GLoRE,一个全新的逻辑推理评估基准,包含12个数据集,覆盖三大任务类型。

实验对比发现,GPT-4在逻辑推理上的表现远超ChatGPT,但与人类表现和有监督的微调相比,仍有提高空间。

为此,研究者提出了自我一致性探测方法(self-consistency probing method)来进一步提升ChatGPT的准确性,并通过微调策略,进一步增强大型语言模型的逻辑推理能力。

让我们一起看看这篇研究吧!

e1a7b49284b8c47a8b4a05e17e5b4ddc.png

深度学习自然语言处理 原创
作者:Winnie

Paper: GLoRE: Evaluating Logical Reasoning of Large Language Models  
Link: https://arxiv.org/abs/2310.09107

->辅导界的小米带你冲刺ACL2024

GLoRE基准

逻辑推理,作为人类智能的核心,长期以来都是AI研究的热点。为了更好地评估LLMs在自然语言中处理复杂信息的能力,研究人员推出了通用逻辑推理评估(GLoRE)基准。与众所周知的GLUE和Super-GLUE评估自然语言理解能力类似,GLoRE汇集了多个逻辑推理数据集。

GLoRE主要包括三大任务:

  • 多项选择阅读理解:系统给定段落和问题,目的是从答案中选择正确的选项。特别地,GLoRE包括五个此类数据集,如LogiQA、ReClor、AR-LSAT等。

  • 自然语言推断(NLI):确定假设与前提之间的逻辑关系。包括ConTRoL、HELP、TaxiNLI等数据集。

  • 真或假问题(TF):如FraCaS、RuleTaker和ProofWriter等数据集。

ae5f5aa8b4c4acd7fb0b567dff383e52.png

这些数据集涵盖了从简单到复杂的各种逻辑推理情境,为我们评估大型语言模型的逻辑推理能力提供了合适的平替。其中,多项选择阅读理解深入探讨了逻辑MRC问题,而NLI任务关注文本分类中的蕴涵关系。而真或假问题主要测试了模型在多前提上下文的蕴涵问题上的处理能力。

实验设置

在这篇研究中,研究人员针对开源的LLMs和基于封闭API或UI的模型进行了评估,考虑了7种评估场景:

  • zero-shot评估:模型通过模板转换得到提示,并生成语言化的答案。

  • few-shot评估:LLMs使用带有答案的示例作为上下文进行推断。

  • 指令调整:LLMs被训练以遵循自然语言指令,进行任务特定的微调。

  • 自我一致性评估:模型需要全面了解上下文中的逻辑关系。

  • 思维链评估:模型进行一步一步的逻辑思考。

  • 聊天UI评估:基于GPT-4的手动聊天UI测试,更真实地反映用户与模型的互动。

  • 生成响应的评估:对模型生成的响应进行质量评估,包括连贯性、完整性、正确性和相关性。

在实验中采用了RoBERTa-base作为基线,对比了数个LLMs如Falcon-40b-instruct和LLaMA-30b-supercot,以及OpenAI的ChatGPT和GPT-4。

评估指标主要以分类精度得分为指标,并设立人类基线,对于LogiQA22数据集特邀五名合著者进行测试。

主要结果

Zero-shot任务

下表展示了主要的zero-shot任务上的实验结果。

a80e87717855056e07aacc96e6bec19f.png

我们主要可以得出以下发现:

  • 人类准确率: 人类在大多数逻辑推理任务上的平均准确率超过80%,尤其是在ReClor和AR-LSAT上,平均准确率分别为63.00%和56.00%。

  • RoBERTa-base表现: 该模型在多数逻辑推理任务上的表现落后于平均人类表现,但在特定的ProofWriter任务上有55.92%的准确率,显示出处理特定逻辑推理任务的潜力。

  • 开源模型对比: LLaMA和Falcon在多数逻辑推理任务上的表现都不如微调的RoBERTa-base,特别是在MRC任务上。

  • ChatGPT和GPT-4: 两种模型在多数MRC基准测试中超过了RoBERTa-base。GPT-4在处理一些逻辑MRC数据集上展现出了显著的能力。

  • LogiQA 2.0深度分析: ChatGPT和GPT-4在分类推理上都展现出了超高的准确率,但在处理涉及析取的前提上面临挑战。

Few-shot任务

下表展示了不同模型在few-shot任务上的实验结果。GPT-4在与zero-shot相比的few-shot场景中获得了超过9个百分点的准确率提升。

4dbd9072d79f59719dd43d8a120c35a3.png

推理任务

下表展示了不同推理类型的统计分析。02732a3ec174a035babb59e0bb2c40ae.png

  • ChatGPT和GPT-4在分类推理上表现出了超高的准确率,分别为83.83%和95.04%。

  • 两模型在涉及析取的前提上面临挑战,可能是因为这些逻辑结构的固有复杂性和潜在的模糊性。

  • 社区模型在分类推理上没有展现出特别强的表现,连词推理和析取推理对它们来说仍然是个挑战。

指令微调的有效性

使用Alpaca的指令进行微调后,所有任务的性能都得到了显著提高,证明了指令调整的强大效果。这种改进主要归因于模型增强的一般指令理解能力。

44c7747498909955cc3074316946b79c.png

经过调整的LLaMA-7B模型明显优于基线的LLaMA-7B模型和Alpaca。在LogiQA 2.0数据集上,模型的准确率从18.04%增加到52.74%,高于微调后的RoBERTa-base的48.76%。

尽管微调仅使用了LogiQA 2.0的训练数据集,但经过调整的模型成功地将其能力推广到其他数据集。在ReClor数据集上,经过调整的模型达到了55.20%的准确率,比Alpaca高出32.82个百分点。

Self-Consistency Probing评估

逻辑推理任务通常涉及处理一系列相关的陈述或事实,然后根据这些信息进行推断。这些任务需要理解不同信息之间的相互作用,而不是独立地处理它们。这意味着,即使事实的顺序或句子的结构发生变化,真正的逻辑结论也应该保持不变。因此,研究人员在实验中通过打乱句子为ChatGPT引入多样性,特别是对于那些固有地不是顺序的数据集。e1d677fdeb20affe16f4008a50c1d0cb.png

由表可观察到,投票模型在多数数据集上优于单一模型。在LogiQA 2.0 zh数据集上,单一模型有更高的准确率,可能因为中文语言结构的特殊性。

打乱文本不会对ChatGPT的性能产生负面影响。在某些情况下,打乱的文本甚至提高了性能。类似的趋势也出现在其他CoT数据中,其中CoT序列的扰动对整体效率的影响很小。

CoT评估

下表展示了在GLoRE上使用/不使用CoT的结果。

7273621d93661d37e3cb64b5fd2b84fb.png

除此之外,实验还计算了GPT-4结果的混淆矩阵。所有模型在使用CoT提示时都有性能提升,范围在2%到3%之间。混淆矩阵进一步说明了使用CoT提示提高性能的重要性。

899368886f9cde6c801fd5d7ecdaecee.png

GPT4的Chat UI评估

实验还对GPT-4模型在Chat UI界面上的性能进行了深入探索,并通过案例研究揭示了其在回答和推理上的特点。

f83731fb9d2fa00f847c24ff926c6392.png

实验结果表明,没有观察到基于UI的输出和基于API的输出之间的明显质量差异。基于UI的评估结果在大多数数据集上略高于基于API的结果。评估指标可能是造成这种差异的一个原因。

案例研究主要有以下发现:

  • GPT-4在一些情况下能够正确地回答和推理,例如通过选择新证据来解决专家观点和证据之间的矛盾。

  • GPT-4有时会生成不正确的答案,如对人类起源的问题的回答。

  • 在某些情况下,提供上下文示例可以帮助GPT-4更准确地回答问题。

  • CoT推理过程通过为GPT-4提供更相关的上下文来工作,但也可能依赖于表面的模式而不是深入的抽象。

人工评估

实验对模型的表现进行了人工评估,GPT-4在所有指标上都稳定地排名第一,ChatGPT紧随其后。评注者之间的一致性良好,Cohen's Kappa值为0.79。

7990ed8cf51e2ff51e34308347893830.png
  • 连贯性: GPT-4得分最高,为4.52,表现出其逻辑连贯输出的能力。ChatGPT紧随其后,得分为4.00。

  • 完整性: ChatGPT和GPT-4并列第一,得分均为4.81,展示了其详尽的回应能力。

  • 正确性: GPT-4得分为4.51,领先于其他模型,其回应准确率高。

  • 相关性: GPT-4略微领先,得分为4.89,与ChatGPT得分4.72相当接近。

此外,使用GPT-4 API作为评估器对LLaMA-30-supercot模型进行了实验,其评估得分与人工评估得分相近,为逻辑推理任务的自动评估提供了信心。

结语

在这项研究中,研究团队提出了一个名为GLoRE的数据集,专门用于评估LLMs在处理多种逻辑推理任务上的表现。研究发现ChatGPT和GPT-4在大部分逻辑推理基准测试上都显著超越了传统的微调方法。尽管商业模型在GLoRE测试中的表现相对较弱,但通过对相似数据进行指令调整,模型的性能得到了显著提高。此外,通过监督微调、上下文学习和投票技术,研究团队成功地实现了更为出色的结果。在对模型进行量化和定性评估后,该团队指出,现有的LLMs在解决逻辑推理任务时,似乎更多地依赖于表面模式。因此,他们认为,对底层推理机制进行深入研究和增强,将是一个有益的方向。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

3bc233b599a2d7c6ae595e16a5015a13.png

id:DLNLPer,记得备注呦

d45b9225dacff03f4cadc0c28678ab9f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1145699.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记一次线程爆满导致服务器崩溃的问题排查

记一次线程爆满导致服务器崩溃的问题排查 重启服务器 重启后,ssh连接发现下面问题 fork faild:Cannot allocate memory 以为是内存满了 于是,free -h,查看内存情况,还有,观察一段时间后,内存没多大变化 修改…

网络协议--TCP的交互数据流

19.1 引言 前一章我们介绍了TCP连接的建立与释放,现在来介绍使用TCP进行数据传输的有关问题。 一些有关TCP通信量的研究如[Caceres et al. 1991]发现,如果按照分组数量计算,约有一半的TCP报文段包含成块数据(如FTP、电子邮件和U…

python爬虫之feapder.AirSpider轻量爬虫案例:豆瓣

创建feaderSpider项目:feapder create -p feapderSpider,已创建可忽略进入feapderSpider目录:cd .\ feapderSpider\spiders创建爬虫:feapder create -s airSpiderDouban,选择AirSpider爬虫模板,可跳过1、2直…

Java集合类--List集合,Set集合,Map集合

集合可以看作一个容器,Java中提供了不同的集合类,这些类具有不同的存储对象的方式,同时提供了相应的方法,以便用户对集合进行遍历、添加、删除、查找指定的对象。 1.集合类概述: 集合类类似于数组,与数组不…

即时编译器JIT

类编译加载执行过程 如下图所示,一个Java代码从编译到运行大抵会经历以下几个过程。具体每个过程笔者会在下文站展开讨论。 类编译 首先是类编译阶段,这个阶段会将Java文件变为class文件,这个class文件包含一个常量池和方法表集合&#xf…

2023年第四届MathorCup高校数学建模挑战赛——大数据竞赛B题解题思路

比赛时长为期7天的妈杯大数据挑战赛如期开赛,为了帮助对B题有更深的理解,这里为大家带来B题的初步解题思路。 赛道B:电商零售商家需求预测及库存优化问题 由于妈杯竞赛分为初赛复赛,因此,对于B题大家仅仅看到了预测相…

nodejs+vue+elementui社区居民信息管理及数据分析与可视化系统设计

其中用户登录中,通过HTML访问该社区居民信息管理及数据分析与可视化系统,选择登录界面,进行登录。登录成功进入到系统,登录失败,提示用户不存在, 流入人口管理中,启动社区居民信息管理及数据分…

C语言二、八、十六进制转换

二进制转八进制、十六进制 二进制转八进制: 三合一法: 从低位到高位,每 3 给二进制组成 1 位八进制数据,高位不够三位用 0 填补,将二进制转为对应的八进制数即可 二进制转十六进制: 四合一法:…

基于nodejs+vue食力派网上订餐系统

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

git学习笔记-发现问题如何恢复

1.概要 git总出各种问题,不清楚原因。所以准备了解的跟深入些。本来的理解是这样的: 下载我就pull 修改完就 commit然后push 怎么会有问题的,结果还总有。 既然问题无法避免,那就提高解决问题和恢复问题的能力。如果问题能够恢复就没有什…

lesson2(补充)取地址及const取地址操作符重载

个人主页&#xff1a;Lei宝啊 愿所有美好如期而遇 以下两个默认成员函数一般不用重新定义 &#xff0c;编译器默认会生成。 #include <iostream> using namespace std;class Date {public:Date():_year(2023),_month(10),_day(28){}Date* operator&(){return this…

RabbitMQ学习01

四大核心概念 生产者 产生数据发送消息的程序是生产者 交换机 交换机是 RabbitMQ 非常重要的一个部件&#xff0c;一方面它接收来自生产者的消息&#xff0c;另一方面它将消息推送到队列中。交换机必须确切知道如何处理它接收到的消息&#xff0c;是将这些消息推送到特定队…

内网穿透工具之NATAPP(一)

使用工具前&#xff0c;有必要了解一下什么是内网穿透吧&#xff01; 内网穿透简单来说就是将内网外网通过natapp隧道打通,让内网的数据让外网可以获取。比如常用的办公室软件等&#xff0c;一般在办公室或家里&#xff0c;通过拨号上网&#xff0c;这样办公软件只有在本地的局…

MySQL 字符集与乱码与collation设置的问题?

开头还是介绍一下群&#xff0c;如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, Oceanbase, Sql Server等有问题&#xff0c;有需求都可以加群群内有各大数据库行业大咖&#xff0c;CTO&#xff0c;可以解决你的问题。加群请联系 liuaustin3 &#xff0c;在新加的朋友…

《HelloGitHub》第 91 期

兴趣是最好的老师&#xff0c;HelloGitHub 让你对编程感兴趣&#xff01; 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等&#xff0c;涵盖多种编程语言 Python、…

NSS [UUCTF 2022 新生赛]websign

NSS [UUCTF 2022 新生赛]websign 开题就给了提示 ban了F12&#xff0c;鼠标右键&#xff0c;CtrlU 可以用view-source: 别人的思路&#xff1a;ctrls下载页面&#xff0c;notepad打开

Java 工具类 列表动态维护

原本需求&#xff1a;一个二级 list 更新功能。 常规实现&#xff1a;先删除原来的全部数据&#xff0c;再重新插入&#xff0c;这样就很耗时了&#xff0c;所以这里写一个工具类出来。 1. 如果有新增的数据&#xff1a;仅对这些数据新增 2. 如果有删除的数据&#xff1a;仅…

【C++】STL容器——探究List与Vector在使用sort函数排序的区别(14)

前言 大家好吖&#xff0c;欢迎来到 YY 滴C系列 &#xff0c;热烈欢迎&#xff01; 本章主要内容面向接触过C的老铁 主要内容含&#xff1a; 欢迎订阅 YY滴C专栏&#xff01;更多干货持续更新&#xff01;以下是传送门&#xff01; 目录 一、Sort函数介绍1.Sort函数接口2.Sort…

Vue3.0插槽

用法&#xff1a; 父组件App.vue <template><div><!--将html代码插入到子组件中带默认名称的插槽中--><AChild><!--这段html会插入到AChild组件中<slot></slot>插槽中--><!-- 注意&#xff1a;写在父组件中的html代码只能在父组…

[动态规划] (一) LeetCode 1137.第N个泰波那契数

[动态规划] (一) LeetCode 1137.第N个泰波那契数 文章目录 [动态规划] (一) LeetCode 1137.第N个泰波那契数题目解析解题思路状态表示状态转移方程初始化和填表顺序返回值 代码实现总结空间优化代码实现 总结 1137. 第 N 个泰波那契数 题目解析 解题思路 状态表示 (1) 题目要…