【LLM的概念理解能力】Concept Understanding In Large Language Models: An Empirical Study

news2024/11/16 15:31:36

大语言模型中的概念理解:一个实证研究

摘要

大语言模型(LLMs)已经在广泛的任务中证明了其卓越的理解能力和表达能力,并在现实世界的应用中显示出卓越的能力。因此,研究它们在学术界和工业界的值得信赖的性能的潜力和局限性是至关重要的。在本文中,我们着重探讨大语言理解概念的能力,特别是抽象概念和具体概念。为此,我们构建了一个基于WordNet的数据集,其中包含一个抽象概念的子集和一个具体概念的子集。我们选择了六个预训练后的大语言模型,并做了一个上下位关系发现这个经典的NLP任务,以作为大语言模型在概念理解方面的(实验)依据。实验结果表明,大语言模型对抽象概念的理解明显弱于对具体概念的理解。

1 介绍

在过去几年里,大语言模型已经成为了学术研究的前沿。最近发布的ChatGPT进一步展示了大语言模型在各种先进技术和工程规划的下游任务中的潜力(Brown et al., 2020)。另一方面,大语言模型理解的能力也会受到其在现实场景中的部署,这使得这一研究问题的探索成为一个新的课题。

本文主要从抽象概念和具体概念的角度来研究大语言模型的理解能力。这种探索的灵感来自于现实世界中不同的任务通常需要不同抽象级别的理解能力。在与物理实体相关的任务中,例如对动物的类型进行分类,可能需要更好地具体概念。相比之下,其他任务要求大语言模型了解更多关于抽象实体的信息,比如区分不同的人类情感或逻辑推理。

为了实现这一步目标,我们首先基于WordNet构建了一个新的数据集D-Concept,这是一个单词之间语义关系的词汇数据库(Miller, 1995)。该数据库遵循着一个经典的NLP任务的上下位关系发现设定,它可以反映语言模型理解抽象和具体概念的能力。WordNet中的名词被明确地分为一个抽象分支和一个物理分支,因此这个数据集是一个合适的先例。因此,我们按照这种划分,分别根据抽象分支和物理分支构造两个子集。每个数据示例由来自相应分支的一对实体组成。上下位关系发现任务是确定这两个实体是否为上下位关系。所探索的大语言模型包括BERT到GPT系列模型(包括OpenAI文本嵌入模型和ChatGPT)。实验结果表明,在上下位关系发现任务中,大语言模型对抽象概念的理解能力要比对具体概念的理解能力更弱,这表明给大语言模型还有(对抽象概念理解能力的)提升空间。

我们的贡献主要在以下几个方面:(1)我们构建了一个新的上下位关系发现的数据集来比较大语言模型对抽象概念和具体概念的理解能力。(2)我们调查了不同尺度下的大语言模型 在该任务上的性能,我们发现随着模型规模的增大,大语言模型的性能有所提升,但在(理解)抽象概念上的性能始终弱于(理解)具体概念。

2 实验

2.1 实验设置

数据集 WordNet(数据集中)将名词分组为认知同义词集,将每个同义词集表示为一个不同的概念,将一个词集作为一个实体。抽象分支和物理分支是WordNet中的两个主要组成部分,分别表示抽象概念(如“公平”和“幸福”)和具体概念(如“动物”和“家具”)。为了探索怎样让大语言模型去表示概念,我们在WordNet数据中,通过GPT嵌入模型(text-similarity-ada-001)构建概念嵌入,再使用T-SNE将概念嵌入可视化。如图1所示,将两类概念嵌入大致分为两个簇,揭示出它们之间确实存在一些差异。

为了更深入地研究这些差异,我们为概念理解任务创建了一个新的数据集,即上位词发现。由于WordNet是一个层次图,其实体是结点,上下位关系是边,故上下位关系(例如:“床”-“家具”,在这里家具是上位词,床是下位词)是WordNet中一个典型地词汇关系。在构建数据集时,我们首先在每个分支上随机选择一个距离值d作为正例(即一个实体与其对应的上位词,因为WordNet是一个树状结构,一个下位词往上不同高度地的祖先都是其上位词)其次,我们随机选择一个实体,然后从一个实体集合中选取第二个实体,其中每个实体与第一个实体的距离为d。(而)负实体对是随机和单独选择的,总共有10000个样本,被拆分为训练集、验证集和测试集,其比例为2:4:4。

设置 我们比较了六个大语言模型,包括Bert(Devlin et al., 2018),T5(Raffel et al., 2020),CLIP(Radford et al., 2021),OpenCLip(Cherti et al., 2022),GPT嵌入模型(Brown et al., 2020)和ChatGPT。我们冻结它们的嵌入,并添加一个线性层用于二分类,损失函数采用CrossEntropy Loss,精确度(ACC)、AUC和F1评分作为评价指标。对于ChatGPT,我们使用提示-回答范例来获取它的答案(例如,我们使用 “{entity1} the hypernym of {entity2}?” 作为一个提示,从ChatGPT那里获得(返回结果)“Yes”或“No”)

2.2 实验结果

表1显示了大语言模型在上下关系发现任务中表现的性能。我们可以发现,与具体概念相比,大语言模型的抽象概念方面的表现始终较差。这意味着大语言模型在学习高质量的嵌入方面有改进空间,特别是在抽象概念方面。在应用大语言模型时,抽象概念的糟糕结果可能会增加处理与抽象概念相关任务的风险。我们还可以发现,当模型规模增大时,除了ChatGPT之外,其余模型(BERT、T5、CLIP、OpenClip、GPT Embedding)在抽象概念和具体概念任务上的性能都有所提高。在ChatGPT中没有微调过或者少次学习情况下,无法获得嵌入并进行测试。

在这里插入图片描述

3 结论

为了探索大语言模型对抽象和具体概念的理解能力,我们构建了一个新的基于WordNet的数据集,用于发现上位词。实验结果表明,无论模型的大小如何,大语言模型都很难理解抽象概念,这启发研究人员未来去缩小大语言模型理解抽象概念这一差距。

A D-CONCEPT 数据集简介

D-Concept数据集总共包括219692个同义词集,它们名称和定义来自WordNet。D-Concept中的同义词对被分成两个子集,一个用于抽象概念,另一个用于具体概念。抽象概念子集中同义词对的一个例子是“蒲式耳”-“容量单位”,(它们之间的)距离d=3,其中蒲式耳是指大英帝国的容量计量单位(液体或干的)等于4克,而体积单位是指体积或容量的度量单位。来自具体概念子集的上位词对的一个例子是“埃尔郡乳牛”-“家牛”,(它们之间的)距离d=2,其中埃尔郡乳牛指的是来组苏格兰埃尔的耐寒奶牛品种,而家牛是不考虑其性别或年龄,作为一个群体而驯养的牛。

同义词对的数量(划分)为2000,4000和4000,将会被分别用于训练,验证和测试。关于数据集的纤细信息,如图2和图3所示。

B 实验细节

主干网络 (1)BERT(Devlin et al., 2018):我们将bert-base-uncased模型pooler层的输出作为嵌入,该嵌入的维度为768。(2)T5(Raffel et al., 2020):我们将google/t5-v1_1-large模型最后一隐藏层的平均池化作为嵌入,该嵌入的维度为1024。(3)CLIP(Radford et al., 2021)和OpenClip(Cherti et al., 2022):我们从CLIP和OpenClip的文本编码器得到的嵌入维度分别为768和1024。(4)GPT系列的模型(Brown et al., 2020):我们采用OpenAI的嵌入服务(text-similarity-ada-001)和OpenAI的聊天完成服务。Text-similarity-ada-001的嵌入维度是1024,而ChatGPT的提示是 “Is {synset-1} a hypernym of {synset-2}? {synset-1} means {the definition of synset-1}. {synset-2} means {the definition of synset-2}. Please directly answer YES or NO. (Do not return any explanation or any additional information.)”({synset-1} 是 {synset-2} 的上位词吗?{synset-1} 代表 {synset-1的定义},{synset-2} 代表 {synset-2的定义}。请直接回答“是”或“否”(你不能返回任何解释或者任何其他附加信息))。为ChatGPT提供同义词集的目的是为了帮助实体消除歧义,格式化的ChatGPT的答案有助于为评估的后处理。

训练过程 如果经过20个epoch后的损失不减少,学习率将会下降到原来的1/3。每个10个epoch进行一次验证,根据AUC选取最有模型。如果在验证集上得到的AUC在100个epoch内没有增加,则采用早停法(提前停止训练)。在[0.0001, 0.1]范围内对MLP参数的学习速率进行对数均匀搜索。表1中的每一个结果都是经过40次实验的最佳结果。

在这里插入图片描述

C 相关工作

在概念理解中的大语言模型 虽然大语言模型在各种NLP任务中表现出了非凡的能力,但人们对大语言模型是否具有概念理解的能力,或者它们的强大的性能是否仅归因于模型规模增大时发现的统计相关性而存在激烈的争议(Mitchell & Krakauer, 2023)。Sahu等人(2022)致力于探索大语言模型能否是否能够理解概念。我们选择从大语言模型对抽象概念的理解能力这一角度,来分析上述问题。

在上位词发现任务中的大语言模型 先前的研究,如Vuli´c等人(2020)和Hanna & Mareˇcek(2021)利用词汇关系预测(包括上位词发现)等任务探索了大语言模型中的语言知识(如:BERT)。这表明大语言模型对上位词的知识仍然是有限的。上位词发现数据集是一种经典的NLP任务,也在Baroni & Lenci(2011)、Snow et al.(2004)、Roller et al.(2014)、Vyas & Carpuat(2017)、Camacho-Collados et al.(2018)等许多著作中提出。然而,我们的D-Concept数据集是基于WordNet数据集将概念对明确的划分为抽象概念和具体概念对,并分别对其进行上位词发现任务。这种数据集的形成更便于研究抽象概念的理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1372309.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

buuctf[极客大挑战 2019]BabySQL--联合注入、双写过滤

目录 1、测试万能密码: 2、判断字段个数 3、尝试联合注入 4、尝试双写过滤 5、继续尝试列数 6、查询数据库和版本信息 7、查询表名 8、没有找到和ctf相关的内容,查找其他的数据库 9、查看ctf数据库中的表 10、查询Flag表中的字段名 11、查询表…

C++学习笔记——对象的指针

目录 一、对象的指针 二、减少对象的复制开销 三、应用案例 游戏引擎 图像处理库 数据库管理系统 航空航天软件 金融交易系统 四、代码的案例应用 一、对象的指针 是一种常用的技术,用于处理对象的动态分配和管理。使用对象的指针可以实现以下几个方面的功…

Python GIL 一文全知道!

GIL 作为 Python 开发者心中永远的痛,在最近即将到来的更新中,终于要彻底解决了,整个 Python 社群都沸腾了 什么是GIL? GIL是英文学名global interpreter lock的缩写,中文翻译成全局解释器锁。GIL需要解决的是线程竞…

遥感影像-语义分割数据集:云数据集详细介绍及训练样本处理流程

原始数据集详情 简介:该云数据集包括150张RGB三通道的高分辨率图像,在全球不同区域的分辨率从0.5米到15米不等。这些图像采集自谷歌Earth的五种主要土地覆盖类型,即水、植被、湿地、城市、冰雪和贫瘠土地。 KeyValue卫星类型谷歌Earth覆盖区…

太惨了,又一个程序员被渣的开年大瓜

今天闲暇之余浏览了一下mm,忽然看见一条瓜:某东pdf瓜,一份19页的PDF文件,题为《婚房变赠予,京东渣女出轨连环套设计冤大头程序员》,点进去看了一下,简直炸裂了三观,男同志们一定要保…

EI级 | Matlab实现VMD-TCN-LSTM变分模态分解结合时间卷积长短期记忆神经网络多变量光伏功率时间序列预测

EI级 | Matlab实现VMD-TCN-LSTM变分模态分解结合时间卷积长短期记忆神经网络多变量光伏功率时间序列预测 目录 EI级 | Matlab实现VMD-TCN-LSTM变分模态分解结合时间卷积长短期记忆神经网络多变量光伏功率时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.【E…

【LLM 论文阅读】NEFTU N E: LLM微调的免费午餐

指令微调的局限性 指令微调对于训练llm的能力至关重要,而模型的有用性在很大程度上取决于我们从小指令数据集中获得最大信息的能力。在本文中,我们提出在微调正向传递的过程中,在训练数据的嵌入向量中添加随机噪声,论文实验显示这…

彭博评选2024年50家企业,比亚迪、联发科上榜 | 百能云芯

彭博资讯于9日发布2024年全球50家值得关注的企业名单,该名单由彭博分析师团队从金融到食品等领域追踪了约2,000家企业中挑选出的,根据「观点聚焦」清单,选出50家值得关注的公司,重点考虑了其独特观点、领导层变化、资产出售或并购…

2023年全国职业院校技能大赛(高职组)“云计算应用”赛项赛卷①

2023年全国职业院校技能大赛(高职组) “云计算应用”赛项赛卷1 目录 需要竞赛软件包环境以及备赛资源可私信博主!!! 2023年全国职业院校技能大赛(高职组) “云计算应用”赛项赛卷1 模块一 …

Flask 菜品管理

common/libs/Helper.py getDictFilterField() 方法 用于在web/templates/food/index.html中展示菜品分类 如何能够通过food里面的cat_id获取分类信息呢?只能通过for循环,这样会很麻烦,所以定义了这个方法。 这个方法可以的查询返回结果…

【数据库系统概论】期末复习1

试述数据、数据库、数据库系统、数据库管理系统的概念。试述文件系统与数据库系统的区别和联系。试述数据库系统的特点。数据库管理系统的主要功能有哪些?试述数据库系统三级模式结构,这种结构的优点是什么?什么叫数据与程序的物理独立性&…

玩转QrCode

生成二维码,跳转指定 url 导入模块 npm install --save qrcode.vue1.7.0 引入模块 import QrcodeVue from qrcode.vue编写页面 button 触发 <template><el-button type"primary" click"showQRCode"><svg-icon icon-class"code&quo…

如何在IEC61850的ICD文件中添加新的DO节点

写在前面 恭喜“梅山剑客”粉丝突破1K&#xff0c;为了纪念这一伟大的时刻&#xff0c;今日发表此文&#xff0c; 纪念这神圣的时间节点&#xff0c;愿各位 青春永驻&#xff0c;笔耕不息。 本文参考链接&#xff1a; 1、61850开发知识总结与分享 2、IEC61850建模说明 1 简介…

ELF文件格式解析二

使用objdump命令查看elf文件 objdump -x 查看elf文件所有头部的信息 所有的elf文件。 程序头部&#xff08;Program Header&#xff09;中&#xff0c;都以 PT_PHDR和PT_INTERP先开始。这两个段必须在所有可加载段项目的前面。 从上图中的INTERP段中&#xff0c;可以看到改段…

QT第三天

完善对话框&#xff0c;点击登录对话框&#xff0c;如果账号和密码匹配&#xff0c;则弹出信息对话框&#xff0c;给出提示”登录成功“&#xff0c;提供一个Ok按钮&#xff0c;用户点击Ok后&#xff0c;关闭登录界面&#xff0c;跳转到其他界面如果账号和密码不匹配&#xff0…

内存淘金术:Redis 内存满了怎么办?

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 内存淘金术&#xff1a;Redis 内存满了怎么办&#xff1f; 前言LRU&#xff08;Least Recently Used&#xff09;算法LFU&#xff08;Least Frequently Used&#xff09;算法定期淘汰策略内存淘汰事件…

最新出炉!知乎最牛最全JMeter+Ant+Jenkins接口自动化测试框架(Windows)

一:简介 大致思路&#xff1a;Jmeter可以做接口测试&#xff0c;也能做压力测试&#xff0c;而且是开源软件&#xff1b;Ant是基于Java的构建工具&#xff0c;完成脚本执行并收集结果生成报告&#xff0c;可以跨平台&#xff0c;Jenkins是持续集成工具。将这三者结合起来可以搭…

JNPF低代码是什么,怎么样?

低代码开发平台已经是程序员日常标配效率工具了&#xff0c;曾经我们拿到开发需求后&#xff0c;要先配 Vue & React 等框架环境、再选需要引入的第三方组件库&#xff0c;最后穿针引线&#xff0c;调试搭建起需要的后台工具。这其中无数深坑等着我们去趟&#xff0c;直到低…

【C++进阶05】AVL树的介绍及模拟实现

一、AVL树的概念 二叉搜索树的缺点 二叉搜索树虽可以缩短查找效率 但如果数据有序或接近有序 二叉搜索树将退化为单支树 查找元素相当于在顺序表中搜索元素&#xff0c;效率低下 AVL树便是解决此问题 向二叉搜索树中插入新结点 并保证每个结点的左右子树 高度之差的绝对值不超…

企业邮箱性价比之选:服务、功能与价格的实用指南

企业选择企业邮箱服务商时需要考虑的几个核心指标&#xff1a;稳定性、安全性、容量大小、用户体验以及价格因素。只有在这些方面都有良好表现的邮箱服务商&#xff0c;才能称得上是性价比高的选择。 一、企业邮箱选择参考指标 1、稳定性 稳定性是企业邮箱服务的生命线&#xf…