探索大型语言模型在文化常识方面的理解能力与局限性

news2024/11/25 16:05:10

介绍

论文地址:https://arxiv.org/pdf/2405.04655v1

近年来,大型语言模型(LLM)不仅被广泛应用于各个领域,而且通过大量的基准评估,证明它们能够理解人类所拥有的常识(=Commonsense)。这里的常识指的是世界上大多数人所共有的关于世界的广泛而基本的常识,包括关于日常事件、现象和关系的一般知识。LLM群体在过去投入了大量精力,除了公共常识外,还建立了更为专业的知识库,如物理常识和社会常识。

另一方面,常识,如 “红色是婚纱的常见颜色”,在中国、印度和越南是共同的文化规范但在意大利或法国却不是。常识在中国、印度和越南是共同的文化规范,但在意大利和法国却不是。

然而,也存在一些问题:以往的研究很少考察LLM对这种文化常识(=Cultural Commonsense)的理解。在此背景下,本文介绍了一篇论文,该论文通过使用多种文化常识****基准进行比较实验,研究了不同文化背景下LLM表现的差异和局限性,并指出了LLM对文化理解的固有偏差

概述

常识往往是隐性的、不成文的,因此与事实知识的不同之处在于,它具有通过文化学习长期习得的特性。部分由于这种性质的分析困难,现有的文化常识研究非常有限,而且这些研究也主要集中在建立包含相对较少的文化事实和信息的数据集上。而本文则侧重于语言文本作为文化背景的功能,即一个文化群体的先学语料库中的文本是用该文化群体所使用的语言写成的

如下图所示。

例如,**"人们在道路的哪一边行走?**如果用日语或斯瓦希里语(肯尼亚的官方语言)来回答,用户很可能是会说这两种语言的日本人或肯尼亚人,因此更有可能回答 “左边”。鉴于这些特点,本文研究了LLM在文化常识方面的能力和局限性,这是以前从未做过的。

实验装置

本文根据以下两个标准对 LLM 进行评估

  1. 了解特定文化和一般常识
  2. 了解特定文化背景下的一般常识

根据这些评估标准,本文使用中国、****印度、伊朗、肯尼亚和美国五个国家的文化和五种官方语言(中文、印地语、波斯语、苏马瓦里语和英语)进行了多任务实验。

创建多语言提示

在本实验中,我们制作了多语言提示,以研究语言在本地语言学习者的表现中所起的作用,以及不同语言在多大程度上可以提高(或降低)本地语言学习者识别文化常识的能力。

具体来说,对于以中文、印地语、波斯语、苏马瓦里语和英语书写的提示,Azure 的翻译 API 可用于将其翻译为目标语言。

此外,还通过使用不同的翻译工具重新翻译部分翻译结果来验证翻译质量。

测试LLM

为了全面测试 LLMs 在与文化常识相关的任务中的能力,本文在不同尺度上对 LLMs 进行了实验,包括

使用的开源模型有:LLAMA2(用于各种任务);Vicuna(由 ShareGPT 对 LLAMA2 进行微调);Falcon(具有开放的商业用途和干净的语料库 RefinedWeb)。

此外,闭源模型还有GPT-3.5-turbo 和****GPT-4,它们是托管在 Azure 上的 OpenAI 模型。

通过对这些模型执行下述任务,对每个模型进行了比较验证。

实验结果

本实验进行了两项任务的对比实验:问题解答(QUESTION ANSWERING)国家预测(COUNTRY PREDICTION)

下图显示了这些任务中使用的提示和正确答案示例,每种提示都指示 LLM 填入句子的屏蔽部分。

让我们逐一看看。

回答问题

这项任务涉及的问题在不同的文化中会有不同的答案,对于特定文化背景的人来说,这些问题被认为是常识性的,它向LLM们展示了每种相关文化的常识性论据,这些论据显示了他们的民族背景和可供选择的选项,并要求他们填写遮盖的区域。

问题和答案选项被翻译成多种语言,每个模型被指示用与输入相同的语言作答。

实验结果如下表所示。

值得注意的是**,在伊朗(Iran)和肯尼亚(Kenya)的问题上,所有模型的性能都有所下降,尤其是在伊朗,平均准确率下降了 20%**。

从这一结果可以推断出,LLM 无法应对来自先前学习语料库中代表性不强的国家的文化常识

国家预测

为了进一步了解情况,本文随后利用国家预测进行了比较验证。

这项任务是为了测试 “在给定一个包含特定文化常识的句子时,语言学LLM能否识别出句子中提到的是哪个国家”,在句子中屏蔽了国家名称,然后让语言学LLM做出回答。

实验结果如下表所示。

与问答任务一样,在比较不同文化背景下的表现时,该模型在伊朗或肯尼亚的表现始终最差�

此外,在印度、伊朗和肯尼亚,我们发现当使用开放源码模型以该国语言进行查询时,性能比英语低(但在封闭源码模型中则没有)。

这一现象可能表明,在开放源码模式中,用于输入 LLM 的语言可能会影响性能,而且对 LLM 文化的理解存在固有偏差

总结

结果如何?在这篇文章中,我们介绍了一篇论文,该论文通过使用多种文化规范的基准进行比较实验,研究了不同文化背景下LLM成绩的差异和局限性,并指出了LLM对文化理解的固有偏差。

虽然本文在实验中提出了各种建议,但也存在一些挑战**,例如****本文使用的数据集只有英文版**,而且研究中使用的 LLM 模型也不是最新的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2193372.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FLUX的ID保持项目也来了! 字节开源PuLID-FLUX-v0.9.0,开启一致性风格写真新纪元!

之前的文章已经和大家介绍过字节开源的ID保持项目PuLID。随着FLUX模型的发布,PuLID也开源了 FLUX 版本的模型,不得不说FLUX的强大,两个月生态就赶上了SDXL。这次新发布PuLID-FLUX-v0.9.0模型,它为FLUX.1-dev提供了无需调整的ID定制…

简单部署vue+springboot项目

vue 参考博客 先将vue项目打包 npm run build 再创建项目文件夹front,在front中新建nginx.conf server {listen 80;server_name localhost;# 请求体的大小限制client_max_body_size 50m;# 日志文件存放地址access_log /var/log/nginx/host.access.log main;error…

嵌入式知识点复习(一)

国庆倒数第二天,进行嵌入式课堂测试的复习: 第一章 绪论 1.1 嵌入式系统的概念 嵌入式系统定义 嵌入式系统定位 嵌入式系统形式 嵌入式系统三要素 嵌入式系统与桌面通用系统的区别 1.2 嵌入式系统的发展历程 微处理器的演进历史 单片机的演进历史 …

学习使用Cube软件

一、点亮LED灯 1、新建项目 File → New → STM32 Project搜索芯片信号项目名称 弹窗点击Yes 2、点亮LED 配置GPIO为输出模式 细化配置 保存(ctrl S)自动生成代码 手动生成代码 选择跳转到代码页面

【d60】【Java】【力扣】509. 斐波那契数

思路 要做的问题:求F(n), F(n)就等于F(n-1)F(n-2),要把这个F(n-1)F(n-2)当作常量,已经得到的值, 结束条件:如果是第1 第2 个数字的时候,没有n-1和n-2,所以…

系统设计,如何设计一个秒杀功能

需要解决的问题 瞬时流量的承接防止超卖预防黑产避免对正常服务的影响兜底方法 前端设计 利用 CDN 缓存静态资源,减轻服务器的压力在前端随机限流按钮防抖,防止用户重复点击 后端设计 Nginx 做统一接入,进行负载均衡与限流用 sentinel 等…

Kron Reduction消去法如何操作,矩阵推导过程

三阶矩阵消去单节点 在电力系统中,母线上的电流注入始终为0,这样的节点可以通过一定的方法消除。以三节点为例,假设注入节点3的电流为0,则: [ I 1 I 2 I 3 ] = [ I 1 I 2 0 ] = [ Y 11 Y 12 Y 13 Y 21 Y 22 Y 23 Y 31 Y 32 Y 33 ] [ V 1 V 2 V 3 ] \left[\begin{array}{…

交叉熵的数学推导和手撕代码

交叉熵的数学推导和手撕代码 数学推导手撕代码 数学推导 手撕代码 import torch import torch.nn.functional as F# 二元交叉熵损失函数 def binary_cross_entropy(predictions, targets):# predictions应为sigmoid函数的输出,即概率值# targets应为0或1的二进制标…

一个值得关注的3D生成新算法:速度和图像生成平齐,能生成合理的展开贴图和高质量mesh

今天跟大家介绍的GIMDiffusion是一种新的Text-to-3D模型,利用几何图像(Geometry Images)来高效地表示3D形状,避免了复杂的3D架构。通过结合现有的Text-to-Image模型如Stable Diffusion的2D先验知识,GIMDiffusion能够在…

系统架构设计师论文《论NoSQL数据库技术及其应用》精选试读

论文真题 随着互联网web2.0网站的兴起,传统关系数据库在应对web2.0 网站,特别是超大规模和高并发的web2.0纯动态SNS网站上已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展…

LeetCode讲解篇之139. 单词拆分

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 我们使用一个数组记录字符串s在[0, i)区间能否使用wordDict组成 我们使用左右指针遍历字符串s的子串,左指针 j 为子串的左端点下标,右指针 i 为右端点下标的下一个 遍历过程中如果字符串s…

利士策分享,哀牢山:网红打卡地背后的探险风险

利士策分享,哀牢山:网红打卡地背后的探险风险 最近,云南的哀牢山因其独特的自然风光和神秘探险氛围而迅速走红网络。许多游客,特别是户外探险爱好者,纷纷涌入这片神秘的山脉,想要亲身体验那份原始与野性的…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06目录1. A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization摘要:研究背景&…

MATLAB智能优化算法-学习笔记(4)——灰狼优化算法求解旅行商问题【过程+代码】

灰狼优化算法(Grey Wolf Optimizer, GWO)是一种基于灰狼社会行为的元启发式算法,主要模拟灰狼群体的捕猎行为(包括围攻、追捕、搜寻猎物等过程)。多旅行商问题(Multi-Traveling Salesman Problem, mTSP)是旅行商问题(TSP)的扩展,它涉及多个旅行商(车辆)从一个起点城…

超好用的element的el-pagination分页组件二次封装-附源码及讲解

前言:在很多后台管理系统开发时总会有很多分页组件的使用,如果我们每次都用elementui官网的el-pagination去写的话,调整所有分页的样式就会很麻烦,而且页面内容也会很累赘繁琐。 讲解一个我经常使用的二次封装el-pagination组件&…

产品经理产出的原型设计 - 需求文档应该怎么制作?

需求文档,产品经理最终产出的文档,也是产品设计最终的表述形式。本次分享呢,就是介绍如何写好一份需求文档。 所有元件均可复用,可作为管理端原型设计模板,按照实际项目需求进行功能拓展。有需要的话可分享源文件。 …

免费版U盘数据恢复软件大揭秘,拯救你的重要数据

我们的生活和工作越来越离不开各种存储设备,其中优盘因其小巧便携、方便使用的特点,成为了我们存储和传输数据的重要工具之一。为了防止你像我一样会遇到数据丢失抓狂的情况,我分享几款u盘数据恢复软件免费版工具来即时补救。 1.福昕U盘数据…

DDR6 或将出炉 (含 LPDDR6, CAMM)

前记:目前DDR6 尚未问世,文中较多信息是“据说”,笔者也无法考证,请大家后期以JEDEC官方为准。 很多朋友可能还没用上DDR5,但不好意思的是,DDR6 可能马上就要出现了。 三星和海力士较早开始DDR6 的设计,预计2025年商业化。 DDR6 速度 来源: 半导体观察 DDR6的速度…

VL53L4CD液位监测(2)----液位检测

VL53L4CD液位监测.2--液位检测 概述视频教学样品申请完整代码下载硬件准备STSW-IMG039容器特性包含必要的头文件变量定义测距函数 Ranging()液位误差补偿函数 Liquidlevelmeasureerrorcomponsate()数据轮询函数 get_data_by_polling()演示 概述 液位检测在工业自动化、环境监测…

[git] github管理项目之环境依赖管理

导出依赖到 requirements.txt pip install pipreqs pipreqs . --encodingutf8 --force但是直接使用pip安装不了torch,需要添加源!! pip install -r requirements.txt -f https://download.pytorch.org/whl/torch_stable.htmlpython 项目中 …