How Can We Know What Language Models Know?

news2024/9/24 1:59:19

Abstract

最近的工作通过让语言模型(LM)填补诸如“奥巴马是一个职业”之类的提示的空白,提出了一个有趣的结果,以检查语言模型(LM)中包含的知识。这些提示通常是手动创建的,而且很可能不是最佳的;另一个提示,如“奥巴马曾是一名”,可能会更准确地预测正确的职业。因此,如果给出不适当的提示,我们可能无法检索LM确实知道的事实,因此任何给定的提示都只能提供LM中包含的知识的下限估计。在本文中,我们试图通过自动发现在查询过程中使用的更好提示来更准确地估计LMs中包含的知识。具体而言,我们提出了基于挖掘和基于释义的方法来自动生成高质量和多样化的提示,以及组合来自不同提示的答案的集成方法。在LAMA基准上用于从LMs中提取关系知识的大量实验表明,我们的方法可以将准确率从31.1%提高到39.6%,从而为LMs所知提供了更严格的下限。 

Introduction

近年来,语言模型(LM)的主要作用已经从生成或评估自然文本的流畅性转变为文本理解的强大工具。这种理解主要是通过使用语言建模作为特征提取器的预训练任务来实现的,其中通过语言建模目标学习的隐藏向量随后被用于下游语言理解系统。有趣的是,越来越明显的是,LMs1本身可以作为文本理解的工具,通过用自然语言表达查询并直接生成文本答案或者评估多种选择并选择最可能的一种。例如,LMs已用于回答事实问题(Radford等人,2019),回答常识性问题(Trinh和Le,2018;Sap等人,2019年),或提取关于实体之间关系的事实知识 。无论最终任务是什么,LM中包含的知识都是通过提供提示来探究的,并让LM生成前缀的延续(例如“Barack Obama出生于”),或预测完形填空模板中缺少的单词(例如,“Barack Barack Obama是一个职业”)。 

Prompt Generation

首先,我们处理提示生成:为每个关系r生成一组提示{tr,i}Ti=1的任务,其中至少一些提示有效地触发LMs来预测ground-truth对象。我们使用两种实用方法从大型语料库中挖掘提示候选(§3.1)或通过转述使种子提示多样化(§3.2)。 

Mining-based Generation

我们的第一种方法受到基于模板的关系提取方法的启发,该方法基于这样的观察,即大型语料库中主题x和对象y附近的单词通常描述关系r。基于这种直觉,我们首先使用远程监督的假设来识别包含特定关系r的主语和宾语的所有维基百科句子,然后提出两种方法来提取提示。 

Middle-word Prompts

观察到主语和宾语中间的单词通常表示关系,我们直接使用这些单词作为提示。例如,通过用占位符替换主语和宾语,“贝拉克·奥巴马出生于夏威夷”被转换为提示“x出生于y”。 

Dependency-based Prompts

Toutanova等人注意到,如果模板中的单词没有出现在中间(例如“the capital of France is Paris”),则基于句子句法分析的模板可以更有效地进行关系提取。 第二种提示创建策略,它使用依赖性解析器解析句子,以确定主语和宾语之间的最短依赖性路径,然后使用依赖性路径中从最左侧单词到最右侧单词的短语作为提示。 例如,上面示例中的依赖路径是 France (pobj)← − − of (prep)← capital (nsubj)← − − − is (attr)− − → Paris。其中最左边和最右边的单词是“capital ”和“Paris”,提示“capital of x is y”。 

值得注意的是,这些基于挖掘的方法不依赖于任何手动创建的提示,因此可以灵活地应用于我们可以获得一组主题对象对的任何关系。这将导致不同的提示,包括在文本中表达关系的各种方式。然而,它也可能容易产生噪声,因为以这种方式获取的许多提示可能不太能指示关系(例如“x,y”),即使它们是频繁的。 

 Paraphrasing-based Generation

我们的第二种生成提示的方法更具针对性——它旨在提高词汇多样性,同时保持对原始提示的相对忠实。具体地说,我们通过将原始提示转换为其他语义相似或相同的表达式来实现这一点。例如,如果我们的原始提示是“x shares a border with y”,则可以将其改为“x has a common border with y” and “x adjoins y”.。这在概念上类似于信息检索中使用的查询扩展技术,该技术重新构造给定的查询以提高检索性能。

虽然有许多方法可以用于转述(Romano等人,2006年;Bhagat和Ravichandran,2008年),但我们遵循使用反向翻译的简单方法(Sennrich等人,2016年;Mallinson等人,2017年),首先将初始提示翻译成另一种语言的B候选,然后将每一种反向翻译成原始语言的B候选项。 

然后,我们根据B²候选词的往返概率(即Pforward(`t|t')·Pbackward(t|´t),其中t'是初始提示,´t为其他语言的翻译提示,t为最终提示)对其进行排名,并保留前t个提示。 

Prompt Selection and Ensembling

在上一节中,我们描述了为特定关系r生成一组候选提示{tr,i}Ti=1的方法。 这些提示中的每一个都可能或多或少有效地从LM获取知识,因此有必要决定如何在测试时使用这些生成的提示。在本节中,我们将介绍三种方法。

Top-1 Prompt Selection

对于每个提示,我们可以使用以下方法测量其预测ground-truth对象的准确性(在训练数据集上): 

其中R是一组具有关系R的主-客体对,δ(·)是克罗内克的δ函数,如果内部条件为真,则返回1,否则返回0。在查询LM的最简单方法中,我们选择精度最高的提示,并仅使用此提示进行查询。  

Rank-based Ensemble

接下来,我们将研究不仅使用top1提示,而且将多个提示组合在一起的方法。这样做的优点是,LM可能在其训练数据内的不同上下文中观察到了不同的实体对,并且具有各种提示可以允许引出在这些不同上下文中出现的知识。我们的第一种集合方法是一种无参数方法,它对排名靠前的提示的预测进行平均。我们根据预测训练集中对象的准确性对所有提示进行排序,并使用前K个提示中的平均对数概率来计算对象的概率: 

 其中tr,i是排名第i位的提示。这里,K是一个超参数,其中小K集中在少数最准确的提示上,大K增加了提示的多样性。 

Optimized Ensemble

上述方法对前K个提示一视同仁,这是次优的,因为某些提示比其他提示更可靠。因此,我们还提出了一种直接优化提示权重的方法。形式上,我们将等式1中的分数重新定义为: 

 其中Pθr(tr,i|r)=softmax(θr)是由θr(T大小的实值向量)参数化的提示上的分布。对于每一个关系,我们学习对一组不同的T个候选提示进行评分,因此参数总数是关系数的T倍。参数θr被优化以最大化金标准对象P(y|x,r)在训练数据上的概率。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/66942.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux进程通信之进程信号

一、信号的概念: 信号机制是Linux最基本的通讯机制,它可以用来向一个或者多个进程发送异步事件信息,传送少量信息。信号是一个软件中断,并且是一个“软中断”(只是告诉有这样一个信号,但这个信号具体如何进…

Redis6入门到实战------思维导图+章节目录

Redis学习大纲 思维导图 思维导图 Redis6入门到实战------1、NoSQL数据库简介 地址: Redis6入门到实战------2、Redis6概述和安装 地址: Redis6入门到实战------3、常用五大数据类型 地址: Redis6入门到实战------4、Redis6配置文件详解…

Stack Overflow 临时禁用 ChatGPT 生成内容,网友:人类和AI快打起来!

如果有一天我们查询到的「知识」真假难辨,那这就太可怕了。 要问最近 AI 圈哪个模型最火爆,你不得不把 OpenAI 推出的 ChatGPT 排在前面。自从发布以来,这个对话模型可谓是出尽风头,很多人更是对其产生了一百个新玩法,…

Linux系统移植四:Petalinux使用本地sstate-cache加速构建根文件系统

根文件系统简介 根文件系统 rootfs 是Linux内核启动以后挂载(mount)的第一个文件系统,然后从根文件系统中读取初始化脚本,比如rcS,inittab等 根文件系统和Linux内核是分开的,单独的Linux内核是没法正常工作的,必须要…

TPM零知识学习六 —— tpm模拟器安装

本文参考以下链接: TPM模拟器和TPM2-TSS安装_jianming21的博客-CSDN博客_tpm2-tss 可信平台模块TPM(Trusted Platform Module)介绍及tpm-tools安装使用_jinhuazhe2013的博客-CSDN博客_tpm模块 1. 源码下载 运行以下命令下载源码&#xff1…

设计模式--观察者模式

文章目录前言一、未使用设计模式二、观察者模式1.定义2.组成三、应用场景四、优缺点优缺前言 甲人A(产品经理):好啊,你小子,又被我逮到了,很闲是吧😇,需求完成了吗? two…

MOSFET 和 IGBT 栅极驱动器电路的基本原理学习笔记(三)同步整流器驱动

同步整流器驱动 1.栅极电荷 2.dv/dt注意事项 MOSFET 同步整流器是接地基准开关的一个特例。这些器件与传统应用所使用的 N 沟道 MOSFET 相同,只是它们被应用到了电源的低电压输出而非整流器二极管中。 它们通常可在非常有限的漏源极电压摆幅下工作,因此…

redis活跃非活跃连接数统计及client list说明

概念说明 活跃连接是指当下正在执行命令的连接,非活跃当然是相对的。 在redis中判断当前连接是否活跃是通过 内置的client list 命令输出中的idle来判断 client list字段说明 (kfzops) [roottest-xxx-01-vm ]# redis-cli -h r-xxxxxxxxxxxx.redis.rds.aliyuncs.…

学生身份标签的识别与风控应用

当前的互联网借贷平台,国家已明确规定不允许向高校学生发放贷款,因此对于小贷、消金等金融机构,在信贷产品业务的风控体系中,有效判断申请用户是否为高校学生是一个非常重要的问题。针对高校学生身份的识别,虽然有多种…

机器学习、深度学习、自然语言处理学习 NLP-RoadMap-996station GitHub鉴赏官

推荐理由: 机器学习、深度学习、自然语言处理学习路线图 及 AI方向学习资源、工具 NLP-RoadMap 持续更新中。以下内容有错误或者不足,欢迎提Issue或者联系我讨论 整理不易,希望点个小星星 ​支持下呀! 前言 数理基础 编程基础 机…

RE2:Simple and Effective Text Matching with Richer Alignment Features

原文链接:https://aclanthology.org/P19-1465.pdf 介绍 问题 作者认为之前文本匹配模型中序列对齐部分,过于复杂。只有单个inter-sequence alignment层的模型,常会引入外部信息(例如语法特征)作为额外输入,…

小游戏与H5游戏对比与梳理

H5游戏是运用了h5技术的响应式网站布局的游戏,它完全实现了网页游戏在手机移动端的无缝衔接。众所周知,H5游戏已盛行了多年,而如今,随着诸多小游戏的推出,小游戏爆款频出,从“跳一跳”到“羊了个羊”&#…

Leetcode---2465.不同的平均值数目

目录题目描述分析题目描述 给你一个下标从 0 开始长度为 偶数 的整数数组 nums 。 只要 nums 不是 空数组,你就重复执行以下步骤: 找到 nums 中的最小值,并删除它。 找到 nums 中的最大值,并删除它。 计算删除两数的平均值。 两…

Qt OpenGL 2D图像文字

这次教程中,我们将学会如何使用四边形纹理贴图把文字显示在屏幕上。我们将把256个不同的文字从一个256256的纹理图像中一个个提取出来,接着创建一个输出函数来创建任意我们希望的文字。 还记得在第一篇字体教程中我提到使用纹理在屏幕上绘制文字吗&…

springboot构建RESTful 风格应用

Spring Boot 构建 RESTful 风格应用 1.Web开发的两种模式: 前后端不分离: 以前没有移动互联网时,我们做的大部分应用都是前后端不分的,比如jsp,或者thymeleaf等后端分离模板,在这种架构的应用中&#xf…

SQLMAP _DNS注入配置方法

网上针对sqlmap进行dns注入的相关文章太少,只是简单介绍了下–dns-domain参数,相关的实战文章要么就模糊或者一笔带过,。然后参考网上的方法重新整理了一遍,简单理解。 需要准备的东西,sqlmap、windows盲注一个、两个…

档案信息化咨询方法论实践要点有哪些?

咨询工作中,有些咨询师也许会有这样的疑问:“我业务经验挺丰富的,但做咨询工作怎么这么吃力呢?”这可能就是因为缺乏方法论的有效指导。咨询方法论是咨询工作中用来分析和解决某类特定问题的工具、方法、流程、模型和评价准则等。…

Ansible之playbook详解和应用实例

目录 一、playbook简介 1.什么是playbook 2.playbook组成 二、应用实例 1.使用playbook安装启用httpd服务 2.使用playbook安装启用nginx服务 三、ansible-playbook其他用法 1.检查yaml文件的语法是否正确 2.检查tasks任务 3.检查指定的主机 4.指定从某个task开始运行…

红队学习隧道必须了解的知识

端口映射和端口转发 端口映射 端口映射就是将外网的主机的一个端口映射到内网主机的一个端口,提供相应的服务。当用户访问外网IP的这个端口时,服务器自动将请求映射到对应局域网内部的机器上 端口转发 端口转发就是将发往外网指定端口的通信完全转发给…

windows下安装hbase

windows下安转hbase 安装流程 解压提供的压缩包 该压缩包是经过我修改后的,已经创建data、tmp、zookeeper目录和替换相关配置文件,目的是简化安装流程 压缩包 https://share.weiyun.com/SLTS9woO 环境变量配置 在系统变量中添加HBASE_HOME环境变量&…