Re53：读论文 How Can We Know What Language Models Know?

Re53：读论文 How Can We Know What Language Models Know?

news2025/1/12 11:56:11

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称：How Can We Know What Language Models Know?

ArXiv网址：https://arxiv.org/abs/1911.12543

官方GitHub项目（prompt之类的都有）：https://github.com/jzbjyb/LPAQA

本文是2020年TACL论文，作者来自卡耐基梅隆大学和博世北美研究所。

本文关注探索LM中蕴含的知识。以前已经有工作用完形填空的方式来探查知识（Obama is a __ by profession），但是这些填空模版（prompt）都是手工做的，因此可能是sub-optimal的（在上一篇论文最后也提及了），不能充分发挥LM的能力。
本文的解决方案是自动挖掘prompt（远程监督、回译、集成）

这篇工作的实验真的多，这也太能做了。

文章目录

1. 探查知识的方案
2. 实验
- 1. 数据集
- 2. LM
- 3. baseline
- 4. 实验设置
- 5. 主实验结果
- 6. 实验分析
- - Prediction Consistency by Prompt
  - POS-based Analysis
  - Cross-model Consistency
  - Linear vs. Log-linear Combination
- 7. 失败trick集合

1. 探查知识的方案

在这里插入图片描述

从数据库中获取知识是deterministic的，但从LM中获取知识（完形填空）是不可靠的。
本文用的都是双向LM，做填空题的那种。

mining-based methods：远程监督：从维基百科中找三元组出现的句子。
1. 方法一：Middle-word Prompts（subject prompt object）
2. 方法二：Dependency-based Prompts（句法分析→subject和object之间的依存路径）
  
  （句法分析这块我也不懂总之大概是这么个意思吧）
paraphrasing-based methods：对人工或挖掘得到的种子prompt进行回译
挑选和集成prompt
1. Top-1 Prompt Selection：选择在训练集上准确率最高的prompt（这个准确率的公式定义比较复杂，但是反正就这个prompt对应的关系里object预测正确的占所有样本的比例）
2. Rank-based Ensemble：top-K概率求和
3. Optimized Ensemble：大意是说对每个关系的T个prompt分别训练权重

这篇paper里面还提及了BERT跟LM的标准定义严格来说不一样这一茬：
在这里插入图片描述
感觉现在已经没人在乎了=== 随便吧==

2. 实验

1. 数据集

在这里插入图片描述

2. LM

BERT-base
BERT-large

增强了外部的实体表征：
ERNIE
Know-Bert

3. baseline

Majority
Man：手工prompt
Mine
Mine+Man
Mine+Para
Man+Para
TopK：求平均
Opti.：加权平均
Oracle：所有prompt中有一个能预测正确，就算LM知道这个知识

4. 实验设置

mine 40个prompts
回译7个prompts

清洗噪音prompts

Adam
batch size: 32

5. 主实验结果

评估指标：micro-averaged accuracy

在这里插入图片描述

与手工prompt相比，效果得到了提升：
在这里插入图片描述

集成权重：
在这里插入图片描述

K的选择：
在这里插入图片描述

prompt做轻微修改也能改变效果：
在这里插入图片描述

两种远程监督方案的对比：
在这里插入图片描述

不同LM的实验结果：
在这里插入图片描述

在LAMA-HUN（一个比LAMA更难的benchmark）上的表现：
在这里插入图片描述

在Google-RE上的表现：
在这里插入图片描述

6. 实验分析

Prediction Consistency by Prompt

在这里插入图片描述
divergence是两个prompt预测结果不同的程度：

皮尔森相关系数是0.25，说明编辑距离和divergence之间确实存在弱相关性（prompt差别越大，预测结果差别越大）

POS-based Analysis

在这里插入图片描述

在这里插入图片描述
用排名分布而不是准确率分布，在脚注解释了一下是因为不同关系的准确率的量级不同

Cross-model Consistency

检测prompts能不能跨模型通用

在这里插入图片描述

在这里插入图片描述

Linear vs. Log-linear Combination

求和的权重

在这里插入图片描述

7. 失败trick集合

这块真实诚啊

LM-aware Prompt Generation
Forward and Backward Probabilities

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1246706.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

问卷调查平台选择指南：哪个好用与如何选择的实用指南

问卷调查平台选择指南：哪个好用与如何选择的实用指南

问卷调查由于其成本低、数据可量化的特点，常被用于工作和学习中。网络的发展使得问卷调查的形式也越累越多样化，不少人在做问卷调查的时候可能都会提出这样一个问题——问卷调查平台哪个好用？怎么选择？ 选择问卷调查平台&#xf…

阅读更多...

【开源】基于JAVA的衣物搭配系统

【开源】基于JAVA的衣物搭配系统

项目编号： S 016 ，文末获取源码。 \color{red}{项目编号：S016，文末获取源码。} 项目编号：S016，文末获取源码。目录一、摘要1.1 项目介绍1.2 项目录屏二、研究内容2.1 衣物档案模块2.2 衣物搭配模块2.3 衣…

阅读更多...

IIS 基线安全加固操作

IIS 基线安全加固操作

目录账号管理、认证授权 ELK-IIS-01-01-01 ELK-IIS-01-01-02 ELK-IIS-01-01-03 ELK-IIS-01-01-04 日志配置 ELK-IIS-02-01-01 ELK-IIS-02-01-02 ELK-IIS-02-01-03 通信协议 ELK-IIS-03-01-01 设备其他安全要求 ELK-IIS-04-01-01 ELK-I…

阅读更多...

App Inventor 2 数字转文本

App Inventor 2 数字转文本

App Inventor 2 是弱语言类型，文本和数字之间不用刻意去转换，之间赋值就可以了。案例：数字转文本 App Inventor 2 是弱语言类型，同理数字也能直接赋值给文本变量： 更多请参考：App Inventor 2 文本代码块…

阅读更多...

表格视图，支持数据直接编辑丨三叠云

表格视图，支持数据直接编辑丨三叠云

表格视图路径表单设置 >> 视图设置功能简介新增用户可以直接表格视图中直接点击编辑数据。管理员开启「列表编辑」后，用户无需再点击进入数据详情，可直接在列表中编辑数据，节约用户修改数据的时间。使用场景： 通…

阅读更多...

Win10系统Steam错误代码118的解决教程

Win10系统Steam错误代码118的解决教程

在Win10系统中，用户可以打开Steam平台搜索喜欢的游戏，点击开始畅玩。但是，有用户反映自己在Steam平台上操作的时候，收到了错误代码118的提示，导致自己没有办法正常进行操作。接下来小编给大家详细介绍关于解决Win10系统…

阅读更多...

详解Rust编程中的生命周期

详解Rust编程中的生命周期

1.摘要生命周期在Rust编程中是一个重要概念, 它能确保引用像预期的那样一直有效。在Rust语言中, 每一个引用都有其生命周期, 通俗讲就是每个引用在程序执行的过程中都有其自身的作用域, 一旦离开其作用域, 其生命周期也宣告结束, 值不再有效。幸运的是, 在绝大多数时间里, 生…

阅读更多...

Dockerfile-CentOS7.9+Python3.11.2

Dockerfile-CentOS7.9+Python3.11.2

本文为CentOS7.9下安装Python3.11.2环境的Dockerfile # CentOS with Python3.11.2 # Author xxmail.com# build a new image with basic centos FROM centos:centos7.9.2009 # who is the author MAINTAINER xxmail.comRUN ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/…

阅读更多...

Stable Video Diffusion（SVD）安装和测试

Stable Video Diffusion（SVD）安装和测试

Stable Video Diffusion（SVD）安装和测试官网 github | https://github.com/Stability-AI/generative-modelsHugging Face | https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xtPaper | https://stability.ai/research/stable-vid…

阅读更多...

可以ping通IP但是无法远程连接-‘telnet‘ 不是内部或外部命令，也不是可运行的程序或批处理文件

可以ping通IP但是无法远程连接-‘telnet‘ 不是内部或外部命令，也不是可运行的程序或批处理文件

起因一开始远程连接IP，报错，怀疑是自己网络原因，但是同事依旧无法连接怀疑是自己防火墙的原因，查看关闭依旧无法连接问题两个地址可以ping通排除防火墙缘故怀疑端口，测试端口然解决方案 winR 输入control…

阅读更多...

关于数据库，JetBrains 最新的开发者报告里说了些什么

关于数据库，JetBrains 最新的开发者报告里说了些什么

最近 JetBrains 也发布了一年一度的开发者生态报告。这次是从全球 196 个国家的 35000 问卷中，选取了 26348 份（工程师就是严谨，有零有整）。相比于领域内的另两大报告，Google 的 DORA 和 Stack Overflow Developer…

阅读更多...

Vue基础入门(二)：Vue3的创建与分析

Vue基础入门(二)：Vue3的创建与分析

Vue3的创建 vue3 是基于 es6 的一些新特性的支持而从 vue2 升级上来的版本，但是 vue3 是兼容 vue2 的。一、Vue的使用 1.1 通过CDN使用Vue 你可以借助 script 标签直接通过 CDN 来使用 Vue： <script src"https://unpkg.com/vue3/dist…

阅读更多...

详解Java中的异常体系机构（throw，throws，try catch，finally）

详解Java中的异常体系机构（throw，throws，try catch，finally）

目录一.异常的概念二.异常的体系结构三.异常的处理异常处理思路 LBYL：Look Before You Leap EAFP: Its Easier to Ask Forgiveness than Permission 异常抛出throw 异常的捕获提醒声明throws try-catch捕获处理 finally的作用四.自定义异常类一.异…

阅读更多...

关于 Google AMP 和 SEO

关于 Google AMP 和 SEO

Google 于 2015 年首次推出 AMP，即加速移动页面。借助开源 AMP 框架，网页设计师可以制作快速加载的移动网页。该框架的创建是为了应对使用移动设备访问互联网的个人数量的增加。从那时起，谷歌一直在推动使用 AMP 来增强移动设备上的 SEO 和用…

阅读更多...

视频服务网关的三大部署（二）

视频服务网关的三大部署（二）

视频网关是软硬一体的一款产品，可提供多协议（RTSP/ONVIF/GB28181/海康ISUP/EHOME/大华、海康SDK等）的设备视频接入、采集、处理、存储和分发等服务， 配合视频网关云管理平台，可广泛应用于安防监控、智能检测、智慧园区…

阅读更多...

2016年10月4日 Go生态洞察：HTTP追踪介绍

2016年10月4日 Go生态洞察：HTTP追踪介绍

🌷🍁 博主猫头虎（🐅🐾）带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

阅读更多...

精益生产中的周转箱优势：提升效率与质量的得力利器

精益生产中的周转箱优势：提升效率与质量的得力利器

在当今竞争激烈的制造业中，企业追求高效生产和卓越质量是至关重要的。精益生产理念提供了一套有效的工具和方法，其中周转箱作为一个关键的组成部分，在优化生产流程、提高效率和质量方面发挥着重要作用。下面谈谈精益生产中的周转箱优势&#…

阅读更多...

Sectigo

随着互联网的普及和技术的飞速发展，网络安全问题引起重视。这时，有一家名为Sectigo(原Comodo CA)的公司应运而生，致力于为企业和个人提供最先进、最可靠的网络安全解决方案。 Sectigo(原Comodo CA) 成立于2008年，总部位于美国加利…

阅读更多...

NX二次开发UF_CSYS_create_matrix 函数介绍

NX二次开发UF_CSYS_create_matrix 函数介绍

文章作者：里海来源网站：https://blog.csdn.net/WangPaiFeiXingYuan UF_CSYS_create_matrix Defined in: uf_csys.h int UF_CSYS_create_matrix(const double matrix_values [ 9 ] , tag_t * matrix_id ) overview 概述 Creates a 3 x 3 matrix. 创建…

阅读更多...

关于进制的转化

关于进制的转化

二进制转十进制： 🔰 方法一：二进制转十进制，用各数的码位与位权的乘积之和，说白了就是用从右到左的每个数去乘以2的幂次方（最右边是0），然后就所有的数相加。补充：位权是…

阅读更多...

推荐文章

最新文章