论文笔记--Won’t Get Fooled Again: Answering Questions with False Premises

news2024/12/24 11:00:50

论文笔记--Won’t Get Fooled Again: Answering Questions with False Premises

  • 1. 文章简介
  • 2. 文章概括
  • 3 文章重点技术
    • 3.1 大模型面对FPQs的表现
    • 3.2 False QAs数据集
    • 3.3 训练和评估
  • 4. 文章亮点
  • 5. 原文传送门

1. 文章简介

  • 标题:Won’t Get Fooled Again: Answering Questions with False Premises
  • 作者:Shengding Hu, Yifan Luo, Huadong Wang, Xingyi Cheng, Zhiyuan Liu, Maosong Sun
  • 日期:2023
  • 期刊:arxiv

2. 文章概括

  文章给出了第一份False Premises Questions(FPQs)数据集,并证明了PLMs本身具有识别False premise的能力,通过在少量FPQ上微调可以激活该能力。
  下图为PLM能力激活的一个简单示例
示例

3 文章重点技术

3.1 大模型面对FPQs的表现

  一般来说,我们直接问大模型"Does the sun have eyes?“可以得到正确的答案"No”,但当我们把错误问题作为前提提问其它问题时,比如"How many eyes does the sun have?",这时候大模型往往会把错误问题中蕴含的前提当真,并继续给出错误的答案。具体来说,我们用<subject, predicate, object>表示一个三元组,上述问题的三元组为<triple, quantity, ?>,其中triple为<syn, has_property, eye>,针对此类triple中嵌套triple的问题,大模型往往无法正确作答。
  文章测试了Bloon, OPT, Jurassic-1, GPT-3对一些FPQ的问答能力。如下表所示,大模型模型可以直接回答出单个三元组的问题,但无法正确回答错误假设下的问题FPQs。
FPQs-PLMs

3.2 False QAs数据集

  为了解决上述问题,文章构建了一份False QAs数据集。由于从自然语言语料库中收集数据可能会是的收集的问题不可控,且难以对其校正。为此,文章手动构建数据集,希望构建的False QA数据集具有broad coverage, high quality, few shortcuts, detailed explanations。
  首先,文章希望数据集包含尽可能多的问题分类。文章对错误问题进行了两种分类:按照错误类型进行分类(包括尝试错误、逻辑错误等);按照问题格式进行分类(包括事实类畏难而退,描述类问题等)。最后得到的数据集包括8种错误类型的问题,6种问题格式的问题,且每种类型的问题数量仅可能一致。
  作者雇用了20个人类标记员来创造FPQs。首先从Generic-sKB数据库中获取单词为源单词及对应的简短的描述性句子,然后标记员根据该单词进行发散思考创造出包含/与单词相关的错误前提的问题。为了让PLMs更深刻地理解任务,我们让标记员对每个FPQs进行修正,且需保证修改最小从而确保模型可以学习到必要的知识。此外,每个标记员被要求对FPQs为什么是错误的给出解释,且解释不能仅仅是对错误的否定。下图为标记数据的流程。
annomation  最后,文章得到了FalseQA数据集,包含2365个问题对(包含False QA和修正后的True QA)。

3.3 训练和评估

  为了让模型同时判断问题的假设是为真 并给出合理的解释,我们让模型生成判别tokens: “tricky question"或是"true question”,然后继续生成对判断的解释。由于判别tokens的token数很少,文章增加了额外的binary loss来进行学习,该loss和模型的生成时loss的比例为1。
  评估阶段,如果生成的答案中包含“tricku question”,则认为该问题为一个FPQ,否则为一个TPQ。

4. 文章亮点

  文章给出了第一个False Premise Questions数据集,在其基础上进行学习可以增强大模型对FPQs问题的判别和解释能力。且数值实验表明,在学习FPQs的过程中增加少量的原始QA数据(每次迭代使用小部分重复数据即可)可以有效地防止大模型的灾难性遗忘现象发生。False QAs数据集可供科研工作者进行进一步的该类研究,且文章提出的学习思路可供未来的QA数据集构建参考。

5. 原文传送门

Won’t Get Fooled Again: Answering Questions with False Premises

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/779300.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LLMs之LLaMA2:LLaMA2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略

LLMs之LLaMA2&#xff1a;LLaMA2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略 导读&#xff1a;2023年7月18日&#xff0c;Meta重磅发布Llama 2&#xff01;这是一组预训练和微调的大型语言模型&#xff08;LLM&#xff09;&#xff0c;规模从70亿…

(三)springboot实战——web新特性之函数式实现

前言 本节内容我们主要介绍一下web访问的另一种形式&#xff0c;通过函数式web实现一个restful风格的http请求案例。函数式web是spring5.2之后的一个新特性&#xff0c;可以通过函数去定义web请求的处理流程&#xff0c;使得代码更为简洁&#xff0c;耦合性也降低了。 正文 …

在vue3中配置ByteMD掘金同款markdown编辑器

最近因为想要一个富文本编辑器集合到项目中&#xff0c;在查找网上很多资料后&#xff0c;选择了ByteMD 编辑器&#xff0c;ByteMD 编辑器是字节跳动的掘金团队所开源的一个编辑器组件&#xff0c;还挺好用的&#xff0c;那如果要在vue3项目中配置ByteMD编辑器要如何配置呢&…

【YOLO】关闭控制台推理日志

问题 每次推理时&#xff0c;控制台都会打一条日志 消除方法 外部库里找到\site-packages\ultralytics\engine\predictor.py 将代码的282、283、292、293&#xff0c;这四行注释掉&#xff08;v5和v8一样&#xff09; 也可以搜关键词# Print time (inference-only)可以定位代…

基于PHP+ vue2 + element +mysql自主研发的医院不良事件上报系统

医院不良事件上报管理系统源码 不良事件上报是为了响应卫生部下发的等级医院评审细则中第三章第9条规定&#xff1a;医院要有主动报告医疗安全&#xff08;不良&#xff09;事件的制度与工作流程。由医疗机构医院或医疗机构报告医疗安全不良事件信息&#xff0c;利用报告进行研…

WEB安全测试通常要考虑的测试点

1、问题&#xff1a;没有被验证的输入 测试方法&#xff1a; 数据类型&#xff08;字符串&#xff0c;整型&#xff0c;实数&#xff0c;等&#xff09; 允许的字符集 最小和最大的长度 是否允许空输入 参数是否是必须的 重复是否允许 数值范围 特定的值&#xff08;枚举型&a…

基于UDP的可靠传输,文件+目录(C++,Qt)

一、基础知识 UDP&#xff08;UserDatagramProtocol&#xff09;是一个简单的面向消息的传输层协议&#xff0c;尽管UDP提供标头和有效负载的完整性验证&#xff08;通过校验和&#xff09;&#xff0c;但它不保证向上层协议提供消息传递&#xff0c;并且UDP层在发送后不会保留…

【Tomcat】无法将位于-的资源添加到Web应用程序-的缓存中,因为在清除过期缓存条目后可用空间仍不足 - 请考虑增加缓存的最大空间

1、问题 org.apache.catalina.webresources.Cache.getResource Unable to add the resource at [xxx] to the cache for web application [/xxx] because there was insufficient free space available after evicting expired cache entries - consider increasing the maxim…

为Android构建现代应用——设计原则

为Android构建现代应用——设计原则 - 掘金 state”是声明性观点的核心 在通过Compose或SwiftUI等框架设计声明性视图时&#xff0c;我们必须明确的第一个范式是State(状态)。UI组件结合了它的图形表示(View)和它的State(状态)。UI组件中发生变化的任何属性或数据都可以…

Kotlin~Observer观察者模式

概念 定义一对多的依赖关系&#xff0c;让多个观察者同时监听一个主题对象。 角色介绍 Subject&#xff1a;主题&#xff0c;也称被观察者&#xff0c;它是具有状态的对象维护着一个观察者列表。提供添加、删除和通知观察者的方法。ConcreteSubject&#xff1a;具体主题&…

mfc140.dll丢失的解决方法(最新解决方法)

一&#xff1a;mfc140.dll的作用&#xff1a; mfc140.dll的主要作用是提供了&#xff08;简称MFC&#xff09;的函数和资源&#xff0c;它是用于构建Windows应用程序的一组C类库。MFC是微软开发环境中提供的一个工具集&#xff0c;它封装了Windows操作系统的底层API&#xff0…

2.多线程-初阶(中)

文章目录 4. 多线程带来的的风险-线程安全 (重点)4.1 观察线程不安全4.2 线程安全的概念4.3 线程不安全的原因4.3.1原子性4.3.2可见性4.3.3代码顺序性 4.4 解决之前的线程不安全问题 5. synchronized[ˈsɪŋkrənaɪzd] 关键字-监视器锁monitor lock5.1 synchronized 的特性5.…

【限流】4 种常见的限流实现方案

在微服务应用中&#xff0c;考虑到技术栈的组合&#xff0c;团队人员的开发水平&#xff0c;以及易维护性等因素&#xff0c;一个比较通用的做法是&#xff0c;利用 AOP 技术 自定义注解实现 对特定的方法或接口进行限流。 下面基于这个思路来分别介绍下几种常用的限流方案的…

OceanBase 压测时为什么冻结阈值在变化?

本文从源码角度分析了 OceanBase 压测中冻结阈值动态变化的原因&#xff0c;并给出运维建议。 作者&#xff1a;张乾 外星人2号&#xff0c;兼任五位喵星人的铲屎官。 本文来源&#xff1a;原创投稿 爱可生开源社区出品&#xff0c;原创内容未经授权不得随意使用&#xff0c;转…

Redis两种持久化机制RDB和AOF详解(面试常问,工作常用)

redis是一个内存数据库&#xff0c;数据保存在内存中&#xff0c;但是我们都知道内存的数据变化是很快的&#xff0c;也容易发生丢失。幸好Redis还为我们提供了持久化的机制&#xff0c;分别是RDB(Redis DataBase)和AOF(Append Only File)。 在这里假设你已经了解了redis的基础…

微信小程序上,实现图片右上角数字显示

微信小程序上&#xff0c;实现图片右上角数字显示 直接上代码&#xff1a; 样式代码index.wxss如下&#xff1a; .circle_rednum {position: absolute;color: white;font-size: 13px;background-color: #EC2F43;width: 23px;height: 23px;line-height: 23px;left: 80%;top: …

RuntimeError: DataLoader worker (pid 2105929) is killed by signal: Killed.

PyTorch DataLoader num_workers Test - 加快速度 可以利用PyTorch DataLoader类的多进程功能来加快神经网络训练过程。 加快训练进程 为了加快训练过程&#xff0c;我们将利用DataLoader类的num_workers可选属性。 num_workers属性告诉DataLoader实例要使用多少个子进程进…

pytorch工具——pytorch中的autograd

目录 关于torch.tensor关于tensor的操作关于梯度gradients 关于torch.tensor 关于tensor的操作 x1torch.ones(3,3) xtorch.ones(2,2,requires_gradTrue) print(x1,\n,x)yx2 print(y) print(x.grad_fn) print(y.grad_fn)zy*y*3 outz.mean() print(z,out)注意 atorch.randn(2,…

SQL调优教程

SQL调优教程 基础方法论 任何计算机应用系统性能问题最终都可以归结为 1.cpu消耗 2.内存使用 3.对磁盘&#xff0c;网络或其他I/O设备的输入/输出(I/O)操作 遇到性能问题时&#xff0c;要判断的第一点就是“在这三种资源中&#xff0c;是否有哪一种资源达到了有问题的程度”&…

通过四点分析CRM系统的发展趋势

CRM系统企业管理客户的有力武器&#xff0c;为企业发展、降本增效奠定了基础&#xff0c;国内CRM经过十几年的发展产品已经十分成熟&#xff0c;很多企业会问CRM系统未来发展趋势是什么&#xff1f;今天小编就分享几个CRM未来的趋势。 1.AI人工智能 去年席卷全球的ChatGPT让大…