23.3.1调研

news2024/9/22 13:40:06

上一篇调研之后,还是没有思路,继续调研文献。

文章目录

  • WEAKLY SUPERVISED EXPLAINABLE PHRASALREASONING WITH NEURAL FUZZY LOGIC
    • 模型结构
  • ASK ME ANYTHING: A SIMPLE STRATEGY FOR PROMPTING LANGUAGE MODELS
  • Humanly Certifying Superhuman Classifiers
  • HUMAN-GUIDED FAIR CLASSIFICATION FOR NATURAL LANGUAGE PROCESSING
    • 模型的框架
  • OPTIMIZING BI-ENCODER FOR NAMED ENTITY RECOGNITION VIA CONTRASTIVE LEARNING
  • KNOWLEDGE-IN-CONTEXT: TOWARDS KNOWLEDGEABLE SEMI-PARAMETRIC LANGUAGE MODE

WEAKLY SUPERVISED EXPLAINABLE PHRASALREASONING WITH NEURAL FUZZY LOGIC

蕴含关系的分类问题,首先识别出句子中的短语块,软匹配到最接近的短语,然后,通过判断phrase之间的关系,进而得到句子的蕴含关系(可解释性会强一些)
在模型参数更新上,考虑使用adversary loss函数,使应该接近的更加靠近,应该疏远的短语彼此之间距离更远。

也许,相似函数与adversary Loss函数是绝配
我们通过弱监督短语逻辑推理来解决NLI的可解释性问题

所以,使用phrase的软匹配,还是为了可解释性的问题。。。。短语是突破口,短语相似度是工具或者说方法

.我们的模型将短语作为语义单位,并通过嵌入相似性对相应的短语进行对齐。然后,我们为对齐的短语预测NLI标签(即Entailment, Contradiction, 和Neutral)。最后,我们建议以模糊逻辑的方式从短语标签中诱导出句子级别的标签(Zadeh, 1988; 1996)。

根据这段话,关键信息有:
1、研究单位是短语。
2、短语是soft matching
3、从短语之间的NLI过渡到句子之间的NLI,使用了逻辑规则。

模型结构

phrase detection and alignment, phrasal NLI prediction, and sentence label induction

短语块获取:在短语块获取上,是通过设计了语法规则做的捕捉,比如“[AUX] + [NOT] + VERB + [RP]” is treated as a verb phrase
短语块语义表示:对句子做embedding,然后将短语块中的所有token做mean-pool操作,作为短语块语义的global表示,对短语块做embedding,得到的表示作为短语块的local 表示。
soft matching:
phrase NLI prediction:在对短语块的蕴含关系进行推断时,考虑了中立。矛盾。蕴含。
使用的是MLP网络。
在这里插入图片描述
sentence label induction:

  1. 蕴含关系推断规则:

根据Bowman等人(2015)的观点,一个前提包含一个假设意味着,如果前提是真的,那么假设也一定是真的。我们发现,这往往可以转化为短语关系:如果所有配对的短语都有Entailment的标签,那么前提就会包含假设。
2. 矛盾规则。
如果存在(至少)一个标记为Contradiction的配对短语,那么两个句子就是矛盾的。

  1. 中性规则。
    如果存在(至少)一个中性短语对,但不存在任何矛盾的短语对,那么两个句子就是中性的。
    训练与推理:交叉熵损失函数

ASK ME ANYTHING: A SIMPLE STRATEGY FOR PROMPTING LANGUAGE MODELS

这一篇是关于提示工程的。
行文布局思路是发现的基础上,提出新的解决方案,对比性能。

研究出发点:提示不追求完美的情况下,能不能得到好的结果?
为了减轻提示所涉及的高度努力,我们反过来问,收集多个有效但不完美的提示,并将它们聚合起来,是否能导致高质量的提示策略。我们的观察促使我们提出了提示方法,即 "问我任何事 "提示法(AMA)。
新的发现:open question更有效
我们首先发展了对有效提示格式的理解,发现鼓励开放式生成的问题回答(QA)提示(“谁去了公园?”)往往优于那些限制模型输出的提示(“约翰去了公园。 输出真或假”)。我们的方法递归地使用LLM来将任务输入转化为有效的QA格式。我们应用这些提示,为输入的真实标签收集几个噪音投票。我们发现,这些提示可能有非常不同的准确性和复杂的依赖性,因此建议使用弱监督,即结合嘈杂的预测的程序,来产生最终的预测。
性能对比,证实方法有效
我们对AMA进行了跨开源模型系列(EleutherAI、BLOOM、OPT和T0)和规模(125M-175B参数)的评估,证明了比几张照片基线平均提升10.2%的性能。这个简单的策略使开源的GPT-J-6B模型在20个流行的基准中的15个上匹配并超过了少数几个GPT3-175B的性能。
在这里插入图片描述

方法的核心思路:Given a task input, each prompt produces a vote for the
input’s true label, and these votes are aggregated to produce a final prediction

论文发现的点:
1、open-ended 提示能够指导模型生成具有优势的答案。

在解释为神魔在开放类型的问题上,模型呈现出更好的结果时,是通过调研LLM的训练语料来说明这个问题的,发现开放式问题在语料中占比重高。

2、使用prompt chain的方式,指导LLM生成open ended 问题,并回答这个问题。
3、我们发现,不同链的预测所产生的误差会有很大的变化和关联性。虽然多数票(MV)在某些提示集上可能做得很好,但在上述情况下它的表现很差。AMA通过识别提示之间的依赖关系并使用WS来说明这些情况,WS是一种在没有任何标记数据的情况下对噪声预测进行建模和组合的程序[Ratner等人,2017,Varma等人,2019]。在这项工作中,我们首次将WS广泛地应用于提示,表明它提高了使用现成的LLM和没有进一步训练的提示的可靠性。 我们发现AMA比MV最多能实现8.7分的提升,在9个任务上,它能恢复提示之间的依赖关系,使性能最多提升9.6分。

AMA是最终结果的一种选择方式,不是使用的major voting 的方式
所以,AMA更像是论文的创新点?一种新的prompt的集成方式?

AMA这种prompt集成的方式提出的出发点,是直观的认为,当从不同的角度提出问题时,可能会得到答案相互补充的方面:
different questions (with our running example: “Who went to the park?”, “Did John go the park?”, “Where did John go?”) emphasize different aspects of the input and can provide complementary information towards reasoning about the answer

AMA constructs different prompt()-chains where each unique prompt()-chain is adifferent view of the task and can emphasize different aspects of x

在PrG,θ(y, P(x))上学习一个概率图形模型,并将聚合器定义为φWS(x) = arg maxy∈Y PrG,θ(y| P(x))。G=(V,E)是一个依赖图,其中V={y,P(x)},E是一个边集,其中(pi(x),pj(x))∈E iff pi(x)和pj(x)是有条件独立的,给定y;θ是P(x)的精度参数。由于我们缺乏标记的数据y,我们不能直接从D中估计G或θ,所以我们的程序如下
在这里插入图片描述

所以,这篇文章的创新点,是在对LLM擅长和不擅长的prompt分析的前提,设计了prompt-chain的方案,在对于prompt结果集成上,是使用了概率图。

Humanly Certifying Superhuman Classifiers

这篇文章是验证human 标注的结果是否可信这这一角度出发的。
人类注释经常被当作基础真理,这隐含地假定人类比任何根据人类注释训练的模型更有优势。在现实中,人类注释者可能会犯错误,而且是主观的。

focuses on paving a way towards evaluating models with potentially superhuman performance in classification

the accuracy of the predicted labels with regard to ground truth labels, which we call the oracle accuracy
在定义分类任务的准确率上,将平均标注者的平均 Oracle accuracy作为上界。将model 的准确率作为下界。

至于为什么选择这两个作为上下界,后续做了证明。

HUMAN-GUIDED FAIR CLASSIFICATION FOR NATURAL LANGUAGE PROCESSING

这篇文章是使用GPT3实现类似语料文本的生成。然后应该是提出了一种新的模型来分辨语句是否公平。
目前的方法是基于硬编码的单词替换,导致规范的表达能力有限,或者不能与人类的直觉完全一致(例如,在不对称的反事实情况下)。这项工作提出了新的方法,通过发现富有表现力和直观的个人公平规范来弥补这一差距。我们展示了如何利用无监督的风格转移和GPT-3的零点拍摄能力来自动生成具有表达力的语义相似的候选句子对,这些句子在敏感属性上有所不同。然后,我们通过一项广泛的众包研究来验证所生成的句子对,这证实了这些句子对在毒性分类的背景下与人类对公平性的直觉一致。最后,我们展示了如何利用有限的人类反馈来学习一个相似性规范,该规范可用于训练下游的公平意识模型。

模型的框架

原来在创建这类语料的时候,是通过Word replace这类比较简单的方式,这篇文章是通过GPT来完成这项工作的,之后通过人类来检验是不是符合标准。

在这里插入图片描述
从一个train corpus开始
(可以使用GPT)通过取代现代无监督风格转移方法所使用的风格分类器,在句子s∈D中加入人口群体的标记,例如 “妇女”、"黑人 "或 “基督徒”。

贡献上:1、数据集的提出 2、classifier的训练 3、相似 ,大概意思是这种方式创新出的数据集更符合人类的直觉。

OPTIMIZING BI-ENCODER FOR NAMED ENTITY RECOGNITION VIA CONTRASTIVE LEARNING

实体识别任务的新方法,使用的相似度作为的判断。

KNOWLEDGE-IN-CONTEXT: TOWARDS KNOWLEDGEABLE SEMI-PARAMETRIC LANGUAGE MODE

没有训练新的模型,是有一个外部知识存储库,从存储库中检索和instance最相关的信息,加入到prompt中,构成新的prompt,然后输入给model产生对应的输出。

知识库中六种知识形式:entity, dictionary, commonsense, event, script, and causality knowledge

instance-adaptive (context-dependent) knowledge augmentation is critical to the success of KiC model。
我觉得这个是最吸睛,就是从外部知识库中选择对当前文本最有用的知识作为增强知识。
有用和无用的评价上,是通过将原文本和知识文本构成key-value pair,然后通过sentence encoder,在计算maximum inner product search (MIPS)确定的。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/383452.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

即时通讯和实时通讯的区别

即时通讯(IM)和实时通讯是一套网络通讯系统,其本质都是对信息进行转发。最大的不同点是对信息传递的时间规定。二者的区别可以从以下几个方面:一、场景常见的即时通讯 场景包括文字聊天、语音消息发送、文件传输、音视频播放等。通…

【RocketMQ】消息的刷盘机制

刷盘策略 CommitLog的asyncPutMessage方法中可以看到在写入消息之后&#xff0c;调用了submitFlushRequest方法执行刷盘策略&#xff1a; public class CommitLog {public CompletableFuture<PutMessageResult> asyncPutMessage(final MessageExtBrokerInner msg) {// …

docker(一)简介、环境搭建

文章目录前言一、docker简介1.什么是docker2. 什么是容器3.传统的虚拟化技术和容器之间的差别4.容器是如何运行的二、docker环境部署及测试1.环境部署&#xff1a;2.通过镜像运行容器3.拉取镜像前言 一、docker简介 1.什么是docker Docker是一个开源的应用容器引擎&#xff0…

TDEngine集群监控组件安装配置(Telegra+Grafana方案)

Tdengine的监控指标包括以下几个方面&#xff1a; 系统指标&#xff1a;CPU使用率、内存使用率、磁盘空间、网络流量等。数据库指标&#xff1a;连接数、查询数、写入数、读取数等。SQL指标&#xff1a;执行时间、执行计划、索引使用情况等。集群指标&#xff1a;节点状态、数…

生命周期:Vue,微信小程序

目录 一、vue2生命周期&#xff08;钩子函数&#xff09; 二、vue3生命周期&#xff08;钩子函数&#xff09; 三、vue-router3钩子函数&#xff08;与vue2匹配&#xff09; 1、全局钩子&#xff08;全局守卫&#xff09; 2、路由内钩子&#xff08;路由独享的守卫&#x…

Python3-字典

Python3 字典 字典是另一种可变容器模型&#xff0c;且可存储任意类型对象。 字典的每个键值 key>value 对用冒号 : 分割&#xff0c;每个对之间用逗号(,)分割&#xff0c;整个字典包括在花括号 {} 中 ,格式如下所示&#xff1a; d {key1 : value1, key2 : value2, key3…

HTTP头注入

HTTP头注入HTTP Header概述HTTP报文类型HTTP请求方法HTTP Header内容HTTP Header注入HTTP Header注入实例User-Agent注入XFF注入HTTP Header概述 HTTP报文类型 请求报文&#xff1a;由客户端发送给服务器的消息&#xff0c;其组成包括请求行&#xff0c;请求头和请求体。响应…

区块链安全正当时|《Hyperledger Fabric2.0架构安全报告》解读

2021年&#xff0c;《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》将区块链纳入数字产业&#xff0c;对其发展作出了重要部署。同年6月中央网信办和工信部联合印发了《关于加快推动区块链技术应用和产业发展的指导意见》&#xff0c;提出加快区块链…

Babel-好文

ES6的很多语法在浏览器甚至node环境中无法执行&#xff0c;babel就是一个广泛使用的转码器&#xff0c;可以将ES6代码转化成ES5代码定义一个文件夹&#xff0c;cmd进入到其中&#xff0c;运行npm install -g babel-cli安装&#xff0c;然后可以通过babel --version查看是否安装…

odoo15 登录界面的标题自定义

odoo15 登录界面的标题自定义 原代码中查询:<title>Odoo<title> <html> <head><meta http-equiv="content-type" content="text/html; charset=utf-8" /><title>Odoo</title><link rel="shortcut icon…

Jvm调优实战笔记

一、基础命令jps 查看所有java进程jinfo 进程号 查看该线程相关信息3、jstat 统计信息&#xff08;数据跟踪信息&#xff09;jstat -gc 进程号 查看该线程在内存中每一块占用的大小jstat -gc 进程号 时间&#xff08;毫秒&#xff09; 更新频率4、jstack 跟踪线程jstack 进程号…

Ethercat系列(10)用QT实现SOEM主站

首先将SOEM编译成静态Lib库可以参考前面的博文(83条消息) VS2017下编译SOEM(Simle Open EtherCAT Master)_soem vs_CoderIsArt的博客-CSDN博客make_libsoem_lib.bat "C:\Program Files (x86)\Microsoft Visual Studio\2017\Community\VC\Auxiliary\Build" x86用QT创建…

【C++】多态虚表

多态——多种形态多态的分类&#xff1a;1.静态多态&#xff1a;函数重载和运算符重载&#xff08;复用函数名&#xff09;2.动态多态&#xff1a;派生类和虚函数实现运行时多态静态多态和动态多态的区别&#xff1a;静态多态的函数地址早绑定——编译阶段确定函数地址动态多态…

页面访问升级出错怎么解决

相信大家在访问网站的时候时常会遇到页面访问界面升级&#xff0c;暂时不可能进行访问操作&#xff0c;可能遇到这种情况很多小伙伴们都不知道怎么版&#xff0c;其实互联网网页在正常使用过程中是不会出现这种问题的。那么如果遇到页面访问界面升级怎么办?页面访问界面升级通…

TryHackMe-Binex

Binex 枚举计算机并获取交互式 shell。利用 SUID 位文件&#xff0c;使用 GNU 调试器利用缓冲区溢出并通过 PATH 操作获得根访问权限。 端口扫描 循例 nmap SMB枚举 题目给了提示&#xff1a;Hint 1: RID range 1000-1003 Hint 2: The longest username has the unsecure pa…

面试中问你查看日志的命令,可不能只说tail,cat,more

首选&#xff0c;如何查看日志&#xff1a; 很多初级测试人员&#xff0c;在进行执行测试用例这个步骤时&#xff0c;发现bug&#xff0c;不能更加的准确去定位bug&#xff0c;在这样的情况下就可以打开Linux服务器&#xff0c;敲命令查看操作进行中的实时日志&#xff0c;当系…

用arthas轻松排查线上问题

你是否在项目中会碰到以下一些问题&#xff1a; 在代码中打印各种日志来排查&#xff0c;比如方法的入参&#xff0c;出参&#xff0c;及在方法体中打印日志判断走哪行代码还有你觉得代码没问题&#xff0c;可是运行出现却是以前的bug&#xff0c;感觉代码没修改&#xff0c;或…

120.(leaflet篇)区域下钻,区域钻取

听老人家说:多看美女会长寿 地图之家总目录(订阅之前建议先查看该博客) 文章末尾处提供保证可运行完整代码包,运行如有问题,可“私信”博主。 效果如下所示: 下面献上完整代码,代码重要位置会做相应解释 <!DOCTYPE html> <html>

【RocksDB】Ubuntu20.04下编译rocksdb

前言&#xff1a; 我在刚学rocksdb的时候是在2022年&#xff0c;但是网上的资源很少&#xff0c;查了好久才把rocksdb安装成功&#xff0c;在这里向大家分享一下我的经历&#xff0c;安装过程中也报了很多错误&#xff0c;希望大家不要迷路 首先 在虚拟机里面安装依赖的包以…

python List和常用的方法

List&#xff1a;列表中包含多个数据&#xff0c;数据之间使用逗号分隔&#xff0c;索引从0开始。 空列表&#xff1a; dir&#xff1a;查看列表的所有方法 List常用方法&#xff1a;insert、append&#xff0c;extend、del、remove、pop、clear、count、index 增加insert(索引…