ACL2023论文-系列1

news2025/1/18 13:56:11

文章目录

  • Prompt——1.Generated Knowledge Prompting for Commonsense Reasoning
      • 核心
      • 论文贡献
      • 方法效果的影响因素
      • 方法实现
  • Contrastive learning——A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple-wise Perspective in Angular Space
      • 核心
        • 训练目标1:对比学习
        • 学习目标2:Triple-wise
        • 总目标

Prompt——1.Generated Knowledge Prompting for Commonsense Reasoning

核心

是把常识知识融入到prompt,用于推理。
生成知识提示,包括从语言模型中生成知识,然后在回答问题时提供知识作为额外输入。

在这里插入图片描述

生成知识提示包括:
(i) 使用少量演示,从语言模型中生成与问题相关的知识陈述;
(ii) 使用第二个语言模型对每个知识陈述进行预测,然后选择置信度最高的预测。

论文贡献

1.调研了外部知识是否对于常识推理有帮助
2.从LLM中产生有用的知识,然后将这些知识融入到带问题的prompt中。

方法效果的影响因素

1.知识的质量
2.知识的数量
3.融入知识的策略(strategy for integrating knowledge during inference)——(1.no knowledge 2. random sentence 3. context sentences 4.template-generated knowledge 5. retrieval-based knowledge )

方法实现

1.知识生成:利用语言模型基于question生成knowledge statements。
2. 知识融合:生成的知识融入,用于决策推断。
3.在推理时,使用每个generated knowledge statement 做预测,然后,选择highest-confidence 作为最终的prediction。
q表示question,k表示knowledge
在这里插入图片描述
选择置信度最大的作为最终的结果输出。
在这里插入图片描述

Contrastive learning——A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple-wise Perspective in Angular Space

pairwise (成对)
triple-wise (三元组)

核心

用角度代替了infoloss中的distance,要克服PLM学习到的semantic represenation是各项异性的缺点.
训练目标: Additive Angular Margin Contrastive Loss (ArcCon Loss)。它通过最大化角度空间中的判定余量来增强成对判别能力。
positive pairs: 同一个sentence做的不同rate的dropout.
negetive pairs: the representations of different sentences within the same batch.

训练目标1:对比学习

原来的contrastive learning objective:
在这里插入图片描述

论文中使用的additive angular margin :

在这里插入图片描述
其中,θ的计算公式如下:
在这里插入图片描述

学习目标2:Triple-wise

对于文本数据集 D 中的每个句子 si,我们首先以20% 的屏蔽率屏蔽 si 的连续片段,生成外部句子 s ′ i。然后,我们扩大屏蔽区域,得到一个新句子 s ′′ i,屏蔽率为 si 的 40% .
假设条件: mask=20% 的句子比mask=40%的句子更相似。

在这里插入图片描述

总目标

Larc是角度下的对比学习目标,Ltri是三元组相似度学习目标。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/768906.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【深度学习笔记】梯度消失与梯度爆炸

本专栏是网易云课堂人工智能课程《神经网络与深度学习》的学习笔记,视频由网易云课堂与 deeplearning.ai 联合出品,主讲人是吴恩达 Andrew Ng 教授。感兴趣的网友可以观看网易云课堂的视频进行深入学习,视频的链接如下: 神经网络和…

labview 子画面插入面板

1.前言 在前面一篇文章中描述了弹框式显示子画面, labview 弹窗(子vi)_weixin_39926429的博客-CSDN博客 本文介绍插入式显示子画面。 本文的主题在以前的文章中介绍过, labview 插入子面板_labview插入子面板_weixin_39926429的博客-CSDN博客 借用…

JVM学习笔记总结

目录 JVM内存区域划分 1、堆(线程共享) 2、方法区(线程共享) 3、栈(线程私有) 4、程序计数器(线程私有) JVM类加载机制 加载 验证 准备 解析 初始化 双亲委派模型 JVM垃…

入门力扣自学笔记276 C++ (题目编号:874)

874. 模拟行走机器人 题目&#xff1a; 机器人在一个无限大小的 XY 网格平面上行走&#xff0c;从点 (0, 0) 处开始出发&#xff0c;面向北方。该机器人可以接收以下三种类型的命令 commands &#xff1a; -2 &#xff1a;向左转 90 度 -1 &#xff1a;向右转 90 度 1 < …

【数据库高阶语句】

文章目录 MySQL高阶语句一、常用查询1、按关键字排序 二、实操1.创建表2.排序查询&#xff08;默认不指定是升序排序&#xff0c;后面跟desc是降序排序&#xff09;3.order by还可以结合where进行条件过滤&#xff0c;筛选地址是杭州的学生按分数降序排列4.查询学生信息先按兴趣…

走访慰问空巢老人,连接传递浓浓温情

为了弘扬中华民族尊老、敬老、爱老的优良传统&#xff0c;让老人们感受到政府和社会的温暖&#xff0c;在“端午”来临之际&#xff0c;思南县青年志愿者协会联合思南县民慈社会工作服务中心、思南县小荧星幼儿园、思南县小英豪幼儿园到大河坝镇天坝村开展“走访慰问空巢老人&a…

阿里云短信服务API怎么调用

今天来搞一下阿里云短信服务来实现发送短信功能&#xff0c;其实能提供短信发送服务的平台有很多&#xff0c;但这里我选择的是阿里云&#xff0c;因为阿里云的示例还有代码封装的很简洁&#xff0c;使用起来非常简单&#xff0c;上手非常快&#xff0c;那么费话不多说我们直接…

Python案例|使用卷积网络对星系图片进行分类

星系动物园&#xff08;galaxy zoo&#xff09;是由牛津大学等研究机构组织并邀请公众协助的志愿者科学计划&#xff0c;目的是为超过100万个星系图像进行分类。这是天文学中一次规模浩大的公众星空普查活动&#xff0c;大众参与热情高涨&#xff0c;在近十万名志愿者的积极参与…

libevent:windows环境配置+QT使用

目录 libevent是什么 编译 QT使用 测试代码 libevent是什么 Fast portable non-blocking network programming with Libevent http://www.wangafu.net/~nickm/libevent-book/TOC.html 这篇文档讲的很清楚&#xff0c;尤其是Chapter 1: A tiny introduction to asynchro…

c++11 标准模板(STL)(std::basic_istream)(十二)

定义于头文件 <istream> template< class CharT, class Traits std::char_traits<CharT> > class basic_istream : virtual public std::basic_ios<CharT, Traits> 类模板 basic_istream 提供字符流上的高层输入支持。受支持操作包含带格式的…

【C++】vector 模拟笔记

文章目录 成员变量和迭代器reserve()函数易错点迭代器区间初始化易错点迭代器失效整体代码 成员变量和迭代器 下面有vector 存储示意图&#xff1a;vector 是一个左闭又开的空间&#xff0c;_finish 不能存储有效数据。vector 的 iterator 是T 类型的指针&#xff0c;不要认为 …

Python自动获取字母站视频

如果有疑问的话可以在我的谈论群&#xff1a;706128290 来找我 目录 前言 二、编写代码 1.引入库 2.编写主类 3. 自动获取cookies值和生成headers 4.获取命令行参数 运行效果 前言 browser_cookie3 第三方模块 browser_cookie3是browser_cookie模块的分支&#xff0c;…

Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation文献复现

前言 相关论文阅读自行解决,这里主要是记录代码的学习与实验的复现 github地址 此代码非官方部署代码,而是私人实现的。 本博客仅做学习记录。 1 代码学习 1.1 主要框架部分 这里的主编解码器与高斯建模的方式,采用的是同joint上下联合自回归一样的方式,主要的改动在增益…

【Linux】使用云服务器搭建Linux环境

目录 1.Linux是什么 2.Linux的环境搭建 3.使用Xshell登录主机 1.Linux是什么 Linux&#xff0c;全称GNU/Linux&#xff0c;是一套免费使用和自由传播的类Unix操作系统&#xff0c;是一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。 简单来说&#xff0c;Lin…

图文详解Java参数传递类型

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

Linux用户和用户组

Linux是多用户、多任务操作系统 一般来说&#xff0c;一个服务分配一个用户&#xff0c;这个用户只拥有这个服务相关文件的相关权限&#xff0c;如果用户不需要登陆&#xff0c;连密码都可以不分配&#xff0c;一般来说&#xff0c;非法分子都是获取当前进程的的权限来攻击服务…

自然语言处理: 第五章Attention注意力机制

自然语言处理: 第五章Attention注意力机制 理论基础 Attention&#xff08;来自2017年google发表的[1706.03762] Attention Is All You Need (arxiv.org) &#xff09;&#xff0c;顾名思义是注意力机制&#xff0c;字面意思就是你所关注的东西&#xff0c;比如我们看到一个非…

vue3中echarts的使用

效果&#xff1a; 代码&#xff1a; <div class"outcharbox"><a-row :gutter"10"><a-col :span"8" v-for" (item, index) in linesobjdata" :key"item.MonitorItemId"><monitoringItemsChart :colorI…

49天精通Java,第40天,jd-gui反编译class文件,解决jd-gui中文乱码问题

目录 专栏导读一、添加局部变量二、反编译class文件三、解决乱码问题四、产品经理就业实战1、内容简介2、作者简介 专栏导读 本专栏收录于《49天精通Java从入门到就业》&#xff0c;本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学&#xff0c;从0开始&#xf…

【SQL应知应会】表分区(四)• MySQL版

欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享&#xff0c;与更多的人进行学习交流 本文收录于SQL应知应会专栏,本专栏主要用于记录对于数据库的一些学习&#xff0c;有基础也有进阶&#xff0c;有MySQL也有Oracle 分区表 • MySQL版 前言一、分区表1.非分区表2.分区…