Tree-of-Counterfactual Prompting for Zero-Shot Stance Detection

news2025/4/18 15:33:22

论文地址:Tree-of-Counterfactual Prompting for Zero-Shot Stance Detection - ACL Anthologyicon-default.png?t=O83Ahttps://aclanthology.org/2024.acl-long.49/

1. 概述

        立场检测被定义为对文本中立场态度的自动推断。根据 Biber 和 Finegan (1988) 的定义,立场包含两个主要元素:

  • 立场主体(Subject):立场的表达者,如社交媒体用户、演讲者等。
  • 立场对象(Object):立场的针对目标,通常包括:
    • 话题(Topics):例如“堕胎”、“气候变化”等具有争议性的名词或短语。
    • 交流框架(Frames of Communication, FoCs):框架用于定义问题成因、道德判断和关注点(Entman, 1993)。        

        例如:

  • 话题示例: 一则关于“堕胎”的社交媒体帖子引用 Mother Teresa 的演讲: “爱意味着愿意付出,直到感到痛苦。” 该语境表达了“Reject” 立场,即反对堕胎。
  • 交流框架示例: 关于 COVID-19 疫苗接种的帖子配有讽刺性图像(引用电影《无耻混蛋》中的角色 Hans Landa),表面上与 FoC 矛盾,但结合上下文和图像的讽刺含义,最终表达了“Accept”立场。

挑战: 立场检测往往依赖于复杂的推理过程,包括:

  • 上下文理解:推断态度需要常识知识与语义分析。
  • 多模态融合:文本和图像的联合推理增加了任务难度,尤其是在讽刺、反讽等特殊语言现象中。 

目前的立场检测方法主要分为两类:

  • 基于监督学习的分类方法
    • 示例:SVM-ngrams、BERT 等基于特征和神经网络的分类模型。
    • 局限:
      • 泛化能力差:仅能在训练过的话题或框架上表现良好,无法适应新的立场对象。
      • 依赖标注数据:需要大量带标签的训练样本,成本高昂。
  • 零样本立场检测(ZSSD)
    • 解决了新话题的泛化问题,但仍然需要部分立场示例进行训练。
    • 示例:Allaway & McKeown (2020) 提出的跨话题 ZSSD。

        为进一步克服上述问题,本研究提出了Tabula Rasa 零样本立场检测(TR-ZSSD),在不需要任何标注示例的前提下进行立场推断。  

        本研究引入了一个新的立场检测框架,名为Tree-of-Counterfactual prompting(ToC),其核心思想基于反事实推理(Counterfactual Reasoning)。主要流程分为三步:

步骤 1:反事实树生成(Tree-of-Counterfactual)

        对于给定的社交媒体帖子(SMP)和立场对象,构建一个反事实树:

  • 假设立场值为“Accept”“Reject” 和 “No Stance”。
  • 为每种立场值生成一个反事实假设,形成推理树的分支。

        例如,给定一个关于“气候变化”的帖子,分别假设:

  • Accept 分支:帖子表达接受气候变化的观点。
  • Reject 分支:帖子表达拒绝气候变化的观点。
  • No Stance 分支:帖子未表达任何立场。

步骤 2:反事实解释(Chain-of-Explanation, CoE)

        使用大语言模型(LLMs)或多模态模型(LMMs)生成每个立场值的详细解释。例如:

  • Accept 立场的解释:如何支持气候变化的观点?
  • Reject 立场的解释:如何反驳气候变化的观点?

步骤 3:反事实验证(Chain-of-Contrastive Verification, CoCV)

        将所有生成的反事实解释进行对比验证,选择最合理的立场值。

  • 比较每个立场分支的优势和劣势。
  • 最终选择一个最合理的立场结论。  

2. 方法

        此 Chain-of-Explanation (CoE) 提示框架指导大型语言模型(LLM)提供逐步的解释: 

        来自社交媒体帖子的文本内容被插入到“{文本}”部分,立场对象的文本表示被插入到“{对象}”部分,反事实的立场值被插入到“{立场}”部分。

        阶段 C(如图 2(C) 所示)借鉴了 Chain-of-Verification (CoVe) 提示框架,该框架由 Dhuliawala 等人 (2023) 提出。CoVe 提示框架使 LLM 能够对其生成的回答进行反思,从而通过内省纠正错误。我们采用阶段 B 生成的反事实推理 作为验证的基准回应,并修改验证步骤,引入一种 对比验证 形式。

        通过这种方式,我们创建了反事实链式对比验证 (C-CoCV) 提示框架,对阶段 B 生成的反事实推理进行内省,并将这些推理的论点与帖子p_i和立场对象 o_j的内容进行对比,以验证不同立场值假设的合理性。

        可以看出,C-CoCV 提示的语义与 CoE 提示的语义相同,使得不同的立场对象能够被考虑,同时也可以使用社交媒体帖子(SMP)的文本与图像内容,或立场对象的文本内容。 此外,由 CoE 提示生成的反事实推理被插入到 “{accept_rationale}”、“{reject_rationale}” 和 “{no_stance_rationale}” 部分中。 ToC 提示的三个阶段利用了大规模语言模型(LLMs) 的能力,针对不同的立场假设生成和评估事后推理,促成了一种更具解释性的立场推断机制,在这种机制中,每个立场假设都会被严格审查其有效性。 

3.实验

3.1 实验设置

        在本实验中,作者设计了三个立场检测设置来评估 ToC-TR-ZSSD 方法。使用了三个不同的标注立场数据集:

  • SemEval-2016
    • 数据来源:Twitter 包含五个具有争议性的话题:Abortion(堕胎)、Atheism(无神论)、Climate Change(气候变化)、Feminism(女权主义)和 Hillary Clinton(希拉里·克林顿)。
    • 该数据集已被广泛用于自动立场检测的基准测试,特别是 SemEval-2016 的任务 A。
  • CoVaxFrames
    • 数据来源:关于 COVID-19 疫苗犹豫的社交媒体帖子。
    • 包括 113 个 交流框架(Frames of Communication, FoCs)。例如:
      • “The COVID vaccine renders pregnancies risky, and it is unsafe for unborn babies”
      • “Preference for getting COVID-19 and fighting it off than getting vaccinated.”
    • 数据集主要由文本组成。
  • MMVax-Stance
    • 数据来源:多模态数据集,包含文本、图像和视频。
    • 注释对象:与 CoVaxFrames 相同的 113 个 COVID-19 疫苗相关交流框架。
    • 数据集面临的挑战:需要对文本和多模态内容(如图像、视频)进行联合推理。        

3.2 结果分析 

SemEval-2016结果 :与多个微调系统进行了比较,包括 SVM-ngrams、MITRE 和 pkudblab 的系统。 结果:

  • GPT-3.5 和 GPT-4 在直接提示(Direct Prompting)下表现不佳,但使用 CoT 提示 时,GPT-4 取得了显著的性能提升,接近微调系统的表现。
  • 最高性能:TimeLMs 微调系统的宏平均 F1 分数为 72.9,GPT-4 使用 ToC 提示接近此结果。 

CoVaxFrames 结果:使用了多个现有的基准系统,包括 SBERT-NLI、DS-BERT、LES-GAT 和 LACRScore。 结果:

  • LACRScore 微调系统取得了 76.2 的宏平均 F1 分数,是表现最好的基准系统。 GPT-3.5 和 GPT-4 在直接提示下表现较差,但在使用 CoT 提示 后,性能显著提升。
  • GPT-4 + ToC 提示 的宏平均 F1 分数达到 79.1,超过了微调系统。        

MMVax-Stance 结果:使用了两种大型多模态模型:LLaVA-1.5 和 GPT-4V,并采用了 直接提示 和 CoT 提示 两种策略。 比较基准系统包括:DS-BERT、LES-GAT-MF 和 LACRScore,同时考虑了多模态基准,如 BLIP-2 和 CLIP-Joint。 结果:

  • LLaVA-1.5 和 GPT-4V 在直接提示下表现不佳,但使用 CoT 提示 后,性能显著提高。
  • GPT-4V + ToC 提示 达到 60.6 的宏平均 F1 分数,比 BridgeTower 系统高出近 8 分。 最终的最佳结果来自 BT +S_{Aug} ​ ,该系统通过生成大量合成数据(46,606 条示例)实现了 71.3 的宏平均 F1 分数,数据量比原始数据增加了约 600%。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2261813.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

css基础-认识css

什么是css css是一个样式表&#xff0c;是对html的一种装饰&#xff0c;它决定了浏览器如何显示html元素&#xff0c;例如&#xff1a; h1 {color:blue; //文字颜色是蓝色font-size:12px; //字体大小为12像素 }上段css代码就是对HTML 中 <h1>标签的修饰&#xff1b;所以…

【Unity功能集】TextureShop纹理工坊(二)图层(下)

项目源码&#xff1a;后期发布 索引 图层渲染绘画区域图层Shader 编辑器编辑模式新建图层设置当前图层上、下移动图层删除图层图层快照 图层 在PS中&#xff0c;图层的概念贯穿始终&#xff08;了解PS图层&#xff09;&#xff0c;他可以称作PS最基础也是最强大的特性之一。 …

云计算HCIP-OpenStack02

书接上回&#xff1a; 云计算HCIP-OpenStack01-CSDN博客 7.OpenStack核心服务 7.1Horizon&#xff1a;界面管理服务 Horizon提供了OpenStack中基于web界面的管理控制页面&#xff0c;用户或者是管理员都需要通过该服务进行OpenStack的访问和控制 界面管理服务需要依赖于keyston…

Word2Vec:将词汇转化为向量的技术

文章目录 Word2Vec来龙去脉分层Softmax负采样 Word2Vec 下面的文章纯属笔记&#xff0c;看完后不会有任何收获&#xff0c;如果想理解这两种优化技术&#xff0c;给大家推荐一篇博客&#xff0c;讲的很好&#xff1a; 详解-----分层Softmax与负采样 来龙去脉 word2vec,即将词…

电商商品详情API接口(item get)数据分析上货

电商商品详情API接口&#xff08;item get&#xff09;在数据分析与商品上货方面发挥着重要作用。以下是对这两个方面的详细探讨&#xff1a; 一、数据分析 数据源获取&#xff1a; 商品详情API接口提供了丰富的数据源&#xff0c;包括商品的标题、价格、库存、描述、图片、用…

如何将你的 Ruby 应用程序从 OpenSearch 迁移到 Elasticsearch

作者&#xff1a;来自 Elastic Fernando Briano 将 Ruby 代码库从 OpenSearch 客户端迁移到 Elasticsearch 客户端的指南。 OpenSearch Ruby 客户端是从 7.x 版 Elasticsearch Ruby 客户端分叉而来的&#xff0c;因此代码库相对相似。这意味着当将 Ruby 代码库从 OpenSearch 迁…

如何对 Java 项目简化接口设计提升开发效率

文章目录 摘要引言简洁接口设计的原则示例代码OrderProcessor 接口StandardOrderProcessor 实现类Order 数据类调用方代码&#xff1a;OrderService 模块之间的协作QA 环节总结参考资料 摘要 简洁的接口设计可以有效降低代码依赖与耦合度&#xff0c;提高代码的可维护性和扩展…

Python字符串及正则表达式(十):字符串常用操作、字符串编码转换

前言&#xff1a;在编程的世界里&#xff0c;字符串无处不在。它们是构建用户界面、存储数据、进行通信的基础元素。无论是财务系统的总账报表、电子游戏的比赛结果&#xff0c;还是火车站的列车时刻表&#xff0c;这些信息最终都需要以文本的形式呈现给用户。这些文本的背后&a…

JAVA爬虫获取1688关键词接口

以下是使用Java爬虫获取1688关键词接口的详细步骤和示例代码&#xff1a; 一、获取API接口访问权限 要使用1688关键词接口&#xff0c;首先需要获取API的使用权限&#xff0c;并了解接口规范。以下是获取API接口的详细步骤&#xff1a; 注册账号&#xff1a;在1688平台注册一…

【AIGC】与模型对话:理解与预防ChatGPT中的常见误解

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AIGC | ChatGPT 文章目录 &#x1f4af;前言&#x1f4af;模型的工作原理和用户期望差异人工智能模型的基本工作原理认知上的局限与误解用户期望与模型实际能力的差距精确理解用户意图的重要性实际应用中的建议 &…

UE5制作倒计时功能

设置画布和文本 文本绑定 格式化时间 转到事件图表&#xff0c;计算时间&#xff0c;时间结束后面的事件可以按自己需求写 进入关卡蓝图&#xff0c;添加倒计时UI

Excel + Notepad + CMD 命令行批量修改文件名

注意&#xff1a;该方式为直接修改原文件的文件名&#xff0c;不会生成新文件 新建Excel文件 A列&#xff1a;固定为 renB列&#xff1a;原文件名称C列&#xff1a;修改后保存的名称B列、C列&#xff0c;需要带文件后缀&#xff0c;为txt文件就是.txt结尾&#xff0c;为png图片…

F5中获取客户端ip地址(client ip)

当F5设备对其原始设置上的所有IP地址使用NAT时&#xff0c;连接到poo成员&#xff08;nodes、backend servers&#xff09;的出站连接将是NAT IP地址。 pool 成员&#xff08;nodes、backend servers&#xff09;将无法看到真实的客户端 ip地址&#xff0c;因为看到的是F5上的…

什么是网络数据包分析?有什么特点?

网络数据包分析&#xff08;Packet Analysis&#xff09;&#xff0c;也被称为网络流量分析或抓包分析&#xff0c;是指通过捕获和检查在网络上传输的数据包来监控、诊断和评估网络性能及安全性的一种技术。这项技术可以用来识别网络问题、优化网络性能、检测安全威胁以及了解网…

大数据技术与应用——数据可视化(山东省大数据职称考试)

大数据分析应用-初级 第一部分 基础知识 一、大数据法律法规、政策文件、相关标准 二、计算机基础知识 三、信息化基础知识 四、密码学 五、大数据安全 六、数据库系统 七、数据仓库. 第二部分 专业知识 一、大数据技术与应用 二、大数据分析模型 三、数据科学 数据可视化 大…

window QT/C++ 与 lua交互(mingw + lua + LuaBridge + luasocket)

一、环境与准备工作 测试环境:win10 编译器:mingw QT版本:QT5.12.3 下载三种源码: LuaBridge源码:https://github.com/vinniefalco/LuaBridge LUA源码(本测试用的是5.3.5):https://www.lua.org/download.html luasocket源码:https://github.com/diegonehab/luasocket 目…

Docker在Ubuntu和CentOS系统下的安装

目录 1. 各版本平台支持情况2. 在Ubuntu系统下安装docker3. 常见报错4. Docker的镜像源修改5. Docker目录修改6. 在CentOS系统下安装docker 1. 各版本平台支持情况 &#xff08;1&#xff09;平台支持情况如下&#xff1a; Server 版本 桌面版本 2. 在Ubuntu系统下安装docker…

图形化界面MySQL(MySQL)(超级详细)

目录 1.官网地址 1.1在Linux直接点击NO thanks..... 1.2任何远端登录&#xff0c;再把jj数据库给授权 1.3建立新用户 优点和好处 示例代码&#xff08;MySQL Workbench&#xff09; 示例代码&#xff08;phpMyAdmin&#xff09; 总结 图形化界面 MySQL 工具大全及其功…

IP数据云查询IP归属地信息

互联网时代&#xff0c;我们每天都会面对大量的网站或App,但你们是否知晓&#xff0c;所有程序员进行程序或者系统的开发都离不开查询IP地址&#xff0c;这是由于对于每个安全的网站/软件来说&#xff0c;基础的服务日志&#xff0c;登录IP等就离不开IP归属地离线库&#xff0c…

PH热榜 | 2024-12-17

1. Eden 标语&#xff1a;一键用AI生成网页评论。 介绍&#xff1a;Eden是一款人工智能驱动的社交插件&#xff0c;只需点击表情符号就能在任何网页上评论。它能自动总结网页内容并生成个性化评论。 想调侃朋友、表达喜爱&#xff0c;还是快速评论几句&#xff1f;用Eden&…