Tree-of-Counterfactual Prompting for Zero-Shot Stance Detection

news2026/2/15 22:11:06

论文地址：Tree-of-Counterfactual Prompting for Zero-Shot Stance Detection - ACL Anthologyhttps://aclanthology.org/2024.acl-long.49/

1. 概述

立场检测被定义为对文本中立场态度的自动推断。根据 Biber 和 Finegan (1988) 的定义，立场包含两个主要元素：

立场主体（Subject）：立场的表达者，如社交媒体用户、演讲者等。
立场对象（Object）：立场的针对目标，通常包括：
- 话题（Topics）：例如“堕胎”、“气候变化”等具有争议性的名词或短语。
- 交流框架（Frames of Communication, FoCs）：框架用于定义问题成因、道德判断和关注点（Entman, 1993）。

例如：

话题示例：一则关于“堕胎”的社交媒体帖子引用 Mother Teresa 的演讲： “爱意味着愿意付出，直到感到痛苦。” 该语境表达了“Reject” 立场，即反对堕胎。
交流框架示例：关于 COVID-19 疫苗接种的帖子配有讽刺性图像（引用电影《无耻混蛋》中的角色 Hans Landa），表面上与 FoC 矛盾，但结合上下文和图像的讽刺含义，最终表达了“Accept”立场。

挑战：立场检测往往依赖于复杂的推理过程，包括：

上下文理解：推断态度需要常识知识与语义分析。
多模态融合：文本和图像的联合推理增加了任务难度，尤其是在讽刺、反讽等特殊语言现象中。

目前的立场检测方法主要分为两类：

基于监督学习的分类方法
- 示例：SVM-ngrams、BERT 等基于特征和神经网络的分类模型。
- 局限：
  - 泛化能力差：仅能在训练过的话题或框架上表现良好，无法适应新的立场对象。
  - 依赖标注数据：需要大量带标签的训练样本，成本高昂。
零样本立场检测（ZSSD）
- 解决了新话题的泛化问题，但仍然需要部分立场示例进行训练。
- 示例：Allaway & McKeown (2020) 提出的跨话题 ZSSD。

为进一步克服上述问题，本研究提出了Tabula Rasa 零样本立场检测（TR-ZSSD），在不需要任何标注示例的前提下进行立场推断。

本研究引入了一个新的立场检测框架，名为Tree-of-Counterfactual prompting（ToC），其核心思想基于反事实推理（Counterfactual Reasoning）。主要流程分为三步：

步骤 1：反事实树生成（Tree-of-Counterfactual）

对于给定的社交媒体帖子（SMP）和立场对象，构建一个反事实树：

假设立场值为“Accept”“Reject” 和 “No Stance”。
为每种立场值生成一个反事实假设，形成推理树的分支。

例如，给定一个关于“气候变化”的帖子，分别假设：

Accept 分支：帖子表达接受气候变化的观点。
Reject 分支：帖子表达拒绝气候变化的观点。
No Stance 分支：帖子未表达任何立场。

步骤 2：反事实解释（Chain-of-Explanation, CoE）

使用大语言模型（LLMs）或多模态模型（LMMs）生成每个立场值的详细解释。例如：

Accept 立场的解释：如何支持气候变化的观点？
Reject 立场的解释：如何反驳气候变化的观点？

步骤 3：反事实验证（Chain-of-Contrastive Verification, CoCV）

将所有生成的反事实解释进行对比验证，选择最合理的立场值。

比较每个立场分支的优势和劣势。
最终选择一个最合理的立场结论。

2. 方法

此 Chain-of-Explanation (CoE) 提示框架指导大型语言模型（LLM）提供逐步的解释：

来自社交媒体帖子的文本内容被插入到“{文本}”部分，立场对象的文本表示被插入到“{对象}”部分，反事实的立场值被插入到“{立场}”部分。

阶段 C（如图 2(C) 所示）借鉴了 Chain-of-Verification (CoVe) 提示框架，该框架由 Dhuliawala 等人 (2023) 提出。CoVe 提示框架使 LLM 能够对其生成的回答进行反思，从而通过内省纠正错误。我们采用阶段 B 生成的反事实推理作为验证的基准回应，并修改验证步骤，引入一种对比验证形式。

通过这种方式，我们创建了反事实链式对比验证 (C-CoCV) 提示框架，对阶段 B 生成的反事实推理进行内省，并将这些推理的论点与帖子 $p_i$ 和立场对象 $o_j$ 的内容进行对比，以验证不同立场值假设的合理性。

可以看出，C-CoCV 提示的语义与 CoE 提示的语义相同，使得不同的立场对象能够被考虑，同时也可以使用社交媒体帖子（SMP）的文本与图像内容，或立场对象的文本内容。此外，由 CoE 提示生成的反事实推理被插入到 “{accept_rationale}”、“{reject_rationale}” 和 “{no_stance_rationale}” 部分中。 ToC 提示的三个阶段利用了大规模语言模型（LLMs）的能力，针对不同的立场假设生成和评估事后推理，促成了一种更具解释性的立场推断机制，在这种机制中，每个立场假设都会被严格审查其有效性。

3.实验

3.1 实验设置

在本实验中，作者设计了三个立场检测设置来评估 ToC-TR-ZSSD 方法。使用了三个不同的标注立场数据集：

SemEval-2016
- 数据来源：Twitter 包含五个具有争议性的话题：Abortion（堕胎）、Atheism（无神论）、Climate Change（气候变化）、Feminism（女权主义）和 Hillary Clinton（希拉里·克林顿）。
- 该数据集已被广泛用于自动立场检测的基准测试，特别是 SemEval-2016 的任务 A。
CoVaxFrames
- 数据来源：关于 COVID-19 疫苗犹豫的社交媒体帖子。
- 包括 113 个交流框架（Frames of Communication, FoCs）。例如：
  - “The COVID vaccine renders pregnancies risky, and it is unsafe for unborn babies”
  - “Preference for getting COVID-19 and fighting it off than getting vaccinated.”
- 数据集主要由文本组成。
MMVax-Stance
- 数据来源：多模态数据集，包含文本、图像和视频。
- 注释对象：与 CoVaxFrames 相同的 113 个 COVID-19 疫苗相关交流框架。
- 数据集面临的挑战：需要对文本和多模态内容（如图像、视频）进行联合推理。

3.2 结果分析

SemEval-2016结果 ：与多个微调系统进行了比较，包括 SVM-ngrams、MITRE 和 pkudblab 的系统。结果：

GPT-3.5 和 GPT-4 在直接提示（Direct Prompting）下表现不佳，但使用 CoT 提示时，GPT-4 取得了显著的性能提升，接近微调系统的表现。
最高性能：TimeLMs 微调系统的宏平均 F1 分数为 72.9，GPT-4 使用 ToC 提示接近此结果。

CoVaxFrames 结果：使用了多个现有的基准系统，包括 SBERT-NLI、DS-BERT、LES-GAT 和 LACRScore。结果：

LACRScore 微调系统取得了 76.2 的宏平均 F1 分数，是表现最好的基准系统。 GPT-3.5 和 GPT-4 在直接提示下表现较差，但在使用 CoT 提示后，性能显著提升。
GPT-4 + ToC 提示的宏平均 F1 分数达到 79.1，超过了微调系统。

MMVax-Stance 结果：使用了两种大型多模态模型：LLaVA-1.5 和 GPT-4V，并采用了直接提示和 CoT 提示两种策略。比较基准系统包括：DS-BERT、LES-GAT-MF 和 LACRScore，同时考虑了多模态基准，如 BLIP-2 和 CLIP-Joint。结果：

LLaVA-1.5 和 GPT-4V 在直接提示下表现不佳，但使用 CoT 提示后，性能显著提高。
GPT-4V + ToC 提示达到 60.6 的宏平均 F1 分数，比 BridgeTower 系统高出近 8 分。最终的最佳结果来自 BT + $S_{Aug}$ ，该系统通过生成大量合成数据（46,606 条示例）实现了 71.3 的宏平均 F1 分数，数据量比原始数据增加了约 600%。