Sarcasm detection论文解析 |基于情感背景和个人表达习惯的有效讽刺检测方法

news2024/9/22 21:16:29

论文地址

论文地址:https://link.springer.com/article/10.1007/s12559-021-09832-x#/

论文首页

笔记框架

 

基于情感背景和个人表达习惯的有效讽刺检测方法


📅出版年份:2022
📖出版期刊:Cognitive Computation
📈影响因子:5.4
🧑文章作者:Du Yu,Li Tong,Pathan Muhammad Salman,Teklehaimanot Hailay Kidu,Yang Zhen
📍 期刊分区:
JCR分区: Q1 中科院分区升级版: 计算机科学3区 中科院分区基础版: 工程技术2区 影响因子: 5.4 5年影响因子: 4.8 EI: 是 南农高质量: A


🔎 摘要:

讽刺在社交媒体中很常见,人们用它来间接表达自己情绪更强烈的观点。虽然它属于情感分析的一个分支,但传统的情感分析方法无法识别反讽修辞,因为它需要大量的背景知识。现有的讽刺检测方法主要集中于使用各种自然语言处理技术来分析讽刺的文本内容。本文认为,检测讽刺的本质问题是联系其上下文,包括回复目标文本的文本情绪和用户的表达习惯。提出了一种双通道卷积神经网络,不仅可以分析目标文本的语义,还可以分析其情感背景。此外,SenticNet还用于为长短期记忆(LSTM)模型添加常识。然后应用注意力机制来考虑用户的表达习惯。在多个公共数据集上进行了一系列实验,结果表明所提出的方法可以显着提高讽刺检测任务的性能。


🌐 研究目的:

提高讽刺检测任务的性能

研究问题:

通过添加模型注意力机制提取的用户表达习惯,是否可以提高讽刺文本的预测性能?

语义、情感和用户维度的结合能否提高讽刺文本的预测性能?

所提出的方法比现有的先进模型更好吗?

📰 研究背景:

现有的讽刺检测方法主要集中于使用各种自然语言处理技术来分析讽刺的文本内容。本文认为,检测讽刺的本质问题是检查其上下文,包括回复目标文本的文本情绪和用户的表达习惯。

🔬 研究方法:

本文遵循的研究方法主要分为三个部分,如图2所示。

情感上下文不协调特征嵌入

其中上下文情感信息被添加到词嵌入方法中,并使用CNN来分别提取评论的语义和情感特征。

用户表达习惯特征

其中使用Bi-LSTM对语义词向量进行编码,然后结合用户的注意力机制构建表达习惯的特征向量。

集成了多维信息

即语义、情感上下文和用户习惯


🔩 模型架构:

情感上下文不协调特征嵌入模型

输入层

SARC 数据集的注释用作 SCIFE 模型训练的输入序列。

线性层1

输入层输出序列词e(w1),e(w2)...e(wn),线性层1在串联后进行线性变换。

滑动窗口大小3是经过多次实验选择的合适参数。

hTanh层

为了使模型获得非线性特征,模型选择硬版本的双曲正切作为非线性函数。

线性层2

使用线性变换方法结合提取的情感特征并计算输入序列的情感分数。

softmax层

softmax 层用于标准化所有情感分数。

优化和学习

练目标是最小化训练数据中的交叉熵损失。

CNN架构

经过预处理后,通过Glove和SCIFE模型得到单词的向量表示。

双通道 CNN 模型考虑了两个独立的向量表示,即语义通道和情感通道。

窗口大小3是经过多次实验选择的合适参数。

利用卷积运算分别得到评论的语义隐藏序列表示hri和评论的情感不一致隐藏序列表示hci。

使用最大池化方法来保留显着特征,同时减少输出的维度。

用户表达习惯特征工程

将常识向量 μt 添加到 LSTM 每个时间节点的输入门、遗忘门和输出门。

当前的研究中使用了注意力机制,为句子中的不同单词分配不同的权重,并提取对特定用户的表达重要的单词。

最后,将信息聚合成句子的特征向量。

这里根据任务选择前馈神经网络作为评分函数的参数化方法。

讽刺分类

该模型使用非线性ReLU投影层来学习这三个特征向量的联合表示。

softmax 层用于标准化所有预测标签。

所提出的神经网络模型经过端到端训练,以优化标准二元交叉熵损失函数。


🧪 实验:

 📇  数据集:

Twitter、Reddit

验证上下文的情感不协调作为讽刺特征在不同主题上是普遍存在的。

 📏 评估指标:

 📉  优化器&超参数:

 💻  实验设备:

所有实验均使用 TensorFlow 实施。

 📊  消融实验:

图6、图7

 📋  实验结果:

在不同的数据集上,使用Bi-LSTM和attention结合获得的F1-score均高于LSTM模型获得的F1-score。

由此可见,一条评论是否讽刺,与发表该评论的作者有很大关系。

三种特征相结合的模型具有最好的性能。多维特征的组合可以挖掘文本的复杂特征,更有利于判断文本是否含有反讽成分。


🚩 研究结论:

本文提出了一种结合语义、情感和多维用户信息的讽刺检测框架。首先,使用 CNN 提取评论的语义特征。然后,将影响上下文的不一致信息添加到词嵌入模型中。将得到的词向量作为CNN的输入,获取评论的情感特征。随后,利用Bi-LSTM结合常识情感和注意力,提取评论中特定用户的表达特征。最后,通过神经网络对三个维度的信息进行拼接和训练。在多个标准数据集上对所提出的模型进行了评估,结果表明,与其他先进方法相比,所提出的模型取得了显着的改进。


📝 总结

💡 创新点:

本文提出了一种采用双通道结构设计的神经网络模型,将情感背景和个人表达习惯结合到讽刺检测中。对于讽刺这样的细粒度情绪,添加常识可以提高模型的预测能力。

基于卷积神经网络(CNN)的情感上下文不一致特征嵌入方法,可以综合提取目标上下文的语义和情感特征。

基于双向LSTM(Bi-LSTM)方法的模型,结合常识和注意力机制,全面表征用户表达习惯的特征。

 ⚠ 局限性:

 🔧 改进方法:

 🖍️ 知识补充:

SenticNet 和 AffectiveSpace 是将常识纳入长短期记忆 (LSTM) 模型的依据。

之前使用基于深度学习的模型来检测讽刺的研究中使用了两种方法,其中包括分析对话上下文以及分析用户的评论和心理状态。

自然语言工具包(NLTK)是一种自然语言情感分析工具,用于分别预测r和c的情感极性。

HTanh它的优点是计算成本略低(与双曲正切相比),而泛化保持不变[31]。

与Word2vec[33]相比,Glove具有更快的训练速度和良好的性能。

卷积运算通常用于合成 n-gram 信息[34]。

LSTM[14]由于其在序列建模方面的优异性能而被广泛应用于文本挖掘。为了解决长期依赖问题,LSTM 架构引入了一个可以长时间保存单元状态的存储单元。

[38]中使用的哨兵向量,允许模型灵活地决定是否关注这一常识。

根据阿米尔的研究[3],不同用户表达的同一句话可能具有不同的讽刺意义。


💬 讨论:

所提出的方法对于不同的 SARC 主题数据集表现出不同的分类性能。对于政治主题,性能提升较小,而对于电影和技术主题数据集,性能提升明显。究其原因,在于不同的题材具有不同的讽刺特征。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1645539.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

报错,java: 程序包sun.misc不存在

错误描述 down下来一个项目,编译的时候报错,提示sun.misc包不存在,通过百度得知,原来这是jdk8中的jar包,在后来的版本中被移除了(我用的jdk11,没有这个包) 结局方法 1.更换jdk版本&…

【电影】【指环王】【中土世界】影碟播放记录

一、写在前面 笔者于5月5日(昨天)在新加坡淘到了一套《指环王 The Lord of the Rings》DVD光碟,今天却听闻噩耗,Rohan国王Theoden的扮演者,英国演员Bernard Hill去世(享年79岁),发文…

链式队列基本操作

链式队列的基本概念 链式队列是一种常见的数据结构,它使用链表作为其底层数据存储结构。链式队列的特点是动态的内存分配,可以有效地处理队列的入队和出队操作。下面,我将介绍链式队列的实现方法,并提供相应的C语言代码示例。 链…

曼奇立德10节春季插画研修课

课程介绍 课程探讨了存在主义心理学的基本原理和方法。通过学习该课程,您将了解到存在主义的核心概念,如自由意志、责任感和意义寻求。您将学会运用存在主义理论和技巧来帮助个人面对挑战、追求自我实现,并寻找生活的意义。这门课程将启发您的…

力扣每日一题-去掉最低工资和最高工资后的工资平均值-2024.5.3

力扣题目:去掉最低工资和最高工资后的工资平均值 开篇 题目链接: 1491.去掉最低工资和最高工资后的工资平均值 题目描述 代码思路 太简单了。先利用sort排序对数组进行从小到大排序,然后计算时数组最小值和最大值不要加进去即可。 代码纯享版 clas…

C#图像处理实例1:opencvsharp获取轮廓凸包

在OpenCvSharp中,你可以使用Cv2.ApproxPolyDP函数来获取轮廓的凸包。这个函数使用Douglas-Peucker算法来近似轮廓。 以下是一个简单的例子,展示如何使用OpenCvSharp获取轮廓的凸包: Mat src Cv2.ImRead("保存图像\2.jpg", ImreadM…

C++例题:大数运算---字符串相加(使用数字字符串来模拟竖式计算)

1.代码速览 class Solution2 { public:string addStrings(string num1, string num2){//end1和end1是下标int end1 num1.size() - 1;int end2 num2.size() - 1;string str;//下标(指针)从后向前走,走到头才可以结束,所以是end>0int next 0;while (end1 > 0 || end2 &…

利用大语言模型(KIMI)构建智能产品的信息模型

数字化的核心是数字化建模,为一个事物构建数字模型是一件非常繁杂和耗费人工的事情。利用大语言模型,能够轻松地生成设备的信息模型,我们的初步实验表明,只要提供足够的模板,就能够准确地生成设备的数字化模型。 我们尝…

CyberDemo解读

CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation解读 摘要1. 简介2. Related Work2.1 Data for Learning Robot Manipulation2.2 机器人的预训练视觉表征2.3 Sim2Real Transfer 3. CyberDemo3.1 收集人体遥操作数据3.2 在模拟器中…

颠覆传统?「一束光子,两种频率」的量子纠缠!

在最新的研究中,科学家们开发了一种革命性的量子纠缠方式——“频域光子数路纠缠”(frequency-domain photon number-path entanglement)。这一量子物理学的重大进展涉及到一个创新性的工具:频率分束器(frequency beam…

景源畅信:抖音运营做什么工作内容?

在如今这个信息爆炸的时代,抖音已经成为了人们生活中不可或缺的一部分。无论是消磨时间、获取信息还是展示自我,抖音都扮演着重要的角色。那么,作为抖音运营,他们需要做些什么呢? 一、内容策划与制作 抖音运营的首要任务就是内容…

USB3.0

用万用表测量电容,电阻的好坏: 直接用万用表的电容档位测量电容的值,若所测值与电容表面所写或原理图中电容大小一样的话则判断电容是好的,否则是坏的。电阻一样。 有时候万用表并不好用,LCR仪则更为准确&#xff1a…

AArch64 内存管理

本文是对arm developer网站《Learn the architecture - AArch64 memory management Guide》的学习笔记(Documentation – Arm Developer) 一、背景概述 本文介绍了AArch64中的内存转换,这是内存管理的关键,它解释了虚拟地址如何转…

Java模块化系统:引领代码革命与性能飞跃

JDK工程结构的问题 在说Java模块化系统之前,先来说说Java9之前的JDK在工程结构上的问题,从JDK本身的问题说起,Java从1996年发布第一版到2017年发布Java9,中间经历了近20年的时间,在这期间发布了无数个大大小小的版本用…

鸿蒙开发-ArkTS语言-容器

鸿蒙开发-UI-交互事件-键鼠事件 鸿蒙开发-UI-交互事件-焦点事件 鸿蒙开发-UI-交互事件-手势事件 鸿蒙开发-UI-web 鸿蒙开发-UI-web-页面 鸿蒙开发-ArkTS语言-基础类库 鸿蒙开发-ArkTS语言-并发 鸿蒙开发-ArkTS语言-并发-案例 文章目录 前言 一、容器类库概述 二、线性容器 1…

Linux网络服务的存储,FTP服务和NFS共享

目录 一.存储 1.存储类型 2.应用场景 二.FTP服务 1.FTP工作原理介绍 2.FTP协议的两种模式 3.用户类型 4.匿名用户案例 三.NFS 1.NFS简介 2.NFS服务主要进程 3.NFS特点 4.NFS共享配置文件格式 5.NFS工具 5.1 exportfs 5.2 showmount 5.3 mount.nfs 6.创建文…

张大哥笔记:卖盗版网课,获利 100 万被抓

这几天刷视频,看到一个新闻,某大学生卖盗版网课,把别人2000多正版网课,以做活动名义售卖20元,获利100多万被抓。 下方图片来自:极目新闻 卖这种盗版网课,门槛低,成本低,…

CWDM、DWDM、MWDM、LWDM:快速了解光波复用技术

在现代光纤通信领域,波分复用(WDM)技术作为一项先进的创新脱颖而出。它通过将多个不同波长和速率的光信号汇聚到一根光纤中来有效地传输数据。本文将深入探讨几种关键的 WDM 技术(CWDM、DWDM、MWDM 和 LWDM)&#xff0…

软考中、高项变成了一年考一次,还有机会上岸吗?

真正想考试的人机会一直都在,虽然这次考试频次减少了,但整个调整还未涉及到考试内容方面,所以如果你现在考不过的话,之前也未必可以,主要还是要对考试内容有足够的熟悉才能顺利通过。 一、做了哪些科目调整 将软考初…

04-19 周四 GitHub CI 方案设计

04-19 周四 GitHub CI 方案设计 时间版本修改人描述2024年4月19日14:44:23V0.1宋全恒新建文档2024年4月19日17:22:57V1.0宋全恒完成部署拓扑结构的绘制和文档撰写 简介 需求 由于团队最近把代码托管在GitHub上,为解决推理、应用的自动化CI的需要,调研了…