NLP的idea,看了就能水一篇论文

news2024/11/24 16:22:32

1.问题

在中文情感分析任务中,已有方法仅从单极、单尺度来考虑情感特征,无法充分挖掘和利用情感特征信息,模型性能不理想。

单级单尺度:只从一个方面学习文本的特征

多级多尺度:应该是分别从不同方面学习文本的特征,最后进行一个融合。比如此论文中从单词、短语、句子三个方面来综合学习文本的特征。

2.解决方法

        论文中提出了一种多级多尺度特征提取的 CNN-BiLSTM 模型。该模型首先利用预训练好的中文词向量模型并结合嵌入层微调来获取词级特征;然后利用多尺度短语级特征表征模块和句子级特征表征模块来分别获取短语级和句子级特征,在多尺度短语级特征表征模块中,使用具有不同卷积核尺寸的卷积网络来获取不同尺度的短语级特征;最后使用多级特征融合方法将词级特征、不同尺度的短语级特征以及句子级特征进行融合形成多级联合特征。

3. 多级、多尺度特征提取的 CNN-BiLSTM 模型

3.1 词级表征

        首先通过预处理将一段文本映射成为对应的词向量矩阵,然后通过最大池化层对此词向量矩阵进行池化操作。

        为了方便后续的多级特征融合,不同维度的多级特征将通过多层感知机(MLP)统一映射到S空间。

3.2 短语级特征表征

        仅依靠词级信息尚不足以表达文本的情感信息,模型对情感极性的预测结果较差。相比词,短语往往能提供更丰富的语义和情感信息。

        模型中设置了两个具有不同卷积核大小的卷积来分别提取不同距离的短语级特征,为了尽可能地减少参数量,降低模型复杂度,在确保能有效提取不同尺度的短语级特征的情况下,将卷积核的大小分别设置为3和5。为了保证在卷积操作前后输入和输出长度不变,在进行卷积之前,我们使用0来对词嵌入进行填充,然后使用最大池化获取每一个时间步上的短语级嵌入特征,最后使用 MLP 将短语级特征的空间维度统一映射到S空间。

        最后使用 MLP 将短语级特征的空间维度统一映射到S空间。

3.3 句子级特征表征

        为了更好地理解文本描述,仅依靠局部特征信息是不充分的。因此,论文利用 Bi-LSTM 来学习词嵌入序列的全局特征以获取句子级特征。

3.4 多级特征融合

        多级特征融合会将提取到的词级特征、多尺度短语级特征以及句子级特征进行多级特征融合以获取文本的联合特征。论文中使用逐元素相加的方法来进行多级特征融合

其中,表示逐元素相加。

        然后,对于融合后的联合特征Fi,我们使用 MLP来进行学习,可表示为:

        其中,Wmlp表示 MLP的参数。在 MLP中一共设置了两个隐藏层并且均使用 Relu作为非线性激活函数。最后,将学习到的联合特征输入softmax分类器中 进行情感预测。

4.实验

4.1 数据集

        数据集来自当当网的10000条评论组成的中文数据集,并且每条评论分别对应一个积极或消极情感极性。表一显示了数据集的分布情况。

4.2 评估指标

        论文中采用了Accuracy、Precision、Recall以及F1-score这4个被广泛用于情感分析任务中的评估指标。Accuracy表示情感极性预测正确的样本占样本总数的比例,Precision表示在正类中情感极性预测正确的样本数占所有样本中预测为正类样本数的比例,Recall 表示在正类样本中情感极性预测正确的样本数占所有正类样本数的比例,F1-score为 Precision和 Recall的调和值。

4.3 实验结果

        由上表可知,与包括SVM 在内的8种模型相比,论文中的方法取得了最好的性能,这表明多级多尺度方法更能充分提取和利用情感特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/616837.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电脑vcomp140.dll丢失怎么修复

vcomp140.dll是Microsoft的Visual C Redistributable for Visual Studio 2015的一部分。它是一个动态链接库文件,主要用于在Windows操作系统上运行使用Visual Studio 2015编写和编译的软件。与其他许多Windows动态链接库文件类似,vcomp140.dll包含函数和…

(二)CSharp-索引器

1、索引器定义 什么是索引器 索引器(indexer)是这样一种成员:它使对象能够用与数组相同的方式(即使用下标)进行索引 索引器的声明参见 C# 语言定义文档注意:没有静态索引器 索引器是一组 get 和 set 访问…

案例32:基于Springboot在线远程考试系统开题报告设计

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

地震勘探基础(十一)之水平叠加处理

水平叠加处理 地震资料经过预处理,静校正,反褶积,速度分析和动校正处理后就要进行水平叠加处理。地震水平叠加处理是地震常规处理的重要环节。 假设一个共中心点道集有三个地震道,经过速度分析和动校正以后,水平叠加…

【PCIE】TLP 发送三阶段和Secondary Bus Reset

TLP传输三阶段 TLP 发送的三个阶段涉及到 PCIe 协议栈中的不同层次,具体如下: TLP 发送阶段 1(TS1):这个阶段是在传输层(Transaction Layer)中进行的。在这个阶段,TLP 数据包会进…

轻松应对大数据挑战!利用ETLCloud实现TDengine数据库的高效查询与数据迁移

TDengine 是一款开源、云原生的时序数据库,专为物联网、工业互联网、金融、IT 运维监控等场景设计并优化。它能让大量设备、数据采集器每天产生的高达 TB 甚至 PB 级的数据得到高效实时的处理,对业务的运行状态进行实时的监测、预警。 根据TDengine文档…

算法--递归--基础

定义 计算机科学中,递归是一种解决计算问题的方法,其中解决方案取决于同一类问题的更小子集 递归是一种非常高效、简洁的编码技巧,一种应用非常广泛的算法。 如求100以内的和 那么就等同于求10099以内的和 99以内和等同于9998以内的和 … 依…

复杂SQL优化实例

SQL语句的执行顺序: 执行计划指标查看 优化实例一 LIMIT 语句 分页查询是最常用的场景之一,但也通常也是最容易出问题的地方。比如对于下面简单的语句,一般 DBA 想到的办法是在 type, name, create_time 字段上加组合索引。这样条件排序都能…

面对市面上众多的商城系统,我们该如何选择?

数字化时代,传统的实体店铺发展进入瓶颈。越来越多的消费者选择在网上购物,这也催生了各种各样的电商平台和商城系统,如SHOP、Magento等。但是,对于那些想要进入电子商务领域的企业来说,如何选择适合自己的商城系统&am…

[BigGAN] Large Scale GAN Training for High Fidelity Natural Image Synthesis

1、目的 在大型数据集上训练class-conditional GAN,并探索相关的trick 2、贡献 1)数据集的扩大使得GAN的表现也随之提升。文章的网络参数量是之前工作的2~4倍,batch size是之前的8倍。文章分别从两方面对performance进行提升:sca…

计算机视觉:语义分割理论及实战

语义分割 语义分割(Semantic Segmentation)是指将一张图像分割成若干个区域,并对每个区域赋予语义标签的任务。它是计算机视觉中的一种重要技术,被广泛应用于自动驾驶、医学图像分析、地理信息系统等领域。 与传统的图像分割任务…

奇安信应急响应-Linux

Linux需要经常关注的目录 /etc/passwd用户信息文件:我们需要看一下里面到底是什么,保存的用户信息 /etc/rc.d/rc.loacl:开机启动项:类似于Windows的开机启动项,有可能攻击者会在里面写一个后门文件,需要重…

EM算法实现对iris数据集和meat数据集的分类【MATLAB版本】

摘要:本章实验主要是对于学习 EM 算法的原理,掌握并实现混合高斯模型非监督学习 的 EM 算法,要求在两个数据集上面实现混合高斯模型的非监督学习的EM算法。混合模型是相对于单高斯模型而言的,对于某个样本数…

【高级篇】分布式事务

分布式事务 1.分布式事务问题 1.1.本地事务 本地事务,也就是传统的单机事务。在传统数据库事务中,必须要满足四个原则: 1.2.分布式事务 分布式事务,就是指不是在单个服务或单个数据库架构下,产生的事务&#xff0c…

Nginx:Tomcat部署及优化(二)

Nginx:Tomcat部署及优化(二) 一、Tomcat 优化1.1 内核参数优化1.2 Tomcat 配置文件参数优化1.3 Java 虚拟机(JVM)调优 二、NginxTomcat 负载均衡、动静分离 一、Tomcat 优化 Tomcat 默认安装下的缺省配置并不适合生产…

9款超级实用的网页设计工具,快来看看有没有你用过的

随着网络时代的快速发展,游戏、购物、音乐、影视和社交网站的兴起都表明了网页设计的重要性! 网页设计工具作为网页设计师的生产工具,自然要选择好的。 让我们分享9个高质量的网页设计工具,让您的设计效率悄然提高! …

【Python TDD和BDD】零基础也能轻松掌握的学习路线与参考资料

Python TDD和BDD的学习路线 TDD(测试驱动开发)和BDD(行为驱动开发)在软件开发中的作用越来越受到重视。TDD通过先写测试代码,再编写生产代码的方式,使得开发者可以在开发过程中确保代码质量和正确性&#…

黑客学习-xss漏洞总结

1、什么是xss 先来看案例 在一个输入框中,输入js代码,存放alter()其弹窗,结果可以看到,代码成功执行。这个就是xss漏洞 XSS攻击全称跨站脚本攻击,是一种在Web应用中常见的安全漏洞,它允许用户将恶意代码植入到Web页面…

分布式事务 2PC

tip:作为程序员一定学习编程之道,一定要对代码的编写有追求,不能实现就完事了。我们应该让自己写的代码更加优雅,即使这会费时费力。 文章目录 一、简介二、2PC 的运行流程三、2PC 一定能保证数据的一致性吗?四、2PC 的…

软件测试——未来软件测试的5个主要趋势

全球各地的企业每天都在发展变化着,以应对市场挑战,满足日益成熟的客户需求。即使是正在进行的技术进步也会使软件测试专家在实践的过程中更加专注和精确。 2021年给软件测试领域带来了新的技术解决方案,以及质量保证和软件测试的实现。与此同…