第24周:文献阅读

news2024/12/16 18:37:06

目录

摘要

Abstract

一、现有问题

二、提出方法

三、创新点

模型结构创新

强化学习与GAN结合

属性特征与通顺性优化

四、方法论

生成对抗网络(GAN)

强化学习(RL)

模型组件

五、实验研究

数据集

数据预处理

评价指标

实验结果分析

总结


摘要

本周阅读文献《基于 GAN 的中文虚假评论数据集生成方法》,本文提出了一种基于生成对抗网络(GAN)的中文虚假评论数据生成模型,旨在解决互联网虚假评论研究领域缺乏完全公开的中文数据集的问题。模型结合了生成器、判别器、分类器、重构器及Rollout模块,并通过强化学习方法优化生成器参数,以生成具有相应类标签属性及特征的虚假评论数据。实验结果表明,所提出的模型在BLEU值和NLL指标上均优于其他基线模型,显示出良好的生成效果和数据扩充能力。 

Abstract

This week, we read the literature “GAN-Based Approach for Generating Chinese False Review Dataset”, which proposes a Generative Adversarial Network (GAN)-based model for generating Chinese false review data, aiming to solve the problem of the lack of fully public Chinese datasets in the field of Internet false review research. The model combines Generator, Discriminator, Classifier, Reconstructor and Rollout modules, and optimizes the generator parameters by reinforcement learning method to generate false comment data with corresponding class label attributes and features. The experimental results show that the proposed model outperforms other baseline models in terms of BLEU values and NLL metrics, showing good generation results and data expansion capabilities.

一、现有问题

1、虚假评论数据集缺乏:互联网虚假评论问题严重,但缺乏完全公开的中文虚假评论数据集,这给中文虚假评论研究带来了挑战。

2、现有数据集构建方法的局限性:现有方法如人工分类、人为书写筛选和机器模型生成存在标注准确率低、人力物力消耗大等问题。

二、提出方法

在针对互联网虚假评论问题的研究中,由于缺乏公开的中文虚假评论数据集,本文提出了一种创新的基于生成对抗网络(GAN)和强化学习(RL)的中文虚假评论数据生成模型。该模型通过结合生成器、判别器、分类器、重构器以及Rollout模块,利用强化学习方法将判别器、分类器和重构器的反馈转化为奖励分数,以优化生成器的参数。生成器负责生成具有特定类标签属性的虚假评论数据,判别器则区分生成的虚假评论和真实评论,分类器控制生成句子的类标签,而重构器优化生成文本的通顺性和健壮性。通过预训练和对抗训练的结合,模型在生成高质量虚假评论数据方面表现出色,实验结果表明,该模型在BLEU值上取得了优于其他基线模型的生成效果,为虚假评论检测研究提供了新的数据支持。

三、创新点

模型结构创新

模型包含生成器(G)、判别器(D)、分类器(C)、重构器(R)及Rollout模块,能够生成具有相应类标签属性及特征的虚假评论数据。

强化学习与GAN结合

通过强化学习方法将判别器、分类器和重构器的反馈转化为奖励分数,以优化生成器的参数。

属性特征与通顺性优化

模型不仅关注生成文本的属性特征,还通过重构器优化生成文本的通顺性和健壮性。

四、方法论

生成对抗网络(GAN)

生成器生成虚假评论数据,判别器区分真假句子。

 

强化学习(RL)

将判别器、分类器和重构器的反馈转化为奖励分数,优化生成器参数。

重构器(Reconstructor)是论文中提出的一种模型组件,其目的是优化生成文本的质量,特别是文本的通顺性和健壮性。在基于生成对抗网络(GAN)的中文虚假评论数据生成模型中,重构器扮演着至关重要的角色。重构器如下:

重构器通过语义层面的调整,确保生成的虚假评论数据在语义上更加接近真实世界的文本。它计算真假句子重构的元素级损失之差,并将损失差作为奖励分数传回给生成器,以微调生成器的参数

重构器包含两个子重构器,它们初始化状态相同并行运算,一个子重构器对假句子进行重构,另一个对真句子进行重构,目标是使重构得到的句子接近放入其中的句子。此外,重构器采用经过改造的变分自编码器(VAE)作为子模型,具有更强的文本信息捕捉能力。子重构器如下所示:

子重构器的损失函数由句子重构的交叉熵损失和连接器中变分后验分布拟合标准正态分布的损失组成。通过这些机制,重构器不仅提高了生成文本的质量,还通过奖励分数的形式为生成器提供了反馈,以优化生成器的参数,从而生成更加准确和自然的虚假评论数据。 

模型组件

包括生成器、判别器、分类器、重构器及Rollout模块,各组件协同工作以生成高质量的虚假评论数据。

Rollout策略是为了评估生成器在生成句子过程中的中间状态而设计的。具体来说,它使用蒙特卡洛(MC)搜索来采样剩余的词标记。

 

Rollout过程中,生成器的当前状态是已生成的部分序列,而动作值是生成器将要生成的下一个词标记。为了获得更准确的动作值估计并减少方差,Rollout策略从当前状态开始,运行多次MC搜索,每次得到一批次的输出样本。这些样本用于计算奖励分数Q,包括判别器奖励分数QD、分类器奖励分数QC和重构器奖励分数QR。这些奖励分数反映了生成器在生成过程中各个阶段的表现,并用于指导生成器的参数优化,以生成更高质量的虚假评论数据。 

Rollout策略帮助模型在序列生成过程中做出更好的决策,从而提高最终生成文本的质量

五、实验研究

数据集

使用Li等人的虚假评论数据集,经过预处理后剩余8,896条评论。

数据预处理

该数据集原本数据量为 9 765 条,将其中经过分词后的评论字符数少于 12 、与评价事物毫不相干、标点符号数目在此条评论占比高于该评论总字符数的 75% 、评论中有非中文字符的这些评论进行剔除,剩余 8 896 条评论。

评价指标

使用BLEU值的二元组、三元组及四元组精度作为评价指标。

实验结果分析

1、对比基线模型的评价指标 

本文采用 5 个基线模型进行模型 性能比较,分别是 spamGAN SeqGAN RankGAN 、 K2T、 Base generator. spamGAN SeqGAN Rank-GAN 均采用原模型; K2T 采用原模型的无引导词、 有引导上下文的模式;Base generator 是本文模型的生成器。实验采用BLEU值的二元组、三元组及四元组精度作为主要评价指标。

2、NLL指标

NLL(Negative Log-Likelihood)指标被用来评估基于对抗生成网络(GAN)的模型在文本生成任务中的性能。 

NLL指标用于衡量模型生成的文本序列与真实文本序列之间的差异。具体来说,它计算生成器生成的序列样本的对数似然值的负值。NLL值越低,表示模型生成的文本与真实文本越接近,生成效果越好

实验结果显示,dcrGAN模型的NLL值优于其他基线模型,如SeqGAN、RankGAN和spamGAN。这表明dcrGAN模型在生成文本时能够更准确地捕捉到真实文本的分布特征。

3、重构器训练方式的影响

 重构器的训练频率(即每隔多少次训练一次重构器)对模型的生成效果有显著影响。实验中,作者测试了不同的R-every-epochs值(即重构器训练间隔),包括1、3、5和10。

结果显示,当重构器每隔3次训练时(R-every-epochs为3),dcrGAN模型在二元组BLEU值上达到最大,表明这种训练频率下模型生成的文本质量最高。 

不同的训练方式对模型的困惑度也有影响,如下图所示:

 

结果表明,R-every-epochs为3时,模型的困惑度最小,进一步验证了这种训练方式的有效性。 

4、文本模型句子生成

 

作者通过展示模型生成的虚假评论和真实评论样例,证明了模型生成的文本具有较高的可读性和通顺性。生成的虚假评论能够学习到数据集中虚假评论的结构信息和语义信息;生成的虚假评论显示出模型已学习到虚假评论的特征,例如带有一长串标点符号的评论在数据集中基本都被赋予虚假标签,且大多数虚假评论停留在餐厅表面上,评论不够深入。

实验结果表明,所提出的dcrGAN模型在各元组的BLEU值上优于其他基线模型,显示出良好的生成效果。

总结

1、模型有效性:所提出的dcrGAN模型能够生成通顺健壮的大规模批量的中文虚假评论数据,实验结果表明该模型在BLEU值上取得了较好的生成效果,超过了神经网络基准模型。

2、未来工作:未来的工作将进一步研究模型中各部分之间的交互,优化生成器奖励分数,以提高模型文本生成效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2260651.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL server学习05-查询数据表中的数据(上)

目录 一,基本格式 1,简单的SQL查询语句 2,关键字TOP 3,关键字DISTINCT 二,模糊查询 1,通配符 三,对结果集排序 1,不含关键字DISTINCT 2,含关键字DISTINCT 3&…

【Azure 架构师学习笔记】- Azure Function (1) --环境搭建和背景介绍

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Function 】系列。 前言 随着无服务计算的兴起和大数据环境中的数据集成需求, 需要使用某些轻量级的服务,来实现一些简单操作。因此Azure Function就成了微软云上的一个必不可少的组成部分。 …

KeepAlive与RouterView缓存

参考 vue动态组件<Component>与<KeepAlive> KeepAlive官网介绍 缓存之keep-alive的理解和应用 Vue3Vite KeepAlive页面缓存问题 vue多级菜单(路由)导致缓存(keep-alive)失效 vue3 router-view keeperalive对于同一路径但路径…

Linux:进程(环境变量、程序地址空间)

目录 冯诺依曼体系结构 操作系统 设计操作系统的目的 操作系统的管理 进程 PCB fork 进程状态 进程状态查看 僵尸进程 孤儿进程 进程优先级 查看、修改进程优先级命令 竞争、独立、并行、并发 进程切换 活动队列和运行队列 活动队列 过期队列 active指针…

希迪智驾持续亏损8.2亿:毛利率下滑,冲刺“自动驾驶矿卡第一股”

《港湾商业观察》黄懿 近日,希迪智驾(湖南)股份有限公司(下称“希迪智驾”)向港交所主板递交上市申请,联席保荐人为中金公司、中信建投国际、中国平安资本(香港)。 资料显示&#…

Rust之抽空学习系列(三)—— 编程通用概念(中)

Rust之抽空学习系列(三)—— 编程通用概念(中) 1、变量&可变性 在Rust中,变量默认是不可变的 fn main() {let x 5;println!("x is {}", x); }使用let来声明一个变量,此时变量默认是不可变…

OpenCV中的识别图片颜色并绘制轮廓

一、实验原理 使用OpenCV库在图像中识别和绘制特定颜色(黄色)的轮廓 二、实验代码 import cv2 import numpy as np# 读取图片并调整大小 img cv2.imread(./color_1.png) img cv2.resize(img,(600,600))# 将图片从BGR颜色空间转换到HSV颜色空间 img_h…

【Qt】qt基础

目录 一、使用Qt Creator创建qt项目 二、项目文件解析 三、Qt中创建图形化界面的程序的两种方法 四、对象树 五、Qt中处理打印乱码问题的利器:qDebug() 一、使用Qt Creator创建qt项目 1.选择项目模板 选中第一类模板Application(Qt应用程序,包含普…

Transformer入门(6)Transformer编码器的前馈网络、加法和归一化模块

文章目录 7.前馈网络8.加法和归一化组件9.组合所有编码器组件构成完整编码器 7.前馈网络 编码器块中的前馈网络子层如下图所示: 图1.32 – 编码器块 前馈网络由两个带有ReLU激活函数的全连接层组成。全连接层(Fully Connected Layer)有时也…

AI智算-k8s部署大语言模型管理工具Ollama

文章目录 简介k8s部署OllamaOpen WebUI访问Open-WebUI 简介 Github:https://github.com/ollama/ollama 官网:https://ollama.com/ API:https://github.com/ollama/ollama/blob/main/docs/api.md Ollama 是一个基于 Go 语言开发的可以本地运…

HTML/CSS总结

HTML 1.1 标题标签h 为了使网页更具有语义化&#xff0c;我们经常会在页面中用到标题标签&#xff0c;HTML提供了6个等级的标题&#xff0c;即 标题标签语义&#xff1a; 作为标题使用&#xff0c;并且依据重要性递减 其基本语法格式如下&#xff1a; <h1> 标题文本…

信号处理:概念、技术、领域

目录 基本概念 主要技术 应用领域 信号处理是一个涉及分析、修改和再生信号的多学科领域。信号可以是各种形式的&#xff0c;例如声音、图像、视频或其他类型的监测数据。信号处理的主要目标是提取有用的信息并增强信号的质量。以下是信号处理的一些基本概念和应用&#xff…

黑盒白盒测试

任务1 黑盒测试之等价类划分法 【任务需求】 【问题】例&#xff1a;某报表处理系统要求用户输入处理报表的日期&#xff0c;日期限制在2003年1月至2008年12月&#xff0c;即系统只能对该段期间内的报表进行处理&#xff0c;如日期不在此范围内&#xff0c;则显示输入错误信息…

深度学习物体检测之YOLOV5源码解读

V5比前面版本偏工程化,项目化,更贴合实战 一.V5版本项目配置 (1)整体项目概述 首先github直接查找yolov5&#xff0c;下载下来即可。在训练时&#xff0c;数据是怎么处理的&#xff1f;网络模型架构是怎么设计的(如各层的设计)&#xff1f;yolov5要求是大于python3.8与大于等…

Go 怎么做性能优化芝麻开门篇

一、性能优化的流程 我们在对某个功能&#xff08;或单个接口&#xff09;做性能优化的时候。一般是该功能&#xff08;或接口&#xff09;性能无法满足我们的业务要求&#xff0c;所以被迫优化。在开始优化之前&#xff0c;我们需要明白一些理论知识。 1、常见的性能优化指标…

【Elasticsearch入门到落地】4、Elasticsearch的安装

接上篇《3、es与mysql的概念对比》 上一篇我们学习了Elasticsearch与Mysql的概念与区别。本篇我们来进行Elasticsearch的环境准备及软件安装。 一、环境准备 如果我们没有自己的Linux服务器&#xff0c;且现在正在使用的是Windows操作系统的电脑&#xff0c;那么首先我们需要安…

CRYPTO密码学

加解密算法/编码 哈希算法SM3SHA-3base家族GBGB18030GB2312GBKutf家族恺撒二进制分区法unicodeASCIIDSADSSCRC32校验对称非对称gbk编码h264SEA初探smc动态代码保护四方密码曼彻斯特编码剖析基本概念什么是编码?什么是加密与解密寻找银弹-有没有无法破解的密码通过Java代码入门…

我们来学mysql -- 探讨win安装方式(安装篇)

题记 书接上回&#xff0c;在我们来学mysql – 闲聊(安装篇)中&#xff0c;拿到安装包&#xff0c;当宝贝一样揣在怀里 然而&#xff0c;还没捂热乎&#xff0c;得粉丝秘报&#xff0c;U哥&#xff0c;上篇文章用了滞后的官方文档&#xff0c;哈哈哈…内心的小倔强&#xff0c…

pip 如何快速安装包

一、问题描述 当使用Python通过pip安装一些包时&#xff0c;pip默认是访问的国外的源&#xff0c;但在国内访问又是异常的慢&#xff0c;而且还经常因为网络问题导致安装失败&#xff0c;比如下面通过pip install jupyter来安装jupyter Notebook&#xff0c;这网速真的超级慢&…

CodeBook-Ubuntu-sandbox Linux 沙箱服务 docker pull

CodeBook-Ubuntu-sandbox Linux 沙箱服务 开源技术栏 这是一个多用户的 Linux SSH 服务沙箱&#xff0c;支持启动时动态加载用户列表&#xff0c;并可随时更新用户信息。每个用户仅能修改自己目录下的文件&#xff0c;确保了环境的安全性和隔离性。 目录 文章目录 CodeBook-…