目录
摘要
Abstract
一、现有问题
二、提出方法
三、创新点
模型结构创新
强化学习与GAN结合
属性特征与通顺性优化
四、方法论
生成对抗网络(GAN)
强化学习(RL)
模型组件
五、实验研究
数据集
数据预处理
评价指标
实验结果分析
总结
摘要
本周阅读文献《基于 GAN 的中文虚假评论数据集生成方法》,本文提出了一种基于生成对抗网络(GAN)的中文虚假评论数据生成模型,旨在解决互联网虚假评论研究领域缺乏完全公开的中文数据集的问题。模型结合了生成器、判别器、分类器、重构器及Rollout模块,并通过强化学习方法优化生成器参数,以生成具有相应类标签属性及特征的虚假评论数据。实验结果表明,所提出的模型在BLEU值和NLL指标上均优于其他基线模型,显示出良好的生成效果和数据扩充能力。
Abstract
This week, we read the literature “GAN-Based Approach for Generating Chinese False Review Dataset”, which proposes a Generative Adversarial Network (GAN)-based model for generating Chinese false review data, aiming to solve the problem of the lack of fully public Chinese datasets in the field of Internet false review research. The model combines Generator, Discriminator, Classifier, Reconstructor and Rollout modules, and optimizes the generator parameters by reinforcement learning method to generate false comment data with corresponding class label attributes and features. The experimental results show that the proposed model outperforms other baseline models in terms of BLEU values and NLL metrics, showing good generation results and data expansion capabilities.
一、现有问题
1、虚假评论数据集缺乏:互联网虚假评论问题严重,但缺乏完全公开的中文虚假评论数据集,这给中文虚假评论研究带来了挑战。
2、现有数据集构建方法的局限性:现有方法如人工分类、人为书写筛选和机器模型生成存在标注准确率低、人力物力消耗大等问题。
二、提出方法
在针对互联网虚假评论问题的研究中,由于缺乏公开的中文虚假评论数据集,本文提出了一种创新的基于生成对抗网络(GAN)和强化学习(RL)的中文虚假评论数据生成模型。该模型通过结合生成器、判别器、分类器、重构器以及Rollout模块,利用强化学习方法将判别器、分类器和重构器的反馈转化为奖励分数,以优化生成器的参数。生成器负责生成具有特定类标签属性的虚假评论数据,判别器则区分生成的虚假评论和真实评论,分类器控制生成句子的类标签,而重构器优化生成文本的通顺性和健壮性。通过预训练和对抗训练的结合,模型在生成高质量虚假评论数据方面表现出色,实验结果表明,该模型在BLEU值上取得了优于其他基线模型的生成效果,为虚假评论检测研究提供了新的数据支持。
三、创新点
模型结构创新
模型包含生成器(G)、判别器(D)、分类器(C)、重构器(R)及Rollout模块,能够生成具有相应类标签属性及特征的虚假评论数据。
强化学习与GAN结合
通过强化学习方法将判别器、分类器和重构器的反馈转化为奖励分数,以优化生成器的参数。
属性特征与通顺性优化
模型不仅关注生成文本的属性特征,还通过重构器优化生成文本的通顺性和健壮性。
四、方法论
生成对抗网络(GAN)
生成器生成虚假评论数据,判别器区分真假句子。
强化学习(RL)
将判别器、分类器和重构器的反馈转化为奖励分数,优化生成器参数。
重构器(Reconstructor)是论文中提出的一种模型组件,其目的是优化生成文本的质量,特别是文本的通顺性和健壮性。在基于生成对抗网络(GAN)的中文虚假评论数据生成模型中,重构器扮演着至关重要的角色。重构器如下:
重构器通过语义层面的调整,确保生成的虚假评论数据在语义上更加接近真实世界的文本。它计算真假句子重构的元素级损失之差,并将损失差作为奖励分数传回给生成器,以微调生成器的参数。
重构器包含两个子重构器,它们初始化状态相同并行运算,一个子重构器对假句子进行重构,另一个对真句子进行重构,目标是使重构得到的句子接近放入其中的句子。此外,重构器采用经过改造的变分自编码器(VAE)作为子模型,具有更强的文本信息捕捉能力。子重构器如下所示:
子重构器的损失函数由句子重构的交叉熵损失和连接器中变分后验分布拟合标准正态分布的损失组成。通过这些机制,重构器不仅提高了生成文本的质量,还通过奖励分数的形式为生成器提供了反馈,以优化生成器的参数,从而生成更加准确和自然的虚假评论数据。
模型组件
包括生成器、判别器、分类器、重构器及Rollout模块,各组件协同工作以生成高质量的虚假评论数据。
Rollout策略是为了评估生成器在生成句子过程中的中间状态而设计的。具体来说,它使用蒙特卡洛(MC)搜索来采样剩余的词标记。
Rollout过程中,生成器的当前状态是已生成的部分序列,而动作值是生成器将要生成的下一个词标记。为了获得更准确的动作值估计并减少方差,Rollout策略从当前状态开始,运行多次MC搜索,每次得到一批次的输出样本。这些样本用于计算奖励分数Q,包括判别器奖励分数QD、分类器奖励分数QC和重构器奖励分数QR。这些奖励分数反映了生成器在生成过程中各个阶段的表现,并用于指导生成器的参数优化,以生成更高质量的虚假评论数据。
Rollout策略帮助模型在序列生成过程中做出更好的决策,从而提高最终生成文本的质量。
五、实验研究
数据集
使用Li等人的虚假评论数据集,经过预处理后剩余8,896条评论。
数据预处理
评价指标
使用BLEU值的二元组、三元组及四元组精度作为评价指标。
实验结果分析
1、对比基线模型的评价指标
2、NLL指标
NLL(Negative Log-Likelihood)指标被用来评估基于对抗生成网络(GAN)的模型在文本生成任务中的性能。
NLL指标用于衡量模型生成的文本序列与真实文本序列之间的差异。具体来说,它计算生成器生成的序列样本的对数似然值的负值。NLL值越低,表示模型生成的文本与真实文本越接近,生成效果越好。
实验结果显示,dcrGAN模型的NLL值优于其他基线模型,如SeqGAN、RankGAN和spamGAN。这表明dcrGAN模型在生成文本时能够更准确地捕捉到真实文本的分布特征。
3、重构器训练方式的影响
重构器的训练频率(即每隔多少次训练一次重构器)对模型的生成效果有显著影响。实验中,作者测试了不同的R-every-epochs值(即重构器训练间隔),包括1、3、5和10。
结果显示,当重构器每隔3次训练时(R-every-epochs为3),dcrGAN模型在二元组BLEU值上达到最大,表明这种训练频率下模型生成的文本质量最高。
不同的训练方式对模型的困惑度也有影响,如下图所示:
结果表明,R-every-epochs为3时,模型的困惑度最小,进一步验证了这种训练方式的有效性。
4、文本模型句子生成
作者通过展示模型生成的虚假评论和真实评论样例,证明了模型生成的文本具有较高的可读性和通顺性。生成的虚假评论能够学习到数据集中虚假评论的结构信息和语义信息;生成的虚假评论显示出模型已学习到虚假评论的特征,例如带有一长串标点符号的评论在数据集中基本都被赋予虚假标签,且大多数虚假评论停留在餐厅表面上,评论不够深入。
实验结果表明,所提出的dcrGAN模型在各元组的BLEU值上优于其他基线模型,显示出良好的生成效果。
总结
1、模型有效性:所提出的dcrGAN模型能够生成通顺健壮的大规模批量的中文虚假评论数据,实验结果表明该模型在BLEU值上取得了较好的生成效果,超过了神经网络基准模型。
2、未来工作:未来的工作将进一步研究模型中各部分之间的交互,优化生成器奖励分数,以提高模型文本生成效果。