面向社交网络语言隐写分析

news2024/11/17 19:45:30

论文:Linguistic Steganalysis Toward Social Network

发表在:IEEE Transactions on Information Forensics & Security是网络与信息安全领域的国际两大顶级期刊之一,中国计算机学会(CCF)推荐的A类期刊,SCI一区TOP期刊,影响因子为6.013,在信息安全、信息科学和计算机网络等领域具有很高的影响力。

摘要

随着互联网和社交媒体的迅猛发展,语言隐写术在社交网络中容易被滥用,对个人隐私、网络病毒和国防等各个方面造成重大损害。目前,已经提出了大量的语言隐写分析方法来检测有害的隐写载体。然而,几乎所有现有的方法在真实的社交网络中都失败了因为它们只致力于语言特征,这些特征由于真实社交网络的极度稀疏和极度分散的挑战而极度不足。在本文中,我们试图填补一个长期存在的空白,即在社交网络场景中缺乏用于检测隐写文本的数据集和有效方法。具体而言,我们构建了一个名为Stego-Sandbox的数据集,以模拟真实的社交网络场景,其中包含文本及其关系。我们提出了一种有效的语言隐写分析框架,该框架整合了文本中包含的语言特征和由这些连接表示的上下文特征。广泛的实验结果表明,由于捕获到的上下文特征,我们提出的框架可以有效弥补这些现有方法的缺陷,并在真实社交网络场景中极大地提高它们的检测能力。
关键词—语言隐写分析,社交网络,数据集,隐写分析框架。

I. 引言

生活在互联网时代的人们要求有保护的个人通信。加密和隐蔽系统是满足这一需求的主要技术。与加密系统不同,加密系统中传输信息的存在可以被暴露,而隐蔽系统旨在在确保消息对恶意监视者不可感知的同时传递消息 [1]。由于这一优势,隐蔽系统可以在避免拦截和破解等攻击的同时有效传输重要信息。隐写术是隐蔽系统的最重要技术。该技术将传输的消息嵌入到一些普通的信息载体中,同时通过使嵌入消息的载体(通常称为“隐写”或“隐写载体”)与没有嵌入消息的普通载体(通常称为“封面”或“非隐写载体”)之间的差异尽可能小来追求不可察觉性。由于其高度的隐蔽性,隐写术在过去的几十年里引起了许多研究者的兴趣,并在许多实际场景中发挥了重要作用,如隐私保护 [2],[3]。此外,在互联网时代,社交网络和媒体已经成为人们几乎无法分离的一部分。根据Statista的数据,截至2022年4月,社交网络中有46.5亿用户积极发布、评论和发送私人消息。因此,社交网络的便利性和社交媒体的信息冗余产生了许多基于社交媒体的强大的隐写方法 [2],[4],[5],[6],[7],[8],[9],[10],[11],[12]。

然而,社交网络和社交媒体的特性也使人们面临滥用隐写术的风险。一旦在社交网络中非法滥用,隐写术可以对个人隐私、网络安全甚至社会安全造成可怕的破坏。因此,迫切需要设计技术(称为“隐写分析”)来自动检测社交网络中这些隐写媒体载体。社交媒体载体有许多种类,如图像 [4]、音频 [5] 和文本 [2],[6],[7],[8],[9],[10],[11],[12]。在这些载体中,文本是社交平台中最广泛使用的隐写媒体,这是因为它们具有特殊的特征。首先,文本是最常用的信息载体,在几乎所有情况下,人们使用文本进行发布、评论、回复、传播等。这些互动创建了大量的社交文本。其次,文本是强大且稳定的,这确保了它们可以在传输时不丢失机密信息。第三,与发送单个图像或音频相比,发送单个文本只需要非常低的带宽,这使通信参与者能够传输大量的机密信息。因此,在本文中,我们将全力检测文本隐写(也称为“语言隐写”)。

检测语言隐写是一项艰巨的任务。强大的语言隐写方法不断涌现 [2], [6], [7], [8], [9], [10], [11], [12]。近年来,研究人员尝试了先进的语言模型 [6], [7], [11] 和增强安全性的文本生成算法 [2], [8], [9], [12],以使隐写和封面之间的统计差异尽量小。

为了对抗这些强大的语言隐写技术的潜在恶意用途,近几十年出现了大量语言隐写分析方法。总的来说,它们总是尽最大努力找到隐写和封面之间的不同统计特征,从早期的手工设计特征 [15], [16], [17], [18] 到最近的深度学习特征 [19], [20], [21], [22], [23], [24], [25]。利用手工特征 [15], [16], [17], [18],如词频 [15] 的传统方法只能获得有限的性能,因为它们只能处理浅层次的统计信息。随着神经网络和自然语言处理技术的发展,已经尝试了各种深度学习特征用于语言隐写分析,从本地单词级相关性 [19], [22] 到全局共享单词之间的信息 [24],从单一尺寸的隐藏特征 [19], [20], [23] 到多尺度表示 [21], [22],从孤立的文本内语义特征 [22], [25] 到涉及语义和句法信息 [26]。此外,一些工作 [23] 和 [26] 采用预训练方法,为检测机器提供了更强的理解语言差异的能力。

然而,即使当前的语言隐写分析方法取得了令人瞩目的改进,它们在现实世界的社交网络场景中可能仍然无法获得足够有效的性能。由于社交文本的独特特性,语言隐写分析面临社交网络的两个显著挑战。首先,隐写信息可能极度稀疏。在许多真实的社交网络中,大量的人们创建了无数的社交文本。因此,即使社交网络中的极小比例的文本携带机密消息,传输的消息总量也足够庞大。在这种实际情况下,语言隐写分析器需要从大量封面中挑选极少数的隐写,这严重挑战了现有方法 [19], [20], [21], [22], [23], [24], [25]。其次,社交网络中的文本极度分散。在许多真实的社交网络中,人们通常创建短文本,只有在获得上下文时才能完全理解。因此,这些现有方法 [19], [20], [21], [22], [23], [24], [25],它们严重依赖于个体文本的语言特征,如图1所示,很难从这些分散的社交文本中获取足够的统计信息以做出正确的决策。由于这两个挑战,几乎所有这些现有的所谓最先进的方法几乎无法在真实社交网络场景中有效地检测到隐写。从第III-A节的结果可以看出,在我们模拟的社交网络中,这些方法只能获得较差的性能,甚至在稀疏比例减少到10%时无法检测到隐写。

一般来说,社交文本并不是孤立的实例,而是通过各种互动活动如评论、回复、转发等相互连接,这表明存在潜在的上下文信息可用于帮助检测隐写。遗憾的是,即使一些现有的文本隐写分析方法被应用于社交平台语料库 [23], [25], [26],据我们所知,它们仍然将这些语料库视为孤立的个体,并忽略了这些相互连接的社交文本的连接信息。我们相信我们并不是第一个发现这一遗憾的团体,但在这些先前的工作中仍存在巨大的差距,包括没有模拟具有复杂连接的社交网络的发展。

为了抵消这一领域现有工作的不足,在本文中,我们发布了一个名为Stego-Sandbox的新数据集,用于模拟社交网络情景进行语言隐写分析。该数据集包括从三个主流社交网络(Reddit、Twitter和新浪微博)收集的文本及其连接信息。在每个社交网络中,我们模拟使用不同的语言隐写算法和不同的机密信息负载在社交网络中发送不同比例的隐写文本。

我们在模拟的情景中测试了许多现有的语言隐写分析方法,并令人惊讶地发现这些方法几乎无法取得令人满意的性能。然后,我们提出了一个面向真实社交网络的新型语言隐写分析框架。这个提议的框架可以基于文本本身包含的语言特征和社交文本之间连接中隐藏的上下文特征做出决策。语言特征提取器可以作为许多现有方法的基础,而为了捕捉上下文特征,我们采用图形来建模文本及其连接的拓扑结构。广泛的实验证明,由于捕捉到的上下文特征,我们提出的框架可以有效弥补这些现有方法的不足。

本文的其余部分组织如下:
- 第二部分对语言隐写分析和社交网络情景中的语言隐写分析的相关工作进行了解释;
- 第三部分展示了我们如何构建新的社交网络隐写分析数据集,同时也展示了这些现有方法在社交网络情景中是否能够表现良好;
- 第四部分描述了我们如何处理文本及其连接信息;
- 第五部分提供了实验设置和对结果的分析;
- 第六部分总结了本文。

2. 相关工作

A. 语言隐写分析
随着语言隐写学的不断发展,隐写和非隐写文本之间的差异越来越小,这给语言隐写分析方法带来了挑战。为了检测隐写文本,近年来涌现出许多先进的语言隐写分析方法。研究人员尝试了丰富的方法来找到隐写和封面之间的统计差异,从早期的手动特征方法 [15],[16],[17] 到最近的深度学习特征方法 [19],[20],[21],[22],[23],[24]。早期的手动特征方法仅根据手动设计的语言特征 [15],[16],[17],如词频 [15] 和同义词频率 [17],做出决策。这些手动设计的特征可以表示一些浅层次的统计特征,但不能触及文本的复杂特征,而且这些浅层次的统计差异很容易被当前强大的隐写方法降低。此外,设计这些特征需要深奥的专业知识和不可负担的成本,使得这些方法 [15],[16],[17] 难以实现精确的检测性能。

随着深度神经网络(DNNs)和自然语言处理技术的发展,已经成功利用了大量的深度学习语言特征来检测文本隐写,从局部词级相关性 [19],[22] 到全局共享词际信息 [24],从单一大小的隐藏特征 [19],[20],[23] 到多尺度表示 [21],[22],从孤立的文本语义特征 [23] 到涉及的语义和句法信息 [26]。其中,在2019年,Yang等人 [19] 首次提出了一种快速高效的DNN模型,利用词嵌入技术获取词级表示,然后利用DNN获取单词之间的相关性。同样在2019年,一些研究人员 [20] 发现嵌入机密信息将损害条件概率分布,因此他们提出利用循环神经网络(RNNs)语言模型捕捉条件概率分布特征的差异。在2020年,受到词关联性随着词之间距离变化而改变的启发,卷积神经网络(CNNs)被用于利用滑动多尺寸窗口捕捉多尺度的统计关联特征 [22]。与CNN方法不同,Niu等人 [21] 提出使用RNN模块基于精细的词表示捕捉多尺度的关联特征。在2021年,Wu等人 [24] 提出使用图神经网络(GNNs)捕捉单词的全局统计特征。基于多尺度的统计关联特征,Peng等人 [25] 提出捕捉条件概率分布差异的额外特征,类似于Yang等人 [6]所做的。总体而言,这些提出的方法旨在学习文本语义表面上的统计语言特征。最近,一些研究人员发现,当隐藏消息时,隐写的句法特征可能偏离封面的句法特征,基于此提出了一个框架,以处理语义和句法表面上的语言特征 [26]。

此外,一些工作采用预训练方法,例如BERT [27],以增强对隐写和封面之间语言差异的理解能力。Yang等人 [26],Zou等人 [23] 和Peng等人 [25] 分别采用预训练语言模型,以提高对隐写和封面之间语言理解能力,获得了对词在隐写文本中的精细表示。Peng等人 [25] 使用预训练的语言特征提取器在训练新的隐写分析模型的初始阶段增强了歧视能力。这些方法可以帮助模型更快地找到优化。

尽管当前语言隐写分析方法取得了显著的进展,几乎所有这些方法都将其范围限定在文本中包含的语言统计特征中,并忽略了隐藏在社交文本之间连接信息中的文本上下文特征。尽管社交文本之间的连接在检测隐写文本方面可能起着至关重要的作用,但利用连接的研究仍然是空白的。

B. 面向社交网络的隐写分析
随着互联网和社交网络的发展,社交媒体的巨大潜力和可能的滥用风险引起了广泛研究人员的关注 [13]。社交媒体之间的连接,例如文本和图像,已被用来增强许多任务的性能。例如,Xu等人 [28]通过媒体连接的帮助实现了增强的图像情感分析。

尽管社交媒体及其连接的潜力已经受到关注,但只有极少数文献提出了为社交网络情景设计的有效隐写分析方法。除文本外,其他基于媒体的隐写分析方法受到媒体的极端碎片化和隐写媒体的极端稀疏性的挑战。为了解决隐写媒体的稀疏性,研究人员尝试构建多个伪样本 [29],[30]。为了解决媒体的碎片化,已经研究了媒体的连接信息 [31],[32]。例如,李等人 [31] 利用由同一用户发布的图像之间的内部连接来帮助检测谁在社交网络中传递隐写图像。然而,大多数这些方法仍然忽略了连接信息,并试图从媒体本身找到更多的特征。尽管一些工作 [31] 和 [32] 注意到媒体连接的有益性,但所使用的方法相当简单,只能触及浅层的连接信息。媒体之间的复杂连接仍然待开发。此外,尽管社交文本之间的复杂连接结构在面向真实场景的语言隐写分析中可能发挥重要作用,但相关文献仍然是空白的。

克服上述挑战不仅需要精湛的检测方法,还需要模拟在真实社交网络环境中传输隐写文本的数据集,例如Reddit、Twitter、新浪微博等。目前,有几个广泛使用的语言隐写分析数据集,这些数据集要么不是自然语言,例如T-Steg [22],它包含具有固定格式的文本,要么将社交网络中的文本视为孤立的个体 [33]。据我所知,没有现有的语言隐写分析数据集满足模拟需求。

III. STEGO-SANDBOX构建


A. 数据集构建


缺乏模拟真实社交网络的数据集阻碍了实际社交语言隐写分析的发展。为了填补这一空白并开发实用的社交语言隐写分析器,在本文中,我们构建了一个新的数据集,模拟真实社交网络环境,称之为Stego-Sandbox。Stego-Sandbox可以模拟不同的真实社交平台,并能模拟使用不同的语言隐写算法、不同的嵌入负载和不同的隐写文本稀疏比的不同情境。
数据集构建过程包括三个步骤:
1) 获取数据和预处理。
2) 生成隐写文本。
3) 模拟发送隐写文本。
在第1步中,我们调查了三个非常著名和流行的社交平台,分别是Reddit、Twitter和新浪微博。它们都具有显著的特点,包括实时性和丰富的人际互动。为了获取原始文本及其连接提示,我们通过Twitter应用程序接口收集Twitter数据,从第三方网站采用Reddit数据,5 并采用Wang等人[34]收集的微博数据。然后,对于获取的数据,我们采用常规处理方法去噪,例如删除http链接,删除主题标签,并用相应的文本描述替换表情符号。之后,我们需要找出文本之间的连接。在这项工作中,我们考虑最常见的连接方式,即评论和回复。对于任何被其他文本评论或回复的文本,我们记录它们是连接的。
在第2步中,我们旨在生成与社交网络情景一致的隐写文本。为此,我们在预处理的语料库上训练隐写模型,然后基于训练过的模型和最先进的生成型语言隐写算法生成隐写文本。在本文中,我们采用了由Yang等人[6]提出的模型,该模型广泛用于在语言隐写分析社区生成隐写文本[22],[23],[24],[26]。该模型捕捉文本的序列表示,并自回归生成隐写文本,该模型与许多语言隐写算法兼容,例如定长编码[6]和Patient Huffman[12]。在这项工作中,我们使用三种语言隐写算法生成文本隐写,包括可变长度编码(VLC)[6],算术编码(AC)[8]和自适应动态分组(ADG)[9],所有这些算法旨在最小化隐写和非隐写文本之间的条件概率差异。具体而言,VLC [6] 和 AC [8] 使用Huffman编码和算术编码将秘密位映射到条件概率以将隐写和封面之间的差异减小到微小值,ADG [9] 将条件概率分组到尽可能相等的几个桶中,数学上证明可以达到理论最小差异。此外,对于VLC [6] 和 AC [8],我们使用不同的嵌入负载生成文本(见表.I)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1410900.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第一篇【传奇开心果短博文系列】鸿蒙开发技术点案例示例:从helloworld开始理解鸿蒙开发ArkTS编程思路

传奇开心果短博文系列 系列短博文目录鸿蒙开发技术点案例示例系列 短博文目录一、前言二、初步解读鸿蒙的helloworld三、进一步深入解读理解 系列短博文目录 鸿蒙开发技术点案例示例系列 短博文目录 一、前言 从掰碎了揉烂了详细注释解读helloworld开始,理解Ark…

matlab appdesigner系列-容器2-选项卡组

所谓容器,就是可以放置常有组件的空间,类似一种画布。默认背景画布就是一张画布,选项卡组,可以同时增加好几个画布空间,以满足不的组件放置需求。 1)将选项卡组拖拽到画布上 2)将选项卡组拉大背…

linux-centos服务器离线安装yapi(包含nodejs、mongodb、yapi、pm2离线安装)

yapi是使用vue框架开发的,借助nodejs 前端直接访问的mongodb数据库,离线安装yapi步骤如下 下载离线安装包 下载地址 https://download.csdn.net/download/qq445829096/88778418 离线安装包先复制到 dev/yapi目录(根据自己习惯自定义目录) node-v12.13.0-linux-x64.tar.xz …

10.多柱状图(MuliBarChart)

愿你出走半生,归来仍是少年&#xff01; 环境&#xff1a;.NET 7、MAUI 话接上回&#xff08;9.单柱状图&#xff08;SingleBarChart&#xff09;&#xff09;&#xff0c;从单柱拓展到多柱状图。 1.数据设置 private void InitValue(List<BasicSerieDto> dtos){Serie…

EXCEL VBA调用adobe的api识别电子PDF发票里内容并登记台账

EXCEL VBA调用adobe的api识别电子PDF发票里内容并登记台账 代码如下 使用须知&#xff1a; 1、工具--引用里勾选[Adobe Acrobat 10.0 Type Library] 2、安装Adobe Acrobat pro软件Dim sht As Worksheet Function BrowseFolders() As String 浏览目录Dim objshell As ObjectDim…

ORM-08-EclipseLink 入门介绍

拓展阅读 The jdbc pool for java.(java 手写 jdbc 数据库连接池实现) The simple mybatis.&#xff08;手写简易版 mybatis&#xff09; 1. EclipseLink概述 本章介绍了EclipseLink及其关键特性&#xff1a;包括在EclipseLink中的组件、元数据、应用程序架构、映射和API。 本…

202|读书笔记《金融的本质:伯南克四讲美联储》

今天跟朋友聊天&#x1f4ac;&#xff0c;说已经没人看书了&#x1f4d6; 我想&#xff0c; 还是会有人读书的吧。 ​ 一、美联储的起源和使命 1. 第一讲&#xff1a;美国南北战争结束后的40年间&#xff0c;美国经历了6次大的银行体系恐慌&#xff0c;促使其于1913年成立美联储…

如何在Word中选择多个图片?这里提供两个方法及详细步骤

你的Word文档中可能有一些图片。要更改图片的几个参数,可以逐个编辑它们。当你有更多的图片时,你可能需要一次选择所有图片。这允许你一次更改所有内容。默认情况下,Word不允许你一次选择多张图片。 Word插入图片的两个布局选项 文字环绕 嵌入文本中 默认情况下,Word会在文…

注册表学习——注册表结构

简介&#xff1a;注册表是由很多项和值构成的。 HEKY_USERS&#xff08;HKU&#xff09; 主要保存默认用户及当前登录用户配置信息。 .DEFAULT 该项是针对未来创建的新用户所保存的默认配置项。 S-1-5-18等项 这些项叫作安全标识符&#xff08;SID&#xff09;用来表示Windows操…

初识C语言·自定义类型(2)

目录 1 结构体的声明和定义 2 结构体的自引用 3 结构体成员访问操作符 4 内存对齐 4 结构体传参 5 位段 1 结构体的声明和定义 什么是结构&#xff1f;结构也就是元素的集合&#xff0c;在C语言里面&#xff0c;结构体里面的可以有多个变量&#xff0c;类似于集合中的元素…

下载并安装nacos 2.3 for arm64

客户组织安全测试&#xff0c;我们系统测出了好几个高危问题&#xff0c;其中大部分是关于nacos的。 原先的nacos版本太低了&#xff0c;是1.3的。现在&#xff08;2024.01&#xff09;已经是2.3了&#xff0c;应该装个新的。我们使用docker安装nacos&#xff0c;原本很简单的…

程序员必备的20个学习网站

今天好学编程小编整理了20个程序员必备的学习网站&#xff0c;此篇对于新手程序员比较有用&#xff0c;技术老鸟们也可以查缺补漏。话不多说&#xff0c;纯纯干货呈上&#xff0c;赶紧点个赞收藏&#xff0c;以后会用得上&#xff01; 技术网站类 1、博客园 一个面向开发者的…

基于SSM的蛋糕甜品店管理系统(有报告)。Javaee项目。ssm项目。

演示视频&#xff1a; 基于SSM的蛋糕甜品店管理系统&#xff08;有报告&#xff09;。Javaee项目。ssm项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&#xff0c;通过Spring…

【网站项目】基于SSM的251国外摇滚乐队交流和周边售卖系统

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

opencv012 滤波器04 中值滤波,双边滤波

中值滤波 取中位数&#xff0c;可以处理椒盐噪音 CV自带medianBlur函数dst cv2.medianBlur(src, ksize) 参数说明&#xff1a;1.src: 需要滤波的图片&#xff1b;2.ksize&#xff1a;核大小&#xff0c;必须是比1大的奇数【举个例子&#xff1a;3&#xff0c;5&#xff0c;7……

司铭宇老师:企业销售培训:企业培训销售效果评估与质量提升

企业销售培训&#xff1a;企业培训销售效果评估与质量提升 随着市场竞争的日益激烈&#xff0c;企业越来越重视员工培训&#xff0c;希望通过高质量的培训提高员工的技能和素质&#xff0c;进而提升企业的竞争力和业绩。然而&#xff0c;在实践中&#xff0c;很多企业的培训销售…

Redis——list以及他的应用场景

介绍 &#xff1a;list 即是 链表。链表是一种非常常见的数据结构&#xff0c;特点是易于数据元素的插入和删除并且且可以灵活调整链表长度&#xff0c;但是链表的随机访问困难。许多高级编程语言都内置了链表的实现比如 Java 中的 LinkedList&#xff0c;但是 C 语言并没有实现…

安泰电子ATA-3080功率放大器在雷达系统无线电能传输中的具体应用

雷达技术在现代通信和导航系统中起着至关重要的作用。而功率放大器作为一种关键的电子器件&#xff0c;在雷达无线电能传输中扮演着不可或缺的角色。功率放大器负责将来自雷达发射机的低功率无线电信号放大到足够高的水平&#xff0c;以便能够穿透大气层&#xff0c;传输到远距…

江大白 | 万字长文图解Numpy教程,看这一篇就够了!

本文来源公众号“江大白”&#xff0c;仅用于学术分享&#xff0c;侵权删&#xff0c;干货满满&#xff0c;有超级详细的图解。 原文链接&#xff1a;万字长文图解Numpy教程&#xff0c;看这一篇就够了&#xff01; (qq.com) 以下文章来源于博客&#xff1a;Medium 作者&…

周鸿祎回应坚定支持华为:因为 360 也被制裁了

在昨天的华为鸿蒙生态千帆启航仪式上&#xff0c;360集团创始人兼CEO周鸿祎发表演讲表示&#xff0c;360坚定地支持华为的决定源于双方都曾遭到制裁。周鸿祎在演讲中提到&#xff1a;“在华为最早被制裁的时候&#xff0c;我们是少数几个公开站出来坚定支持华为的公司。其实也很…