Evade Deep Image Retrieval by Stashing Private Images in the Hash Space

news2024/11/25 22:27:36

摘要:

挑战:

当网络上的图像被大规模检索并被用作个人信息的丰富矿藏时,隐私也面临着风险;

攻击者可以通过从目标类别中查询类似图像以查找任何可用模型来提取私有图像。

提出:

提出了一种基于对抗性示例的新机制,将私人图像“隐藏”在深度哈希空间中,同时保持感知相似性。

具体方案:

  1. 首先发现汉明距离最大化的简单方法对于暴力对手来说并不稳健。
  2. 其次,我们通过最大化与原始类别以及所有类别的中心的汉明距离来开发新的损失函数,并将其划分为各种大小的簇。
  3. 大量实验表明,所提出的防御措施可以将攻击者的努力强化 2-7 个数量级,而不会显着增加计算开销和感知退化。
  4. 我们还通过黑盒设置证明了哈希空间中 30-60% 的可转移性。

深度哈希:

最先进的图像检索采用深度哈希进行有效的相似性搜索[24-28]。它在训练期间将数据库中的图像量化为低维二进制代码,计算与查询图像的汉明距离,并返回数据库(无意中)收集的相关图像。训练有素的模型将返回具有高度相似性的图像(通常来自同一类别)。通过一些分类信息,例如从目标类别中收集一些图像,攻击者可以查询数据库并检索所有图像,包括那些私人图像。因此,为了逃避检索,隐私保护需要打开深度哈希的盒子,同时保持感知相似性。

目标:

通过对原始图像引入一个小的、精心设计的扰动来最大程度地减少私人图像被提取的机会。

深度神经网络很容易受到对抗性输入的影响——人眼不明显的扰动可能会被添加到错误分类中。原则上,深度哈希应该在设计上继承这些漏洞。最近的一项工作表明,在哈希空间中最大化与原始图像的汉明距离将使系统返回与查询无关的图像,该图像可以直接用于保护私有图像。然而,通过实施该策略,我们发现它只能保护弱对手,而弱对手只能利用原始类别。现实中,强敌更为常见;他们可以枚举所有类别并暴力曝光私人图像。为了应对这一挑战,我们提出了一种新的基于集群的加权距离最大化,可以将哈希码转换为远离所有类别的子空间。

深度哈希:

最先进的图像检索采用深度哈希进行有效的相似性搜索[24-28]。它在训练期间将数据库中的图像量化为低维二进制代码,计算与查询图像的汉明距离,并返回数据库(无意中)收集的相关图像。训练有素的模型将返回具有高度相似性的图像(通常来自同一类别)。通过一些分类信息,例如从目标类别中收集一些图像,攻击者可以查询数据库并检索所有图像,包括那些私人图像。因此,为了逃避检索,隐私保护需要打开深度哈希的盒子,同时保持感知相似性。

目标:

通过对原始图像引入一个小的、精心设计的扰动来最大程度地减少私人图像被提取的机会。

深度神经网络很容易受到对抗性输入的影响——人眼不明显的扰动可能会被添加到错误分类中。原则上,深度哈希应该在设计上继承这些漏洞。最近的一项工作表明,在哈希空间中最大化与原始图像的汉明距离将使系统返回与查询无关的图像,该图像可以直接用于保护私有图像。然而,通过实施该策略,我们发现它只能保护弱对手,而弱对手只能利用原始类别。现实中,强敌更为常见;他们可以枚举所有类别并暴力曝光私人图像。为了应对这一挑战,我们提出了一种新的基于集群的加权距离最大化,可以将哈希码转换为远离所有类别的子空间。

 隐私保护:

一种流行的方法是通过差分隐私,将噪声引入答案,以便服务提供商无法检测到用户的存在或不存在。

尽管这些机制在统计基础上提供了可证明的基础,但它们并不是专门用于保护单个记录的推断,例如从数据库检索的私有图像。

少数利用对抗性样本来保护隐私。在[40]中,开发了一种基于对抗性样本的策略来禁用对象检测,因此它无法首先识别对象。[33]中还开发了一种对抗性技术来破坏语义关系并使检索系统返回不相关的图像。我们的工作扩展到[33],以应对强大且适应性强的对手。

威胁模型:

(1)提出场景与假设

社交网络和搜索引擎等平台通常会收集用户信息,包括个人资料、电子邮件、IP 地址,以及最重要的图片。该平台部署了深度图像检索系统,例如 HashNet-ResNet50 [26],以匹配视觉查询中的图像内容以达到营销目的。

为了盈利,该平台还为第三方广告商或数据经纪人(通过称他们为对手而升级)开放了一个接口,他们可以从数据库中匹配和检索相似的图像以进行准确的广告 [38, 39]。

由于服务是按查询进行评级的,因此平台不会对查询数量施加任何限制,但攻击者的预算是固定的。用户(防御者)无法控制隐私策略,因此,他们引入扰动来防止个人图像作为检索结果返回

攻击的流程:

攻击流程:1、用户向社交平台上传照片;2、3:平台将照片加入数据库,生成哈希码;4,5:广告商通过相同的查询匹配图像;6:广告商利用图像中的位置隐私,并将附近的促销活动推送到用户的手机上(即使她已经禁用了手机上的位置访问)。

为了最大限度地提高检索质量,攻击者收集一个数据集(攻击集)以类似于数据库。类似地,用户还收集数据集以促进扰动的生成。我们假设两个数据集都是独立的并且与训练集同分布(i.i.d)。为简单起见,本文通过从测试集中随机选择来实现。作为哈希空间中的第一个概念证明,我们假设用户对模型(白盒)有完整的了解,如[32, 33],包括类别、结构、参数、哈希机制和损失函数的信息。然后,当用户尽最大努力估计模型架构和参数时,我们证明了所提出的机制在哈希空间中存在黑盒可转移性。

汉明距离最大化防御:

[33]的工作通过对抗性示例欺骗了基于哈希的图像检索系统,这也可以用作隐私保护技术。目标是最大化扰动图像与原始图像之间的距离,使得汉明距离超过该类别的检索阈值

虽然对于针对受保护图像的原始类别的简单查询有效,但当对手枚举其余类别并通过暴力提取受保护图像时,防御很容易受到攻击。这是因为简单地最大化与原始图像的汉明距离可能会无意中将受扰动的图像推入其他类别的附近。图 2 在 MNIST 数据集上的 t-SNE 中可视化了此类情况。正如所观察到的,简单地将私有图像隐藏到一些不相关类别的子空间中仍然容易受到更强大和适应性更强的对手的攻击。为了获得更多见解,我们在图 3 中展示了基于 MNIST [42] 和 CIFAR10 [43] 的一些初步结果。

图2:从MNIST学习的哈希码的t-SNE可视化:汉明距离最大化(意外地)将私有图像驱动到不相关的类别
图3:针对[33]的暴力攻击作为防御(a)提取私有图像的预期查询数量;(b)预算(#迭代)。

对手可以通过枚举整个攻击集来暴露所有私人图像。由于对手的预算有限,他希望尽量减少这种努力。因此,新的目标最小化了新的损失函数当每次从攻击集中查询随机图像时,我们评估攻击者提取私有图像的平均查询次数。如果将一个私有图像映射到大小为n的攻击集中的n个图像附近,则检索到该图像的概率为n/ n。预期查询次数为N/ N。图3显示了针对强攻击者的预期查询数量,以及根据迭代生成精心制作的扰动[33]的防御努力。根据最佳的F-1分数和精度选择检索阈值Th。

观察1。随着x与x′之间汉明距离的增加,攻击力度呈抛物线上升趋势。然而,一个强大的对手仍然可以在大多数汉明距离的100次查询中提取私有图像。

观察2。经过一定次数的迭代后,平均汉明距离难以进一步最大化。例如,如图3(b)所示,在MNIST和CIFAR10上进行100次迭代后,其平均值在40和35左右达到饱和,与m = 48的总哈希位相差很大。

观察3。当分类特征在汉明空间中越分散时,被保护的图像越容易落入某些样本的检索阈值。由于CIFAR10具有更高的类内多样性,因此对CIFAR10的攻击需要比MNIST更少的努力,这在图3中得到了验证。这使得使用汉明距离最大化的防御在现实世界中变得脆弱,在现实世界中,数据具有复杂和高度的类内/类间多样性。从这些观察中我们可以看出,面对强大的对手,防御是一项挑战。而不是单纯的从原始类别出发的最大化,应该在一个狭窄的子空间内进行优化,以避免:1)暴露于原始类别;2)通过查询其余类别提取;3)视觉质量下降。为了满足这些需求,我们将在下一节中提出一种新机制。

基于聚类的加权距离最大化:

我们提出了一种新的机制,称为基于聚类的加权距离最大化。该思想与中心损失[44]类似,目的是增强对类间特征的辨别能力,并将类内特征拉向其中心,以便更好地分类。然而,在这里,我们通过对抗性透镜来学习如何通过干扰输入图像来生成哈希码,从而使到哈希中心的距离最大化。

为了解释阶级内部的变化,我们用几个中心来表示每个阶级,而不是一个单一的中心。到中心的汉明距离在不同类别中也表现出异质分布。对于某些类别,样本可能在中心周围具有高密度,而其他类别可能分散得更均匀。因此,优化时应考虑类内分布及其到中心的汉明距离;否则,受保护的图像可能会落入高密度区域,在高密度区域中,所有样本的哈希码相似。攻击者可以很容易地利用这些区域来检索私有图像,几率很高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1147098.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cesium绕点旋转

目录 项目地址实现效果实现方法 项目地址 https://github.com/zhengjie9510/webgis-demo 实现效果 实现方法 let angle 0.0 viewer.camera.lookAt(position, new Cesium.HeadingPitchRange(Cesium.Math.toRadians(angle), Cesium.Math.toRadians(-30), 2000)) viewer.clock…

Ubuntu自建git服务器

Ubuntu 安装 gitlab-ce sudo apt-get update sudo apt-get install gitlab-ce 安装成功 sudo apt-get install gitlab-ce 正在读取软件包列表... 完成 正在分析软件包的依赖关系树 正在读取状态信息... 完成 下列【新】软件包将被安装:gitlab-ce 升…

基于鸟群算法的无人机航迹规划-附代码

基于鸟群算法的无人机航迹规划 文章目录 基于鸟群算法的无人机航迹规划1.鸟群搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用鸟群算法来优化无人机航迹规划。 1.鸟群搜索算法 …

koa搭建服务器(二)

在上一篇文章已经成功的运行了一个http服务器,接下来就是使用Sequelize ORM(官方文档:Sequelize 简介 | Sequelize中文文档 | Sequelize中文网)来操作数据库。 1、安装依赖 首先也是需要安装相关的依赖 npm i sequelize npm i …

【Mysql】数据库三大范式

数据库三范式 :数据库三范式是指关系型数据库设计中的三种规范化设计原则,旨在减少数据冗余、提高数据一致性和可维护性。 第一范式:规定表中的每一列都应该是不可分割的最小单元。 为什么要这样实现呢? :举个栗子…

【Unity PlasticSCM】记录:从介绍 下载 到拉取项目

实习的时候项目是svn管理的,这次mini的项目管理最后选择了美术策划友好的plasticSCM,但之前没有接触过,所以决定花费一点时间去了解,然后记录一下中间遇到的一些问题。 了解及下载Plastic b站很详细介绍PlasticSCM:Un…

ChatGPT扩展系列之ChatExcel

文章目录 ChatGPT扩展系列之ChatExcel对某一列的文字进行处理对数据进行排序对数据进行计算微软官方又推出Excel AI插件ChatGPT扩展系列之ChatExcel 自从ChatGPT很空出世之后,很多基于ChatGPT的应用便如雨后春笋般应用而生,这些应用的底层本质就是利用了ChatGPT对自然语言的…

计网强化

文章目录 1.TCP报文段、IP分组、MAC帧(1)TCP报文段 首部字段①发送窗口、接收窗口、拥塞窗口、滑动窗口(2)IP数据报 首部格式①片偏移量(3)MAC帧2.转发表、路由表、ARP表3.网络三层设备(1)集线器、交换机、路由器(2)冲突域与广播域(3)广播(4)时延

高等数学教材重难点题型总结(七)微分方程

高数上册最后一章,虽然不如积分难,但也颇为恶心,好在套路很固定,重点在于:区分方程类型,记忆求解公式~ 此外,诸如伯努利、欧拉方程等内容,是考研数学一的内容,学校的期末…

AI:40-基于深度学习的森林火灾识别

🚀 本文选自专栏:AI领域专栏 从基础到实践,深入了解算法、案例和最新趋势。无论你是初学者还是经验丰富的数据科学家,通过案例和项目实践,掌握核心概念和实用技能。每篇案例都包含代码实例,详细讲解供大家学习。 📌📌📌本专栏包含以下学习方向: 机器学习、深度学…

3 ALS算法的优化

3.1引入时间遗忘曲线 3.2引入物品特征 3.3时间特征和物品特征加权融合 ALS优化算法的执行步骤 将式(12)对原始评分矩阵进行优化,再代入 式(3)得到了优化后的ALS算法。该算法步骤如下: 第一步:读取数据集,初始化用户-物品评分

Illustrator 2024(AI v28.0)

Illustrator 2024是一款功能强大的矢量图形编辑软件,由Adobe公司开发。它是设计师、艺术家和创意专业人士的首选工具,用于创建和编辑各种矢量图形、插图、图标、标志和艺术作品。 以下是Adobe Illustrator的主要功能和特点: 矢量图形编辑&…

Kotlin协程核心理解

一、协程是什么? 1.1 基本概念的理解 我们知道JVM中的线程的实现是依赖其运行的操作系统决定的,JVM只是在上层进行了API的封装,包含常见的有线程的启动方法,状态的管理,比如:Java中抽象出了6种状态&#x…

软件测试自学路线

一、简介 本文从一个简单的登录接口测试入手,一步步调整优化接口调用姿势,然后简单讨论了一下接口测试框架的要点,最后介绍了一下我们目前正在使用的接口测试框架pithy。期望读者可以通过本文对接口自动化测试有一个大致的了解。 二、引言 …

0038Java程序设计-基于java高校社团管理系统论

文章目录 **摘 要****目** **录**系统实现开发环境 摘 要 当前,大多数高校的社团信息管理都是采用纸质档案的方式来管理的,这样不仅不能长期的保存信息,而且在数据的查找上带来很大的不方便。在目前的网络技术和计算机技术的普及和信息管理的…

AVL树、红黑树的介绍和实现[C++]

本文主要对AVL树和红黑树的结构和实现方法进行一定的介绍,仅实现部分接口。 目录 一、AVL树 1.AVL树的概念 2.AVL树节点的定义 3.AVL树的插入 4.AVL树的旋转 1. 新节点插入较高左子树的左侧——左左:右单旋 2. 新节点插入较高右子树的右侧——右…

MySQL(1):开始

概述 DB:数据库(Database) 即存储数据的“仓库”,其本质是一个文件系统。它保存了一系列有组织的数据。 DBMS:数据库管理系统(Database Management System) 是一种操纵和管理数据库的大型软件…

对Linux线程的理解(什么是线程,线程的创建终止等待分离,线程互斥,Linux常见的锁,线程同步),两万字总结,有这一篇文章就够了!

文章目录 一、什么是线程1.线程是怎样描述的2.线程与进程的区别3.线程的优缺点4.理解Linux的轻量级进程 二、Linux线程控制1.线程创建:pthread_create()2.线程终止:pthread_exit()3.线程等待:pthread_join()4.分离线程:pthread_detach() 三、Linux线程互斥1.互斥量2.线程安全与…

UNUNX安全的交易所

去中心化 传统意义上的交易所都属于中心化的交易所,用户需要在交易所注册人个信息,办理银行卡,充值到交易所帐号才能交易此时你的资产是在交易所被交易所托管,如果交易所做恶用户将会蒙受损失,交易所关闭跑路的案例也…

私有云:【5】安装VCenter Server

私有云:【5】安装VCenter Server 1、在本地物理机上安装VCenter Server到Esxi1.1、开始安装第一阶段1.2、开始安装第二阶段 2、配置VCenter2.1、分配许可2.2、添加主机2.3、创建数据存储NFS 1、在本地物理机上安装VCenter Server到Esxi 安装前在AD域服务器配置好VC…