内容安全复习 7 - 对抗攻击与防御

news2025/2/7 14:12:46

文章目录

  • 概述
  • 攻击
    • 对抗性攻击的目的
    • 攻击的损失函数
    • 如何攻击
    • FGSM
    • 黑盒与白盒
    • 真实世界的攻击
  • 防御
    • 被动防御
    • 主动防御

概述

  • 动机
    (1)不仅要在实验室中部署机器学习分类器,也要在现实世界中部署;实际应用
    (2)分类器对噪声具有鲁棒性和在“大多数情况下”有效是不够的。
    (3)想要鲁棒的分类器用来对付用户愚弄分类器的输入;面对人类的恶意
    (4)特别适用于垃圾邮件分类、恶意软件检测、网络入侵检测等。
  • 攻击 AI
    在这里插入图片描述
    上图描述了一些攻击 AI 的方式以及后果。
    (1)对抗攻击会导致破坏模型完整性;
    (2)漏洞挖掘和利用会导致破坏模型可用性;
    (3)模型萃取和数据窃取会导致破坏模型机密性。
  • 逃逸攻击
    指攻击者在不改变目标机器学习系统的情况下,通过构造特定输入样本以完成欺骗目标系统的攻击
  • 投毒攻击
    攻击者通过篡改训练数据或添加恶意数据来影响模型训练过程,最终降低其在预测阶段的准确性。

攻击

对抗性攻击的目的

对抗性攻击的目的是通过在原始图像中添加人眼无法察觉的扰动,使得模型的预测结果出错。

攻击的损失函数

在这里插入图片描述

  • 训练损失: L t r a i n ( θ ) = C ( y 0 , y t r u e ) L_{train}(\theta)=C(y^0,y^{true}) Ltrain(θ)=C(y0,ytrue)。这个公式表示训练神经网络的损失函数,其中 y 0 y^0 y0 是神经网络对原始输入 x 0 x^0 x0 的输出, y t r u e y^{true} ytrue 是该输入的真实标签例如,猫 C C C 衡量 y 0 y^0 y0 y t r u e y^{true} ytrue 之间的差异。
  • 无目标攻击损失: L ( x ′ ) = − C ( y ′ , y t r u e ) L(x')=-C(y',y^{true}) L(x)=C(y,ytrue)。在这种情况下, y ′ y' y 是对 x ′ x' x 的输出。无目标攻击的目的是使 y ′ y' y 偏离 y t r u e y^{true} ytrue,即使预测与真实标签差异增大。因此我们取负的 C C C,最大化估计差异。
  • 有目标攻击损失: L ( x ′ ) = − C ( y ′ , y t r u e ) + C ( y ′ , y f a l s e ) L(x')=-C(y',y^{true})+C(y',y^{false}) L(x)=C(y,ytrue)+C(y,yfalse)。有目标攻击的目的是使 y ′ y' y 更接近一个错误的估计 y f a l s e y^{false} yfalse,不同与无目标,有目标攻击多了“目的地”例如,把猫的图片分类为鱼。第一项 − C ( y ′ , y t r u e ) -C(y',y^{true}) C(y,ytrue) 希望输出值远离真实标签、第二项 C ( y ′ , y f a l s e ) C(y',y^{false}) C(y,yfalse) 希望输出接近错误标签。
  • 约束: d ( x 0 , x ′ ) ≤ ϵ d(x^0, x') \le \epsilon d(x0,x)ϵ。具体如下图,右上角展示了 x ′ x' x x 0 x^0 x0 之间的距离 Δ x \Delta x Δx。图中下方展示了两种衡量距离的方法。 L 2 − L2- L2 范数和 L − ∞ L-\infty L 范数。
    在这里插入图片描述

如何攻击

就像训练一个神经网络,但是网络参数 θ \theta θ x ′ x' x替代。
在这里插入图片描述

  • x ∗ = a r g min ⁡ d ( x 0 , x ′ ) ≤ ϵ L ( x ′ ) x^*=arg \min_{d(x^0, x') \le \epsilon} L(x') x=argmind(x0,x)ϵL(x),这个公式指:在约束条件下 d ( x 0 , x ′ ) ≤ ϵ d(x^0, x') \le \epsilon d(x0,x)ϵ 原始输入与扰动图像之间的距离不超过ϵ下,找到使 L ( x ′ ) L(x') L(x) 最小的 x ′ x' x
  • 由此可以看出,在对抗性攻击种,我们的目标是:希望生成一个扰动图像,在这个扰动图像接近原始图像且满足约束条件的前提下,最小化损失。最小化损失L(x')在上面的有目标攻击和无目标攻击中,都体现为C更大,即更加偏离真实标签,攻击的效果越好。
  • 下方展示了 f i x ( x t ) fix(x^t) fix(xt)中距离的计算方法。
    在这里插入图片描述

FGSM

FGSM 全称 Fast Gradient Sign Method,快速梯度逐步算法。
在这里插入图片描述
在这里插入图片描述

黑盒与白盒

  • 在前面的攻击中,我们固定网络参数 θ \theta θ 而寻找最优的输入 x ′ x' x。如果攻击时,我们需要知道 θ \theta θ,那么这就叫做白盒攻击

  • 白盒攻击需要 θ \theta θ,那么如果我们不公布(绝大多数 API 都不提供网络参数),是否安全呢?
    不会,因为存在黑盒攻击。

  • 在黑盒攻击中:
    (1)如果我们有目标网络的训练数据,可以使用这些数据训练一个代理网络 (proxy network)。这个代理网络模仿目标网络的行为,攻击者可以在代理网络上进行对抗样本生成,然后将这些对抗样本应用于目标网络。用目标的网络数据生成网络,在网络上模拟,然后在模拟网络上生成AE(对抗性样例)。
    (2)如果我们没有目标网络的训练数据,则需要获取一些目标网络的输入和预测输出,以此来构建代理网络,然后进行和训练数据生成代理网络后一样的攻击。和(1)的区别就是,是用目标网络的输入和预测输出生成的代理网络。

真实世界的攻击

单像素攻击

防御

对抗性攻击无法通过正则化,dropout 和模型集成来防御。

防御可以分为两种:主动防御和被动防御。

被动防御

在不修改模型的情况下找到攻击图像。

  • 去噪
    除非对手不知道去噪的存在,否则还是可能受到白盒攻击。
  • 随机化
    (1)如果攻击者不知道随机化存在,则效果最佳;
    (2)如果知道,由于随机模式过多,防御依然有效。
  • 梯度掩码/隐藏
    治标不治本,本质是提高了攻击者搞清楚弱电的难度,模型本身稳定性并未提高。

主动防御

训练一个对对抗性攻击具有鲁棒性的模型。

  • 对抗训练
    这种方法对训练目标算法 A 有效,但对未被训练的目标算法 B 无效。
  • 防御性蒸馏
    (1)通过梯度生成的对抗性样例攻击性降低;
    (2)随蒸馏温度提升,对抗性样例生成困难,提升模型鲁棒性;
    (3)对黑盒攻击无能为力;
    (4)仅适用于基于概率分布的 DNN 模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1851006.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从一到无穷大 #29 ByteGraph的计算,内存,存储三级分离方案是否可以通用化为多模数据库

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 本作品 (李兆龙 博文, 由 李兆龙 创作),由 李兆龙 确认,转载请注明版权。 文章目录 引言ByteGraph现有架构阿里云Lindorm腾讯YottaDB多模型化修改点ByteGraph论文中的优化…

IOS开发学习日记(十七)

简单的第三方登录和分享功能 第三方登录系统 URL Scheme:App间的跳转及通信 App间跳转场景 登陆系统: 跨平台,跨App 标记用户,个性化的推送 使用第三方登录(减少注册成本 / 无须维护敏感信息) 微信 / Q…

068、PyCharm 关于Live Template模板

在 PyCharm 编辑器中,Live Templates 是一种功能强大的工具,可以帮助我们快速插入常用的代码片段或模板。 以下是在 PyCharm 中添加 Live Templates 的步骤: 添加 Live Templates 步骤: 打开 PyCharm 编辑器。 转到菜单栏中的 …

33 - 连续出现的数字(高频 SQL 50 题基础版)

33 - 连续出现的数字 -- 开窗函数lead(col,n) 统计窗口内往下第n行值 -- over(partition by xxx) 按照xxx所有行进行分组 -- over(partition by xxx order by aaa) 按照xxx分组,按照aaa排序select distinct num as ConsecutiveNums from(select num,# 从当前记录获…

Python——常用数据降维算法应用

随着数据的积累,数据的维度越来越高,高维的数据在带来更多信息的同时,也带来了信息冗余、计算困难等问题,所以对数据进行合理的降维,并保留主要信息非常重要。这些问题主要可以通过主成分分析及相关的降维算法来解决。…

国内外大模型生态发展报告!

很多同学只知类似Check GPT或者说对国内的一些比较了解,对国外的不太了解,所以在这总结。 1 大模型的发展 左表 名称参数特点发布时间GPT-215亿英文底模,开源2019年Google T5110亿多任务微调, 开源2019年GPT-3.51750亿人工反馈微调2022年M…

《计算机英语》 Unit 6 Internet 互联网

Section A Internet 互联网 The Internet is a global system of interconnected computer networks that use the standard Internet protocol suite (TCP/IP) to link several billion devices worldwide. 互联网是一个全球性的互连计算机网络系统,使用标准的互联…

Echarts实现动态背景

最近在公司工作中,遇到一个图表的需求,要求实现背景图是可以动态跟随最高点而改变位置的。 好玩的是,我实现了效果,但是没在官方配置项看到我这个用法的出处,所以记录一下。 话不多说,配置项也没什么好解释…

Redis的安装及详解

1.Redis介绍? 1.1 Redis是什么? Redis(Remote Dictionary Server,远程字典服务器)是一个开源免费的,用C语言编写的一个高性能的分布式内存数据库,基于内存运行并支持持久化的NoSQL数据库。是当前最热门的…

IPv6 address status lifetime

IPv6 地址状态转换 Address lifetime (地址生存期) 每个配置的 IPv6 单播地址都有一个生存期设置,该设置确定该地址在必须刷新或替换之前可以使用多长时间。某些地址设置为“永久”并且不会过期。“首选”和“有效”生存期用于指定其使用期限和可用性。 自动配置的…

开源与在线 M3U8 Downloader 项目介绍及使用指南

M3U8 是一种用于播放列表格式的文件类型,广泛应用于流媒体服务中,特别是 HLS(HTTP Live Streaming)协议。它包含了一系列的 TS(Transport Stream)视频片段地址,使得视频能够分段加载&#xff0c…

亿联 AM610 M.2 SSD PCIE 3.0X2 128GB测评

亿联 AM610 M.2 SSD PCIE 3.0X2 128GB测评 厂商:union memory国产固态硬盘SSD。 接口:PCIE 3.0X2 协议:支持NVME 1.协议 固件:固件版本号11.82 读取量:18TB左右 写入量:14TB左右,NAND闪存约被编…

win10/11磁盘管理

win10/11磁盘管理 合并磁盘分区的前提是你的两个磁盘区域是相邻的,比如如下: 如果需要吧这个磁盘进行分解,你可以选择压缩一部分磁盘或者是直接删除卷 我这里的话,因为压缩出来的卷和C盘好像是不相邻的(我之前做过&…

kettle从入门到精通 第七十三课 ETL之kettle kettle调用http分页接口教程

场景:kettle调用http接口获取数据(由于数据量比较大,鉴于网络和性能考虑,所以接口是个分页接口)。 方案:构造页码list,然后循环调用接口。 1、总体设计 1)、初始化分页参数pageNum1…

ICP、ISP及IAP烧录介绍

文章目录 不同的程序下载方式一、ICP:In-Circuit Programming二、ISP:In-System Programming三、IAP:In-Application ProgrammingIAP方案设计不同的程序下载方式 目前,单片机的程序烧录方式可以分为三种:ICP、ISP、IAP。 ICP:In Circuit Programing,在电路编程; ISP:…

【LLM】PISSA:一种高效的微调方法

前言 介绍PISSA前,先简单过一下LLMs微调经常采用的LoRA(Low-Rank Adaptation)微调的方法,LoRA 假设权重更新的过程中有一个较低的本征秩,对于预训练的权重参数矩阵 W 0 ∈ R d k W_0 ∈ R^{dk} W0​∈Rdk&#xff0c…

git常用操作汇总大全

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,入职小红书广告投放开发,很高兴认识大家🔥如果感觉博主的文章还不错的话,请👍三连支持👍一下博…

一图解释:监听dom滚动条是否滚动到底部

scrollTop:一个元素的内容垂直滚动的高度;scrollHeight :一个元素在不使用滚动条的情况下为了适应视口中所用内容所需的最小高度,包含内边距(padding),不包含外边距(margin&#xff…

NIST 电子病历中的临床决策部分的认证

写在正文之前 关于临床决策,有专门的行业协会收集并发布,我曾经注册过美国的一个网站,然后定期就会收到邮件通知新增了多少条临床决策。我记得我注册的是 NQF: Home (qualityforum.org) NQF: Home 美国国家标准与技术研究院(Nat…