1. 论文信息
论文名称 | Poison Ink: Robust and Invisible Backdoor Attack |
---|---|
作者 | Jie Zhang(中国科学技术大学) |
会议/出版社 | IEEE Transactions on Image Processing |
📄在线pdf |
2. introduction
文章提出了一种新的攻击方式称为“Poison Ink”,将毒性信息隐藏到图像的边缘信息中。通过对边缘信息进行加毒,生成更具有鲁棒性的后门模型。
Poison Ink 中的 trigger 具有以下的性质:
- 给模型加入后门,但是不影响原本任务的性能
- trigger 经过 data transform 也能保持其鲁棒性
- 这种 trigger 是隐形的
具有这种性质的原因:
- 改变的是 low-level structure information,the final decision of DNN [20] often depends on the object texture rather than the structure information
- 由于是分布在整个图像中的,所有对于数据增强更具鲁棒性
- 边缘信息属于图像的高频部分,更难被发现
3. method
模型流程图:
目标:训练出 Injection Network (IN),使用 Injection Network (IN)对数据加毒
Injection Network 的训练
-
trigger pattern generation
- 通过 Sobel 或者 Canny 提取图像的边缘信息
- 改变边缘的颜色
实验中加入的颜色:(R:240, G:120, B:20)
-
Injection network
-
将干净图片和改变了颜色的边缘图像 concatenate
-
论文的图片没有画全,这一部分由 UNet 和 PatchGAN 组成
通过实验部分描述知道:For trigger image generation, we simply adopt the UNet [42] and the PatchGAN [43] as the default network structure of IN and the discriminator D respectively
-
loss function
-
invisibility loss:
L i n v = E x i c ∈ X c [ ∥ x i p − x i c ∥ k ] \mathcal{L}_{i n v}=\underset{x_{i}^{c} \in \mathbb{X}^{c}}{\mathbb{E}}\left[\left\|x_{i}^{p}-x_{i}^{c}\right\|^{k}\right] Linv=xic∈XcE[∥xip−xic∥k]
loss 的作用是减小 clean image 和 posion image 的差别(invisible)
-
adversarial loss:
ℓ a d v = E x i c ∈ X c log ( D ( x i c ) ) + E x i p ∈ X p log ( 1 − D ( x i p ) ) \ell_{a d v}=\underset{x_{i}^{c} \in \mathbb{X}^{c}}{\mathbb{E}} \log \left(D\left(x_{i}^{c}\right)\right)+\underset{x_{i}^{p} \in \mathbb{X}^{p}}{\mathbb{E}} \log \left(1-D\left(x_{i}^{p}\right)\right) ℓadv=xic∈XcElog(D(xic))+xip∈XpElog(1−D(xip))
使用 adversarial discriminator 去判断该图片是 clean image 还是 posion image
借鉴 GAN 的思想,生成和原图片接近的 posion image
-
-
-
Guidance extractor
-
Interference layer
对 Injection network 生成的图片进行一系列的数据增强
-
GE 的目标
- clean image 通过 GE 应该生成 clean Map
- posion image 通过 GE 应该生成 posion map
-
loss function
- trigger extraction loss L t e L_{te} Lte
- clean loss L c l L_{cl} Lcl
L G E = L t e + λ ⋅ L c l , L t e = E x i p ∈ X p [ ∥ G E ( x i p ) − p i ∥ 2 ] L c l = E x i c ∈ X c [ ∥ G E ( x i c ) − C ∥ 2 ] \begin{aligned} \mathcal{L}_{G E} &=\mathcal{L}_{t e}+\lambda \cdot \mathcal{L}_{c l}, \\ \mathcal{L}_{t e} &=\underset{x_{i}^{p} \in \mathbb{X}^{p}}{\mathbb{E}}\left[\left\|G E\left(x_{i}^{p}\right)-\mathbf{p}_{i}\right\|_{2}\right] \\ \mathcal{L}_{c l} &=\underset{x_{i}^{c} \in \mathbb{X}^{c}}{\mathbb{E}}\left[\left\|G E\left(x_{i}^{c}\right)-\mathbf{C}\right\|_{2}\right] \end{aligned} LGELteLcl=Lte+λ⋅Lcl,=xip∈XpE[∥GE(xip)−pi∥2]=xic∈XcE[∥GE(xic)−C∥2]
-
-
the injection network IN and the guidance network GE are jointly trained
L t o t a l = L I N + γ ⋅ L G E \mathcal{L}_{t o t a l}=\mathcal{L}_{I N}+\gamma \cdot \mathcal{L}_{G E} Ltotal=LIN+γ⋅LGE
4. experiments
4.1 数据集
dataset:CIFAR10 ImageNet GTSRB VGGFACE
选取了 50 个干净数据生成 posioned images
4.2 评价指标
- “Clean Data Accuracy (CDA)”
- “Attack Success Rate (ASR)”
- “PSNR, SSIM and LPIPS”