Towards Transferable Targeted 3D Adversarial Attack in the Physical World
- 速览总结
- 摘要-Abstract
- 引言-Introduction
- 相关工作-Related Work
- 方法-Methodology
- Preliminray-预备知识
- 问题表述-Problem Formulation
- NeRF参数空间中的双重优化-Dual Optimization in NeRF Parameter Space
- 为自然性采取的正则化措施-Regularization for Naturalness
- 物理攻击-Physical Attack
- 实验-Experiments
- 实验设置-Experiment Settings
- 在数字世界的攻击表现-Attack performance in the Digital World
- 额外结果和消融研究-Additional Results And Ablation Study
- 在物理世界中的攻击表现-Attack Performance in the Physical World
- 结论-Conclusion
论文链接
GitHub链接
本文 “Towards Transferable Targeted 3D Adversarial Attack in the Physical World” 提出了一种全新的 3D 攻击框架 TT3D,可将多视图图像快速重建为可迁移目标性的 3D 对抗样本,有效填补了 3D 可迁移目标性攻击领域的空白,为研究深度学习系统的安全性提供了新的视角和方法。
速览总结
- 首次在3D空间中实现了目标性迁移攻击;
- 对特征网格和 MLP 参数双重优化。这种优化在神经网络基础特征层和决策层同时嵌入对抗扰动,以提升迁移性和自然性。
摘要-Abstract
Compared with transferable untargeted attacks, transferable targeted adversarial attacks could specify the misclassification categories of adversarial samples, posing a greater threat to security-critical tasks. In the meanwhile, 3D adversarial samples, due to their potential of multiview robustness, can more comprehensively identify weaknesses in existing deep learning systems, possessing great application value. However, the field of transferable targeted 3D adversarial attacks remains vacant. The goal of this work is to develop a more effective technique that could generate transferable targeted 3D adversarial examples, filling the gap in this field. To achieve this goal, we design a novel framework named TT3D that could rapidly reconstruct from few multi-view images into Transferable Targeted 3D textured meshes. While existing mesh-based texture optimization methods compute gradients in the highdimensional mesh space and easily fall into local optima, leading to unsatisfactory transferability and distinct distortions, TT3D innovatively performs dual optimization towards both feature grid and Multi-layer Perceptron (MLP) parameters in the grid-based NeRF space, which significantly enhances black-box transferability while enjoying naturalness. Experimental results show that TT3D not only exhibits superior cross-model transferability but also maintains considerable adaptability across different renders and vision tasks. More importantly, we produce 3D adversarial examples with 3D printing techniques in the real world and verify their robust performance under various scenarios.
与可迁移的非目标攻击相比,可迁移目标性对抗攻击能够指定对抗样本的错误分类类别,这对安全关键型任务构成了更大的威胁。与此同时,3D对抗样本由于其多视图鲁棒性的潜力,可以更全面地识别现有深度学习系统中的弱点,具有巨大的应用价值。然而,可迁移目标性3D对抗攻击领域仍然空白。这项工作的目标是开发一种更有效的技术,能够生成可迁移目标性3D对抗样本,填补这一领域的空白。为了实现这一目标,我们设计了一个名为TT3D的新颖框架,它可以从少量多视图图像快速重建为可迁移目标性3D纹理网格。现有的基于网格的纹理优化方法在高维网格空间中计算梯度,容易陷入局部最优解,导致迁移性不理想且产生明显的失真。而TT3D创新性地在基于网格的神经辐射场(NeRF)空间中对特征网格和多层感知器(MLP)参数进行双重优化,这显著增强了黑盒转移性,同时保证了自然性。实验结果表明,TT3D不仅展现出卓越的跨模型迁移性,而且在不同的渲染器和视觉任务中都保持了相当高的适应性。更重要的是,我们利用3D打印技术在现实世界中制作了3D对抗样本,并验证了它们在各种场景下的稳健性能。
引言-Introduction
该部分主要介绍研究背景、目标和面临的挑战,具体内容如下:
- 研究背景:深度学习模型虽在诸多任务中表现出色,但易受对抗样本攻击,且可迁移的对抗样本能躲避黑盒模型,引发广泛关注。多数可迁移攻击为非目标性攻击,而可迁移目标性攻击可误导模型产生预定错误分类,在现实应用中威胁更大,值得深入研究。在3D领域,3D对抗攻击因可从多视角发起攻击,比2D对抗攻击更具实用价值。然而,现有3D攻击方法难以同时保证可迁移性、目标性攻击和自然性,且可迁移目标性3D对抗攻击研究尚属空白。
表1. 不同3D攻击方法在目标视觉任务、使用数据、3D攻击类型、可迁移性、是否进行目标性攻击、自然性以及是否在物理世界中进行攻击等方面的比较。 ∗ * ∗ 代表迁移的任务。 - 研究目标:旨在生成可用于物理目标攻击、可迁移且自然的3D对抗样本。
- 面临的挑战:一是现有基于网格的优化方法在高维网格空间直接改变顶点颜色,易过拟合,导致可迁移性不佳,需设计新的优化方法以避免过拟合,提升可迁移性;二是现有方法难以平衡攻击性能和自然性,攻击过程常出现视觉异常、网格变形等不自然现象,需解决如何平衡二者关系的问题。针对这些挑战,本文设计了TT3D框架,通过在基于网格的NeRF空间进行对抗微调,避免过拟合,降低对已有3D网格的依赖,同时通过双重优化策略和约束条件,保证对抗样本的可迁移性和自然性。
图1. 我们的TT3D与典型的基于网格的优化方法的增强版本在3D领域中可迁移目标攻击性能的对比,具体细节见4.2.1节。代理模型为ResNet-101,我们可以看到TT3D展现出了卓越的迁移性。
相关工作-Related Work
该部分主要回顾了可迁移目标性对抗攻击和3D对抗攻击两个方面的相关研究,指出当前研究的不足,凸显本文研究的必要性和创新性,具体内容如下:
- 可转移有针对性对抗攻击:2D领域的可迁移目标性对抗攻击研究已较为广泛。例如,Li等人通过自适应梯度幅度和度量学习解决“噪声固化”问题,提高了目标性攻击的可转移性;Zhao等人证明基于简单logit损失的攻击在目标可迁移性方面能取得不错的效果;Wang等人和Naseer等人分别提出了复杂的方法来捕获类分布和对齐图像分布;Yang等人则利用分层生成网络来制作目标性的可迁移对抗样本。然而,这些研究都集中在2D领域,3D领域的可迁移目标性对抗攻击研究仍是空白,亟待探索。
- 3D对抗攻击:自Athalye等人证实3D对抗样本的存在后,出现了许多生成方法。除MeshAdv尝试改变网格几何形状进行3D攻击但仍无法实现可迁移目标性攻击外,其余方法大多基于修改3D网格的纹理。基于纹理的攻击方法可分为两类,一类直接在高维网格空间中改变顶点颜色,容易导致过拟合;另一类通过优化纹理图并渲染到指定3D模型上,在一定程度上提高了可迁移性,但仅限于针目标性攻击,且缺乏可比性。此外,大多数这些攻击仅在数字领域进行,物理攻击往往存在视觉不自然的问题。而本文的研究不依赖3D模型,能够有效地进行3D攻击,既保证攻击性能(即使在现实场景中也能实现可迁移目标性的3D攻击),又能满足对自然性的要求。
方法-Methodology
图2. 我们的TT3D框架概述。我们首先利用3D多视图重建技术,即基于网格的神经辐射场(NeRF)结合移动立方体技术,获取初始的干净3D网格。然后,我们在基于网格的NeRF的纹理参数空间中进行对抗微调,而不是直接改变纹理
T
T
T,并在顶点位置
v
v
v 处添加几何扰动。为了同时确保自然性,我们在进行优化时,对3D对抗样本与初始样本在纹理和几何结构方面的距离添加约束。
Preliminray-预备知识
这部分主要介绍了基于网格的神经辐射场(NeRF)的基础知识,为后续理解TT3D框架的原理和方法奠定基础,具体内容如下:
- 传统NeRF的原理与局限:传统NeRF将真实世界物体编码为连续的体辐射场 F : ( x , d ) → ( c , σ ) F:(x, d) \to (c, \sigma) F:(x,d)→(c,σ),通过多层感知器(MLP)实现,输入3D位置 x x x 和单位范数观察方向 d d d,输出体积密度 σ \sigma σ 和发射的RGB颜色 c c c. 然而,传统NeRF在计算效率方面存在挑战。
- 基于网格的NeRF技术:为解决传统方法的局限性,基于网格的NeRF技术采用两个不同的3D网格 G g e o G_{geo} Ggeo 和 G t e x G_{tex} Gtex 来显式表示物体的几何和纹理信息。通过这种结构化方法,利用特征网格将3D点 x x x 映射到相应的几何和纹理特征向量 f g e o f_{geo } fgeo 和 f t e x f_{tex} ftex,公式为 f g e o ( x ) = G g e o ( x ; Θ G g e o ) , f t e x ( x ) = G t e x ( x ; Θ G t e x ) f_{geo }(x)=G_{geo }\left(x ; \Theta_{G_{geo }}\right), f_{tex }(x)=G_{tex }\left(x ; \Theta_{G_{tex }}\right) fgeo(x)=Ggeo(x;ΘGgeo),ftex(x)=Gtex(x;ΘGtex),其中 Θ G g e o \Theta_{G_{geo }} ΘGgeo 和 Θ G t e x \Theta_{G_{tex}} ΘGtex 分别表示 G g e o G_{geo} Ggeo 和 G t e x G_{tex} Gtex 中的特征向量集。
- 渲染属性的推导:为得到最终的渲染属性(体积密度 σ \sigma σ 和发射颜色 c c c ),这些特征向量 f g e o f_{geo } fgeo 和 f t e x f_{tex} ftex 会经过两个浅MLP: M g e o M_{geo} Mgeo 和 M t e x M_{tex} Mtex 处理,公式为 σ ← M g e o ( f g e o ( x ) ; Θ M g e o ) , c ← M t e x ( f t e x ( x ) ; Θ M t e x ) \sigma \leftarrow M_{geo }\left(f_{geo }(x) ; \Theta_{M_{geo }}\right), c \leftarrow M_{tex }\left(f_{tex }(x) ; \Theta_{M_{tex }}\right) σ←Mgeo(fgeo(x);ΘMgeo),c←Mtex(ftex(x);ΘMtex),其中 Θ M g e o \Theta_{M_{geo }} ΘMgeo 和 Θ M t e s \Theta_{M_{tes }} ΘMtes 是 M g e o M_{geo} Mgeo 和 M t e x M_{tex} Mtex 的权重。
- 本文的应用:本文利用基于网格的NeRF结合移动立方体(Marching Cubes)算法,先高效重建3D网格作为精确几何,然后在基于网格的NeRF参数空间内进行对抗微调。
问题表述-Problem Formulation
该部分主要对3D对抗攻击任务进行数学建模,明确优化目标,同时指出传统基于网格优化方法的缺陷,具体内容如下:
- 3D对抗攻击任务目标:旨在开发一种有效方法,生成可迁移目标性3D对抗样本,并保持其视觉自然性。将3D物体重建的网格表示为 M = ( V , T , F ) M=(V, T, F) M=(V,T,F),其中 V V V 是顶点坐标, T T T 是顶点颜色, F F F 是三角形面集合。在本次研究中,不改变网格拓扑结构 F F F,而是对顶点坐标 V V V 和颜色 T T T 进行调整。
- 优化问题公式化:针对不同视图下的图像分类模型进行可迁移目标性3D攻击。给定代理分类器
f
:
X
→
Y
f: X \to Y
f:X→Y,攻击目标是为原始网格
M
M
M 生成一个带有颜色和顶点扰动的3D对抗样本
M
a
d
v
=
(
V
∗
,
T
∗
,
F
)
M_{adv}=(V^{*}, T^{*}, F)
Madv=(V∗,T∗,F). 通过可微渲染函数和随机视点
v
v
v,将
M
a
d
v
M_{adv}
Madv 渲染为相应的2D图像
I
^
v
(
M
a
d
v
)
\hat{I}_{v}(M_{adv})
I^v(Madv),使其能被其他常见分类器误分类为目标类
y
∗
(
≠
y
)
y^{*}(≠y)
y∗(=y). 由于需要保证3D对抗样本在物理世界中的自然性,因此扰动应尽量小。
基于此,构建优化问题公式: m i n V ∗ , T ∗ E v ∈ V L f ( I ^ v ( M a d v ) , y ∗ ) + β ⋅ R ( M a d v , M ) , w h e r e I ^ v ( M a d v ) = S ( V ∗ , T ∗ , F , v ) , \begin{gathered} min _{\mathcal{V}^{*}, \mathcal{T}^{*}} \mathbb{E}_{v \in V} L_{f}\left(\hat{I}_{v}\left(\mathcal{M}_{a d v}\right), y^{*}\right)+\beta \cdot \mathcal{R}\left(\mathcal{M}_{a d v}, \mathcal{M}\right), \quad \\ where \hat{I}_{v}\left(\mathcal{M}_{a d v}\right)=\mathcal{S}\left(\mathcal{V}^{*}, \mathcal{T}^{*}, \mathcal{F}, v\right), \end{gathered} minV∗,T∗Ev∈VLf(I^v(Madv),y∗)+β⋅R(Madv,M),whereI^v(Madv)=S(V∗,T∗,F,v), 其中 I ^ v ( M a d v ) \hat{I}_{v}(M_{adv}) I^v(Madv) 是 M a d v M_{adv} Madv 在视点 v v v 下的渲染图像, V V V 是可行分布, L f L_{f} Lf 是交叉熵损失,用于促使 I ^ v ( M a d v ) \hat{I}_{v}(M_{adv}) I^v(Madv) 被误分类为 y ∗ y^{*} y∗, R R R 是正则化项,用于最小化 M a d v M_{adv} Madv 和 M M M 之间的感知距离, β \beta β 是平衡这两个损失的超参数。 - 传统方法的问题:遵循上述目标函数进行基于网格的优化时,由于每个3D物体包含数千个点,需要在高维网格空间中计算梯度,这容易扭曲纹理网格的自然纹理外观,陷入过拟合,导致可转移性不佳。
NeRF参数空间中的双重优化-Dual Optimization in NeRF Parameter Space
这部分主要介绍了在NeRF参数空间进行双重优化的方法,以解决传统基于网格优化方法的问题,提升3D对抗样本的可转移性和自然性,具体内容如下:
- 现有方法的问题:现有的基于网格的优化方法主要通过直接改变初始3D纹理网格 M M M 中顶点颜色 T T T 来生成对抗样本,这种方法存在计算复杂度高、可迁移性差和自然性不佳等问题。因为在高维网格空间中直接操作顶点颜色,不仅计算复杂,还容易导致过拟合,使得生成的对抗样本在不同模型间的转移性不理想,同时会破坏纹理的自然外观。
- TT3D的创新优化方法:本文提出的TT3D方法创新性地利用之前建立的颜色估计机制,在基于网格的NeRF空间中进行对抗微调,间接生成对抗纹理。具体来说,基于网格的NeRF通过结构化特征网格 G t e x ( ⋅ ; Θ G t e x ) G_{tex}(\cdot ; \Theta_{G_{tex}}) Gtex(⋅;ΘGtex) 存储外观特征向量,并通过浅MLP M t e x ( ⋅ ; Θ M t e x ) M_{tex }(\cdot ; \Theta_{M_{tex}}) Mtex(⋅;ΘMtex) 将其处理为发射颜色。初始3D纹理网格 M M M 中所有顶点的颜色 T T T 就是基于此机制估计得到的。TT3D方法针对外观特征网格的参数 Θ G t e x \Theta_{G_{tex}} ΘGtex 和相应MLP的参数 Θ M t e x \Theta_{M_{tex}} ΘMtex 进行双重优化。这种双重优化策略能够在神经网络的基础特征层和更复杂的决策层同时嵌入对抗扰动,从而生成更具可转移性的3D对抗样本,同时保证了样本的自然性。
- 结合几何形状优化:虽然单独优化几何形状难以实现可迁移目标性3D攻击,但在以纹理优化为主的方法中结合几何形状(即网格顶点坐标)的调整,可以在一定程度上提高可迁移性。然而,在基于网格的NeRF空间中微调几何参数会导致显著变形,为保证自然性,需在优化过程中反复使用移动立方体技术将几何参数转换为网格,这会带来巨大的时间成本。因此,TT3D方法采取折中的方式,直接修改网格顶点坐标。
- 优化目标函数调整:综上,TT3D方法将优化目标从顶点颜色 T T T 转向基于网格的NeRF的内部参数 ( Θ G t e x , Θ M t e x ) (\Theta_{G_{tex}}, \Theta_{M_{tex}}) (ΘGtex,ΘMtex),同时对网格顶点坐标进行优化,使得原目标函数变为: m i n V ∗ , Θ G t e x ∗ , Θ M t e x ∗ E v ∈ V L f ( I ^ v ( M a d v ) , y ∗ ) + β ⋅ R ( M a d v , M ) min _{\mathcal{V}^{*}, \Theta_{G_{tex }}^{*}, \Theta_{M_{tex }}^{*}} \mathbb{E}_{v \in V} L_{f}\left(\hat{I}_{v}\left(\mathcal{M}_{a d v}\right), y^{*}\right)+ \beta \cdot \mathcal{R}\left(\mathcal{M}_{a d v}, \mathcal{M}\right) minV∗,ΘGtex∗,ΘMtex∗Ev∈VLf(I^v(Madv),y∗)+β⋅R(Madv,M). 这种优化方式在保证对抗样本可迁移性的同时,兼顾了自然性,为生成高质量的3D对抗样本提供了有效途径。
为自然性采取的正则化措施-Regularization for Naturalness
这部分内容主要介绍了为确保3D对抗样本的自然性所采取的正则化措施,通过对外观和几何分别施加约束,使生成的对抗样本在保持攻击效果的同时,尽量与原始样本相似,具体内容如下:
- 外观约束:为保证3D对抗样本在外观上的自然性,对其渲染图像与原始干净纹理网格渲染图像进行比较。通过计算不同视点下,对抗纹理网格 M a d v M_{adv} Madv 和初始干净纹理网格 M M M 渲染图像之间的平方距离,来评估两者的差异。该外观相关约束记为 R r g b R_{rgb} Rrgb ,公式为: R r g b ( M a d v , M ) = 1 N ∑ v ∈ V ∣ I ^ v ( M a d v ) − I ^ v ( M ) ∣ 2 R_{r g b}\left(\mathcal{M}_{a d v}, \mathcal{M}\right)=\frac{1}{N} \sum_{v \in V}\left|\hat{I}_{v}\left(\mathcal{M}_{a d v}\right)-\hat{I}_{v}(\mathcal{M})\right|^{2} Rrgb(Madv,M)=N1∑v∈V I^v(Madv)−I^v(M) 2 其中 N N N 是一个训练周期内的采样数量, V V V 是视点集合。此约束确保对抗样本在有效攻击的同时,外观上不会与原始网格有显著偏差。
- 几何约束:在几何方面,采用了多种约束来保证3D对抗样本的自然性。利用Chamfer距离 R c d R_{cd} Rcd,使 M a d v M_{adv} Madv 的顶点与 M M M 中初始位置的顶点距离不至于过远;引入Laplacian平滑损失 R l a p R_{lap} Rlap,防止网格出现自相交的情况;使用Mesh Edge Length Loss R e d g e R_{edge} Redge,确保网格表面的平滑度。综合这些几何约束,整体正则化项 R R R 可表示为: R ( M a d v , M ) = λ 1 R r g b ( M a d v , M ) + λ 2 R c d ( M a d v , M ) + λ 3 R l a p ( M a d v ) + λ 4 R e d g e ( M a d v ) R\left(\mathcal{M}_{a d v}, \mathcal{M}\right)=\lambda_{1} R_{r g b}\left(\mathcal{M}_{a d v}, \mathcal{M}\right)+\lambda_{2} R_{c d}\left(\mathcal{M}_{a d v}, \mathcal{M}\right)+\lambda_{3} R_{l a p}\left(\mathcal{M}_{a d v}\right)+\lambda_{4} R_{edge }\left(\mathcal{M}_{a d v}\right) R(Madv,M)=λ1Rrgb(Madv,M)+λ2Rcd(Madv,M)+λ3Rlap(Madv)+λ4Redge(Madv) 其中 λ 1 \lambda_{1} λ1、 λ 2 \lambda_{2} λ2、 λ 3 \lambda_{3} λ3 和 λ 4 \lambda_{4} λ4 是超参数,分别表示 R r g b R_{rgb} Rrgb、 R c d R_{cd} Rcd、 R l a p R_{lap} Rlap 和 R e d g e R_{edge} Redge 的权重,通过调整这些权重可以平衡不同约束对自然性的影响。
物理攻击-Physical Attack
这部分内容主要介绍了为实现物理世界中可行的3D对抗攻击所采用的方法,即利用期望变换(EOT)算法增强对抗样本在物理世界复杂变换下的鲁棒性,具体内容如下:
- 物理攻击面临的挑战:要在物理世界实现可行的3D对抗样本,需要确保其对物理世界中的复杂变换(如3D旋转、仿射投影、颜色差异等)具有鲁棒性。因为在实际物理场景中,对抗样本会面临各种不同的变换,若不能有效应对,就无法保证攻击的有效性。
- EOT算法的应用:本文运用EOT算法来解决上述问题。该算法通过在2D和3D空间的不同变换分布上对对抗样本进行优化,将多种3D变换(如姿态、距离和视点变化)与2D变换(如对比度和模糊)在渲染过程中有效融合。在优化过程中,利用EOT算法得到的渲染图像公式为: I ^ v ( M a d v ) = t ( S ( V ∗ , T ∗ , F , ρ ( v ) ) ) \hat{I}_{v}\left(\mathcal{M}_{a d v}\right)=t\left(\mathcal{S}\left(\mathcal{V}^{*}, \mathcal{T}^{*}, \mathcal{F}, \rho(v)\right)\right) I^v(Madv)=t(S(V∗,T∗,F,ρ(v))) 其中 t t t 和 ρ \rho ρ 分别是从2D空间变换集 T T T 和3D空间变换集 Q \mathcal{Q} Q 中随机采样的变换, v v v 是视点。通过这种方式,使生成的对抗样本能够更好地适应物理世界的真实情况,增强了在物理攻击中的鲁棒性,从而提高了攻击成功的概率。
实验-Experiments
实验设置-Experiment Settings
该部分主要介绍了实验所使用的数据集、受害模型、评估指标以及TT3D的超参数设置,为后续实验结果的分析和对比提供了基础,具体内容如下:
- 数据集:实验采用IM3D数据集,该数据集包含1000个来自100个ImageNet类别的典型3D物体。为进行实验验证,从30个类别中随机选取100个物体。
- 受害模型:选择两个典型分类器模型ResNet101和DenseNet - 121作为代理模型进行攻击。用于测试可迁移性的其他模型包括基于CNN的ResNet - 50、ResNet - 152、VGG - 16、VGG - 19、Inceptionv3、EfficientNet - B0、MobileNet - V2,以及基于Transformer的Swin - B、ViT - B/16。在测试跨渲染器迁移性时,选用两款商业渲染软件MeshLab和Blender;测试跨任务迁移性时,选择零样本检测和图像字幕两个任务,这是因为它们对物体类型没有限制。
- 评估指标:采用攻击成功率(ASR)来定量评估TT3D的有效性。对于每个3D物体,使用随机渲染参数渲染100张图像,若渲染图像能被受害模型预测为目标标签,则视为攻击成功。ASR为成功攻击图像数在100张渲染图像中的占比,最终的ASR是所有重建对抗物体的ASR平均值。
- TT3D超参数:确定了TT3D中关键超参数的值,其中 β \beta β 设为 1 0 3 10^3 103 ,训练轮数为250, λ 1 = 1 \lambda_{1}=1 λ1=1, λ 2 = 3000 \lambda_{2}=3000 λ2=3000, λ 3 = 1 0 − 3 \lambda_{3}=10^{-3} λ3=10−3, λ 4 = 1 0 − 2 \lambda_{4}=10^{-2} λ4=10−2.
在数字世界的攻击表现-Attack performance in the Digital World
该部分主要从基础结果、跨渲染器转移性、跨任务转移性三个方面,对TT3D在数字世界中的攻击性能进行了测试和分析,具体内容如下:
- 基础结果
- 方法有效性验证:将TT3D与不同方法进行对比,为使对比公平,对基于网格的优化方法进行增强,使其同时优化顶点颜色和坐标。实验结果表明,基于网格的优化方法因易过拟合,几乎没有转移性;而TT3D的双重优化方法在转移性上有显著提升。同时,测试仅优化MLP和仅优化网格的攻击性能,发现仅优化MLP在处理模型特定特征上有一定效果,仅优化网格的方法转移性更好,两者结合的双重优化方法在各受害模型上成功率最高,证明了双重优化策略的必要性和优越性。
**表2. 不同方法生成的3D对抗样本在随机视点下针对ResNet-50(RN-50)、ResNet-101(RN-101)、ResNet-152(RN-152)、VGG-16、VGG-19、Inception-v3(Inc-v3)、DenseNet-121(DN-121)、EfficientNet-B0(EN-B0)、MobileNet-v2(MN-v2)、SwinB和VIT-B/16的攻击成功率(ASR,%)。这些对抗样本是针对代理模型ResNet-101和DenseNet-121生成的。 ** - 视觉自然性优势:与基于网格的优化方法相比,TT3D在实现优秀攻击效果的同时,具有更好的视觉自然性。基于网格的方法优化后的3D物体外观有不合理噪声,而TT3D从基础特征层和决策层进行优化,生成的对抗扰动更具语义信息,与原始物体更相似,补充材料中有更多定量指标说明。
图3. 原始物体、我们的TT3D方法以及基于网格的优化方法在随机视点下的可视化示例。
- 方法有效性验证:将TT3D与不同方法进行对比,为使对比公平,对基于网格的优化方法进行增强,使其同时优化顶点颜色和坐标。实验结果表明,基于网格的优化方法因易过拟合,几乎没有转移性;而TT3D的双重优化方法在转移性上有显著提升。同时,测试仅优化MLP和仅优化网格的攻击性能,发现仅优化MLP在处理模型特定特征上有一定效果,仅优化网格的方法转移性更好,两者结合的双重优化方法在各受害模型上成功率最高,证明了双重优化策略的必要性和优越性。
- 跨渲染器转移性:不同渲染器的渲染结果存在差异,为验证TT3D的有效性,在包括两款商业渲染软件在内的多种渲染器上进行转移性测试。结果显示,即使面对未知渲染系统,TT3D生成的3D对抗样本仍表现良好,在不同渲染环境下性能无显著下降,证明了该方法的鲁棒性、广泛适用性和抗干扰能力。
表4. 仅纹理优化方法和纹理+几何(子)优化方法针对ResNet-50(RN-50)、ResNet-101(RN-101)、ResNet-152(RN-152)、VGG-16、VGG-19、Inception-v3(Inc-v3)、DenseNet-121(DN-121)、EfficientNet-B0(EN-B0)、MobileNet-v2(MN-v2)、Swin-B和ViT-B/16的攻击成功率(ASR,%)。这些对抗样本是针对代理模型RN-101和DN-121学习生成的。
表3. 不同渲染方式生成的3D对抗样本针对ResNet-50(RN-50)、ResNet-101(RN-101)、ResNet-152(RN-152)、VGG-16、VGG-19、Inception-v3(Inc-v3)、DenseNet-121(DN-121)、EfficientNet-B0(EN-B0)、MobileNet-v2(MN-v2)、Swin-B和ViT-B/16的攻击成功率(ASR,%)。这些对抗样本是针对代理模型RN-101和DN-121学习得到的。- 零样本检测任务:使用Liu等人的零样本检测模型,在白色背景下测试TT3D生成的对抗样本。实验中,检测阈值大于0.5视为成功,结果表明TT3D在该任务上成功率达76.94%,部分成功示例证明了其在零样本检测任务中的有效性。
- 跨任务转移性
- 图像字幕任务:采用Li等人的BLIP模型,保持白色背景设置,随机选择100个不同3D物体的三个视点进行测试。若生成的字幕包含目标标签则测试成功,结果显示TT3D在该任务上成功率为32.33%,部分成功示例表明其在图像字幕任务中也有一定的转移性。
图5. 我们针对零样本检测和图像字幕任务的3D对抗样本的预测示例。绿色文本和红色文本分别代表原始标签和目标标签。
- 图像字幕任务:采用Li等人的BLIP模型,保持白色背景设置,随机选择100个不同3D物体的三个视点进行测试。若生成的字幕包含目标标签则测试成功,结果显示TT3D在该任务上成功率为32.33%,部分成功示例表明其在图像字幕任务中也有一定的转移性。
额外结果和消融研究-Additional Results And Ablation Study
这部分主要进行了额外结果分析和消融研究,探究了顶点优化和超参数 β β β 对攻击性能的影响,具体内容如下:
- 额外顶点优化的效果:验证在基于网格的参数空间中优化纹理特征时,额外进行顶点坐标的几何变化能否辅助提升攻击性能。通过对比实验,发现在优化纹理的同时改变网格顶点坐标,能在一定程度上增强攻击的可转移性。单独优化几何结构,在要求自然性的情况下,几乎无法实现任意目标的成功针对性攻击,因此未在表格中列出相关结果。这表明顶点坐标的优化对提升基于纹理优化的攻击性能有积极作用,但单独依靠几何结构优化难以达到理想的攻击效果。
表4. 仅纹理优化方法和纹理+几何(子)优化方法针对ResNet-50(RN-50)、ResNet-101(RN-101)、ResNet-152(RN-152)、VGG-16、VGG-19、Inception-v3(Inc-v3)、DenseNet-121(DN-121)、EfficientNet-B0(EN-B0)、MobileNet-v2(MN-v2)、Swin-B和ViT-B/16的攻击成功率(ASR,%)。这些对抗样本是针对代理模型RN-101和DN-121学习生成的。 -
β
β
β 的影响:
β
β
β 是调整负责自然性的正则化项
R
R
R 的超参数,对自然性和攻击性能都有显著影响。通过对
β
β
β 值变化的消融研究发现,随着
β
β
β 值从较低值(
1
0
2
10^{2}
102 )增加到较高值(
1
0
3
10^{3}
103 、
1
0
4
10^{4}
104 ),对抗样本在外观和几何结构上与原始3D物体的距离更近,扰动更隐蔽,但攻击的总体成功率会下降。为平衡攻击性能和自然性,最终选择
β
β
β 值为
1
0
3
10^{3}
103. 值得注意的是,无论参数如何设置,TT3D生成的对抗样本纹理都具有语义意义,不像基于网格的优化方法那样是噪声形式,更具自然性。
图7. 一个关于随着 β β β 值变化外观和几何形状的改变及其相应攻击成功率的可视化示例。
在物理世界中的攻击表现-Attack Performance in the Physical World
该部分通过在物理世界开展实验,验证了TT3D的可行性与鲁棒性,具体内容如下:
- 实验过程:利用3D打印技术制作3D对抗物体,考虑到现实世界背景的多样性,在不同视点下测试TT3D从数字到物理的转移性,并且添加了三个随机选择的不同背景(B-1、B-2和B-3)来评估其对背景的鲁棒性。实验共打印20个3D物体,其中10个针对代理模型ResNet-101,10个针对DenseNet-121。测试时,将3D对抗物体放置在表面,用智能手机围绕其缓慢旋转约360°(不拍摄底部),每秒捕捉10帧,每个物体在每种设置下持续约20秒,共获取200帧,通过成功帧的比例计算攻击成功率。
- 实验结果:实验结果以图6和表5呈现,表明TT3D在物理世界的各种场景下都具有强大的攻击有效性。在不同背景和视点下,针对ResNet-101和DenseNet-121的攻击成功率都维持在较高水平,如针对ResNet-101在B-1、B-2、B-3背景下的攻击成功率分别为81.30%、76.45%、91.55% ,针对DenseNet-121的攻击成功率分别为79.30%、83.25%、84.50%。这充分验证了TT3D在物理世界中攻击的有效性和稳定性,进一步证明了该方法的实用性和可靠性。
图6. 在物理世界中,针对目标标签的已打印3D对抗物体在不同背景(B-1、B-2、B-3)和视点下的可视化示例。第一行是针对ResNet-101生成的,第二行是针对DenseNet-121生成的。
表5. 在现实世界中,已打印的对抗性网格在不同背景(B-1、B-2、B-3)和各种视点下针对ResNet-101(RN-101)和DenseNet-121(DN-121)的攻击成功率(ASR,%)。
结论-Conclusion
这部分总结了研究成果、创新点及其实验验证效果,具体内容如下:
- 提出TT3D框架:提出一种全新的3D攻击框架TT3D,该框架能够快速将多视图图像重建为可转移的有针对性的3D对抗样本,有效填补了3D可转移有针对性攻击领域的空白。
- 创新优化策略:TT3D在基于网格的神经辐射场(NeRF)空间中采用双重优化策略。这一策略显著提升了黑盒模型间的可转移性,同时保证了生成的3D对抗样本的视觉自然性。
- 实验验证有效性:通过大量实验,充分验证了TT3D强大的性能。它不仅具备卓越的跨模型可转移性,还在不同渲染器和视觉任务中展现出良好的适应性。借助3D打印技术,在现实世界中制作3D对抗样本并测试,结果表明其在各种实际场景下都具有可靠的攻击效果,进一步确认了TT3D的实际应用价值。