Towards Adversarial Attack on Vision-Language Pre-training Models

news2024/12/23 13:36:24

摘要

虽然视觉-语言预训练模型(VLP)在各种视觉-语言(V+L)任务上表现出革命性的改进,但关于其对抗鲁棒性的研究在很大程度上仍未被探索。本文研究了常用VLP模型和V+L任务的对抗性攻击。

首先,我们分析了不同设置下对抗性攻击的性能。通过研究不同扰动对象和攻击目标的影响,我们总结出一些关键的观察结果,作为设计强健多模态对抗性攻击和构建鲁棒VLP模型的指导。

其次,我们在VLP模型上提出了一种新的多模态攻击方法,称为协同多模态对抗攻击(Co-Attack),它共同对图像模态和文本模态进行攻击。

实验结果表明,该方法在不同V+L下游任务和VLP模型下均能获得较好的攻击性能。本文的分析观察和新的攻击方法有望为VLP模型的对抗鲁棒性提供新的理解,从而有助于其在更多现实场景中的安全可靠部署。

INTRODUCTION

视觉和语言预训练(VLP)最近已经彻底改变了下游的视觉和语言(V+L)任务,例如图像-文本检索,视觉基础和视觉包含。这引起了人们对过去10年多模态神经网络研究的关注。虽然已经进行了广泛的研究以取得显著进展,但其中只有少数人研究了对抗鲁棒性问题,该问题通常使用标准的对抗攻击方法将扰动的一种模式用于攻击多模态任务。关于多模态预训练,特别是VLP模型,据我们所知,还没有研究系统地分析对抗鲁棒性性能并设计专用的对抗攻击解决方案。

由于仍处于非常早期的阶段,关于对VLP模型的对抗性攻击,许多问题仍未得到探索。 其中,本文研究了两个关键问题:(1)标准对抗攻击是为仅涉及一种模态的分类任务而设计的。VLP 模型涉及多种模态,通常涉及许多非分类任务,例如图像-文本跨模态检索,因此直接采用标准的对抗性攻击方法不切实际。

一个自然的解决方案是对嵌入表示而不是下游任务标签进行对抗性攻击。但是,由于VLP嵌入表示的复杂结构,问题转向了解不同的攻击设置如何影响攻击性能。

2:为了攻击VLP模型的嵌入表示,应该协作而不是独立地考虑不同模态的对抗性扰动。图1展示了一个关于视觉蕴涵任务对ALBEF [8]的adverial攻击的例子。

结果表明,只有扰动图像才能成功地将预测从“蕴涵”转变为“矛盾”。然而,通过独立扰动图像和文本而不考虑它们的相互作用,攻击失败,因为两种单模态攻击可能相互冲突并导致抵消 1 + 1 < 1 效果。本研究致力于对VLP模型的对抗性攻击,通过分析不同设置下的攻击性能并开发协作式多模态对抗攻击解决方案来解决这两个问题。

对于第一个问题,我们分析了不同设置下对VLP模型的对抗性攻击,包括攻击目标和扰动对象两个维度。两种典型的VLP架构,融合VLP模型(例如,ALBEF [8],TCL [27])和对齐的VLP模型(例如,CLIP [16])通过图像文本检索,视觉蕴涵和视觉基础的3个下游V + L任务进行了检查。广泛的分析得出了一些关于 VLP 架构和 V+L 任务之间不同攻击性能的关键观察结果,以及攻击设置对 VLP 鲁棒性的影响。

对于第二个问题,我们提出了一种针对VLP模型的新型多模态对抗攻击方法,称为协作多模态对抗攻击(Co-Attack),该方法共同对图像模态和文本模态进行攻击。协同攻击适用于融合的 VLP 和对齐的 VLP 模型。前提是鼓励扰动多模态嵌入远离原始多模态嵌入(对于融合 VLP 模型),或扰动图像模态嵌入远离扰动文本模态嵌入(对于对齐的 VLP 模型)。实验结果表明,所提方法对不同V+L下游任务的攻击性能有所提高。

本文的贡献可归纳如下。

(1)分析了对抗性攻击对VLP模型的两种典型架构和3个下游V+L任务的性能。关于攻击目标和受扰动对象的攻击设置的观察结果有助于理解VLP模型的对抗鲁棒性。

(2)在VLP模型上开发了一种新颖的多模态对抗攻击方法。通过考虑不同方式攻击之间的一致性,它协同地将多模式扰动结合起来,形成更强的对抗性攻击。

PRELIMINARIES AND RELATED WORK

VLP models and Downstream V+L Tasks

大多数早期的视觉语言表示学习工作都需要预先训练的对象检测器(例如,更快的R-CNN [18])和高分辨率图像[10,24]。最近的方法不是依赖于由计算成本高的对象检测器获得的视觉特征,而是使用端到端图像编码器(例如,ViT[3])来加速推断。在这项工作中,我们考虑 CLIP [16]、ALBEF [8] 和 TCL [27] 进行评估,它们属于后一类模型。其中,ALBEF和TCL对图像和文本模态之间的交互进行建模,包含单峰编码器Ei(·),Et(·)和多模态编码器Em(·,·)(如图2(a)所示)。

VLP模型架构和攻击设置的说明。(a)融合VLP模型由一个图像编码器、一个文本编码器和一个多模态编码器组成。(b)对齐的VLP模型没有多模态编码器,也没有统一的多模态嵌入。两个红色箭头从扰动对象指向攻击目标。

输入图像xi由图像编码器Ei(·)编码到图像嵌入ei中,即ei = Ei(xi)。输入文本 xt 由文本编码器 Et (·) 编码到文本嵌入 et 中,即 et = Et (xt)。

图像嵌入 𝑒𝑖 和文本嵌入 𝑒𝑡 然后被送入多模式编码器 𝐸𝑚 (·, ·) 以输出统一的多模式嵌入 𝑒𝑚,即 𝑒𝑚 = 𝐸𝑖(𝑒𝑖,𝑒𝑡)。我们将这种具有多模式编码器和统一多模式嵌入的 VLP 模型表示为融合 VLP 模型。相比之下,CLIP 专注于学习单峰图像编码器和文本编码器,而不考虑多峰编码器。我们将这种只有单独的单峰嵌入的 VLP 模型表示为对齐的 VLP 模型(如图 2(b) 所示)。2.1.2 下游 V+L 任务。图像-文本检索包含两个子任务。

Downstream V+L Tasks.

图像-文本检索包含两个子任务:图像到文本检索 (TR) 和文本到图像检索 (IR)。对于ALBEF和TCL,对于TR和IR,首先计算所有图像文本对ei和et之间的特征相似度得分,以检索Top-N候选者,然后使用em计算的图像-文本匹配得分进行排名。CLIP 上的 TR 和 IR 任务更直接地执行。排名结果仅基于Andet之间的相似性。

视觉蕴涵 (VE) 是一项视觉推理任务,用于预测图像和文本之间的关系是蕴涵、中性还是矛盾。ALBEF 和 TCL 都将 VE 视为三向分类问题,并使用多模态编码器表示 [CLS] 标记 [8] 的完整层来预测类概率。

视觉接地 (VG) 根据相应输入文本的描述定位输入图像中的区域。ALBEF扩展了Grad-CAM [19],并使用派生的注意力图对检测到的提案进行排名[29]。

Adversarial Attack

ANALYZING ADVERSARIAL ATTACK IN VLP MODEL

检查的 VLP 模型。

我们评估了两种模型的分析和经验:融合VLP模型和对齐VLP模型。融合的VLP模型包含一个图像编码器,一个文本编码器和一个多模态编码器,在这项工作中,我们考虑了ALBEF [8]和TCL。图像编码器由 12 层可视变压器 ViT-B/16 实现。文本编码器和多模态编码器均由 6 层变频器实现。对齐的 VLP 模型仅包含图像编码器和文本编码器,在这项工作中,我们考虑 CLIP。CLIP的图像编码器有多种选择。我们考虑ViT-B/16和ResNet-101[5],分别表示为CLIPViT和CLIPCNN。

下游任务和数据集。

本文使用MSCOCO[12]和Flickr30K[15]对TR和IR任务进行评估,使用RefCOCO+[30]对VG任务进行评估,使用SNLI-VE[25]对VE任务进行评估。注意CLIP只能处理IR和TR任务,TCL可以处理VE、IR和TR任务,ALBEF可以处理以上所有下游任务。对于VE任务,由于我们关心对抗性攻击的性能,我们只从SNLI-VE测试数据集中选择正面的图像-文本对(带有蕴涵标签),并丢弃负面的图像-文本对(带有中性和矛盾标签)。

超参数:对于图像模态的对抗性攻击,我们使用PGD攻击[13]。最大扰动设为2/255。步长设置1.25。迭代次数设置为10。对于文本模式的对抗性攻击,我们使用BERT-Attack[9]。最大扰动epsilon设置为1个标记。所选单词列表的长度设置为10。

攻击目标和扰动对象。表1列出了本文所考虑的攻击目标和扰动对象。

(1)对于VLP模型的扰动对象,我们考虑了三种选择:图像模态输入、文本模态输入和双模态(图像和文本)输入。(2)对于攻击目标,大致可以分为多模态编码器输出的多模态嵌入和图像或文本编码器输出的单模态嵌入。在每种受攻击的嵌入类型中,又进一步分为完全嵌入和[CLS]嵌入。图2中的红色箭头说明了两个示例攻击设置:Bi@Multifull,同时扰动输入图像和输入文本以攻击完整的多模态入;Image@UniCLS,扰动输入图像来攻击单峰嵌入的[CLS]。

我们简要讨论了将[CLS]嵌入作为一个攻击目标的动机。在预训练模型中,嵌入的[CLS]起着重要的作用,例如VLP模型中嵌入的[CLS]直接用于各种下游任务的推理。因此,VLP模型内嵌攻击[CLS]的有效性值得研究。注意,嵌入和完全嵌入的[CLS]之间的区别不适用于CLIP,因为CLIP可以用CNN替换图像编码器的ViT。因此,本文仅讨论CLIPViT的嵌入[CLS],其余部分将CNN输出的嵌入作为嵌入的[CLS]。

Attack Implementations

攻击单峰嵌入。对于干扰图像模态输入,大多数典型的针对分类的单模态攻击都是基于梯度的方法.其中,我们选择只需要进行一次梯度计算的FGSM[4]来表示这一系列方法:

其中C为分类模型,Lc为交叉损失函数,y^是与原始图像Xi对应的Ground-truth标签.交叉熵损失需要logit-wise表示,但许多V+L下游任务是非分类任务,如图像-文本检索。因此我们使用Zhang等人提出的最大化嵌入表示的KL (Kullback-Leibler)散度损失L的方法[Theoretically Principled Trade-off between Robustness and Accuracy]进行对抗性攻击:

对于扰动文本模式输入,T(·)表示修改或替换输入文本Xt中的标记,即X't = T (Xt).则文本对抗性扰动t可表示为:

其中最大扰动t被限制在标记级别,即有多少标记被修改/替换为语义一致。在本工作中,我们使用BERT-Attack[9]对文本模态进行对抗性攻击。

攻击多模态嵌入。对于对输入文本的攻击,我们将式(3)中的文本嵌入Et(·)替换为多模态嵌入Em(·,·):

同样,对于对输入图像的攻击,我们将式(2)中的图像嵌入Ei(·)替换为多模态嵌入Em(·,·):

Observations

图像-文本检索的观察。ALBEF在TR和IR任务中的结果如表2所示。在表2中,我们有以下主要发现:

(1)扰动双模态输入(Bi@)始终强于扰动任何单模态输入(Text@和Image@)。这表明,如果允许多模态输入受到干扰,预计将出现更强的对抗性攻击。

(2)对于扰动图像模态输入,攻击全嵌入优于攻击嵌入[CLS]。但是对于扰动文本模式输入,我们观察到相反的结果。这表明对于文本编码器来说,嵌入的[CLS]代表了句子级的显著性,攻击它比攻击完整的嵌入有更大的影响。但是对于图像编码器来说,攻击全嵌入的影响更为显著,这与[14]中观察到的一致。他们用“全局平均池化”取代了嵌入的[CLS],并发现去除嵌入的[CLS]对准确性和鲁棒性的影响可以忽略不计。

(3) Bi@Multifull的攻击性能明显优于Bi@MultiCLS。这说明对于扰动双模态输入攻击多模态嵌入,嵌入的[CLS]的影响是有限的,甚至可以削弱对抗性攻击。(4) Bi@Multi和Bi@Uni的性能相似。这表明,对于TR和IR这样需要中间输出(单峰嵌入)进行推理的任务,攻击单峰嵌入和攻击全嵌入的影响是相当的。

攻击clipit和CLIPCNN的结果分别如表3和表4所示。主要观察结果包括:

(1)发现尽管在结构上存在很大差异,但与ALBEF中的观察结果一致,扰动双模态输入比扰动任何单模态输入更强。

(2)对于扰动图像模态输入和扰动双模态输入,CLIPCNN的攻击成功率(表4)高于CLIPViT(表3)。但是对于扰动文本模态输入,CLIPCNN和CLIPViT很难区分。这表明ViT在防御图像模态攻击方面比ResNet-101 (CNN)是一种更健壮的图像编码器,这也与一些现有的观察结果[21]一致。

(3)注意,ALBEF(表2)和CLIPViT(表3)的图像编码器是相同的(ViT-B/16)。通过比较两者攻击成功率的差异,我们可以观察到攻击ALBEF的单峰嵌入与攻击CLIPViT并没有明显的优劣。这说明对于不同的VLP模型,ALBEF(融合VLP模型)和CLIPViT(对齐VLP模型)的不同预训练目标对对抗鲁棒性没有显著影响。

视觉蕴涵的观察。ALBEF和TCL在VE任务上的结果如表5所示。我们有以下主要发现:

(1)与图像-文本检索任务的结果一致,扰动双模态输入比扰动任何单模态输入更强,并且攻击全嵌入优于对扰动图像模态输入的嵌入攻击[CLS]。(2) Bi@UniCLS、Bi@Unifull、Bi@MultiCLS、Bi@Multifull的表现不相上下。这表明对于VE任务,[CLS]对扰动双模态输入的攻击性能几乎没有干扰。(3) Bi@MultiCLS优于Bi@UniCLS, Bi@Multifull优于Bi@Unifull。这表明,对于扰动双模态输入,攻击多模态嵌入要比攻击单模态嵌入强得多。因此,攻击单峰嵌入的影响相对较弱的任务,如不需要中间输出(单峰嵌入)涉及推理。

观察视觉基础:ALBEF对VG任务的结果如表6所示。我们有以下主要发现:

(1)与前面任务的结果一致,扰动双模态输入比扰动任何单模态输入更强,攻击全嵌入优于对扰动图像模态输入的嵌入攻击[CLS]。(2) Bi@Multifull在所有攻击设置中表现最佳。这进一步证明了攻击多模态嵌入的优越性。

总结。我们总结了一些共享的观察结果,作为在VLP模型中设计多模态对抗性攻击的指导。

(1)对于不同攻击设置的观测,扰动双模态输入比扰动单模态输入强。这表明,如果允许多模态输入受到干扰,预计将出现更强的对抗性攻击。此外,对于单模态输入的扰动,嵌入的[CLS]对图像模态的影响小于文本模态。对于双模态输入的扰动,攻击嵌入的[CLS]是有限的,甚至比攻击全嵌入是有害的。

(2)对于不同下游V+L任务的观察,对于推理所涉及的图像-文本检索等需要中间输出(单峰嵌入)的任务,攻击全嵌入的结果与攻击嵌入[CLS]的结果一致。但总的来说,攻击多模态嵌入在所有任务中都比攻击单模态嵌入具有更好或相当的性能。

此外,我们还得到了一些关于构建鲁棒VLP模型的见解。对于不同VLP模型的观察,ALBEF(融合VLP模型)和CLIPViT(对齐VLP模型)的预训练目标对对抗鲁棒性的影响没有明显不同。对于具有其他图像编码器的模型,如CLIP, ViT在精度和鲁棒性方面比CNN更适合作为图像编码器。

VLP模型中的协同多模态对抗攻击

Methodology

尽管上述分析发现,同时干扰文本和视觉模式比单独干扰一种模式更有效。然而,如图1所示,如果单独攻击两种模式,就有可能导致1 + 1 < 1的抵消效应。我们通过开发一种协作多模态对抗攻击解决方案来解决这个问题,称为协作多模态对抗攻击(Co-Attack)。这使我们能够集体地对图像模态和文本模态进行攻击。联合攻击的目的是鼓励扰动多模态嵌入远离原来的多模态嵌入,或鼓励扰动图像模态嵌入远离扰动文本模态嵌入。由于联合攻击可以适用于攻击多模态和单模态嵌入,因此它适用于融合VLP和对齐VLP模型。

攻击多模态嵌入。为了攻击多模态嵌入,协同攻击尝试协同扰动输入文本和输入图像,这鼓励扰动多模态嵌入远离原来的多模态嵌入。图3(a)显示,在不考虑两种攻击之间的一致性的情况下,香草攻击产生更小的合成扰动,而文本模态扰动和图像模态扰动之间的角度更大。相比之下,Co-Attack共同进行了文本模态扰动和图像模态扰动,获得了更强的合成扰动和更小的角度。如图4(a)和图4(c)所示,vanilla攻击产生的分布在[0,]上,Co-Attack缩小了分布范围,使主要分布在[0,]附近。

接下来,我们详细阐述了如何实现协同攻击。实现协同对抗攻击的主要挑战在于连续图像模态和离散文本模态之间的输入表示差距。为了解决这个问题,我们使用了一种逐步方案,首先扰动离散输入(文本),然后在给定文本扰动的情况下扰动连续输入(图像)。首先扰动文本模态输入的原因是在离散空间中很难优化所设计的目标。因此,我们从文本模态扰动开始,并将其作为标准,然后继续到图像模态扰动。对抗文本x't可由式(4)导出。对图像模态的对抗攻击由:

其中第二项对应于图3(A)中的, 是控制第二项贡献的超参数。对的敏感性在4.2.3节中讨论。上述优化问题可以通过类pgd程序轻松解决。

攻击单峰嵌入。对于攻击单模态嵌入,联合攻击试图鼓励扰动图像模态嵌入远离扰动文本模态嵌入。需要注意的是,单模态嵌入空间与多模态嵌入空间略有不同。如图3(b)所示,图像-文本样本对对应于单模态嵌入空间中靠近的两个不同表示,而不是多模态嵌入空间中的一个共享表示。结果表明,在不考虑两种攻击之间的一致性的情况下,香草攻击在文本模态扰动和图像模态扰动之间产生了更小的合成扰动和角。相比之下,CoAttack共同进行了文本模态扰动和图像模态扰动,获得了更大的合成扰动和角。如图4(B)和图4(d)所示,与vanilla攻击产生的相比,Co-Attack将移到更大的分布。

与攻击多模态嵌入类似,我们首先扰动输入文本,根据式(2)得到对抗文本x't。那么类似于式(6),我们对图像模态进行对抗性攻击如下:

其中第二项对应于图3(b)中的, 是控制第二项贡献的超参数。对的敏感性在4.2.3节中讨论。

实验

在本小节中,我们使用了与第3.1节相同的实验设置。MIM的动量项设置为0.9,SI的比例副本数量设置为5。我们把都设为3。

比较的结果。为了证明我们的方法的性能改进,我们将提出的联合攻击与5种基线攻击进行了比较,如下所示。

  • 愚弄VQA是一种针对分类问题(VQA模型)的攻击方法,利用ADAM优化器解决交叉熵损失,添加图像噪声[26]。

  • Yang等[28]使用单源对抗扰动(SSAP)来评估VLP模型的对抗鲁棒性,通过PGD来解决交叉熵损失以添加图像噪声。

  • SSAP-MIM和SSAP-SI是两种基线方法,通过分别引入更先进的MIM[2]和SI[11]来取代PGD,因为SSAP中的优化算法是可替换的。

  • 香草是第3节中分析的最强攻击,也作为基线方法介绍,例如Bi@Multifull用于VE任务上的ALBEF模型。

同样,Co-Attack也可以用SI代替优化算法中的PGD,记作Co-Attack-SI。为了公平的比较,对于不使用交叉熵的任务,即图像-文本检索,我们的方法和所有基线方法都将攻击嵌入式表示作为目标。对于使用交叉熵的任务,即VE和VG,我们的方法和所有基线方法都以逻辑表示为目标。

表7显示了图像-文本检索任务的比较结果。VE任务的对比结果如表8所示。我们可以观察到:(1)由于Vanilla采用了从我们在第3节的分析中观察到的最强攻击设置,Vanilla基本上获得了优于其他基线的攻击性能。验证了分析结果的可靠性。(2)联合攻击优于所有基线攻击。这说明协同攻击提高了攻击VLP模型的协同性能。

可视化的结果。为了更直观地理解Co-Attack,我们在图5中为RefCOCO+数据集上的ALBEF提供了VG任务的Grad-CAM可视化。Grad-CAM可视化反映了模型在做出决策[19]时所查看的热图。我们注意到,扰动单模态输入几乎不会改变热图。香草略微改变了热图,但在感兴趣的物体上仍然保持明显的区域。联合攻击使模型聚焦于偏离真实的区域,从而误导推理结果。

消融实验。我们进行消融实验,研究式(6)中和式(7)中的影响。我们将调整在[0,5]范围内,步长为1,分别考察了它们对ALBEF和CLIPViT的影响。ALBEF在SNLI-VE数据集上的可视化蕴涵结果如图6(a)所示,CLIPViT在COCO上的图文检索结果如图6(b)所示。结果表明,当 > 0和> 0时,攻击性能增强。由此可见式(6)和式(7)中第二项的重要性。当≥1和≥1时,结果具有可比性,这表明Co-Attack对超参数不敏感,并且不需要对超参数进行详细调优。

CONCLUSION

在本文中,我们研究了VLP模型的对抗性攻击。首先,分析了不同攻击设置下对抗性攻击的性能。根据所得的观察结果,我们总结了设计多模态对抗攻击和提高VLP模型鲁棒性的见解。其次,我们为VLP模型开发了一种新的多模态对抗攻击。我们希望本研究能引起人们对多模态模型对抗鲁棒性的独特性质的关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/350900.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HHDESK图片管理——批量重命名及递归搜索

HHDESK作为一款国产桌面软件&#xff0c;考虑到国人的操作及阅读习惯。因此我们开发了一些有意义的新功能&#xff0c;比如今天要介绍的图片批量重命名及递归搜索功能 1.图片批量重命名功能 网上下载的图片名称大多杂乱无章&#xff0c;一眼望去毫无头绪。 而windows自带的…

第41天|LeetCode198. 打家劫舍、LeetCode213. 打家劫舍II、LeetCode337. 打家劫舍III

1.题目链接&#xff1a;198. 打家劫舍 题目描述&#xff1a; 你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋。每间房内都藏有一定的现金&#xff0c;影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统&#xff0c;如果两间相邻的房屋在同一晚上被小偷闯入&a…

Ubuntu中利用aircrack-ng和Wireshark抓空口包

系统&#xff1a;Ubuntu20.04网卡&#xff1a;RTL8188CUS USB网卡工具安装sudo apt-get install aircrack-ngsudo add-apt-repository ppa:wireshark-dev/stable sudo apt update sudo apt install -y wireshark网卡确认网卡是否支持monitor模式&#xff0c;输入iw list命令&am…

Java最全八股文(2023最新整理)

本文已经收录到Github仓库&#xff0c;该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式、架构、校招社招分享等核心知识点&#xff0c;欢迎star~ Github地址&#xff1a;https://github.com/…

vTESTstudio - VT System CAPL Functions - VT2004

纵使生活有白般不顺&#xff0c;我们依然要千般喜乐&#xff0c;万般热爱&#xff0c;只因那些我们喜爱和爱我们的人儿。vtsLoadWFResistance - 从指定文件加载通道的电阻曲线功能&#xff1a;此函数从指定文件加载VT2004通道的电阻曲线注意&#xff1a;该函数不能在任何CAPL处…

电子技术——分立CS和CE放大器的低频响应

电子技术——分立CS和CE放大器的低频响应 我们之前在学习放大器中从来没有关系过信号频率对放大器的影响&#xff0c;也就是说我们默认放大器具有无限的带宽&#xff0c;这当然不符合现实逻辑。为了说明这一点&#xff0c;我们使用下图&#xff1a; 上图描述了MOS或BJT分立电路…

电脑录屏是哪个快捷键?3个录屏快捷键,教你快速录屏

在每天的办公、学习、生活中&#xff0c;很多小伙伴经常需要使用电脑录屏功能。想要快速进行电脑录屏&#xff0c;那么就需要使用电脑录屏的快捷键进行协助。电脑录屏是哪个快捷键&#xff1f;今天&#xff0c;小编就分享3个录屏快捷键&#xff0c;教你如何快速录屏。 一、电脑…

C语言格式化输入和输出; Format格式化

Format格式化 %1s或者%2s,%3s:取字符串的前1,2或者3位。%*c:屏蔽一个字符。%[A-Z]:取一个A到Z的值。 %[^a-z]:不取a到z的值。 %[^\n]&#xff1a;取非换行之前的值。printf("%5d", a):左边补 格式化&#xff1a;有正则在其中。 int main() {printf("%5d\n&quo…

二叉树讲解

对于二叉树&#xff0c;是真正的很难&#xff01;很难&#xff0c;不是一般的难度&#xff01;&#xff01;笔者学习完二叉树&#xff0c;笔记记录了得有三十多页&#xff0c;但是&#xff0c;还是很不理解&#xff08;做题不怎么会&#xff09;下面进入二叉树的基础部分&#…

无法决定博客主题的人必看!如何选择类型和推荐的 5 种选择

是否有人不能迈出第一步&#xff0c;因为博客的类型还没有决定&#xff1f;有些人在出发时应该行动&#xff0c;而不是思考&#xff0c;但让我们冷静下来&#xff0c;仔细想想。博客的难度因流派而异&#xff0c;这在很大程度上决定了随后的发展。因此&#xff0c;在选择博客流…

关于IDM下载器,提示:一个假冒的序列号被用来注册……idea项目文件路径报红

关于IDM下载器&#xff0c;提示&#xff1a;一个假冒的序列号被用来注册……到C:\Windows\System32\drivers\etc 修改目录下面的hosts文件&#xff08;如果没有修改的权限就右键属性hosts文件修改user的权限为完全控制&#xff09;&#xff0c;在hosts里面增加以下内容&#xf…

RadGraph: Extracting Clinical Entities and Relations from Radiology Reports代码

文章来源&#xff1a;NeurIPS 文章类别&#xff1a;IE(Information Extraction) RadGraph主要基于dygie&#xff0c;主要文件为inference.py。 inference.py&#xff1a; 1、get_file_list(data_path) def get_file_list(path):file_list [item for item in glob.glob(f&q…

遮挡贴图(Occlusion Map)和微表面贴图(Microsurface Map)

遮挡贴图&#xff08;Occlusion Map&#xff09; 在3D图形学中&#xff0c;遮挡&#xff08;Occlusion&#xff09;是指光被物体挡住。即便是在PBR中&#xff0c;环境光在某些应该被遮挡的地方&#xff0c;也会以古怪的方式被反射。遮挡贴图&#xff08;Occlusion Map&#xff…

ffmpeg h264文件转mp4

h264文件不能直接在网页上播放&#xff0c;比如在浏览器上输入http://10.0.0.2/2022-01-08T22-32-58.h264&#xff0c;变成了下载。 若在浏览器上输入http://10.0.0.2/2022-01-08T22-32-58.mp4&#xff0c;则可以播放。 本文讲解用ffmpeg将h264文件转换成mp4。 首先&#xf…

视频融合 flv流格式对接(上)

FLV 是FLASH VIDEO的简称&#xff0c;FLV流媒体格式是随着Flash MX的推出发展而来的视频格式。由于它形成的文件极小、加载速度极快&#xff0c;使得网络观看视频文件成为可能&#xff0c;它的出现有效地解决了视频文件导入Flash后&#xff0c;使导出的SWF文件体积庞大&#xf…

R-Drop: Regularized Dropout for Neural Networks 论文笔记(介绍,模型结构介绍、代码、拓展KL散度等知识)

目录前言一、摘要二、R-Drop介绍三、R-Drop公式详解四、R-Drop计算流程附录0&#xff1a;代码附录一&#xff1a;熵以及信息熵附录二&#xff1a;KL散度&#xff08;相对熵&#xff09;附录三&#xff1a;JS散度附录四&#xff1a;互信息总结前言 R-Drop——神经网络的正则化Dr…

必看!Salesforce管理员职场如何快速晋升?

2023年的开局略显艰难&#xff0c;在当前的经济环境下&#xff0c;许多行业仍面临挑战。虽然交易周期可能会变得更长&#xff0c;但对新的Salesforce实施仍有巨大需求&#xff0c;现有客户仍然需要经验丰富的专业人员来优化和维护他们的Salesforce组织。 在过去的三年中&#x…

大规模即时云渲染技术,追求体验与成本的最佳均衡

现实世界映射其中&#xff0c;传统文化沉浸其境&#xff0c;旧时记忆交互其间。 仲升&#xff5c;技术作者 IMMENSE&#xff5c;内容编辑 在刚刚过温的春节&#xff0c;云之上&#xff0c;带来了一场「数字文化」新体验。 游花车、舞狮子、踩高跷、放烟花、写福字……还记得儿…

2023最强软件测试面试题,精选100 道,内附答案版,冲刺金3银4

精挑细选&#xff0c;整理了100道软件测试面试题&#xff0c;都是非常常见的面试题&#xff0c;篇幅较长&#xff0c;所以只放出了题目&#xff0c;答案在评论区&#xff01; 测试技术面试题 1、什么是兼容性测试&#xff1f;兼容性测试侧重哪些方面&#xff1f; 2、我现在有…

css复习3

精灵图的使用 为了有效地减少服务器接收和发送请求的次数&#xff0c;提高页面的加载速度&#xff0c;出现了 CSS 精灵技术&#xff08;也称 CSS Sprites、CSS 雪碧&#xff09;。 核心原理&#xff1a;将网页中的一些小背景图像整合到一张大图中 &#xff0c;这样服务器只需要…