机器学习:自然语言处理上的对抗式攻击

news2025/1/17 13:56:46

Attacks in NLP

在这里插入图片描述

相关话题

在这里插入图片描述
在这里插入图片描述

Introduction

在这里插入图片描述
在这里插入图片描述
以前的攻击专注于图像和语音上,而NLP上的内容比较少。而NLP的复杂度跟词典有关系:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
NLP只能在embedding后的特征上加噪声

Evasion Attacks

在这里插入图片描述
在这里插入图片描述
电影的评论情感分类,将film换成films后,评论从消极变成了积极。
在这里插入图片描述
结构分析,如果改一个词后,结果完全不一样。
在这里插入图片描述
模型非常脆弱,看看有没有哪些方法让自己的模型更鲁棒一点。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

imitation Attacks在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
同义词替换

在这里插入图片描述
embedding空间中找相近向量进行替换

在这里插入图片描述
KNN聚类进行拉近

在这里插入图片描述

大模型预测进行替代
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
用embedding的梯度来获得单词的替换
在这里插入图片描述
按照使得loss变化的顺序排序,然后取top-k个单词使得loss最大
在这里插入图片描述
字符级别的替换,交换,删除,插入


Motivation

在这里插入图片描述

Example of Attack

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
加点杂信号就能让分类器识别错误。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
设计loss这块能使得无目标或者目标攻击成为可能。
在这里插入图片描述
在这里插入图片描述
在L2 norm下的情况下,改变一个和改变每个效果一样。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Backdoor Attacks

在这里插入图片描述
当不知道训练资料的话,如何进行攻击呢?这就是黑箱攻击。
在这里插入图片描述
集成攻击,对角线攻击。
在这里插入图片描述
深蓝色区域是其能正常被识别为正确的范围,攻击的话就是将其移动那个到不是蓝色区域。
在这里插入图片描述

One pixel attack

在这里插入图片描述
改变一个像素值就能让分类器失败。

Universal adversarial attack

在这里插入图片描述
找到了一个noise,加到非常多的图片都能让辨别器辨别错误。

除了图像,其它领域也可以被攻击,比如声音,NLP等。
在这里插入图片描述
在这里插入图片描述
在末尾加上标红的文字后,导致问答系统的答案都是一样的

Attack in the Physical world

在这里插入图片描述
给男人加一个眼镜,导致摄像头识别算法识别为右边的女人。
在这里插入图片描述
对车牌系统进行攻击,对标致的识别系统。
在这里插入图片描述
将3的横线给拉长一点,结果导致特斯拉导致速度限制为35看成了85,导致加速。

在这里插入图片描述
白色方块的数量会对应不同的类别。

在模型里面开一个后门:
在这里插入图片描述
在训练阶段就开始攻击,虽然训练数据是人眼看起来正常的 ,只会对某一张图片辨识错误,而不会对其他图片产生错误。
公开的图片训练集(里面可能暗含攻击图片)

Defense

在这里插入图片描述

被动防御

训练好了就不要动了,在模型前面加一个盾牌。
在这里插入图片描述
比如模糊化处理,对原来的图像影响甚小,但是对攻击图像的影响是巨大的。另外也稍微会给置信率降低一点点。
在这里插入图片描述
在这里插入图片描述

  • 图像压缩
  • 图像生成:用图像生成产生相同的输入图像,进而过滤攻击图片

在这里插入图片描述
如果一旦被别人知道你的被动防御措施,别人可以更新攻击进而攻破你的被动防御。比如模糊的那一个处理,就可以当做网络的第一层。

在做defense的时候加上你的随机性,各种不同的defense,让攻击方不知道你的防御是什么。

主动防御

训练一个鲁棒的不容易被攻破的模型。
在这里插入图片描述

制作了一个新的训练资料,每个样本都被攻击过,但是标签被纠正过。然后将两批数据一起训练。
如果找到新的攻击数据,就加到训练数据中进一步训练。
在这里插入图片描述
但是它不太能挡住新的攻击,还是能够被攻击破的,另外就是需要不断的重复训练,需要比较大的训练资源。

有人发明了一种方法,能够做到adversairal training for free, 不再需要新的计算资源。
在这里插入图片描述

Summary

在这里插入图片描述
攻击和防御方法都在进化中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/997930.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

637. 二叉树的层平均值

637. 二叉树的层平均值 题目-简单难度示例1. bfs 题目-简单难度 给定一个非空二叉树的根节点 root , 以数组的形式返回每一层节点的平均值。与实际答案相差 10-5 以内的答案可以被接受。 示例 示例 1: 输入:root [3,9,20,null,null,15,7] 输出&…

DQN模型

1. DQN模型 References [1] 强化学习第五节(DQN)【个人知识分享】_哔哩哔哩_bilibili

在MDK-Keil中开发S32K144

对于NXP的S32K1xx系列MCU,前面已经介绍过,官方有专门支持该系列MCU开发的IDE工具——S32DS,这个工具还有对应的代码生成配置工具,而且也是官方推荐使用的工具。 S32DS开发环境是基于Eclipse改写的,熟悉Eclipse的话可以…

python使用百度AipOCR来实现图像文字识别

上篇文字讲到了可以截屏手机模拟器上的界面并传回电脑上,文章链接 python将手机模拟器截屏并发送至电脑上_小小爬虾的博客-CSDN博客 传回来以后,就可以识别出图片中的文字内容了。 我使用的是Python3.10.4+百度的AipOCR库实现图像文字识别…

利用Scrum敏捷工具管理敏捷产品迭代Sprint Backlog

​什么是Sprint Backlog? Sprint Backlog是Scrum的主要工件之一。在Scrum中,团队按照迭代的方式工作,每个迭代称为一个Sprint。在Sprint开始之前,PO会准备好产品Backlog,准备好的产品Backlog应该是经过梳理、估算和优…

systemserver的inputdispatcher直接产生CANCEL事件原理分析-讨厌的android触摸面试题

背景回顾: 上一个blog已经重点讲解了app层面自己产生的Cancel触摸事件,大概产生的原理如下: 上一个blog地址:https://blog.csdn.net/learnframework/article/details/124086882 即可以看出来,在服务端systemserver其实…

国家信息中心举办“数字政府建设暨数字安全技术”研讨会:海云安提出数字政府软件供应链安全解决方案

近日,由国家信息中心主办,复旦大学研究院承办的“数字政府建设暨数字安全技术研讨会”在义乌顺利召开。国家信息中心信息与网络安全部副主任禄凯,复旦大学党委常委、宣传部部长陈玉刚,义乌市委常委、常务副市长喻新贵为会议致辞。…

三、C#—变量,表达式,运算符(3)

🌻🌻 目录 一、变量1.1 变量1.2 使用变量的步骤1.3 变量的声明1.4 变量的命名规则1.5 变量的初始化1.6 变量初始化的三种方法1.7 变量的作用域1.8 变量使用实例1.9 变量常见错误 二、C#数据类型2.1 数据类型2.2 值类型2.2.1 值类型直接存储值2.2.2 简单类…

【rust/egui】(十)使用painter绘制一些图形—connections

说在前面 rust新手,egui没啥找到啥教程,这里自己记录下学习过程环境:windows11 22H2rust版本:rustc 1.71.1egui版本:0.22.0eframe版本:0.22.0上一篇:这里 绘制连接 在上一节我们使用painter绘制…

《深度学习初探:使用TensorFlow和Keras构建你的第一个神经网络》

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

GCP之Google Cloud Infrastructure

Google Cloud 的物理网络是如何连接的? Google Cloud 分为 regions,regions 又分为 zones。 region 是一个地理区域,其中一个 VM 到另一个 VM 的往返时间 (RTT) 通常小于 1毫秒;zone 是 region 中的部署区…

canvas基础笔记

一、简介 Canvas是HTML5中的一个元素,它提供了一个可以使用JavaScript绘制图形的区域。它提供了一个强大的绘图API,可以用于创建各种图形,包括线条、矩形、圆形、文本等 Canvas 是 HTML5 中的一个元素,用于绘制图形、动画和图像。…

架构核心技术之微服务架构

小熊学Java:https://www.javaxiaobear.cn/,文末有免费资源 本文我们来学习微服务的架构设计 主要包括如下内容。 单体系统的困难:编译部署困难、数据库连接耗尽、服务复用困难、新增业务困难。 微服务框架:Dubbo 和 Spring Clou…

sdkman 的安装配置与 sdk 管理

sdkman 的安装配置与 sdk 管理 记录一下项目使用的工具,目前环境的管理有以下几个: sdkmanpyenvnvm 这里主要讲一下 sdkman,我们项目是通过 sdkman 进行 java 和 maven 的管理,这个写的挺简单的,加上一个自己写的自…

unipush2.0实现APP消息推送(2)云函数多个方法的创建与使用

问题:上篇文章我们已经介绍到了unipush2.0消息推送的实现思路,但是遇到一个问题就是如何在一个云函数里写多个方法供传统服务端调用? 这样做的目的:这样传统服务端就可以调用一个云函数url路径传递不同的参数标识走不同的方法了 …

uni-app--》基于小程序开发的电商平台项目实战(一)

🏍️作者简介:大家好,我是亦世凡华、渴望知识储备自己的一名在校大学生 🛵个人主页:亦世凡华、 🛺系列专栏:uni-app 🚲座右铭:人生亦可燃烧,亦可腐败&#xf…

《AI一键生成抖音商品种草文案》让你秒变带货王!

在这个数字化的时代,我们的生活被各种应用所包围,其中,抖音作为一款短视频分享平台,已经成为了我们生活中不可或缺的一部分。然而,作为一名抖音创作者,你是否曾经遇到过这样的困扰:在创作商品种…

Linux C : select简介和epoll 实现

目录 一、基础知识 二、select 模型服务流程 二、select 模式的缺点。 三、poll 概要 四、epoll 服务端实现流程 1.epoll_create: 2.epoll_ctl 3.epoll_wait 五、epoll示例代码实现 1.epoll实现服务端 2.客户端采用tcp进行访问 一、基础知识 首先要知道&…

flink的几种常见的执行模式

背景 在运行flink时,我们经常会有几种不同的执行模式,比如在IDE中启动时,通过提交到YARN上,还有通过Kebernates启动时,本文就来记录一下这几种模式 flink的几种执行模式 flink嵌入式模式: 这是一种我们在…

基于keras中Lenet对于mnist的处理

文章目录 MNIST导入必要的包加载数据可视化数据集查看数据集的分布开始训练画出loss图画出accuracy图 使用数据外的图来测试图片可视化转化灰度图的可视化可视化卷积层的特征图第一层卷积 conv1 和 pool1第二层卷积 conv2 和 pool2 MNIST MNIST(Modified National …