【论文阅读笔记】Detecting AI Trojans Using Meta Neural Analysis

news2024/11/23 2:23:33

个人阅读笔记,如有错误欢迎指出!

会议:2021 S&P        Detecting AI Trojans Using Meta Neural Analysis | IEEE Conference Publication | IEEE Xplore

问题:

        当前防御方法存在一些难以实现的假设,或者要求直接访问训练模型,难以在实践中应用。

创新:

        通过元分类器来预测给定目标模型是否被后门攻击。该方法不对攻击策略进行假设,仅为黑盒访问。

        为了在不了解攻击策略的情况下训练元模型,提出了jumbo learning,按照一般分布对一组特洛伊模型进行采样。然后将查询集与元分类器一起动态优化,以区分木马和良性模型。

方法:

        构建多个影子模型,将影子模型和影子模型的标签一同输入到元分类器中对影子模型进行分类。

        1、影子模型生成。生成了一组良性和木马影子模型。使用相同的干净数据集和不同的模型初始化来训练良性模型。对于木马模型提出了一个通用的木马分布,并从中采样了各种木马设置,并应用到中毒攻击生成不同的木马影子模型中。

        2、元训练。设计特征提取函数来获得影子模型的表示向量,并训练元分类器来检测后门模型。通过查询得到一组结果向量作为标签,并把该结果向量和影子模型的表示向量一同输入到元分类器中进行训练。在训练迭代中优化分类器和查询集。

        3、目标模型检测。给定一个目标模型,利用优化的查询集来提取模型的表示。然后,我们将表示提供给元分类器,预测是否是后门模型。

1、影子模型的生成

        jumbo learning:

        对不同后门设置进行建模\mathcal{I}并生成不同后门模型。x', y'是有毒样本和中毒标签,m是trigger的shape和位置,t是图案,\alpha是透明度。

        通过随机采样m,t,\alpha,y_t来获得不同的后门设置,下图是采样的后门示例。

        对每种中毒设置都训练其相应的影子模型,伪代码如下。首先随机采样木马攻击设置(第3行)。然后根据设置毒害数据集(第4-8行),并训练木马阴影模型(第9行)。多次重复这个过程以生成一组不同的木马模型。采样算法(第3行)和模型训练算法(第9行)对于不同的任务将是不同的。

2、元训练:基于上述生成的后门影子模型训练元分类器。

        特征提取函数:将一组查询提供给阴影模型,并使用输出向量作为其表示特征。对于影子模型f_i有二进制标签b_i表示该影子模型是良性or中毒。输入X=\{x_1,x_2,...,x_k\}查询影子模型得到k个向量。通过串联所有的输出向量,可以得到表示向量\mathcal{R}_i(X)作为影子模型f_i的特征

        元分类器:两层全连接网络

        元训练:希望同时优化查询集X和元分类器的参数\theta。随机选择查询集X,预先计算所有表示向量\mathcal{R}_i​,并且仅优化元分类器。对于具有\mathcal{R}_i和相应的标签b_i​,元训练只是通过基于梯度的优化来最小化二元分类器的损失:

        用损失函数同时优化查询集X和元分类器的参数\theta

        仅在良性影子模型上训练的元分类器

        训练模型以确定输入是否与其训练样本相似。如SVM将训练超平面,该超平面将所有训练数据与原点分离,同时最大化从原点到超平面的距离ρ

本文使用了一类神经网络,优化目标如下:

3、目标模型检测

        将模型表示向量输入到元分类器中,预测其标签

实验:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1194360.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基本数据类型小题两道

根据公式计算A地区教师任教年薪,统计键盘输入的字符串中数字个数,按字典序输出。 (笔记模板由python脚本于2023年11月10日 18:05:18创建,本篇笔记适合熟悉python列表、元、字符串等基本数据类型的coder翻阅) 【学习的细节是欢悦的历程】 Pyth…

vue同时校验多个表单

0 效果 1 代码 checkForm (formRef) {return new Promise((resolve, reject) > {this.$refs[formRef].validate((valid) > {if (valid) {resolve();} else {setTimeout(() > {this.$refs[formRef].clearValidate();reject(new Error(错误));}, 1500);}});}); }, conf…

【unity3D】Input Field组件(可供用户输入的文本框)

💗 未来的游戏开发程序媛,现在的努力学习菜鸡 💦本专栏是我关于游戏开发的学习笔记 🈶本篇是unity的Input Field组件 Input Field组件 基础属性详细解释 Unity中的InputField组件可以用来创建一个可供用户输入的文本框。 基础属性…

Linux内核密码模块

目录 密码算法介绍 Hash摘要算法 Cipher加解密算法 块密码算法 认证算法 MAC和HMAC AEAD算法 Linux内核密码模块的基本构件 Linux内核密码模块介绍 如何使用Linux密码模块 用户层调用Linux内核密码模块的方法 cryptodev AF_ALG 如何开发一个密码引擎驱动 开发一个…

Pycharm常用快捷键和替换正则表达式

原生快捷键的使用: 1.CtrlF:查找 2.CtrlZ:返回上一步 3.Alt 鼠标左键选择:多行同时编辑(上、下、左、右键能够移动光标) 按住Ctrl,左键点击,定位光标 编辑过程 URL常用的替换正则表达式&am…

从小白到测试专家:掌握Pytest的实用技巧和优秀实践

pytest是一个功能丰富且易于使用的Python测试框架,它建立在Python标准库的unittest模块之上,提供了更简洁、灵活和可读性强的测试代码编写方式。下面,我将按照步骤引导您学习pytest。 步骤1:安装pytest 首先,您需要安装…

python3.8及以上版本绑定gdal库的一个注意事项

作者:朱金灿 来源:clever101的专栏 为什么大多数人学不会人工智能编程?>>> gdal和python绑定参考文章:windows环境下python和gdal绑定方法   值得注意的是绑定python3.8及以上版本后在python程序中初始化gdal库时会出…

自媒体项目详述

总体框架 本项目主要着手于获取最新最热新闻资讯,以微服务构架为技术基础搭建校内仅供学生教师使用的校园新媒体app。以文章为主线的核心业务主要分为如下子模块。自媒体模块实现用户创建功能、文章发布功能、素材管理功能。app端用户模块实现文章搜索、文章点赞、…

Qt QTableWidget表格的宽度

默认值 QTableWIdget的表格宽度默认是一个给定值,可以手动调整每列的宽度,也不填满父窗口 MainWindow::MainWindow(QWidget *parent): QMainWindow(parent) {this->resize(800,600);QStringList contents{"11","111111111111",&…

ios 对话框 弹框,输入对话框 普通对话框

1 普通对话框 UIAlertController* alert [UIAlertController alertControllerWithTitle:"a" message:"alert12222fdsfs" pr…

Springboot自动装配(SPI技术、@Import动态加载配置类)

SpringBoot原理 起步依赖 依赖传递,a依赖b,b依赖c 自动配置 Springboot的自动配置就是当Spring容器启动后,一些配置类、bean对象就自动存入到了IOC容器中,不用手动配置了 Springboot采用的是EnableXXXX注解,分装…

带你一分钟看懂 “Docker”

2010年,几个搞IT的年轻人,在美国旧金山成立了一家名叫“dotCloud”的公司。 这家公司主要提供基于PaaS的云计算技术服务。具体来说,是和LXC有关的容器技术。 后来,dotCloud公司将自己的容器技术进行了简化和标准化,并…

腾讯云优惠券是什么?详细介绍及领取攻略来了!

1、腾讯云优惠券介绍 腾讯云优惠券是腾讯云推出的一种优惠活动,包括代金券和折扣券。代金券是可抵扣费用的优惠券,可以在结算时使用代金券抵扣订单金额。折扣券可以在结算时使用享受一定的折扣优惠。 2、腾讯云优惠券领取 领取入口:txy.in…

Bond配置文件配置

1、选择2个自己需要的网口,查看有哪些网口 [roothostname ~]# ifconfig -a [roothostname ~]#systemctl disable NetworkManager 开机不启动图形化网络服务 2、编辑网口的配置文件 [roothostname ~]# cd /etc/sysconfig/network-scripts [roothostname n…

GPT最佳实践:五分钟打造你自己的GPT

前几天OpenAI的My GPTs栏目还是灰色的,就在今天已经开放使用了。有幸第一时间体验了一把生成自己的GPT,效果着实惊艳!!!我打造的GPT模型我会放到文章末尾,大家感兴趣也可以自己体验一下。 打造自己的GPT模型…

竞赛选题 深度学习疲劳检测 驾驶行为检测 - python opencv cnn

文章目录 0 前言1 课题背景2 相关技术2.1 Dlib人脸识别库2.2 疲劳检测算法2.3 YOLOV5算法 3 效果展示3.1 眨眼3.2 打哈欠3.3 使用手机检测3.4 抽烟检测3.5 喝水检测 4 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 **基于深度学习加…

RedisDesktopManager连接不上redis的解决方法

RedisDesktopManager连接不上redis的解决方法 RedisDesktopManager是一款连接redis数据库的客户端。 当连接不上redis的时候,解决方案: 第一步:在自己的本机外面试下,能不能连接上虚拟机 打开cmd,使用ping 虚拟机ip地址。如果…

[PyTorch][chapter 61][强化学习-免模型学习 off-policy]

前言: 蒙特卡罗的学习基本流程: Policy Evaluation : 生成动作-状态轨迹,完成价值函数的估计。 Policy Improvement: 通过价值函数估计来优化policy。 同策略(one-policy):产生 采样轨迹的策略 和要改…

ros1 基础学习10 -全局字典参数的定义,获取,改值

全局字典参数的定义,获取,改值 一、参数模型二、 创建功能包三、参数命令行的使用(rosparam)四、使用程序来使用参数(C)4.1创建代码4.2编译4.3 编译文件 测试 在ROS Master中,存在一个参数服务器(Parameter…

MPSO-WPA

MPSO-WPA算法 DCAP means ’ discretized Cauchy’s argument principle’ 辅助信息 作者未提供代码