[CCS 2022] 皇帝没有衣服:用于网络安全的AI/ML

news2024/11/23 19:18:24

AI/ML for Network Security: The Emperor has no Clothes

CCS '22: Proceedings of the 2022 ACM SIGSAC Conference on Computer and Communications Security

https://dl.acm.org/doi/abs/10.1145/3548606.3560609

摘要

最近的一些研究工作提出了基于机器学习(ML)的解决方案,它可以针对广泛的网络安全问题检测网络流量中的复杂模式。然而,由于不了解这些黑箱模型是如何做出决定的,网络运营商就不愿意信任它们并在其生产设置中部署它们。这种不情愿的一个关键原因是,这些模型容易出现不规范的问题,这里定义为未能足够详细地指定模型。不是唯一的网络安全领域,这个问题表现在毫升模型表现出意外的不良行为时部署在现实世界设置,促使越来越多的兴趣开发可解释的毫升解决方案(例如,决策树)为人类人类解释如何给定的黑箱模型的决策。然而,综合这些可解释的模型,高保真地捕捉给定的黑箱模型的决策,同时也很实用(即体积足够小,让人类理解)是具有挑战性的。

在本文中,我们着重于综合高保真度和低复杂度的决策树,以帮助网络操作员确定他们的ML模型是否存在不规范的问题。为此,我们提出了一个Trustee框架,该框架以现有的ML模型和训练数据集作为输入,并生成一个高保真、易于解释的决策树和相关的信任报告作为输出。使用已发布的完全可重复的ML模型,我们展示了从业者如何使用受托人来识别模型不规范的三个常见实例;例如,快捷学习的证据,虚假相关性的存在,以及对分布外样本的脆弱性。

引言

在过去的几年中,我们目睹了网络安全社区的日益紧张的局势。最近的研究已经证明了人工智能(AI)和机器学习(ML)模型比更简单的基于规则的启发式模型在识别各种网络安全问题的复杂网络流量模式方面的好处(参见最近的调查文章,如[9,46,55,62])。与此同时,我们也看到网络安全研究人员和从业人员不愿意在生产设置中采用这些基于ML的研究工件(例如,参见[2,4,58])。这些提出的解决方案的黑盒性质是这种谨慎态度和整体犹豫的主要原因。更具体地说,与现有的更简单但通常不那么有效的基于规则的方法相比,由于无法解释这些模型是如何以及为什么要做出它们的决策的,这使得它们很难被推销出去。

这种紧张关系并不是网络安全问题所特有的,而是更普遍地适用于任何学习模式,特别是当它们的决策可能产生严重的社会影响时(例如,医疗保健、信用评级、就业申请和刑事司法系统)。与此同时,这种基本的紧张关系也推动了最近的努力来开放黑盒学习模型,解释它们为什么以及如何做出决定(例如,łinterpretable MLz [51],łexplainable AI(XAI)z [59],和łtrustworthy AIz [12])。然而,确保这些努力是实际应用领域的人工智能/毫升等网络安全是挑战,需要进一步的资格概念如(模型)可解释性或信任(模型)[40]也需要解决一些基础研究问题在这些新领域的人工智能/毫升

这里,不规范的问题在现代AI/ML是指确定训练模型的成功(例如,高精度)确实是由于其固有的能力编码一些基本结构的底层系统或数据或只是一些归纳偏见的结果,训练模型编码。在实践中,归纳偏差通常表现在捷径学习策略[28]、虚假相关性[3]的迹象或固有的分布失调(o.o.d.)。泛化(即,测试数据分布不同于训练数据分布)。这种归纳偏差的含义是,它们在训练过的AI/ML模型中的存在阻止了这些模型的可信度;也就是说,在部署场景中按照预期进行概括。因此,为了在本文所考虑的ML模型中建立特定类型的信任,能够识别这些归纳偏差是至关重要的,本文为实现这个雄心勃勃的目标迈出了第一步。

为了检测网络安全问题的学习模型中的不规范问题,我们开发了受托人(面向trust的决策TreE提取)。这个框架提供了一种方法,以仔细检查黑箱学习模型的存在归纳偏差。图1显示了受托人如何增强传统的ML管道,以检查一个给定的ML模型的可信度。专门考虑到网络安全应用领域开发的,受托人将给定的黑盒模型和用于将该模型训练的数据集作为输入,并以高质量决策树(DT)解释的形式输出łwhite-boxz模型

重要的是,在综合这种DT时,受托人的重点首先是确保它的实际使用,反过来,需要利用特定领域的观察来在模型保真度(即DT相对于黑盒模型的准确性)、模型复杂性和模型稳定性之间取得平衡。在这里,复杂性指的是DT的大小和树的分支的各个方面。特别是,当把树的分支看作是决策规则时,我们关心的是它们的明确性和可理解性;也就是说,我们要求这些规则易于被领域专家识别,并在很大程度上与专家的领域知识相一致。另一方面,模型的稳定性涉及决策规则的正确性、覆盖范围和稳定性;也就是说,我们要求他们正确地描述给定的黑箱模型如何做出大量的决策,并且希望它们影响对受托人在选择最终DT解释过程中使用的特定数据样本不敏感。

我们通过实现一种启发式方法来实现这种不敏感性或稳定性,该方法从许多不同的候选DTs中选择具有最高平均一致性的一个。在这里,两个不同的DTs之间的一致性是衡量两个DTs对相同的输入数据[30,60]做出相同决定的频率的一个指标。在实践中,实现这种启发式减少了受托人输出误导性的DT解释的可能性。受托人还输出一份与DT解释相关的信托报告,操作员可以咨询该报告,以确定是否有证据表明给定的黑箱模型存在规格不足的问题。如果发现了这样的证据,信任报告中提供的信息可以用于识别传统ML管道的组件(例如,训练数据和模型选择),这些组件需要进行修改,以努力改进受托人发现不值得信任的ML模型。

虽然我们的工作有助于关于模型可解释性的ML文献,并受到该领域正在进行的发展的启发,但我们的努力和目标在许多重要方面不同于现有的方法。首先,考虑到网络学习问题的固有复杂性,现有的方法用łwhite-boxz模型取代黑盒模型,首先可以解释(例如,决策树)通常是不切实际的。此外,局部可解释性方法[31,48,53]不适用于检查欠规范问题的各种实例。与此同时,尽管我们的努力是由先前关注全局可解释性[6,7,37]的研究推动的,但这些工作要么只适用于特定类别的学习模型(例如,强化学习),要么保真度较差。

通过各种案例研究,我们在第7节中说明了运营商如何使用受托人的dt和相关的信托报告来检测归纳偏差的存在。更具体地说,我们使用可重复的ML模型(即代码库和数据集公开)显示网络运营商如何使用受托人提供的信息来检测快捷学习策略的实例,获得过拟合的证据和/或模型是否依赖虚假相关性做出决定,或确定模型无法推广到分布外的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/337113.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

工业废水的种类及其处理工艺有哪些?特定目标污染物的深度去除

随着工业的迅速发展,工业废水的种类和数量随之增加,对水体的污染也日趋严重,威胁人类的健康和正常生活。所以工业废水的处理对于环保至关重要。 保护生态环境、更好地做好工业废水的处理,了解工业废水及其种类与处理非常必要。 工…

MySQL 删除数据库

使用普通用户登陆 MySQL 服务器,你可能需要特定的权限来创建或者删除 MySQL 数据库,所以我们这边使用 root 用户登录,root 用户拥有最高权限。 当数据库不再使用时应该将其删除,以确保数据库存储空间中存放的是有效数据。删除数据…

【Hello Linux】 Linux基础命令

作者:小萌新 专栏:Linux 作者简介:大二学生 希望能和大家一起进步! 本篇博客简介:介绍Linux的基础命令 Linux基础命令ls指令lsls -als -dls -ils -sls -lls -nls -Fls -rls -tls -Rls -1总结思维导图pwd指令whoami指令…

Python 条件语句

Python条件语句是通过一条或多条语句的执行结果(True或者False)来决定执行的代码块。可以通过下图来简单了解条件语句的执行过程:Python程序语言指定任何非0和非空(null)值为true,0 或者 null为false。Python 编程中 i…

【正点原子FPGA连载】第八章UART串口中断实验 摘自【正点原子】DFZU2EG_4EV MPSoC之嵌入式Vitis开发指南

1)实验平台:正点原子MPSoC开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id692450874670 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html 第八章UART串口中…

【SSD 代码精读】之 数据增强(Data Augmentation)

SSD 数据增强前言1、Compose2、SSDCropping3、Resize4、ColorJitter5、ToTensor6、RandomHorizontalFlip7、Normalization8、AssignGTtoDefaultBox前言 原论文 根据原论文,我们需要处理的有以下: data_transform {"train": transforms.Com…

vue2.x中使用vuex

Vuex是什么? Vuex是一个专门为Vue.js应用程序开发的状态管理模式。它采用集中式存储来管理应用程序中所有组件的状态,并以相应的规则保证状态以一种可预测的方式发生变化。Vuex也被集成到了Vue的官方调试工具vue-devtools中,提供了诸如零配置…

Java:使用Java功能确保应用程序安全的方法

与添加新功能一样重要的是,应用程序开发人员需要开始更加重视他们设计的应用程序的安全性。毕竟,更多的应用程序功能意味着更多的数据驻留在应用程序中。如果没有适当的安全控制,这些数据很容易被入侵者窃取。Java是目前世界上最安全、最流行…

如何去阅读源码,我总结了18条心法

在聊如何去阅读源码之前,先来简单说一下为什么要去阅读源码,大致可分为以下几点原因:最直接的原因,就是面试需要,面试喜欢问源码,读完源码才可以跟面试官battle提升自己的编程水平,学习编程思想…

不要慌,我们谈一谈如何用好 ChatGPT

别人贪婪时我恐惧,别人恐惧时我贪婪。 ——巴菲特 ChatGPT 火了,技术领域的社交媒体、自媒体几乎被 ChatGPT 刷屏,这些内容当中最让人惶恐不安的是我们是否会被 AI 取代之类的文章。 比如以下几个文章标题: 《ChatGPT可能马上…

Transformer结构解读

咱们还是照图讨论,transformer结构图如下,本文主要讨论Encoder部分:图一一、首先说一下Encoder的输入部分:在NLP领域,个人理解,这个inputs就是我们的句子分词之后的词语,比如“我,喜…

符号让人疯狂

符号让人疯狂 判断背了个LV符号的包就想可能有钱 趣讲大白话:人是通过符号区分生活的 聪明人想想:能超越或摆脱符号依赖吗? *********** 信息社会加速符号的传递和创造 我们已经被各种信息传递的符号淹没 信息符号的筛选成了人的主要工作 再…

GRB非隔离系列宽电压输入负高电压输出 电压控制型

特点● 效率高达70%以上● 1*2英寸标准封装● 单电压负输出● 价格低● 电压控制,输出电压随控制电压变化线性变化● 工作温度: -40℃~85℃● 阻燃封装,满足UL94-V0 要求● 温度特性好● 可直接焊在PCB 上应用GRB 系列模块电源是一种DC-DC升压变换器。该模块电源的输…

十、Linux文件 - fread函数讲解

目录 1.fread函数讲解 2.fread函数实战 1.fread函数讲解 从文件中读入数据到指定的地址中 函数原型: size_t fread(void*buff , size_t size, size_t count , FILE* stream) /* * description :对已打开的流进行数据读取 * param ‐ ptr :指向 数据块的…

好用的电脑备份软件推荐

现在几乎每个人都有一台电脑,上面存储着大量的数据,比如宝贵的照片、视频、工作文档等等。但电脑也随时存在许多威胁,比如病毒、Windows 更新错误、死机黑屏、驱动程序问题、系统崩溃等。为防止任何数据丢失,你需要一个专业的电脑…

Oracle数据库故障处理-单块读hang存储异常导致hang死,数据库大量的db file seq read等待(p1 p2无反映)

1 故障描述 2023年1月27日下午接到业务反馈数据库存在大量的锁表阻塞信息,并且业务的页面以及数据库的一些查询均处于阻塞状态,简单的查询sql也需要查询很长时间且未返回结果,数据库hang状态。 问题现象2 1 数据库进程无法杀除。 2 操作系统进程使用…

也许你应该学学 postman了

使用 最简单的方法就是直接在浏览器中复制 Copy as cURL ,然后把数据导入 postman,然后 send ,收工。 我们这里拿 知乎首页 举例 在对应的请求下复制 cURL 打开 postman , 点击左上角的 Import , 选择Paste Raw Tex…

如何使用逻辑分析仪,解析通信数据

如何使用逻辑分析仪,解析通信数据使用工具:逻辑分析仪(几十块买的裸板),软件是:PulseView一、在开发或者移植某一个模块时,你可能遇到这样的问题:二、逻辑分析仪的使用使用工具&…

二级C语言操作例题(四十)

一、程序填空题 在此程序中,函数fun的功能是:在形参s所指字符串中寻找与参数c相同的字符,并在其后插入一个与之相同的字符,若找不到相同的字符则不做任何处理。 例如,若s所指字符串”baacda”,中c的字符为…

JavaWeb-JavaScript API

目录DOM获取元素事务操作操作元素获取/修改元素属性获取/修改表单元素属性实现一个全选效果,主要是操作input的checked属性获取/修改元素样式点击放大字体夜间模式(关灯开灯)操作节点新增节点删除节点案例-猜数字案例-表白墙DOM DOM 全称为 Document Object Model.…