【综述+自动流量分析A】New Directions in Automated Traffic Analysis

news2024/12/23 14:11:49

文章目录

  • 论文简介
    • 摘要
    • 存在的问题
    • 论文贡献
      • 1. 整体架构
      • 2. nPrint
      • 3. nPrintML
      • 4. 任务
    • 总结
      • 论文内容
      • 工具
      • 数据集
      • 可读的引用文献
      • 笔记参考文献

论文简介

原文题目:New Directions in Automated Traffic Analysis
中文题目:自动流量分析的新方向
发表会议:CCS '21: 2021 ACM SIGSAC Conference on Computer and Communications Security
发表年份:2021-11-12
作者:Jordan Holland
latex引用

@inproceedings{holland2021new,
  title={New directions in automated traffic analysis},
  author={Holland, Jordan and Schmitt, Paul and Feamster, Nick and Mittal, Prateek},
  booktitle={Proceedings of the 2021 ACM SIGSAC Conference on Computer and Communications Security},
  pages={3366--3383},
  year={2021}
}

摘要

机器学习被用于安全领域的许多网络流量分析任务,从应用识别到入侵检测。然而,最终决定模型性能的机器学习管道的各个方面——特征选择和表示、模型选择和参数调优——仍然是手工和艰苦的。本文提出了一种自动化流量分析许多方面的方法,使机器学习技术更容易应用于更广泛的流量分析任务。

我们介绍了nPrint,一个生成统一的数据包表示的工具,适用于表示学习和模型训练。我们将nPrint与自动机器学习(AutoML)集成在一起,形成了nPrintML,这是一个公共系统,在很大程度上消除了各种流量分析任务的特征提取和模型调优。我们已经在8个独立的流量分析任务上对nPrintML进行了评估,并发布了nPrint和nPrintML,以使未来的工作能够扩展这些方法。

存在的问题

  1. 特征工程和模型选择是一个艰苦的过程,通常需要大量的专业领域知识来设计特征
  2. 即使有专家领域的知识,特征探索和工程在很大程度上仍然是一个脆弱和不完美的过程,因为特征的选择和如何表示它们会极大地影响模型的准确性。这样的人工提取可能会忽略那些不是很明显或涉及复杂关系的特征(例如,特征之间的非线性关系)
  3. 流量模式和条件总是在变化,模型和手工制作的特征会过时
  4. 每一个新的网络检测或分类任务都需要重新设计系统:设计新的特征,选择合适的模型,手动调整新的参数

论文贡献

  1. 设计了一个标准的数据包表示,nPrint,它以固有的规范化二进制表示对每个数据包进行编码,同时保留每个数据包的底层语义。nPrint使机器学习模型能够自动发现不同分类任务提供的数据包的重要特征集合,无需手动提取。
  2. nPrint与AutoML(一个我们称为nPrintML的系统)的集成可以实现自动模型选择和超参数调优,从而可以使用nPrint创建完整的流量分析管道——通常不需要编写代码

论文解决上述问题的方法:

提出了nPrint来自动化提取特征,解决了问题1,问题2,问题3
提出了nPrintML实现自动模型选择和超参数调优,解决了问题4

论文的任务:

自动化流量分类

1. 整体架构

在这里插入图片描述

2. nPrint

  • 设计要求:

    • 完整性:设计一个representation,包括包头的每一个bit

    这样设计的原因:避免这样一个领域知识:某个包报头字段(或字段组合)比其他字段更重要的问题。作者的直觉是,模型通常可以在没有人类指导的情况下,在给定完整的表示的情况下,自己确定哪些特征对给定问题是重要的。

    • 固定尺度:每种representation都必须是固定大小的——即使单个数据包或数据包头的大小不同

    这样设计的原因:这种知识避免了在存储的数据包跟踪上进行多次传递的需要,并且在数据流上下文中是必不可少的。

    • 规范化:当特征被归一化时,机器学习模型通常表现得比没做归一化时更好

    这样设计的原因:归一化减少了训练时间并提高了模型稳定性

    • 对齐:representation中的每个位置应该对应于所有包的包头的相同部分

    这样设计的原因:对齐允许模型基于特定特征(即数据包头)总是位于数据包中相同的偏移量这一事实来学习特征表示。虽然人类驱动的特征工程通过将每个数据包中的信息提取到格式良好的结构中来获得一致的特征,但在考虑二进制形式的数据包时需要此需求,因为协议和数据包的长度不同。任何不对齐的特征都会在学习过程中注入噪声,从而降低训练模型的准确性。

  • 构建标准数据表示
    nPrint支持三种表示网络流量的方法:

    • 语义(semantic)
    • 未对齐二进制(unaligned binary)
    • 混合(hybrid)
    • 语义表示(semantic representation)

      在这里插入图片描述
      每个报头都有语义字段,如IP TTL、TCP端口号和UDP长度字段。网络流量的标准语义表示将所有这些语义字段收集到一个表示中。这种语义表示是完整且大小恒定的,满足设计要求中的完整性固定尺度以及对齐

      缺点:

      1. 语义表示不保留选项字段的顺序,而选项字段长期以来一直用于区分指纹识别中的设备类别
      2. 需要领域专业知识来解析每个协议的语义结构,即使有了这些知识,确定每个特征的正确表示通常也是一项重要的工作。例如,领域知识可能表明TCP源端口是一个重要的字段,但可能需要进一步(通常是手动)评估,以确定是否应该将其表示为连续值,还是使用one-hot编码,以及是否需要在训练前对特征进行规范化。必须对以语义方式提取的每个字段做出这些决定,从IP地址到每个唯一的TCP选项,再到ICMP地址掩码。即难以脱离人工操作来满足规范化的要求
    • 未对齐二进制表示(unaligned binary representation)

      在这里插入图片描述
      使用原始的位图表示来保持顺序并减少对手动特征工程的依赖。这种选择导致了固定尺度、预规范化的表示,类似于每个数据包的“图像”。满足设计要求中的完整性固定尺度规范化

      缺点:

      1. 将每个数据包转换为其位图表示忽略了许多复杂的细节,包括不同的大小和协议。以上图为例,包含IP选项字段的TCP数据包不含IP选项字段的TCP数据包红框位置的bit含义不同,不含IP选项字段的TCP数据包不含IP选项字段的UDP数据包红框位置的bit含义也不同,但机器只知道输入的是0,1位信息,无从得知各个bit的含义。
    • 混合表示(hybrid nPrint representation)

      在这里插入图片描述
      nPrint是语义和二进制数据包表示的混合,将数据包表示为原始二进制数据,但以一种识别数据包本身具有特定语义结构的方式对二进制数据进行对齐。

      • nPrint 完整性:任何包都可以表示而不丢失信息
      • nPrint 固定尺度:每个包都用相同数量的特征来表示。对于给定的问题,我们将有效负载设置为可选的字节数。随着越来越多的网络流量被加密,有效负载无法用于许多流量分类问题。
      • nPrint 规范化:通过直接使用数据包的位并用-1填充不存在的头,每个特征取三个值中的一个:-1,0或1,消除了解析和表示每个数据包中每个字段值的需要
      • nPrint 对齐:使用内部填充并包括每个报头类型的空间,而不管该报头是否实际存在于给定的数据包中,确保每个数据包以相同数量的特征表示,并且每个特征具有相同的含义
      • nPrint模块化:可以将其他协议(例如ICMP)添加到表示中
      • nPrint可扩展性:nPrint是一个单包表示,可以用作需要一组包的分类问题的构建块(可以扩展到流分类问题上)

      nPrint的优势:

      1. 对齐使nPrint比许多网络表示具有明显的优势,因为它在位级别上是可解释的。这允许研究人员和从业者将nPrint映射回语义领域,以更好地理解驱动给定模型性能的特征。并不是所有的模型都是可解释的,但是通过一个可解释的表示,我们可以更好地理解那些可解释的模型。

      nPrint实现:https://github.com/nprint/nprint

3. nPrintML

nPrintML:https://github.com/nprint/nprintml

  • AutoML

    作者使用AutoGluon-Tabular对评估的所有八个问题进行特征选择、模型搜索和超参数优化。

4. 任务

  • 主动设备指纹识别(5.1)
  • 被动操作系统指纹识别(5.2)
  • DTLS应用识别(5.3)
  • 其他任务(5.4)
    在这里插入图片描述

总结

论文内容

  1. 学到的方法

    写论文的方法:

    创新点不一定非要设计一个新模型,提高准确率之类的,可以设计一个通用的模型,来简化之前研究,然后收集各个任务的数据集,在每个数据集上跑一下模型

  2. 论文优缺点

    优点:
    nPrintML:这种自动化为更快地迭代和部署网络机器学习算法铺平了道路,降低了实际部署的障碍。

    存在的问题:

    1. 捕获多个流量之间的时间关系,以及在更长的流量序列上运行nPrintML,仍然没有得到解决
    2. 当前 nPrintML 只支持两种数据集模式
    3. 这个工具只适合有原始 pcap 的场景。有些竞赛的数据集之类的,已经帮你把语义信息提取出来了,那么 nPrint 没有 pcap 文件也束手无策。不过这也不能叫完全的缺点,因为 nPrint 在实时分析上的作用还是比较大的
    4. 好像没说清是nPrint是怎么为实时流量打标签的,需要复现一下看看

工具

  • nPrint:https://github.com/nprint/nprint
  • nPrintML:https://github.com/nprint/nprintml

数据集

见下表:
在这里插入图片描述

可读的引用文献

  • AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data

笔记参考文献

https://zhuanlan.zhihu.com/p/448215353

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1271871.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SAP ABAP ALV-GRID-CLASS-SPLITTER一屏双页

ALV-GRID-CLASS-SPLITTER 备注说明: ALV屏幕分割,把一个ALV屏幕分成两个或多个屏幕 创建一个屏幕:0100,上面一个定制控件,名称: ALV_CONTAIN1 . 代码如下: PROCESS BEFORE OUTPUT.MODULE STATUS_0100.MODULE F_INIT_SPLITTER.MODULE F_CR…

IDEA中的Postman!

Postman是大家最常用的API调试工具,那么有没有一种方法可以不用手动写入接口到Postman,即可进行接口调试操作?今天给大家推荐一款IDEA插件:Apipost Helper,写完代码就可以调试接口并一键生成接口文档!而且还…

Ruoyi-Vue或者Ruoyi-Cloud登录进去之后的第一个页面如何修改(即如何去掉首页或者如何修改首页)

其实大家如果看过最近的码云上的issues 就能知道这个问题的答案了。 我这里给出一下链接:https://gitee.com/y_project/RuoYi-Vue/issues/I60JIY 开始 第一步,把router/index.js里面关于首页的路由给注释掉或者删除掉,如图: 第…

提醒事项删除了怎么恢复?手机上记录的提醒事项删除怎么恢复

“糟糕!我的提醒事项删除了几条,其中还有几条比较重要的内容,找不到回收站,也找不到最近删除的文件夹,单凭脑子回忆能想起来的内容少之又少,领导那边又催着要这份材料。”一大早,小刘就遇到这样…

数字图像处理(实践篇)十五 基于傅里叶变换的高通滤波和低通滤波

目录 一 Numpy 实现傅里叶变换 1 涉及的函数 2 实践 二 OpenCV 实现傅里叶变换 1 涉及的函数 2 实践 为了有效地和快速地对图像进行处理和分析,常常需要将原定义在图像空间的图像以某种形式转换(正变换)到另外一些空间,并利…

测试与管理 Quota

用myquota1创建一个大的文件测试 理论猜想:超过soft可以,但是超过hard就不行了,最大值就是hard,如果超过soft,过了17天不处理,最后限制值会被强制设置成soft。修改设置成hard值 切换测试用户,m…

阿里云国际短信业务网络超时排障指南

选取一台或多台线上的应用服务器或选取相同网络环境下的机器,执行以下操作。 获取公网出口IP。 curl ifconfig.me 测试连通性。 (推荐)执行MTR命令(可能需要sudo权限),检测连通性,执行30秒。 m…

对数据页的理解

1.InnoDB 是如何存储数据的? 数据表中的记录是按照行来存储的,但是数据库的读取并不以「行」为单位,否则一次读取(也就是一次 I/O 操作)只能处理一行数据,效率会非常低。 因此,InnoDB 的数据是按…

Git——工作区管理

如何管理工作目录,以便用户可以更高效地新建提交。如何在处理工作区和暂存区文件的过程中修复错误,以及如何修复最近一次提交记录中的问题;同时还会了解到如何安全地使用暂存机制和多个工作目录处理工作流中的中断问题。 主要内容有以下几点…

黑马微信小程序学习笔记

小程序和普通网页的区别 1、运行环境不同 网页运行在浏览器环境中 小程序运行在微信环境中 2、API不同 由于运行环境的不同,在小程序中无法调用DOM和BOM 的API(因为这两个API是浏览器暴露出来的,微信环境没有) 但是可以调用微信提…

华清远见嵌入式学习——C++——作业3

作业要求&#xff1a; 代码&#xff1a; #include <iostream>using namespace std;class Per { private:string name;int age;double *high;double *weight; public://有参构造函数Per(string n,int a,double h,double w):name(n),age(a),high(new double(h)),weight(ne…

统信UOS和vue.js的一个兼容问题

作者&#xff1a;朱金灿 来源&#xff1a;clever101的专栏 为什么大多数人学不会人工智能编程&#xff1f;>>> 这事到现在说起还很奇怪&#xff0c;在UOS20&#xff08;硬件为华为鲲鹏服务器&#xff0c;arm架构&#xff0c;g8.3&#xff09;上部署uve.js&#xff0…

利润大增,MAU膝斩,谋求转型的新氧头顶“荆棘王冠”

撰稿|行星 来源|贝多财经 近日&#xff0c;医疗美容服务平台新氧科技&#xff08;NASDAQ:SY&#xff0c;下称“新氧”&#xff09;发布了2023年第三季度未经审计的财务业绩报告。 财报显示&#xff0c;新氧于2023年第三季度实现收入3.85亿元&#xff0c;同比增长19.2%&#x…

SS8844T四通道 1/2 H 桥驱动芯片发,替代A4979,DRV8844,L6288,MP6527

SS8844T 提供四个可独立控制的 1/2 H 桥启 动器。 它可被用于驱动两个 DC 电机、一个步进 电机、四个螺线管或者其它负载。 针对每个通道 的输出驱动器通道由在一个 1/2 H 桥配置中进行配 置的 N 通道功率 MOSFET 组成。 SS8844T 在每个桥的通道上提供高达 2.5A 峰…

继承中的析构函数的权限的深入了解

如果一个父类中的析构函数如果设置为 private 权限 &#xff0c;一个子类public继承了这个父类&#xff0c;那么 这个父类可以创建对象吗&#xff1f; 答案是 不可以 看看下面的代码 class A { public:private:~A() {} };class B :public A {A a; // 这个地方编译不报错&…

零基础搭建本地Nextcloud私有云结合内网穿透实现远程访问

&#x1f308;个人主页&#xff1a;聆风吟 &#x1f525;系列专栏&#xff1a;网络奇遇记、Cpolar杂谈 &#x1f516;少年有梦不应止于心动&#xff0c;更要付诸行动。 文章目录 &#x1f4cb;摘要一. 环境搭建二. 测试局域网访问三. 内网穿透3.1 ubuntu本地安装cpolar3.2 创建…

JavaScript WebApi 一(详讲)

基础知识在前面的部分已经讲过了&#xff0c;大家如果没有学习过JavaScript的可以去看一下 1.DOM 引入 在JavaScript中&#xff0c;DOM&#xff08;文档对象模型&#xff09;提供了一种表示和操作HTML文档的方式。在DOM中&#xff0c;文档被表示为一个由节点组成的树形结构。…

IC修真院 | 芯片嵌入式课程重磅上线!

万物互联的时代&#xff0c;离不开嵌入式。 从传统的家用电器到工业控制&#xff0c;从汽车电子到医疗保健&#xff0c;从军事应用到物联网&#xff0c;嵌入式系统无处不在。 我们的后台也经常能收到大家关于“嵌入式”的咨询&#xff0c;也了解到了大家对于嵌入式课程的迫切…

探索前端设计的新境界——介绍IVueUI工具助力Vue页面设计

在快速发展的前端领域&#xff0c;Vue.js作为一款渐进式JavaScript框架&#xff0c;一直备受开发者喜爱。然而&#xff0c;在Vue前端开发的旅程中&#xff0c;页面设计常常是一个不可避免的挑战。今天&#xff0c;我要向大家介绍一款令Vue前端开发者受益匪浅的工具——www.ivue…

selenium+python

selenium 八大查找元素 from selenium import webdriver from selenium.webdriver.common.by import By# 创建一个 WebDriver 实例 driver webdriver.Chrome()# 打开网页 driver.get("https://www.baidu.com/")# 使用 find_element 方法查找元素 element driver.…