朴素二进制表示法

news2025/3/11 0:04:36

思路方案
在安全领域的研究中我们发现,很多数据预处理的步骤,在不同的场景下中都可以相互
借鉴,甚至可以进行直接复用。例如,对于加密流量相关的数据,当算法工程师
获取到一批加密流量的 pcap 包之后,不论他们面临的任务是加密流量的精确识别、异常检测,还是恶
意软件的检测,对 pcap 包最原始的数据预处理思想是大同小异的,例如采集流级特征、包
级特征等并将其转化成 csv 文件。SecXOps 对在安全领域中一些常见的通用数据预处理方式
进行了模块化
封装,从简单的数据去重、文件合并、数据清洗,到高级的特征提取,如 pcap文件转 csv 文件,数据降维等,支持用户通过手动设置相关参数,对当前数据进行处理。
以 pcap 文件转 csv 文件为例,传统基于机器学习的网络流量分析严重依赖人工,在实践
中,获得特征、模型和参数的最优组合通常是一个迭代的过程,这个过程有一些弊端。首先,
数据的合适表示和特征选择对于流量分析任务是十分重要的,但即便有专业领域知识,特征
工程仍然是一个脆弱且不完善的过程,人工分析时可能会忽略不够明显的或包含复杂关系的特征;其次,网络环境复杂多变,流量模式的变化带来特征的失效;最后,对于每一个新的
流量检测或分类任务,都需要重新设计新的特征,选择合适的模型,并重新调整参数。为了
避免这些问题,本节中展示一种使用 SecXOps 实现的加密流量分析方法。
对于许多分类问题,数据表示与模型选择同等重要,所以在应用机器学习方法时,如何
对数据进行表示和编码是非常重要的。对于网络流量数据的编码需要满足以下几个要求:
(1)完整的表示。该方法的目标不是选择特定的特征,而是一种统一的数据编码,以避
免依赖专家知识,所以需要保留包含包头在内的所有数据包信息;
(2)固定的大小。许多机器学习模型的输入总是保持相同的大小,所以每个数据包表示
都必须是常量大小;
(3)固有的规范化。当特征被归一化后,机器学习模型通常会表现得更好,也能减少训
练时间并增加模型的稳定性,所以如果数据的初始表示本身就是规范化的,将会非常方便;
(4)一致的表示。数据表示的每个位置都应该对应于所有数据包包头的相同部分,也就
是说,即使协议和报文长度不同,特定的特征总是在数据包中具有相同的偏移量,对齐后的
数据都能让模型基于这样的前提来学习特征表示。在这里插入图片描述如上图所示,网络流量表示的主要方式包括语义表示法和朴素二进制表示法。
(1)语义表示法:每个报头都有各自的语义字段,但它不保留具有区分度的可选字段的
顺序,同时需要领域专业知识来解析每个协议的语义结构,另外,尽管拥有这些知识,后续
还是不可避免地要进行繁琐的特征工程;
SecXOps 安全智能分析技术白皮书
024
(2)朴素二进制表示法:使用数据包的原始位图表示来保持顺序,但是忽略了不同的大
小和协议,导致两个数据包的特征向量对同一特征具有不同的含义,这种不对齐可能会在重
要特征的地方引入噪声而降低模型性能,同时也因为无法将每一位都映射到语义上而导致结
果的不可解释
在这里插入图片描述
以上两种表示方法都无法满足统一化数据表示的需求,如上图所示,SecXOps 内置的数
据预处理模块 nPrint,解决了单一表示方法无法统一化表示数据的问题。首先,它会保证任
何数据包都可以被完整表示而不丢失任何信息;然后,使用内部填充确保每个数据包以相同
数量的特征表示,并且每个特征具有相同含义,这种在位级上可解释的表示使我们能够更好
地理解模型;其次,直接使用数据包的位,区分于某个位被设置为 0,将不存在的包头用 -1
填充;最后,每个数据包都用相同数量的特征表示,对于给定的网络流量分析任务,将载荷
设置为可选的字节数。此外,nPrint 具有模块化和可扩展的特性,不仅可以将其他协议添加
到表示中,也可以将一组数据包表示串联起来构建多包的 nPrint 指纹 [14]。
经过 nPrint 处理之后,即可将 pcap 包转成 csv 文件,随后可以进行进一步的特征处理
或直接进行算法训练。
除了上述提到的几种数据处理方式之外,SecXOps 还支持用户将个人编辑的数据预处理
模块进行封装并重复使用,实现定制化的数据清洗、数据增强等功能

参考资料

绿盟SecXOps安全智能分析技术白皮书

友情链接

GB-T 36630.5-2018 信息安全技术 信息技术产品安全可控评价指标 第5部分:通用计算机

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/93081.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

「Docker学习系列教程」基础篇小总结及高级篇预告

通过前面十来篇的学习,我们已经把docker基础篇学习完了。这篇文章,咱们就来小总结下基础篇学习的东西以及介绍接下来高级篇中,将会学习到哪些知识点。 基础篇总结: 第一篇, 凯哥就介绍了怎么在Centos系统中安装D…

【微服务之分布式全局Id】分布式全局ID生成

分布式全局ID解决方案 1、UUID 最容易想到的就是 UUID (Universally Unique Identifier) 了, UUID 的标准型式包含 32 个 16 进制数字,以连字号分为五段,形式为 8-4-4-4-12 的 36 个字符,这个是 Java 自带的,用着也简…

DBCO-PEG-Silane|DBCO-PEG-SIL|二苯并环辛炔-聚乙二醇-硅烷

DBCO-PEG-Silane,DBCO 试剂是一类点击化学标记试剂,含有非常活泼的 DBCO((二苯并环辛炔)基团,DBCO 试剂可以通过无铜点击化学与叠氮化物标记的分子或生物分子发生反应。DBCO 点击化学可以在水性缓冲液中运行…

用噪点滤镜回忆童年电视机的雪花屏

介绍 相信很多人80,90后的同学对童年里电视机的突然出现刺啦刺啦的雪花屏记忆犹新,本期将用 pixi.js 来完成一个电视机播放动漫然后突然出现雪花屏的动画,里面主要讲解了如何使用pixi.js播放帧动画和如何用噪点滤镜制造雪花屏。 演示 正文 初始化渲染…

web前端网页设计期末课程大作业:关于城市旅游的HTML网页设计 ——北京

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓,页面排版干净简洁。使用HTMLCSS页面布局设计,web大学生网页设计作业源码,这是一个不错的旅游网页制作,画面精明,排版整洁,内容…

微服务框架 SpringCloud微服务架构 多级缓存 48 多级缓存 48.2 OpenResty 快速入门

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 多级缓存 文章目录微服务框架多级缓存48 多级缓存48.2 OpenResty 快速入门48.2.1 直接开干48 多级缓存 48.2 OpenResty 快速入门 48.2.1 直…

Linux(三) makefile与gdb调试

makefile mkefile文件中定义了一系列的规则来指定,哪些文件需要线编译,哪些后编译,哪些需要重新编译,甚至进行更复杂的功能操作,因为makefile就像一个Shell脚本一样,其中也可以执行操作系统的命令。 mkef…

java计算机毕业设计基于安卓Android的教学考勤系统APP

项目介绍 首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要包罗软件架构模式、整体功能模块、数据库设…

4个表格1个工具,解决客户的分类及管理

1897年,意大利经济学者帕累托发现:“社会上20%的人占有80%的社会财富”。 后来这一法则被发现可以适用到很多领域,包括客户管理。具体解释为“一家企业80%的收益来源于20%的客户”,即20%客户创造了企业80%的收益。 由于20%的客户…

分布式事务处理方案大 PK

[toc] 说好了写 TienChin 项目的,最近这个分布式事务算是一个支线任务吧,今天是再来一个短篇和小伙伴们总结一下分布式事务。 首先先说一个大原则:分布式事务能不用就不要用,毕竟这个用起来还是有一些麻烦的。当然,不…

B/S端界面控件DevExtreme内置的图标库介绍

DevExtreme拥有高性能的HTML5 / JavaScript小部件集合,使您可以利用现代Web开发堆栈(包括React,Angular,ASP.NET Core,jQuery,Knockout等)构建交互式的Web应用程序,该套件附带功能齐…

闯关

我回来啦!停更的几个月,我生了个娃。6.7斤的小虎妞,健健康康、白白胖胖。她现在已经五个多月了,能抬头、会翻身、会咯咯咯地笑、能拿住小玩具、还能摘我的眼镜……过程挺曲折的。不夸张地说,鬼门关溜达了一圈。好在&am…

邀请函小程序开发,减少设计制作局限性

随着社交平台和互联网技术的发展,很多产品的类型都在不断地发生着改变,就连邀请产品现在都出现了电子版的邀请函,颠覆了我们对于传统纸质邀请函的认知。无论是在日常生活学习还是工作中我们都会用到邀请函,而现在越来越多的人倾向…

Android逆向中常用工具和命令

Android逆向中常用工具和命令 Wifi ADB Google Store wifi ADB 当没有数据线时,可以开启wifiADB adb connect 192.168.0.101:5555开始食用 android 运行shell命令 https://github.com/termux/termux-app/releases ADB shell 截图 vim ~/.bash_profile curre…

CAD怎么添加打印机设备?CAD打印机添加步骤

CAD打印时未在系统中找到合适的打印机该怎么办呢?CAD怎么添加打印机设备?本文小编就以浩辰CAD软件为例来给大家分享一下CAD添加打印机设备的详细操作步骤吧! CAD添加打印机设备步骤: 首先在浩辰CAD中打开图纸文件,然后…

Speckle+IFC.js:开源BIM

2021年12 月底,我有机会参加了一个关于两个开源工具的网络研讨会:Speckle 和 IFC.js。 该网络研讨会是由一个名为 Agile BIM 的社区组织的,我对此也一无所知。 然而,我所知道的事实是开源软件开发在任何领域的重要性,开…

C#基于ASP.NET的社区人口管理系统

论文阐述了社区人口信息管理系统的设计与实现,并对该系统的需求分析及系统需要实现的设计方法作了介绍。该系统的基本功能包括用户登录,管理员信息管理,常住人口管理,迁出人口信息管理,迁入人口信息管理,查…

Docker安装RabbitMq延迟队列插件

// todo 文章目录一:下载延迟队列插件1. 地址2. 把刚刚下载的插件拖拽至虚拟机中二: 进入容器执行延迟队列插件1. 延迟插件拷贝到容器内部2. 进入容器,让插件生效3. 再次查看交换机类型一:下载延迟队列插件 1. 地址 &#xff1a…

20221216英语学习

今日新词: duplicate v.复制; 被复制; 复写; 复印; 重复; 使加倍; 使成双 September n.九月 scandal n.丑事,丑闻,丑行 considerate adj.考虑周到的,体贴的,体谅的 report n.报告, 报道, 汇报, 调查报告 across …

前端实现分页打印(一)

实现页面为结算单,也页面由固定头部,订单信息,产品列表,金额汇总,订单明细 其中产品列表需要动态计算分压,订单明细由于存在多个子单,订单收费项目可配置化,导致也存在多个分页需要处…