语义表示法

news2025/3/10 8:04:05

思路方案
在安全领域的研究中我们发现,很多数据预处理的步骤,在不同的场景下中都可以相互
借鉴,甚至可以进行直接复用。例如,对于加密流量相关的数据,当算法工程师
获取到一批加密流量的 pcap 包之后,不论他们面临的任务是加密流量的精确识别、异常检测,还是恶
意软件的检测,对 pcap 包最原始的数据预处理思想是大同小异的,例如采集流级特征、包
级特征等并将其转化成 csv 文件。SecXOps 对在安全领域中一些常见的通用数据预处理方式
进行了模块化
封装,从简单的数据去重、文件合并、数据清洗,到高级的特征提取,如 pcap文件转 csv 文件,数据降维等,支持用户通过手动设置相关参数,对当前数据进行处理。
以 pcap 文件转 csv 文件为例,传统基于机器学习的网络流量分析严重依赖人工,在实践
中,获得特征、模型和参数的最优组合通常是一个迭代的过程,这个过程有一些弊端。首先,
数据的合适表示和特征选择对于流量分析任务是十分重要的,但即便有专业领域知识,特征
工程仍然是一个脆弱且不完善的过程,人工分析时可能会忽略不够明显的或包含复杂关系的特征;其次,网络环境复杂多变,流量模式的变化带来特征的失效;最后,对于每一个新的
流量检测或分类任务,都需要重新设计新的特征,选择合适的模型,并重新调整参数。为了
避免这些问题,本节中展示一种使用 SecXOps 实现的加密流量分析方法。
对于许多分类问题,数据表示与模型选择同等重要,所以在应用机器学习方法时,如何
对数据进行表示和编码是非常重要的。对于网络流量数据的编码需要满足以下几个要求:
(1)完整的表示。该方法的目标不是选择特定的特征,而是一种统一的数据编码,以避
免依赖专家知识,所以需要保留包含包头在内的所有数据包信息;
(2)固定的大小。许多机器学习模型的输入总是保持相同的大小,所以每个数据包表示
都必须是常量大小;
(3)固有的规范化。当特征被归一化后,机器学习模型通常会表现得更好,也能减少训
练时间并增加模型的稳定性,所以如果数据的初始表示本身就是规范化的,将会非常方便;
(4)一致的表示。数据表示的每个位置都应该对应于所有数据包包头的相同部分,也就
是说,即使协议和报文长度不同,特定的特征总是在数据包中具有相同的偏移量,对齐后的
数据都能让模型基于这样的前提来学习特征表示。在这里插入图片描述如上图所示,网络流量表示的主要方式包括语义表示法和朴素二进制表示法。
(1)语义表示法:每个报头都有各自的语义字段,但它不保留具有区分度的可选字段的
顺序,同时需要领域专业知识来解析每个协议的语义结构,另外,尽管拥有这些知识,后续
还是不可避免地要进行繁琐的特征工程;

(2)朴素二进制表示法:使用数据包的原始位图表示来保持顺序,但是忽略了不同的大
小和协议,导致两个数据包的特征向量对同一特征具有不同的含义,这种不对齐可能会在重
要特征的地方引入噪声而降低模型性能,同时也因为无法将每一位都映射到语义上而导致结
果的不可解释
在这里插入图片描述
以上两种表示方法都无法满足统一化数据表示的需求,如上图所示,SecXOps 内置的数
据预处理模块 nPrint,解决了单一表示方法无法统一化表示数据的问题。首先,它会保证任
何数据包都可以被完整表示而不丢失任何信息;然后,使用内部填充确保每个数据包以相同
数量的特征表示,并且每个特征具有相同含义,这种在位级上可解释的表示使我们能够更好
地理解模型;其次,直接使用数据包的位,区分于某个位被设置为 0,将不存在的包头用 -1
填充;最后,每个数据包都用相同数量的特征表示,对于给定的网络流量分析任务,将载荷
设置为可选的字节数。此外,nPrint 具有模块化和可扩展的特性,不仅可以将其他协议添加
到表示中,也可以将一组数据包表示串联起来构建多包的 nPrint 指纹 [14]。
经过 nPrint 处理之后,即可将 pcap 包转成 csv 文件,随后可以进行进一步的特征处理
或直接进行算法训练。
除了上述提到的几种数据处理方式之外,SecXOps 还支持用户将个人编辑的数据预处理
模块进行封装并重复使用,实现定制化的数据清洗、数据增强等功能

参考资料

绿盟SecXOps安全智能分析技术白皮书

友情链接

GB-T 36630.5-2018 信息安全技术 信息技术产品安全可控评价指标 第5部分:通用计算机

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/93184.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

详解即时通讯音视频开发实时语音通讯丢包补偿技术

即时通讯应用中的实时音视频技术,几乎是IM开发中的最后一道高墙。原因在于:实时音视频技术 音视频处理技术 网络传输技术 的横向技术应用集合体,而公共互联网不是为了实时通信设计的。 现如今,随着移动互联网越来越普及&#xf…

【复习笔记】计算机组成原理复习重点——篇六

计算机组成原理复习重点笔记 第三篇 中央处理器 第6章 计算机的运算方法第7章 指令系统第8章 CPU的结构和功能 第6章 计算机的运算方法 6.1 无符号数和有符号数 6.2 数的定点表示和浮点表示 6.3 定点运算 6.4 浮点四则运算 6.5 算术逻辑单元 6.1 定点数的表示 真值…

【JAVA程序设计】基于JAVA Swing的飞机票订票系统-有报告

基于JAVA Swing的飞机票订票系统零、项目获取一、项目简介二、开发环境三、项目结构四、运行截图零、项目获取 获取方式(点击下载):是云猿实战 项目经过多人测试运行,可以确保100%成功运行。 一、项目简介 本项目是基于JAVA Sw…

华玉通软“雨燕”通信中间件通过德国莱茵TÜV ISO 26262 ASILD级功能安全产品认证

华玉通软(下称“华玉”)今天宣布“雨燕”通信中间件(SWIFT DDS)已通过独立第三方检测、检验和认证机构----德国莱茵TV集团(下称*TV莱茵*)的ISO 26262 ASIL D级功能安全产品认证,成为国内首个基于…

【简单项目实战】用C++实现学生成绩管理系统 | [面向对象]

目录 ●功能介绍 ●案例 ●代码展示 ●结果展示 ●功能介绍 用 C设计一个程序,能提供下列功能: 1. 录入学生成绩信息。按照学号,姓名,语文,数学,英语的格式录入学生的成绩。 2.展示目前录入学生的成绩信息。以学…

丰立智能深交所上市:市值33亿 王友利家族色彩浓厚

雷递网 雷建平 12月15日浙江丰立智能科技股份有限公司(简称:“丰立智能”,证券代码:301368)今日在深交所创业板上市。丰立智能本次发行股票3010万股,发行价为22.33元,募资6.72亿元。丰立智能开盘…

java+控制台-学生选课管理系统

java控制台-学生选课管理系统一、系统介绍二、功能展示1.用户登陆2.管理员3.老师.学生四、其它1.其他系统实现2.获取源码一、系统介绍 系统实现了: 管理员: 1.管理课程 2.管理教师 3.管理学生 4.修改管理员密码 5.修改管理员名称 0.退出 老师: 1.修改密…

使用Maven创建多模块父子Spring Boot工程

使用Maven创建Spring Boot工程_紫月下枫叶的博客-CSDN博客目录1、开发环境2、创建普通maven工程3、添加Spring Boot父工程4、添加Web场景依赖5、添加主程序6、添加Controller7、添加配置文件8、运行服务9、浏览器访问服务1、开发环境IDE:IntelliJ IDEA 2020.3.4JDK&…

【VScode插件开发】<一>开发环境准备

VScode作为一款轻量级的IDE开发工具,非常好用,也是跨平台,对于习惯在命令行敲代码的人来说,简直不要太优秀。 VScode强大的一点就在于能够支持各种插件,对于一个想自己倒腾的程序员来说,能自己定义自己的写…

STM8开发实例-UART及重定向

UART及重定向 文章目录 UART及重定向1、UART简单介绍2、硬件准备3、软件准备4、驱动实现4.1 UART1基本定义4.2 驱动函数实现4.2.1 UART1驱动实现4.2.2 UART3驱动实现5、串口重定向1、UART简单介绍 串行通信可能是最常用的经典通信方法,用于将 PC 或其他机器与 micro 接口。 只…

如何将PDF转换为PPT?2个免费好用的pdf转ppt工具

这个教程教你如何将PDF文件变成PowerPoint演示文稿文件。有几个不同的免费在线网站,您可以使用它们将PDF转换为PowerPoint演示文稿。请记住,扫描的 PDF(如扫描到计算机中的文档)无法转换为可编辑的 PowerPoint 演示文稿。 方法1、…

(五)本地镜像发布到私有库将私有库上的镜像下载到本地

目录 一、下载镜像Docker Registry 二、运行私有库Registry 三、创建一个新镜像,例如:ubuntu安装ifonfig命令 四、curl验证私服库上有什么镜像 五、将新镜像修改符合私服规范的tag 六、修改配置文件使之支持http 七、push推送到私服库 八、curl再…

Anaconda和python是什么关系?

【anaconda】指的是一个开源的【Python】发行版本,是一个安装、管理【python】相关包的软件,自带了【python、Jupyter Notebook编辑器、Spyder、conda】等工具,常见的科学计算类的库都包含在里面了,使得安装比常规【python】安装要…

BI@report钻取操作

1.创建的表为浮动表 注意设置成浮动维单元格 把东西都选在红色框框里面 2.在对需要进行钻取的表元设置 设置参数 注意 参数是传递用的,值取的是当前表的值,这样参数可以带着这个表的值往下传 使用的是SQL数据源 在最后加上这行代码 having rso1.par…

「WGCLOUD」搭建安装教程, 极简高效的服务器状态监控面板

WGCLOUD安装部署步骤(Linux版) 1、首先我们在网站(​ ​www.wgstart.com​​)下载安装包 下载最新版本即可,如下图Linux版本的wgcloud-v3.4.2包中,默认包含server和agent,如果其他VPS要监测&a…

我通过了软考高项,有些话想说

文章目录1. 软考成绩2. 备考过程与经验3. 遇到的坑4. 论文准备5. 资料及寄语1. 软考成绩 昨天下午得到了一个振奋人心的消息,我的软考通过了,感觉努力没有白费很欣慰,也感觉有很多话要说(真不是得瑟)。可能很多人不了…

汇编语言dos功能调用(顺序程序练习)

目录 1号功能键盘输入并回显 2号功能显示器显示一个字符 9号功能显示器显示字符串 4C号功能,返回DOS , 10号功能,输入字符串(大纲上有,但是没考过) 练习 1小写字母转大写 2:输出hello wor…

【Java版oj】逆波兰表达式求值

目录 一、原题再现 二、问题分析 三、完整代码 一、原题再现 150. 逆波兰表达式求值 有效的算符包括 、-、*、/ 。每个运算对象可以是整数,也可以是另一个逆波兰表达式。 注意 两个整数之间的除法只保留整数部分。 可以保证给定的逆波兰表达式总是有效的。换句话…

Kubernetes核心指标监控——Metrics Server详解

1、概述 从Kubernetes v1.8 开始,资源使用情况的监控可以通过 Metrics API的形式获取,例如容器CPU和内存使用率。这些度量可以由用户直接访问(例如,通过使用kubectl top命令),或者由集群中的控制器&#x…

Simulink|电动汽车、永磁电动机建模与仿真

目录 1 永磁同步电机 1.1 概述 1.2 PMSM 的建模 1.3 PMSM 的矢量控制 1.4 使用 SIMSCAPE 块建模 1.5 子系统ECU 2 直流电机 3 电动车 1 永磁同步电机 1.1 概述 本文旨在模拟永磁同步电机的性能,该电机使用 Rinehart 运动系统-交流电机控制器进行控制。首先收…