观成科技-基于自适应学习的人工智能加密流量检测技术

news2024/11/16 20:38:27

1.前言

人工智能技术的广泛应用正在深刻改变我们的生活。在网络安全领域,基于机器学习的检测技术也应用在许多场景中。随着信息技术的迅猛发展和数字化转型的深入推进,加密技术逐渐成为保障网络安全和数据隐私的核心手段,而基于机器学习的检测技术已成为应对加密威胁的重要方式。

由于网络流量巨大,如果检测模型频繁产生大量警报,将严重干扰安全人员的分析和研判工作。为了解决这个问题,我们可以采用自适应学习技术。这种技术通过从现网中收集实时网络流量,并将其作为训练集的一部分,动态更新模型,从而有效降低模型的误报率,并提高模型的准确率。

2.对比分析

  1. 固化模型

在流量检测领域,由于加密技术的应用越来越广泛,基于传统的明文检测方法失效,但是机器学习算法可以通过对非加密内容数据作为训练数据,从中发现其中规律,进而有效的鉴别恶意流量。而基于机器学习技术的检测方法通常会使用预先收集的正常业务流量(白流量)与恶意加密流量(黑流量)构建训练集,然后通过训练模型进行检测,这样的模型称之为固化模型。然而,经过实际验证发现,由于预先收集的白流量与客户特定场景网络环境的白流量存在差异,固化模型的灵活性与适应性不够,会使模型出现一些误报,从而增加了安全研究人员分析与研判的难度。下图展示了其处理流程:

  1. 自适应模型

为了进一步提高固化模型的实际效果,可以采用自适应模型。这种方法通过在部署位置本地收集客户特定网络环境流量并将其作为训练集的一部分来扩充白流量的数据集,然后训练出的模型可以适应不同现网环境,更好地区分可能出现的恶意加密流量。下图展示了该处理流程:

在自适应模型中,使用历史数据构建的数据集训练模型后,在现网环境中会周期性收集客户现网的白流量(因为客户侧绝大多数的流量都是白流量),而后采用增量学习的方式将其加入到原有模型中,以完成模型的动态更新。自适应模型能够很好地适应客户侧现网流量的变化情况,相比于固化模型,它显著减少了许多误报的问题,检测效果得到了大幅提升。

  1. 原理解释

在构建自适应模型时,引入了增量学习的概念,这也是构建自适应模型的核心技术。增量学习的目的是学习系统能够不断从新样本中学习新知识,并且能够保留大部分先前学习到的知识。在构建自适应模型的过程中,引入增量学习技术能够在充分学习新环境中的知识的同时,不会遗忘模型学到的历史知识,从而丰富了模型的检测能力。这样的方法使得模型能够不断地适应变化的环境,并持续提升其检测能力。

  1. 自适应学习面临的技术问题

应用自适应学习技术时,需要解决以下技术问题:

  1. 数据分布未知

现网数据可能存在短时间内数据量大且相对单一的情况,因此需要应对未知的数据分布,以保证模型的鲁棒性。

  1. 恶意加密流量难获取

在现网流量中获取具有恶意加密流量的数据可能是一项挑战,需要寻找解决方案以获取足够的恶意加密流量进行学习,例如利用模拟攻击、合成数据或其他数据增强技术。

  1. 流量不平衡

正常业务流量(白流量)与恶意加密流量(黑流量)在现网流量数据中可能存在极大的不平衡,这需要采用有效的处理方法,如过采样、欠采样、类别权重调整等,以确保模型对各种情况都具有良好的适应性。

  1. 设备计算资源限制

现网设备的计算资源有限,因此在实施增量学习时需要考虑性能和效率,以确保在有限的资源下取得最佳效果,可以采用轻量化模型、优化算法或分布式计算等方法来解决该问题。

解决这些技术问题,可以有效应用自适应学习技术,并提高模型的适应性、鲁棒性和性能效果。

  1. 处理流程

在考虑到上述这些问题后,可以采用以下步骤进行处理:

  1. 数据预处理

提取流量中的行为特征,并进行去重、处理缺失值等初步预处理操作,以准备数据用于后续处理。

  1. 白流量获取

在现网数据获取阶段,针对复杂的正常业务流量(白流量),通过多时段的随机采样方法,获取新的代表性数据,以确保覆盖流量的多样性和变化性。

  1. 黑流量获取

针对难以获取的恶意加密流量(黑流量),利用历史的黑流量数据,采用基于数值扰动的数据增广方法,模拟生成新的黑流量数据,以扩充恶意加密流量的多样性。

  1. 参数调整

由于现网数据中的正常业务流量和恶意加密流量可能存在不平衡,根据上一步获取的实时流量数目,基于代价敏感学习,进行类别权重的调整,以消除偏置,使得模型能够平衡地对待不同类别的流量。

  1. 现网实验结果

在某现网环境下,针对TLS协议的Cobalt Strike检测和Webshell检测,我们进行了固化模型和自适应模型的检测对比,结果如下:

对于Webshell检测,我们收集了现网中共5万条白流量,并使用固化模型和自适应模型进行检测对比。实验结果显示,固化模型检测结果分数高于50的为1300条,而自适应模型结果仅有140条。(分数高于50分意味着模型预测该条流量是黑流量的可能性大于预测为白流量的可能性)

对于Cobalt Strike检测,我们同样收集了现网中共5万条白流量,并使用固化模型和自适应模型进行检测对比。实验结果显示,固化模型检测结果分数高于50分的为53条,而自适应模型结果仅有1条。

从测试结果可以看出,采用自适应模型后误报明显减少。这显示自适应模型在现网环境下具有更好的准确性和鲁棒性,能够更有效地识别出真正的威胁,减少了误报的问题。

  1. 结语

针对目前基于预先训练模型的机器学习技术检测恶意流量在现网特定网络环境中存在误报率偏高的现象,引入基于增量学习的自适应学习技术,通过在一定时间周期内提取客户现场的白流量,我们使得原有的固化模型能够学习到最新的流量知识,从而大大减少了误报率,提升了检测能力。

观成科技团队将持续研究自适应学习技术,为恶意加密流量检测做出贡献。我们致力于不断改进和优化人工智能检测模型,以适应不断变化的威胁环境,并提供更准确、可靠的检测方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1526486.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode 面试经典150题 274.H指数

题目: 给你一个整数数组 citations ,其中 citations[i] 表示研究者的第 i 篇论文被引用的次数。计算并返回该研究者的 h 指数。 根据维基百科上 h 指数的定义:h 代表“高引用次数” ,一名科研人员的 h 指数 是指他(她…

滑块验证码

1.这里针对滑块验证给了一个封装的组件verifition,使用直接可以调用 2.组件目录 3.每个文件的内容 3.1 Api文件中只有一个index.js文件,用来存放获取滑块和校验滑块结果的api import request from /router/axios//获取验证图片 export function reqGe…

影响交易收益的因素有哪些?

在尝试做交易时,你可能会问自己一个问题:交易一天能赚多少钱?“如果我全职投入交易,一天能赚多少?”或者更广泛地说,“交易能为我带来怎样的财富?”这些问题本质上都充满了不确定性,…

upload-labs-pass01

1.安装好环境进入关卡(记得打开小皮) 2.可以看到第一关是要求上传图片,但是同时限制了图片类型,那么如果我们将木马写入图片,但是类型又不在白名单,就要想办法绕过 3.可以看到这里的要求是有check&#xff…

计算机组成原理——自己制作一个cpu

cpu包括单周期cpu、中断cpu、多周期cpu 代码实现之后在实验箱看效果,并且看波形图 单周期波形 中断cpu 多周期cpu 1.单周期CPU总体电路图 如图是一个简单的基本上能够在单周期CPU上完成所要求设计的指令功能的数据通路和必要的控制线路图。其中指令和数据各存储在不…

怎么批量去掉文件名中的空格?

怎么批量去掉文件名中的空格?在日常工作和生活中,我们经常会遇到文件名中含有空格的情况。这些空格可能是因为拷贝、重命名或其他操作时产生的,给文件的管理和识别带来了一定困扰。为了更好地整理和管理文件,批量去掉文件名中的空…

一文速通半监督学习(Semi-supervised Learning):桥接有标签与无标签数据

一文速通半监督学习:桥接有标签与无标签数据 前言背景补充:监督学习、半监督学习、无监督学习半监督学习(Semi-supervised Learning)的魔法一、半监督学习的三个常见的基本假设1. 连续性假设(Smoothness Assumption)2. 聚类假设&a…

【视频图像取证篇】模糊图像增强技术之锐化类滤波场景应用小结

【视频图像取证篇】模糊图像增强技术之锐化类滤波场景应用小结 模糊图像增强技术之锐化类滤波场景应用小结—【蘇小沐】 (一)锐化类滤波器 模糊消除类滤波器(Remove blur / Unsharpness)。 通用去模糊滤波器:针对大…

多线程在线检测网速流量HTML源码

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 三、学习资料下载 一、详细介绍 多线程在线检测网速流量html源码,测试您的网速,多地查询您的IP地址,同时具备网络延迟实时检测,流量杀手,流量消耗器&#x…

申请Github Education获取免费Copilot权限(2024.3.18实测成功)

起因:旧帐户Copilot权限被封 我已经离开Github Copilot就无法独自耐着性子写代码了(懒惰AI成瘾性),这两天Github Copilot不知道为什么在大规模封号,我不幸也被封号了(禁用掉了Github Copilot权限&#xff…

微信自动回复的好处,如何设置

自动回复的好处: 1、支持自定义不重复触发时间和生效时间段,使得回复效果更为智能; 2、支持多个微信设置,并可直接导入素材库内容,以提高工作效率; 3、具备多个关键词和多条回复内容,从而使自…

Acwing.1360 有序分数(递归or最小公因数)

题目 给定一个整数 N,请你求出所有分母小于或等于 N,大小在 [0,1]范围内的最简分数,并按从小到大顺序依次输出。 例如,当 N5时,所有满足条件的分数按顺序依次为: 输入格式 共一行,包含一个整…

十二、Transformer(Attention Mechanism)

参考Transformer详解 和 Transforner模型详解 1 Transformer 整体结构 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。 ​ 2 Transformer 局部结构 2.1 输入层 Transformer 中的输入层是由单词的 Word Embedding 和 …

传统电力运维企业的数字化转型案例

一. 传统电力运维企业面临的主要问题 上海某电力集团企业下属有成套设备公司、电力工程公司,依托于自身的设备制造和工程服务能力,以及多年积累的终端客户资源,几年前该公司成立了电力运维服务公司进入用户侧电力托管运维服务行业。 该公司…

4-激活函数:给机器注入灵魂

声明 本文章基于哔哩哔哩付费课程《小白也能听懂的人工智能原理》。仅供学习记录、分享,严禁他用!!如有侵权,请联系删除 目录 一、知识引入 (一)背景 (二)激活函数 &#xff08…

vulhub中DNS域传送漏洞复现

DNS协议支持使用axfr类型的记录进行区域传送,用来解决主从同步的问题。如果管理员在配置DNS服务器的时候没有限制允许获取记录的来源,将会导致DNS域传送漏洞。 环境搭建 Vulhub使用Bind9来搭建dns服务器,但不代表只有Bind9支持AXFR记录。运行…

知识管理系统(KMS)和AI的融合十大场景

我向AI问了一个问题,KMS和AI融合有哪些场景,不得不说AI越来越强大了,他给我列出了十个场景,老铁们知道有哪些可以落地的吗? 将知识管理系统(KMS)与人工智能(AI)融合有着广…

ELK集群实战

1、 Elasticsearch集群部署 服务器 安装软件主机名IP地址系统版本配置ElasticsearchElk10.12.153.180centos7.5.18042核4GElasticsearchEs110.12.153.178centos7.5.18042核4GElasticsearchEs210.12.153.179centos7.5.18042核4G 2、创建运行的ES普通用户 3、上传es的数据包 …

代码随想录阅读笔记-哈希表【三数之和】

题目 给你一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a b c 0 ?请你找出所有满足条件且不重复的三元组。 注意: 答案中不可以包含重复的三元组。 示例: 给定数…

spring注解驱动系列--AOP探究一

一、AOP--动态代理 指在程序运行期间动态的将某段代码切入到指定方法指定位置进行运行的编程方式 二、使用栗子 一、导入aop模块 <dependency><groupId>org.springframework</groupId><artifactId>spring-aspects</artifactId><version>4…