【人工智能】—XGBoost算法在构建互联网防火墙异常行为识别模型应用案例

news2024/11/29 14:53:53

摘要: 近年来,各地党委、政府加快推进新型工业化,部署实施制造强市战略,提出工业企业“智改数转”是推动全市工业经济稳增长的重要引擎,更是稳增长、促发展的重要抓手。今天博主就以互联网防火墙异常行为识别为例给大家介绍一种“智改数转”普遍运用于数字制造新型工业化的强大算法。

关键词: XGBoost, 异常行为识别,互联网安全,机器学习

READY GO!

随着互联网技术的飞速发展,网络攻击手段也日益多样化和隐蔽化。传统的防火墙技术虽然在一定程度上能够防御常见的网络威胁,但对于新型的、复杂的攻击模式,其识别能力往往显得力不从心。为了应对这一挑战,越来越多的研究者开始将目光投向机器学习领域,尤其是那些能够处理高维数据集并具有较强泛化能力的算法,如XGBoost。

XGBoost,即eXtreme Gradient Boosting,是一种基于梯度提升决策树的集成学习算法。它通过构建多个弱预测模型,并将它们组合起来,以提高整体模型的预测准确性。XGBoost在处理分类和回归问题时表现出色,尤其是在需要处理大量特征和复杂数据结构的场景中。

在构建互联网防火墙异常行为识别模型时,XGBoost算法的优势主要体现在以下几个方面:

  • 高效率:XGBoost算法优化了传统梯度提升算法的计算过程,提高了模型训练的速度。
  • 高准确性:通过正则化项的引入,XGBoost能够在保持模型复杂度的同时,减少过拟合的风险。
  • 可扩展性:XGBoost支持并行处理,能够高效地处理大规模数据集。
    灵活性:XGBoost提供了丰富的参数设置,允许用户根据具体问题调整模型性能。

基本组成元素:

  • 决策树:XGBoost的基本组成元素是决策树,这些决策树作为“弱学习器”共同组成了XGBoost模型。每棵决策树都有先后顺序,后一棵树会考虑前一棵树的预测结果,并调整样本分布来训练下一棵决策树。

整体思路:

  • 训练过程:从目标函数出发,通过计算目标函数增益选择特征,再使用加权分位法确定分裂点,建立决策树。不断重复该算法直到所有特征都被使用或达到限定层数。
  • 测试过程:输入特征依次进入每棵决策树,每棵树的节点给出预测权值,最后将所有预测权值相加得到最终结果。

目标函数:

  • 最初的目标函数:设定第t个决策树的目标函数,包括样本损失函数、前t-1棵树的预测值、第t棵树的模型复杂度(正则化项)。
  • 推导:通过泰勒展开公式进行简化,保留一阶和二阶导数信息,去掉常数项,从而得到简化版的目标函数。

特征划分准则:

  • 信息增益:根据目标函数的最优解,确定特征划分准则。通过计算每个特征划分点的信息增益,选择最佳分割点。
  • 加权分位法:为了提高算法效率,采用加权分位法寻找最佳分割点,并对每个特征的重要性进行排序。

优缺点:

  • 优点:XGBoost具有高精度、灵活性强、防止过拟合、处理缺失值和并行化操作等优点。
  • 缺点:尽管XGBoost在许多方面表现出色,但在处理极其大规模数据时可能相对简单,超参数调优也可能需要大量计算资源和时间。

总的来说,XGBoost通过一系列精确的设计和优化措施,显著提升了模型的性能和计算速度。在实际应用中,合理调优XGBoost的各个超参数能够进一步提高模型的精度和泛化能力。

应用领域:

  • 金融行业:XGBoost在金融风控领域被用于信用卡欺诈检测、信贷审批、保险定价等,基于用户特征构建风险预测模型,以识别潜在的风险和欺诈行为。
  • 医疗保健:在医疗领域,XGBoost被用于疾病诊断、疾病发生风险预测、疾病转归与预后评估、合理安全用药指导以及药物研发等,提高决策效率和质量。
  • 推荐系统:在电商、新闻媒体等行业中,XGBoost用于构建推荐系统,预测用户对商品或内容的点击率、购买率或评分,以提供个性化推荐。
  • 生物信息学:XGBoost在基因表达数据分析、疾病基因研究和药物发现中应用,帮助科学家挖掘生物标志物,构建精确的诊断或预后模型。
  • 制造业:在制造业中,XGBoost可以用于产品缺陷检测、质量控制、预测设备维护需求等,优化生产流程和降低成本。
  • 教育:XGBoost在教育领域中用于分析学生数据,预测学生的成绩、辍学率等,帮助教育机构优化教学策略。
  • 广告技术:在广告投放中,XGBoost用于预测广告的点击率,帮助企业优化广告投放策略,提高广告效果。
  • 网络安全:XGBoost也被应用于网络安全领域,用于异常行为检测、入侵检测系统等,提高系统的安全性。
  • 能源行业:在能源领域,XGBoost可以用于预测能源消耗、优化能源分配、预测设备故障等。
  • 汽车行业:在汽车行业中,XGBoost可以用于预测汽车销量、优化供应链管理、车辆故障预测等。
  • 电信行业:XGBoost在电信行业中用于客户流失预测、网络优化、服务质量管理等。

数据集介绍

数据集来源于kaggle,由美国大学防火墙收集的一些互联网流量纪录,数据65532行,12列。

数据特征():
我不想去一个一个翻译打字了,网上搜的数据列名,英文可能会有一点小出入,中文大体应该是对的。

  1. 协议类型 (Protocol Type):网络通信使用的协议类型,例如TCP、UDP等。
  2. 源IP (Source IP):发起网络连接的源头IP地址。
  3. 源端口 (Source Port):发起连接的源头端口号。
  4. 目标IP (Destination IP):网络连接的目标IP地址。
  5. 目标端口 (Destination Port):网络连接的目标端口号。
  6. 攻击状态 (Attack Type):标记当前记录是否为异常攻击行为,通常是分类标签。
  7. 协议 (Protocol):详细描述协议的种类,如http、ftp等。
  8. 服务 (Service):标识所使用服务的类型,如private、ecr_i等。
  9. 登录失败的次数 (Failed Login Attempts):记录在当前会话中登录尝试失败的次数。
  10. 登录尝试 (Login Attempts):记录在当前会话中的总登录尝试次数。
  11. 数据发送量 (Data Sent):从源到目的地发送的数据总量,单位通常为字节。
  12. 数据接收量 (Data Received):从目的地返回到源的数据总量,单位通常为字节。

加载数据

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 
import plotly as py
import plotly.graph_objs as go
from plotly.offline import iplot
import plotly.express as px
from sklearn.cluster import KMeans
import warnings
import os
warnings.filterwarnings("ignore")
plt.rcParams ['font.sans-serif'] ='SimHei'      #显示中文
plt.rcParams ['axes.unicode_minus']=False       #显示负号
df = pd.read_csv('Firewall.csv')
df.head()

显示前五行数据:
在这里插入图片描述简单说明一下数据情况,Action列不是数字类型,该列为目标变量也是就原始结果,等会儿需做特征工程,因为机器学习计算机是不认识数字以外的数值。

开始眼神交流,主要需要描述的东西太多了,实在不想打字。
在这里插入图片描述

在这里插入图片描述在这里插入图片描述上图作个简要说明,原始数据有65532行,经过清洗发现数据有8362行数据为重复值,最后删除后最终数据为57170行。

iplot(px.bar(  
    df['Action'].value_counts(),  
    labels={'value':'数量', 'name':'类型'},  # 设置图表的标签  
    color=df['Action'].value_counts().index,  # 设置每个柱子的颜色为其对应的名称  
    text_auto=True,  # 自动将计数值添加到柱子上  
    title='互联网防火墙行为类型目标变量分布图'  # 设置图表的标题  
))  

在这里插入图片描述
上图为目标变量分布图,也就是是否标记为攻击行为,第一个是允许访问,第二个为拒绝访问,第三是其它,第四个数据太少了忽略。图上的k代表千为单位,比如第一个数量应该为37640.

int_1 = df.drop('Action', axis=1)
fig = plt.figure(figsize=(20,18))
sns.heatmap(int_1.corr(),vmax=1,annot=True,linewidths=0.5,cbar=False,cmap='YlGnBu',annot_kws={'fontsize':18})
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.title('互联网防火墙数据特征相关系数矩阵热图',fontsize=25)
plt.savefig('/Users/c/Desktop/heatmap_correlation_matrix.png', dpi=300)
plt.show()

在这里插入图片描述

特征工程

在这里插入图片描述将英文用数字0、1、2、3替换成分类数据,代表4类值,和柱状图保持一致。

开始机器学习

# 准备用于创建模型的数据
from sklearn.model_selection import train_test_split
X = df.drop('Action', axis=1)
y = df["Action"]
# 划分数据集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)
print('训练集大小:',X_train.shape[0])
print('测试集大小:',X_test.shape[0])

在这里插入图片描述

# 构建逻辑回归模型
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(X_train,y_train)
print('逻辑回归模型准确率:',lr.score(X_test,y_test))

在这里插入图片描述

# 构建KNN模型
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(X_train,y_train)
print('KNN模型准确率:',knn.score(X_test,y_test))

在这里插入图片描述

# 构建xgboost模型
from xgboost import XGBClassifier
xgb = XGBClassifier()
xgb.fit(X_train,y_train)
print('xgboost模型准确率:',xgb.score(X_test,y_test))

在这里插入图片描述可以看到XGBoost模型准确率达到了99.9%,我们就选本文的主角进行模型评估。

模型评估:

from sklearn.metrics import r2_score,confusion_matrix,classification_report,auc,roc_curve
# 模型评估
y_pred = xgb.predict(X_test)
print('模型的R平方值','\n', r2_score(y_test,y_pred))
print('模型混淆矩阵:','\n',confusion_matrix(y_test,y_pred))
print('模型分类报告:','\n',classification_report(y_test,y_pred))

在这里插入图片描述
怎样看上图,下面有解释:

R方值(R-squared, R²):
R方值(也称为决定系数)是回归问题中常用的一个评估指标,它表示模型预测的响应变量与真实响应变量之间的相关性。
R²的值范围在0到1之间,值越接近1表示模型拟合得越好。
如果R²为0,表示模型没有解释任何响应变量的变异;如果R²为1,表示模型完美地解释了响应变量的变异。
混淆矩阵(Confusion Matrix):
混淆矩阵是分类问题中常用的一个评估工具,用于展示模型分类结果的分布情况。
它包括真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)四个指标。
通过混淆矩阵,我们可以计算准确率、精确率、召回率等更具体的评估指标。
分类报告(Classification Report):
分类报告是一个包含了精确率(Precision)、召回率(Recall)、F1分数(F1-score)和支持度(Support)等评估指标的文本报告。
这些指标有助于我们更全面地了解模型在每个类别上的表现。

如何解释评估结果:

对于R方值,您可以直接查看其值来判断模型拟合的好坏。例如,如果R²为0.9964,那么模型解释了响应变量99.6%的变异。
对于混淆矩阵,您需要查看每个类别的真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)的数量。这些数字可以帮助您了解模型在哪些类别上表现较好,哪些类别上表现较差。
对于分类报告,您可以查看每个类别的精确率、召回率和F1分数。精确率表示模型预测为正例的样本中真正为正例的比例;召回率表示真正为正例的样本中被模型预测为正例的比例;F1分数是精确率和召回率的调和平均数,用于综合考虑这两个指标。

# 打印特征重要性评分    
# 获取训练数据X_train的列标签,即特征名称  
feat_labels = X_train.columns[0:]  # feat_labels 是一个包含所有特征名称的列表    
# 获取XGBoost模型的特征重要性评分  
importances = xgb.feature_importances_  # importances 是一个数组,包含了每个特征的重要性评分    
# 对特征重要性评分进行排序,得到排序后的索引  
indices = np.argsort(importances)[::-1]  # np.argsort 返回排序后的索引,[::-1] 将其反转,使得最重要的特征排在前面    
# 初始化两个列表,用于存储排序后的特征名称和重要性评分  
index_list = []  
value_list = []    
# 循环遍历每个特征和其对应的索引  
for f, j in zip(range(X_train.shape[1]), indices):  
    # 将特征名称和重要性评分添加到对应的列表中  
    index_list.append(feat_labels[j])  # 根据排序后的索引j,从feat_labels中获取特征名称  
    value_list.append(importances[j])  # 根据排序后的索引j,从importances中获取重要性评分        
    # 打印当前特征和其重要性评分(索引从1开始,因为通常我们不说第0个特征)  
    print(f + 1, feat_labels[j], importances[j])    
# 创建一个新的图形,并设置其大小  
plt.figure(figsize=(10,6))    
# 使用水平条形图绘制特征重要性评分  
# 注意这里我们对index_list和value_list使用了[::-1],以确保最重要的特征在图的顶部  
plt.barh(index_list[::-1], value_list[::-1])    
# 设置y轴标签的字体大小  
plt.yticks(fontsize=12)    
# 设置图形的标题和字体大小  
plt.title('各特征重要程度排序', fontsize=14)    
# 显示图形  
plt.show()

在这里插入图片描述
从上图可以看出各特征重要程度排名最多的是“尝试登录”,说明Haker也不是一次就能成功的。

模型预测:

# 模型预测
res = pd.DataFrame()
res['真实值'] = y_test
res['预测值'] = y_pred
res.sample(10)

在这里插入图片描述可以看到我构建了一个有数据行数、真实值、预测值的二维表格,随机抽取10条数据,所有数据预测完全准确(上图的0、1、2就是上面特征工程处理的英文类别,可以在上面一一对应)。

小结

在当今的数据驱动时代,XGBoost算法以其卓越的性能和效率,在众多行业中发挥着重要作用。从金融风控到医疗诊断,从个性化推荐到网络安全,XGBoost的应用案例证明了其解决复杂预测问题的非凡能力。随着技术的不断进步,我们可以预见XGBoost将继续扩展其应用边界,为更多行业带来深远的变革。对于数据科学家和行业从业者而言,深入理解XGBoost的原理和应用,将有助于他们在未来的工作中更好地利用这一强大的工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1851013.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Streamlit学习笔记】Streamlit-ECharts箱型图添加均值和最值label

Streamlit-ECharts Streamlit-ECharts是一个Streamlit组件,用于在Python应用程序中展示ECharts图表。ECharts是一个由百度开发的JavaScript数据可视化库Apache ECharts 安装模块库 pip install streamlitpip install streamlit-echarts绘制箱型图展示 在基础箱型…

内容安全复习 7 - 对抗攻击与防御

文章目录 概述攻击对抗性攻击的目的攻击的损失函数如何攻击FGSM黑盒与白盒真实世界的攻击 防御被动防御主动防御 概述 动机 (1)不仅要在实验室中部署机器学习分类器,也要在现实世界中部署;实际应用 (2)分类…

从一到无穷大 #29 ByteGraph的计算,内存,存储三级分离方案是否可以通用化为多模数据库

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 本作品 (李兆龙 博文, 由 李兆龙 创作),由 李兆龙 确认,转载请注明版权。 文章目录 引言ByteGraph现有架构阿里云Lindorm腾讯YottaDB多模型化修改点ByteGraph论文中的优化…

IOS开发学习日记(十七)

简单的第三方登录和分享功能 第三方登录系统 URL Scheme:App间的跳转及通信 App间跳转场景 登陆系统: 跨平台,跨App 标记用户,个性化的推送 使用第三方登录(减少注册成本 / 无须维护敏感信息) 微信 / Q…

068、PyCharm 关于Live Template模板

在 PyCharm 编辑器中,Live Templates 是一种功能强大的工具,可以帮助我们快速插入常用的代码片段或模板。 以下是在 PyCharm 中添加 Live Templates 的步骤: 添加 Live Templates 步骤: 打开 PyCharm 编辑器。 转到菜单栏中的 …

33 - 连续出现的数字(高频 SQL 50 题基础版)

33 - 连续出现的数字 -- 开窗函数lead(col,n) 统计窗口内往下第n行值 -- over(partition by xxx) 按照xxx所有行进行分组 -- over(partition by xxx order by aaa) 按照xxx分组,按照aaa排序select distinct num as ConsecutiveNums from(select num,# 从当前记录获…

Python——常用数据降维算法应用

随着数据的积累,数据的维度越来越高,高维的数据在带来更多信息的同时,也带来了信息冗余、计算困难等问题,所以对数据进行合理的降维,并保留主要信息非常重要。这些问题主要可以通过主成分分析及相关的降维算法来解决。…

国内外大模型生态发展报告!

很多同学只知类似Check GPT或者说对国内的一些比较了解,对国外的不太了解,所以在这总结。 1 大模型的发展 左表 名称参数特点发布时间GPT-215亿英文底模,开源2019年Google T5110亿多任务微调, 开源2019年GPT-3.51750亿人工反馈微调2022年M…

《计算机英语》 Unit 6 Internet 互联网

Section A Internet 互联网 The Internet is a global system of interconnected computer networks that use the standard Internet protocol suite (TCP/IP) to link several billion devices worldwide. 互联网是一个全球性的互连计算机网络系统,使用标准的互联…

Echarts实现动态背景

最近在公司工作中,遇到一个图表的需求,要求实现背景图是可以动态跟随最高点而改变位置的。 好玩的是,我实现了效果,但是没在官方配置项看到我这个用法的出处,所以记录一下。 话不多说,配置项也没什么好解释…

Redis的安装及详解

1.Redis介绍? 1.1 Redis是什么? Redis(Remote Dictionary Server,远程字典服务器)是一个开源免费的,用C语言编写的一个高性能的分布式内存数据库,基于内存运行并支持持久化的NoSQL数据库。是当前最热门的…

IPv6 address status lifetime

IPv6 地址状态转换 Address lifetime (地址生存期) 每个配置的 IPv6 单播地址都有一个生存期设置,该设置确定该地址在必须刷新或替换之前可以使用多长时间。某些地址设置为“永久”并且不会过期。“首选”和“有效”生存期用于指定其使用期限和可用性。 自动配置的…

开源与在线 M3U8 Downloader 项目介绍及使用指南

M3U8 是一种用于播放列表格式的文件类型,广泛应用于流媒体服务中,特别是 HLS(HTTP Live Streaming)协议。它包含了一系列的 TS(Transport Stream)视频片段地址,使得视频能够分段加载&#xff0c…

亿联 AM610 M.2 SSD PCIE 3.0X2 128GB测评

亿联 AM610 M.2 SSD PCIE 3.0X2 128GB测评 厂商:union memory国产固态硬盘SSD。 接口:PCIE 3.0X2 协议:支持NVME 1.协议 固件:固件版本号11.82 读取量:18TB左右 写入量:14TB左右,NAND闪存约被编…

win10/11磁盘管理

win10/11磁盘管理 合并磁盘分区的前提是你的两个磁盘区域是相邻的,比如如下: 如果需要吧这个磁盘进行分解,你可以选择压缩一部分磁盘或者是直接删除卷 我这里的话,因为压缩出来的卷和C盘好像是不相邻的(我之前做过&…

kettle从入门到精通 第七十三课 ETL之kettle kettle调用http分页接口教程

场景:kettle调用http接口获取数据(由于数据量比较大,鉴于网络和性能考虑,所以接口是个分页接口)。 方案:构造页码list,然后循环调用接口。 1、总体设计 1)、初始化分页参数pageNum1…

ICP、ISP及IAP烧录介绍

文章目录 不同的程序下载方式一、ICP:In-Circuit Programming二、ISP:In-System Programming三、IAP:In-Application ProgrammingIAP方案设计不同的程序下载方式 目前,单片机的程序烧录方式可以分为三种:ICP、ISP、IAP。 ICP:In Circuit Programing,在电路编程; ISP:…

【LLM】PISSA:一种高效的微调方法

前言 介绍PISSA前,先简单过一下LLMs微调经常采用的LoRA(Low-Rank Adaptation)微调的方法,LoRA 假设权重更新的过程中有一个较低的本征秩,对于预训练的权重参数矩阵 W 0 ∈ R d k W_0 ∈ R^{dk} W0​∈Rdk&#xff0c…

git常用操作汇总大全

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,入职小红书广告投放开发,很高兴认识大家🔥如果感觉博主的文章还不错的话,请👍三连支持👍一下博…