[论文阅读] (34)ESWA2024 基于SGDC的轻量级入侵检测系统

news2025/1/4 20:42:17

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学术路上期待与您前行,加油。

该文是贵大0624团队论文学习笔记,分享者吴炫璋同学,未来我们每周至少分享一篇论文笔记。前一篇博客总结了NDSS 2024系统安全和恶意代码分析方向相关论文。这篇文章将带来ESWA’24韩国忠北大学的轻量级入侵检测论文,本文的主要贡献为结合特征工程开发更轻量级、准确高效的IDS,并且能够检测广泛的网络攻击,适合在资源受限且少样本标注的IoT设备上运行。此外,由于我们还在不断成长和学习中,写得不好的地方还请海涵,希望这篇文章对您有所帮助,这些大佬真值得我们学习。fighting!

  • 欢迎关注作者新建的『网络攻防和AI安全之家』知识星球(文章末尾)

在这里插入图片描述

原文作者:Jahongir Azimjonov, Taehong Kim
原文标题:Stochastic gradient descent classifier-based lightweight intrusion detection systems using the efficient feature subsets of datasets
原文链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417423019954
发表会议:Expert Systems with Applications 2024
笔记作者:贵大0624团队 吴炫璋
开源代码:SGDC-basedLightweightIDS

  • https://github.com/JahongirAzimjonov/Lightweight-IDS-based-on-SGD-Classifier-and-Ridge-Regressor

一.摘要

物联网(IoT)已成为现代生活中不可或缺的一部分。然而,随着IoT设备的广泛应用,针对资源受限IoT设备的僵尸网络攻击数量也在不断增加。为应对这些威胁,研究人员开发了入侵检测系统(IDS)。然而,基于深度/机器学习、模糊逻辑、粗糙集理论或数据挖掘技术的传统IDS通常在检测准确性和能效方面存在不足。因此,亟需轻量化、高精度且能效优异的IDS,以有效检测多种网络攻击类型。

本文提出了一种解决方案,通过使用随机梯度下降分类器(SGDC)和基于岭回归的四种特征选择算法构建轻量化、高精度的IDS。为提升IDS的检测精度并降低计算复杂度,本文对SGDC算法和岭回归模型的超参数进行了优化。此外,优化后的特征选择算法用于降低数据集的维度,从而进一步提升IDS的检测精度。

为验证所提IDS的有效性,本文选取了三种网络流量数据集(KDD-CUP-1999、BotIoT-2018和N-BaIoT-2021)进行实验评估。结果表明,该系统平均检测准确率达92.69%,特征数量平均减少了79.93%。实验结果证明,所提出的系统可作为适用于资源受限IoT设备的轻量化IDS。总体而言,本文为IoT设备的IDS研究领域做出了重要贡献,提供了一种高效、准确的解决方案。所提出的轻量化IDS有望显著提升IoT的安全性和隐私保护能力,从而保障敏感IoT数据的安全。


二.引言及相关工作

随着物联网在日常生活中的广泛应用,其安全问题日益突出。特别是针对资源受限的IoT设备的僵尸网络攻击呈现上升趋势,DoS、DDoS、侦察和盗窃等多种形式。IoT网络由于安全协议薄弱和设备保护不足,特别容易受到这些攻击的威胁。

在这里插入图片描述

本文将目前的入侵检测系统分为传统IDS和轻量级IDS:

  • 传统IDS:资源消耗大,算法复杂,检测能力强,适用于大型网络
  • 轻量级IDS:资源消耗小,算法简单,但检测复杂攻击的能力较弱,适用于物联网设备

现有的IDS存在的局限性又有以下两点

  • 传统的基于机器学习的IDS 忽视了特征工程的作用,理论研究不足
  • 现有轻量级IDS无法捕获真实网络的攻击行为,准确性和鲁棒性存在不足

因此,开发一个轻量级并且能准确识别真实网络攻击行为的IDS迫在眉睫。研究需求:

  • 结合特征工程开发更轻量级、准确和高效的IDS;能够检测广泛的网络攻击
  • 适合在资源受限且少样本标注的IoT设备上运行;需要提高检测准确率和能源效率

在这里插入图片描述

本文的研究目标及创新点为开发轻量级和准确性高的入侵检测系统(IDS),使其能在资源受限的IoT设备上运行。具体通过以下方式实现:

  • 构建随机梯度下降分类器(SGDC)和基于岭回归模型的四种特征选择算法
  • 使用网格搜索方法优化SGDC算法和岭回归模型的超参数,以提高检测准确性并降低计算复杂度
  • 利用模型微调的特征选择器来降低数据集的维度以实现轻量化的IDS

三.系统整体框架

本文设计的框架如下图所示:

  • 数据预处理
  • 构建四种基于岭回归的特征选择方法,使用网格搜索方法优化岭回归模型的超参数,能有效抽取最相关且多维度的特征子集
  • 构建基于SGDC的入侵检测模块,使用网格搜索方法优化SGDC模型的超参数,能有效优化损失函数
  • 利用多种性能评估指标和对比分析方法来评估和选择性能最佳的模型

在这里插入图片描述

总体算法如下:

在这里插入图片描述


四.算法及系统实现细节

1.网格搜索方法

网格搜索(Grid Search)是一种超参数优化方法,本文用于岭回归模型和SGDC的超参数优化,网格搜索通过遍历所有可能的超参数组合,并使用交叉验证评估每组超参数的性能,最终选择最优的超参数配置。这种优化帮助基于岭回归模型的四种特征选择方法更好的提取高效特征子集,并帮助SGDC分类器在各个数据集上取得了良好的性能,同时保持了模型的轻量级特性。

在这里插入图片描述


2.特征选择

文中提到了四种基于岭回归的特征选择方法,其作用是计算特征与目标之间的关系系数,从数据集中选取出最相关和最有效的特征子集。

  • 基于重要性系数的特征选择算法 (Importance-coefficient-based feature selection)
  • 前向序列特征选择算法 (Forward-sequential feature selection)
  • 后向序列特征选择算法 (Backward-sequential feature selection)
  • 基于相关系数的特征选择算法 (Correlation-coefficient-based feature selection)

这些方法通过分析输入特征(自变量)和输出标签(因变量)之间的关系来评估每个特征的影响,基于计算出的重要系数来确定最相关和最有效的特征,通过消除不相关和低效的特征来优化特征集。不同类型的方法可以从不同角度评估特征的重要性,这些算法平均减少了79.93%的特征维度,同时保持了较高的入侵检测准确率(平均92.69%),特别是在处理时间和准确性方面都表现良好。

具体算法如下,算法输出是数据集中最相关和最高效特征的子集集合。

在这里插入图片描述

(1)基于重要性系数的特征选择如下,通过计算特征重要性系数ci和排序,从数据集中选择最相关且高效的特征子集。

在这里插入图片描述

(2)前向和后向序列特征选择算法如下,分别选择相关性最高的特征添加到集合、将相关性最低的特征从集合中消除。例如,KDD-CUP-1999和N-BaIoT-2021数据集分别有40个和115个特征。其中一些特征对SGDC和岭回归器的准确性有正面影响,而另一些则有负面影响。对岭回归模型和SGDC准确性有正面影响的特征应保留为有效特征,而对准确性有负面影响的特征应从数据集的子集中移除。该算法有助于选择对准确性有正面影响的特征,并剔除无效特征。

在这里插入图片描述

(3)构建通过后向消元的相关系数特征选择算法,该方法首先定义所有特征的集合𝑋和目标变量𝑦,同时设定一个显著性水平(𝑝值),通常为0.05。初始特征集𝑋1最初被设置为完整的特征集合𝑋。该算法逐步消除特征,直到没有特征的相关系数的𝑝值大于设定的显著性水平0.05为止。最终,该算法返回基于与目标变量的相关性和显著性水平选择的最终特征集。

在这里插入图片描述


3.SGDC

SGDC(stochastic gradient descent classifier )是一个线性分类模型,它使用随机梯度下降来优化损失函数。与传统SVM和SVC不同,SGDC只使用部分训练集来优化损失函数,其适用于大规模样本的场景,作为轻量级分类器,适合部署在资源受限的IoT设备上。

随机梯度下降法:随机梯度下降法是一种迭代优化方法,通过计算损失函数相对于模型参数的梯度,来寻找损失函数的最小值或最大值

基于SGDC的入侵检测模块算法如下:

在这里插入图片描述


五.实验评估

1.数据集及预处理

该论文的数据集为3个IOT入侵检测数据集。

  • KDD-CUP-1999
    http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
  • BotIoT-2018
    https://research.unsw.edu.au/projects/bot-iot-dataset
  • N-BaIoT-2021
    http://archive.ics.uci.edu/ml/datasets/detection_of_IoT_botnet_attacks_N_BaIoT

在基于SGDC的机器学习模型中,导致过拟合或欠拟合的主要问题之一是数据的类别不平衡。作者选取的三个数据集中都存在数据类别不平衡的问题,作者做了以下处理:

  • KDD-1999:97,277个正常包 vs 396,743个攻击包,处理方法:通过删除重复记录来平衡数据集
  • BoTIoT-2018:477正常包 vs 5000攻击包,处理方法:从恶意数据包中选择5000个样本,保留全部正常数据包
  • N-BaIoT-2021:62,154个正常包 vs 766,106个攻击包,处理方法:使用下采样(down-sampling)技术

在这里插入图片描述


2.评估结果

在不同数据集上不同算法运行时间对比:基于重要系数的特征选择方法在前两个数据集运行最快,基于后向序列的特征选择方法时间表现性能最差。

在这里插入图片描述

数据集原始特征集子集(a, b, c)特征重要性系数(IPs)的直方图如下,子集通过选择特征重要性系数(IPs)大于或等于所有特征平均IP的特征构建而成。

在这里插入图片描述

训练特征子集的预测结果如下,四种特征选择方法均优于所有特征。

在这里插入图片描述

最后给出性能评估比较图。实验结果表明,基于SGDC的IDS在高效特征子集对比完整特征集上的训练和测试速度分别提升了3-15倍和2-28倍,使用高效特征子集训练的模型预测准确率也明显高于使用完整特征集,平均准确率达到了92.69%,特别是特别是前向序列法在N-BaIoT-2021数据集上达到了98.42%的最高准确率。

在这里插入图片描述

三种数据集全特征训练的准确率分别为30.65%、77.84%和68.90%,特征选择方法均有一定程度提升。在KDD-CUP-1999完整数据集上训练的模型表现最差,可能原因是数据集中存在低效和无关特征,在使用前向序列法在N-BaIoT-2021提取的特征子集进行训练后达到了98.42%的最高准确率。

在这里插入图片描述


六.总结及个人感受

目前尚且有着几个因素会显著影响当前研究的结果,包括:

  • 数据集:需要选择特征类别更加平衡的数据集,从该文中选择的BotIoT-2018数据集可以看出,攻击类别的数据包远远高于正常类别的数据包,这就导致了在数据预处理时需要丢弃大量的攻击类别数据,很可能会影响模型的训练结果。
  • 特征选择方法:由于岭回归模型在进行特征选择时,其L2的正则化与L1正则化不同,不能将某些权重完全置0,所以存在不能去除部分冗余特征的情况,所以可以选择一些例如Lasso 回归等使用添加L1正则化项的线性回归方法来进行特征选择。
  • 分类算法:文中使用网格搜索算法来选择最优超参数,其核心思想是穷举,这种方法计算成本过高,在参数取值范围和维度较高时,时间和空间复杂度都会很高,所以可以将其替换为例如随机搜索等算法,对于高维度参数空间,随机搜索往往能用更少的计算找到接近更优的参数。

总之,该文提出了一种基于SGDC的轻量级IDS,并使用基于岭回归的特征选择方法来提取高效的特征子集。整篇论文特征工程值得我们学习,包括部分对比实验,尤其开源代码可供大家学习。当然也存在不足之处,比如和代表性方法的对比实验缺少,无法证明论文的创新。

最后祝大家新年快乐,不忙的时候写篇年终总结。

在这里插入图片描述

2024年4月28日是Eastmount的安全星球——『网络攻防和AI安全之家』正式创建和运营的日子,该星球目前主营业务为 安全零基础答疑、安全技术分享、AI安全技术分享、AI安全论文交流、威胁情报每日推送、网络攻防技术总结、系统安全技术实战、面试求职、安全考研考博、简历修改及润色、学术交流及答疑、人脉触达、认知提升等。下面是星球的新人券,欢迎新老博友和朋友加入,一起分享更多安全知识,比较良心的星球,非常适合初学者和换安全专业的读者学习。

目前收到了很多博友、朋友和老师的支持和点赞,尤其是一些看了我文章多年的老粉,购买来感谢,真的很感动,类目。未来,我将分享更多高质量文章,更多安全干货,真心帮助到大家。虽然起步晚,但贵在坚持,像十多年如一日的博客分享那样,脚踏实地,只争朝夕。继续加油,再次感谢!

(By:Eastmount 2024-12-30 周一夜于贵阳 http://blog.csdn.net/eastmount/ )


前文赏析:

  • [论文阅读] (01)拿什么来拯救我的拖延症?初学者如何提升编程兴趣及LATEX入门详解
  • [论文阅读] (02)SP2019-Neural Cleanse: Identifying and Mitigating Backdoor Attacks in DNN
  • [论文阅读] (03)清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
  • [论文阅读] (04)人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术
  • [论文阅读] (05)NLP知识总结及NLP论文撰写之道——Pvop老师
  • [论文阅读] (06)万字详解什么是生成对抗网络GAN?经典论文及案例普及
  • [论文阅读] (07)RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN
  • [论文阅读] (08)NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats
  • [论文阅读] (09)S&P2019 HOLMES Real-time APT Detection through Correlation of Suspicious Information Flow
  • [论文阅读] (10)基于溯源图的APT攻击检测安全顶会总结
  • [论文阅读] (11)ACE算法和暗通道先验图像去雾算法(Rizzi | 何恺明老师)
  • [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例
  • [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄——以入侵检测系统(IDS)为例
  • [论文阅读] (14)英文论文实验评估(Evaluation)如何撰写及精句摘抄(上)——以入侵检测系统(IDS)为例
  • [论文阅读] (15)英文SCI论文审稿意见及应对策略学习笔记总结
  • [论文阅读] (16)Powershell恶意代码检测论文总结及抽象语法树(AST)提取
  • [论文阅读] (17)CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测
  • [论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例
  • [论文阅读] (19)英文论文Evaluation(实验数据集、指标和环境)如何描述及精句摘抄——以系统AI安全顶会为例
  • [论文阅读] (20)USENIXSec21 DeepReflect:通过二进制重构发现恶意功能(恶意代码ROI分析经典)
  • [论文阅读] (21)S&P21 Survivalism: Systematic Analysis of Windows Malware Living-Off-The-Land (经典离地攻击)
  • [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师
  • [论文阅读] (23)恶意代码作者溯源(去匿名化)经典论文阅读:二进制和源代码对比
  • [论文阅读] (24)向量表征:从Word2vec和Doc2vec到Deepwalk和Graph2vec,再到Asm2vec和Log2vec(一)
  • [论文阅读] (25)向量表征经典之DeepWalk:从Word2vec到DeepWalk,再到Asm2vec和Log2vec(二)
  • [论文阅读] (26)基于Excel可视化分析的论文实验图表绘制总结——以电影市场为例
  • [论文阅读] (27)AAAI20 Order Matters: 二进制代码相似性检测(腾讯科恩实验室)
  • [论文阅读] (28)李沐老师视频学习——1.研究的艺术·跟读者建立联系
  • [论文阅读] (29)李沐老师视频学习——2.研究的艺术·明白问题的重要性
  • [论文阅读] (30)李沐老师视频学习——3.研究的艺术·讲好故事和论点
  • [论文阅读] (31)李沐老师视频学习——4.研究的艺术·理由、论据和担保
  • [论文阅读] (32)南洋理工大学刘杨教授——网络空间安全和AIGC整合之道学习笔记及强推(InForSec)
  • [论文阅读] (33)NDSS2024 Summer系统安全和恶意代码分析方向相关论文汇总
  • [论文阅读] (34)EWAS2024 基于SGDC的轻量级入侵检测系统

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2269639.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华三交换机怎么进行链路聚合?

目录 准备:两台交换机 配置:进行交换机配置 完成:检查链路聚合是否成功 准备:两台交换机 1、进行连线 2、上行Core交换机都选取 Ten-GigabitEthernet1/0/51、Ten-GigabitEthernet1/0/52和 Ten-GigabitEthernet2/0/51、Ten-Giga…

【无线传感网】无线传感器网络覆盖技术

文章目录 覆盖算法设计思路及性能评价标准覆盖感知模型布尔感知模型概率感知模型 无线传感网络覆盖算法分类按照配置方式确定性覆盖随机性覆盖 根据覆盖目标面覆盖点覆盖栅栏覆盖 典型的WSN覆盖算法与协议基于网格的覆盖定位传感器配置算法圆周覆盖连通传感器覆盖轮换活跃/休眠…

积分图(Integral Image)与均值滤波的快速实现

积分图(Integral Image)也称为求和图(Summed Area Table),是一种用于快速计算图像中任意矩形区域像素值总和的技术。 基本概念 积分图的每个位置(i, j)存储的是从图像左上角(1, 1)到当前位置(i, j)所有像素值的累积和…

MySQL数据库笔记——多版本并发控制MVCC

大家好,这里是Good Note,关注 公主号:Goodnote,本文详细介绍MySQL的并发控制:多版本并发控制MVCC。 文章目录 背景介绍数据库并发控制——锁机制悲观锁和乐观锁悲观锁乐观锁 数据库并发控制——MVCC 的引入MVCC 和锁机…

css3实现文字下滑波浪线

上效果 上菜 text-decoration 属性作用:用于设置或检索文本的装饰线,如下划线、上划线、删除线等 text-decoration: line || color || style; 参数: line: 指定装饰线类型,如 underline(下划线)、overline&…

Springboot 3项目整合Knife4j接口文档(接口分组详细教程)

文章目录 前言一、Spring Boot 3.0整合Knife4j二、OpenApi 3注解的使用规范三、使用步骤 1.Spring Boot 3.0项目中使用knife4j2.在application.yml中添加knife4j相关配置3.设置WebMvc相关配置(解决封装统一异常处理后doc.html无法打开的问题)4.创建Knif…

2024年中国新能源汽车用车发展怎么样 PaperGPT(一)

概述 在国家政策的强力扶持下,2024年中国新能源汽车市场迎来了新的发展机遇。本文将基于《中国新能源汽车用车报告(2024年)》的数据,对新能源汽车的市场发展和用车趋势概述。 新能源汽车市场发展 政策推动:国家和地…

华三交换机如何进行堆叠?

准备:两台交换机堆叠 1、进行连线 2、交换机都选取 FortyGigE1/0/53 和 FortyGigE1/0/54 做 堆叠口 配置:进行交换机配置 X_T1_Core_1: [X_T1_Core_1]irf domain 0 //同一拓扑内如果有其它堆叠组,domain不能重复 [X_T1_Core_1]…

活动预告 | Microsoft 安全在线技术公开课:通过扩展检测和响应抵御威胁

课程介绍 通过 Microsoft Learn 免费参加 Microsoft 安全在线技术公开课,掌握创造新机遇所需的技能,加快对 Microsoft Cloud 技术的了解。参加我们举办的“通过扩展检测和响应抵御威胁”技术公开课活动,了解如何更好地在 Microsoft 365 Defen…

Sonic:开源Go语言开发的高性能博客平台

Sonic:一个用Go语言开发的高性能博客平台 简介 Sonic,一个以其速度如声速般快速而命名的博客平台,是一个用Go语言开发的高性能博客系统。正如其名字所暗示的,Sonic旨在提供一个简单而强大的博客解决方案。这个项目受到了Halo项目…

大模型WebUI:Gradio全解系列8——Additional Features:补充特性(上)

大模型WebUI:Gradio全解系列8——Additional Features:补充特性(上) 前言本篇摘要8. Additional Features:补充特性8.1 队列8.1.1 使用方法8.1.2 配置队列演示 8.2 输入输出流8.2.1 输出流1. 生成器yield2. 流媒体 8.2…

音视频入门基础:MPEG2-PS专题(4)——FFmpeg源码中,判断某文件是否为PS文件的实现

一、引言 通过FFmpeg命令: ./ffmpeg -i XXX.ps 可以判断出某个文件是否为PS文件: 所以FFmpeg是怎样判断出某个文件是否为PS文件呢?它内部其实是通过mpegps_probe函数来判断的。从《FFmpeg源码:av_probe_input_format3函数和AVI…

【Leetcode】3280. 将日期转换为二进制表示

文章目录 题目思路代码复杂度分析时间复杂度空间复杂度 结果总结 题目 题目链接🔗 给你一个字符串 date,它的格式为 yyyy-mm-dd,表示一个公历日期。 date 可以重写为二进制表示,只需要将年、月、日分别转换为对应的二进制表示&a…

Spring实现输出带动态标签的日志

版权说明: 本文由博主keep丶原创,转载请保留此块内容在文首。 原文地址: https://blog.csdn.net/qq_38688267/article/details/144851857 文章目录 背景底层原理实现方案Tag缓存实现封装注解通过AOP实现日志缓存封装行为参数通用方法实现手动…

JAVA: 状态模式(State Pattern)的技术指南

1、简述 状态模式是一种行为型设计模式,允许对象在其内部状态改变时改变其行为。它将状态相关的行为抽取到独立的状态类中,使得增加新状态变得简单,且不影响其他状态。 设计模式样例:https://gitee.com/lhdxhl/design-pattern-example.git 本文将详细介绍状态模式的概念…

小程序基础 —— 02 微信小程序账号注册

微信小程序账号注册 小程序开发与网页开发不一样,在开始微信小程序开发之前,需要访问微信公众平台,注册一个微信小程序账号。 有了小程序的账号以后,才可以开发和管理小程序,后续需要通过该账号进行开发信息的设置、…

安卓入门十一 常用网络协议四

MQTT(Message Queuing Telemetry Transport) MQTT是一种轻量级的、发布/订阅模式的消息传输协议。它被设计用于在低带宽或不稳定网络环境下,实现物联网设备之间的可靠通信。 4.1 MQTT详细介绍 发布/订阅模式:MQTT 使用发布/订…

在 Swift 中使用 SQL 组合人员和地址数据

文章目录 摘要描述问题描述示例输入与输出 Swift 代码解决方案代码分析示例测试及结果时间复杂度空间复杂度总结 摘要 在本篇文章中,我们将讨论如何结合两个表——Person 和 Address,以便生成包含每个人的姓名和地址信息的结果表。如果某人的地址信息不…

AAL省电效果对比

AAL省电的原理主要是‌通过根据显示内容来降低背光,然后通过调节gamma来补偿显示亮度,从而达到省电的效果‌。具体来说,gamma值越高,灰度越低,图像越暗。因此,颜色越暗的图片越省电,这也是为什么…

ArcGIS中怎么进行水文分析?(思路介绍)

最近有人咨询,ArcGIS中怎么进行水文分析,大致的说一下河网提取的思路哈 解决思路:dem填洼→计算水流方向→计算水流累积矩阵→形成河网 dem填洼 计算水流方向 计算水流累积矩阵 用栅格计算器,设阈值(自己多次尝试&…