【论文速读】| LLMCloudHunter:利用大语言模型(LLMs)从基于云的网络威胁情报(CTI)中自动提取检测规则

news2025/1/13 17:49:03

图片

本次分享论文:LLMCloudHunter: Harnessing LLMs for Automated Extraction of Detection Rules from Cloud-Based CTI

基本信息

原文作者:Yuval Schwartz, Lavi Benshimol, Dudu Mimran, Yuval Elovici, Asaf Shabtai

作者单位Ben-Gurion University of the Negev, Department of Software and Information Systems Engineering

关键词:网络威胁情报(CTI)、大语言模型(LLM)、威胁狩猎、云、Sigma规则

原文链接:https://arxiv.org/abs/2407.05194

开源代码:暂无

论文要点

论文简介:随着网络攻击数量和复杂性的增加,威胁狩猎已成为主动安全的关键方面,能够在威胁造成重大损害之前进行检测和缓解。开源网络威胁情报(OSCTI)是威胁狩猎者的重要资源,但通常以非结构化格式提供,需要进一步的手动分析。本文提出了LLMCloudHunter,这是一个新颖的框架,利用大语言模型(LLMs)从文本和视觉OSCTI数据中自动生成通用签名检测规则候选。研究者使用12个注释的实际云威胁报告评估了所提出框架生成的规则的质量。结果表明,研究者的框架在准确提取威胁行为者API调用方面达到了92%的精确度和98%的召回率,并且在生成的检测规则候选成功编译并转换为Splunk查询方面达到了99.18%的成功率。

研究目的:在技术快速发展的背景下,网络攻击的数量和复杂性显著增加,传统的被动防御措施已经不足以应对这些威胁。威胁狩猎是一种主动搜索和缓解未被检测到的威胁的方法,旨在缩短入侵与发现之间的时间窗口。开源网络威胁情报(OSCTI)是威胁狩猎中广泛使用的信息来源,但由于其非结构化的特性,通常需要手动分析才能得出有意义的见解。本文的研究目的在于开发一个利用大语言模型(LLMs)的框架,能够自动从非结构化OSCTI中提取检测规则,从而提高威胁狩猎的效率和准确性,特别是在云环境下。

研究贡献:

1. 提出一个基于LLM的新框架,能够从非结构化OSCTI中自动生成Sigma规则候选,集成了文本和视觉信息,虽然框架主要针对云环境,但可以适用于本地环境相关的CTI。

2. 提供了一个包含12个云相关OSCTI帖子的注释数据集,支持框架的训练和评估。

3. 提供了关于LLM在网络安全复杂NLP任务中的应用见解,涉及提示工程技术和模型特性参数的有效使用。

4. 进行了全面的评估,评估了生成的Sigma规则候选的准确性和正确性。

5. 将研究者的代码和云CTI数据集在GitHub上公开,供研究社区使用。

引言

随着技术的快速发展和数字化进程的推进,网络攻击的数量和复杂性也随之增加,导致与这些技术进步相关的安全风险日益突出。为了应对这些风险,组织在传统的被动防御措施之外,开始采用动态防御策略,其中之一就是威胁狩猎。这种方法通过主动搜索和缓解未被检测到的威胁,旨在缩短从入侵到发现的时间窗口。开源网络威胁情报(OSCTI)作为威胁狩猎者的重要资源,提供了大量潜在和活跃威胁的信息。然而,OSCTI通常以非结构化的格式出现,需要手动分析才能得出有意义的见解。本文提出了LLMCloudHunter框架,利用大语言模型(LLM)自动从文本和视觉OSCTI数据中生成检测规则,特别针对云环境的独特安全挑战。

研究方法

本文提出的LLMCloudHunter框架包括三个主要阶段:预处理、段落级处理和OSCTI级处理。在预处理阶段,首先使用网络抓取工具下载并解析OSCTI的HTML代码,将其转换为统一的文本格式,并过滤掉不必要的内容。接着,通过图像分析模块处理从OSCTI中提取的图像,将其内容转换为文本以供进一步分析。

图片

在段落级处理阶段,框架通过API调用提取器和MITRE ATT&CK TTP提取器,从预处理后的文本中识别出关键实体。然后,利用规则生成器将这些实体转化为初步的Sigma规则候选。

最后,在OSCTI级处理阶段,框架对从各段落生成的Sigma规则候选进行聚合和优化。通过规则优化器合并和分离选择字段,消除冗余,并通过IoC增强器将提取的IoC整合到Sigma规则中,最终生成逻辑一致且操作性强的检测规则。

通过这种方法,LLMCloudHunter能够从非结构化的OSCTI数据中自动生成适用于云环境的检测规则,提高威胁狩猎的效率和准确性。

研究讨论

研究者在12个云相关OSCTI源上评估了LLMCloudHunter的有效性和准确性。结果显示,该框架在准确提取威胁行为者的API调用方面达到了92%的精确度和98%的召回率,在提取IoC方面达到了99%的精确度和98%的召回率。此外,99.18%的生成检测规则候选成功转换为Splunk查询。通过综合评估,研究者确认了框架在处理OSCTI方面的高效性和准确性。

消融研究结果进一步验证了框架各组件的重要性。尤其是图像分析模块和API调用提取器,对提高整体性能起到了关键作用。然而,提取MITRE ATT&CK TTP的过程仍存在一定挑战,这可能影响整体性能,但不会影响Sigma规则候选的检测能力。总体而言,LLMCloudHunter展示了在自动化处理非结构化OSCTI数据方面的巨大潜力。

研究评估

数据集:研究者收集了12个由不同供应商发布的云环境开源网络威胁情报(OSCTI)。每个OSCTI的详细描述包括图像数量、标记数量、API调用数量及其技术复杂性。为了创建数据集的真实标签,研究者的研究团队(包括威胁狩猎和云安全专家)对每个OSCTI的内容进行了深入分析,识别并提取了OSCTI中描述的实体及其关系,以创建连贯且有意义的Sigma规则候选。

图片

评估指标:研究者使用常见的实体和关系提取指标(精确度、召回率和F1分数)评估了框架的性能,并定义了一组特定的标准以测试每个Sigma规则候选在OSCTI的操作上下文中的功能性。

结果:LLMCloudHunter在提取威胁行为者的API调用方面表现出色,达到92%的精确度和98%的召回率,在提取IoC方面达到99%的精确度和98%的召回率。此外,生成的Sigma规则候选中有99.18%成功转换为Splunk查询。研究者的评估还显示,LLMCloudHunter生成的规则在语法正确性、条件字段准确性和描述元数据对齐方面表现优异,但在关键程度准确性方面略有不足。

图片

消融研究进一步验证了各组件的重要性,特别是图像分析模块和API调用提取器在提高整体性能方面起到了关键作用。尽管在提取MITRE ATT&CK TTP方面存在挑战,但这些并未显著影响Sigma规则候选的检测能力。总体而言,LLMCloudHunter在处理非结构化OSCTI数据并生成可操作的检测规则方面展示了巨大的潜力。

论文结论

本文提出了LLMCloudHunter,一个利用预训练大语言模型分析文本和视觉OSCTI并自动生成Sigma规则候选的端到端框架。研究者的框架展示了LLMs在处理OSCTI和生成可操作规则方面的潜力,通过使用Sigma格式,LLMCloudHunter的输出可以无缝集成到现有的SIEM系统中。

未来的工作可以集中在将LLMCloudHunter扩展到本地环境,增加其在不同组织设置和环境中的适用性。此外,研究者计划通过增加剧本自动化功能,增强框架的威胁缓解能力,为威胁狩猎提供更强大的支持。

原作者:论文解读智能体

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1952059.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mfc100u.dll 文件缺失?两种方法快速修复丢失mfc100u.dll 文件难题

您的电脑是否遭遇了 mfc100u.dll 文件缺失的问题?这种情况通常由多种原因引起。在本文中,我们将介绍两种修复 mfc100u.dll 文件丢失问题的策略——一种是手动方法,另一种是自动修复的使用。我们将探讨如何有效地解决 mfc100u.dll 文件缺失的几…

Linux下git入门操作

0.创建仓库 可以按这个配置来,.gitignore中存放了上传时忽略的文件类型后缀。 1.clone仓库 在gitee上创建好仓库,点击克隆/下载, 复制地址fyehong/Linux_notes 。 在所需的文件夹中放置仓库。比如我在文件夹lesson9下存储仓库。就在less…

Python爬虫技术 第18节 数据存储

Python 爬虫技术常用于从网页上抓取数据,并将这些数据存储起来以供进一步分析或使用。数据的存储方式多种多样,常见的包括文件存储和数据库存储。下面我将通过一个简单的示例来介绍如何使用 Python 爬取数据,并将其存储为 CSV 和 JSON 文件格…

【数据结构】二叉树链式结构——感受递归的暴力美学

前言: 在上篇文章【数据结构】二叉树——顺序结构——堆及其实现中,实现了二叉树的顺序结构,使用堆来实现了二叉树这样一个数据结构;现在就来实现而二叉树的链式结构。 一、链式结构 链式结构,使用链表来表示一颗二叉树…

【机器学习】解开反向传播算法的奥秘

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 解开反向传播算法的奥秘反向传播算法的概述反向传播算法的数学推导1. 前向传播2…

3.k8s:服务发布:service,ingress;配置管理:configMap,secret,热更新;持久化存储:volumes,nfs,pv,pvc

目录​​​​​​​ 一、服务发布 1.service (1)service和pod之间的关系 (2) service内部服务创建访问 (3)service访问外部服务 (4)基于域名访问外部 (5&#xff…

Prometheus各类监控及监控指标和告警规则

目录 linux docker监控 linux 系统进程监控 linux 系统os监控 windows 系统os监控 配置文件&告警规则 Prometheus配置文件 node_alert.rules docker_container.rules mysql_alert.rules vmware.rules Alertmanager告警规则 consoul注册服务 Dashboard JSON…

并发编程--volatile

1.什么是volatile volatile是 轻 量 级 的 synchronized,它在多 处 理器开 发 中保 证 了共享 变 量的 “ 可 见 性 ” 。可 见 性的意思是当一个 线 程 修改一个共享变 量 时 ,另外一个 线 程能 读 到 这 个修改的 值 。如果 volatile 变 量修 饰 符使用…

车载录像机:移动安全领域的科技新星

随着科技的飞速发展,人类社会的各个领域都在不断经历技术革新。其中,车载录像机作为安防行业与汽车技术结合的产物,日益受到人们的关注。它不仅体现了人类科技发展的成果,更在安防领域发挥了重要作用。本文将详细介绍车载录像机的…

Spring Boot集成canal快速入门demo

1.什么是canal? canal 是阿里开源的一款 MySQL 数据库增量日志解析工具,提供增量数据订阅和消费。 工作原理 MySQL主备复制原理 MySQL master 将数据变更写入二进制日志(binary log), 日志中的记录叫做二进制日志事件&#xff…

【QT】UDP

目录 核心API 示例:回显服务器 服务器端编写: 第一步:创建出socket对象 第二步: 连接信号槽 第三步:绑定端口号 第四步:编写信号槽所绑定方法 第五步:编写第四步中处理请求的方法 客户端…

Simulink代码生成: 基本模块的使用

文章目录 1 引言2 模块使用实例2.1 In/Out模块2.2 Constant模块2.3 Scope/Display模块2.4 Ground/Terminator模块 3 总结 1 引言 本文中博主介绍Simulink中最简单最基础的模块,包括In/Out模块(输入输出),Constant模块&#xff08…

Postman测试工具详细解读

目录 一、Postman的基本概念二、Postman的主要功能1. 请求构建2. 响应查看3. 断言与自动化测试4. 环境与变量5. 集合与文档化6. 与团队实时协作 三、Postman在API测试中的重要性1. 提高测试效率2. 保障API的稳定性3. 促进团队协作4. 生成文档与交流工具 四、Postman的使用技巧1…

CAS算法

CAS算法 1. CAS简介 CAS叫做CompareAndSwap,比较并交换,主要是通过处理器的指令来保证操作的原子性。 CAS基本概念 内存位置 (V):需要进行CAS操作的内存地址。预期原值 (A):期望该内存位置上的旧值。新值 (B):如果旧…

VSCode python autopep8 格式化 长度设置

ctrl, 打开设置 > 搜索autopep8 > 找到Autopep8:Args > 添加项--max-line-length150

Java泛型的介绍和基本使用

什么是泛型 ​ 泛型就是将类型参数化,比如定义了一个栈,你必须在定义之前声明这个栈中存放的数据的类型,是int也好是double或者其他的引用数据类型也好,定义好了之后这个栈就无法用来存放其他类型的数据。如果这时候我们想要使用这…

谷粒商城实战笔记-71-商品服务-API-属性分组-前端组件抽取父子组件交互

文章目录 一,一次性创建所有的菜单二,开发属性分组界面1,左侧三级分类树形组件2,右侧分组列表3,左右两部分通信3.1 子组件发送数据3.2,父组件接收数据 Vue的父子组件通信父组件向子组件传递数据子组件向父组…

SpringBoot添加密码安全配置以及Jwt配置

Maven仓库(依赖查找) 1、SpringBoot安全访问配置 首先添加依赖 spring-boot-starter-security 然后之后每次启动项目之后,访问任何的请求都会要求输入密码才能请求。(如下) 在没有配置的情况下,默认用户…

LLM agentic模式之工具使用: Gorilla

Gorilla Gorilla出自2023年5月的论文《Gorilla: Large Language Model Connected with Massive APIs》,针对LLM无法准确地生成API调用时的参数,构建API使用数据集后基于Llama微调了一个模型。 数据集构建 API数据集APIBench的构建过程如下&#xff1…

《Programming from the Ground Up》阅读笔记:p75-p87

《Programming from the Ground Up》学习第4天,p75-p87总结,总计13页。 一、技术总结 1.persistent data p75, Data which is stored in files is called persistent data, because it persists in files that remain on disk even when the program …