【开源威胁情报挖掘2】开源威胁情报融合评价

news2024/12/24 3:34:01

基于开源信息平台的威胁情报挖掘综述

  • 写在最前面
  • 4 开源威胁情报融合评价
    • 开源威胁情报的特征与挑战
    • 4.1 开源威胁情报数据融合
      • 融合处理方法
    • 4.1 开源威胁情报的质量评价
      • 4.1.1 一致性分析
        • 本体的定义与组成
        • 本体构建的层次
      • 4.1.2 去伪去重
      • 4.1.3 数据融合分析
    • 4.2 开源威胁情报质量及可信性评价
      • 4.2.1 定性评价方法
      • 4.2.2 定量评价方法
        • 特征指标提取
        • 自定义的定量评价标准
        • 图挖掘技术的应用
    • 4.3 总结与讨论
      • 数据融合与质量评价的方法和技术
      • 性能评估与研究评价
      • 研究和应用的前景
  • prompt:阅读梳理文献的尝试

写在最前面

目前计划在网络安全领域的开源威胁情报挖掘展开进一步实验和论文写作,欢迎交流。

本文基于2022年1月《信息安全学报》崔琳等老师的论文 基于开源信息平台的威胁情报挖掘综述 进行梳理了解。

该论文为我们提供了一个全面的开源威胁情报挖掘框架,涵盖了该领域的关键方向、技术应用及未来趋势。
注意:这篇论文发布时间稍早,最前沿的视角需要之后再去补充阅读其他相关论文。

关键词:开源威胁情报;识别提取;融合评价;关联分析


这篇综述的内容相当扎实,所以预期分几次完成阅读。

前文:【开源威胁情报挖掘1】引言 + 开源威胁情报挖掘框架 + 开源威胁情报采集与识别提取

本文为综述的第四章节,将梳理开源威胁情报挖掘技术的开源威胁情报融合评价

有助于新入领域的研究者全面理解开源威胁情报挖掘,并为细分方向的研究者提供参考,以突破现有研究的局限性。

4 开源威胁情报融合评价

本章节供了对开源威胁情报融合评价和数据融合的深入分析,关注于如何从多源异构的情报中提取高质量、可信的威胁情报。

开源威胁情报的特征与挑战

高质量的威胁情报应具备时效性、准确性、完整性、丰富性、可操作性和场景相关性。

然而,由于开源威胁情报的多源异构性,质量良莠不齐,这在存储、共享和实际应用中造成了挑战,如可能出现的漏报和误报。

4.1 开源威胁情报数据融合

数据融合是有效利用开源威胁情报的关键。目前的研究工作主要集中在:①多源异构情报的一致性分析和②去伪去重等粗粒度数据融合方法。

这些方法旨在扩展情报信息的维度,并实现对分析后的开源威胁情报的归一化封装输出。

融合处理方法

由于开源威胁情报来源的开放性,其产出具有显著的多源异构性。

近年来,众多学者对开源威胁情报的融合处理进行了大量研究,主要通过一致性分析、去伪去重及数据融合分析等操作进行改善。

4.1 开源威胁情报的质量评价

质量评价是针对开源威胁情报的可信性和可用性进行的评估,一般包括定性评价方法和定量评价方法。这些评价方法对于确保所使用的开源威胁情报的质量和可靠性至关重要。

开源威胁情报的融合评价和数据融合是提高情报质量、可信性的关键。通过有效的融合处理和精确的质量评价,可以从广泛的开源信息中提取出高质量的威胁情报。
这对于深入理解威胁攻击、扩充商业威胁情报的数据维度,以及提供更广泛有效的防御路径具有重要意义。

4.1.1 一致性分析

开源威胁情报中的一致性分析及其在本体构建中的应用。

在开源威胁情报领域,本体为同一领域内不同实体之间提供了交流和连接的语义基础,是理解和处理开源威胁情报的关键。

一致性分析通过本体构建在开源威胁情报的共享与分析中发挥关键作用。通过本体构建,可以实现数据向知识的转化,并为威胁情报的进一步处理提供坚实的基础。这种方法在促进开源威胁情报的有效利用和提高分析效率方面具有重要价值。

本体的定义与组成

在这里插入图片描述
在这里插入图片描述

根据形式化定义[50],本体包含以下元素:

  • C:代表本体概念的集合,通常用自然语言描述。
  • R:表示非上下文关系,定义了实际关系的映射。
  • C H:上下文关系的集合,定义了本体的层次结构。
  • Av:本体上公理的集合。
本体构建的层次

本体构建层次可以参考图 4,其中安全情报本体作为情报知识图谱构建的核心层次。本体构建是将信息抽取得到的实体及其关系转化为知识网络的过程,同时,本体中定义的约束与规则为后续的质量评估和知识推理提供基础[51]。

在这里插入图片描述

实现方法:

  • 本体复用:利用已有的本体作为构建的基础。
  • 本体匹配:确保不同本体间的一致性和协调。

本体类型:

  • 基于模式的知识本体:从网络安全研究的原理、需求和规范等角度构建。
  • 基于数据的知识本体:根据现有数据的格式、内容和结构化程度构建。

应用案例:
北京航空航天大学的团队在开源威胁情报一致性分析中应用了本体,提出了描述多源异构开源威胁情报的基于本体的统一模型[52]。此外,他们还开发了一个基于该统一模型和开源情报收集工具IntelMQ的开源威胁情报集成框架。

4.1.2 去伪去重

去伪去重是开源威胁情报挖掘的一个重要环节,主要通过维度扩展和挖掘分析方法对情报数据进行提纯。

  • M. Adithya等人[53]:强调信息去冗技术在降低分布式存储中的通信和容量开销方面的重要性。

  • Edwards等人[54]:提出了一种可过滤、分类、消除重复数据、对数据项进行优先级排序的威胁情报系统的想法。

  • Brown等人[55]:强调在使用开源威胁情报系统之前,必须进行去重等操作,以避免增加安全运营人员的工作量。

  • 方法与挑战
    去重主要通过快速匹配算法从各种数据集中识别出匹配记录,并从属性、关系或数据内容等维度上进行合并。其效果受到数据质量、缩略词使用或语言差异等多种因素的影响。

4.1.3 数据融合分析

数据融合分析通过机器学习等方法对原始情报信息进行关联融合处理,以获得具有时效性、准确性、完整性的高质量威胁情报。

  • Modi等人[56]:提出了一个自动开源威胁情报融合框架,利用聚类技术对内容相似的情报数据进行聚合关联。
  • Azevedo等人[57]:采用簇聚合技术,关联并聚合不同开源情报源中的相似IOC信息。
  • 文献[58]:结合NLP和智能分析技术,设计了一种基于多源情报信息融合的高质量开源威胁情报生成工具。该工具综合运用一致性分析, 去伪去重等常见的粗粒度数据融合分析手段, 并结合了 SVM、贝叶斯推断等高阶数据分析技术, 可针对威胁情报数据进行清洗、集成、整合处理。但其数据融合方法手段及关联应用效率还尚待进一步提升。
  • 展望
    未来,随着数据量的增加,基于深度学习的数据融合方法将因其在处理海量数据上的优势而得到广泛应用。
    传统的数据融合技术,如贝叶斯推理、卡尔曼过滤、机器学习等,将继续在提高威胁情报质量方面发挥重要作用。

4.2 开源威胁情报质量及可信性评价

专注于开源威胁情报的质量及可信性评价,特别是定性评价方法的应用和重要性。

在网络安全领域,对开源威胁情报的质量和可信性进行评估对于辅助决策和安全分析至关重要。国内外学者对此进行了广泛的研究,尤其是定性评价方法,对于理解和提升开源威胁情报的价值具有重要意义。

对开源威胁情报进行定性评价是确保其质量和可信性的重要步骤。这些评价方法不仅提供了一个全面的评估框架,还有助于深入理解情报内容的重要性和应用价值。对于网络安全专家来说,这些评价方法是提高情报使用效率和有效性的重要工具。

4.2.1 定性评价方法

定性评价方法侧重于使用非量化的标准来评估情报的质量和可用性。

  • Bouwman等人[62]:通过比较商业情报和开源数据,发现两者在情报内容上几乎没有重叠。他们指出商业威胁情报在覆盖率和及时性方面存在不足,同时提出了一种基于场景相关性、丰富性和可操作性的商业威胁情报质量定性评估方法。

  • Alessandra等人[63]:提出了一种面向开源网络威胁情报平台的定性质量评估方法。该方法根据5W3H原则提出了威胁情报应用周期中的评价标准,如收集、分析、部署阶段所需的标准,以及面向OSCTI平台的额外标准。

  • 定性评价的重要性:定性评价方法通过提供一组非量化的标准和指标,为开源威胁情报的质量提供了全面的评估框架。这些方法有助于识别情报的关键特征,如场景相关性、丰富性和可操作性,从而提升情报的实用价值和可用性。

4.2.2 定量评价方法

定量评价方法通过使用具体的量化指标来评估开源威胁情报。

开源威胁情报的定量评价方法通过引入多种量化指标和高级数据分析技术,为评估情报的质量和可信度提供了更准确、客观的视角。这些方法不仅提高了情报的使用效率和有效性,还为网络安全专家提供了重要的技术支持。

特征指标提取

从开源威胁情报的特点出发, 提取多个特征作为评价依据。

  • 文献[64]:基于3S(Semantic, Surface, and Source features)模型,提出了多维度的分析方法,包括时间、内容和领域知识三个维度来提取16个定量可信特征,并使用DBN(Deep Belief Network)算法进行可信判别。
  • 文献[65]:从情报来源、内容、活跃周期、黑名单库匹配度等维度提取特征,设计了基于深度神经网络和Softmax分类器的评价模型。
自定义的定量评价标准
  • Vector等人[66]:定义了数量、差异贡献、排他贡献、相对延迟、准确性、覆盖范围等度量标准。

  • Thomas等人[67]:定义了扩展性、保持性、误报率、可验证性等10个定量参数。

  • Schlette等人[68]:将威胁情报评价维度划分为属性级、对象级、报告级,并形成一个可量化的评估体系。

  • Griffioen等人[69]:关注于开源威胁情报的质量评价。作者在该研究中定义了四种类型的威胁情报质量评价指标:及时性、敏感性、原创性和影响力。基于这些评价指标,他们引入了一种改进的分类方法来对威胁情报实现定量评估。
    这种方法有助于对开源威胁情报的质量进行更为精确和全面的评价。

  • 文献70:提出了一种基于用户视角建立的开源威胁情报服务评估方法。该方法将威胁情报视为一种特殊的服务,其质量评价包括价格、功能、性能和质量、服务、资格等五个维度。此外,该方法基于假设,即人们更容易相信大多数人给出的信息的真实性,提出基于多数威胁情报使用者的意见和评价来衡量情报的可信度。
    这种方法通过用户反馈来动态调整检测项目的权重和得分,从而获得更为精确的情报质量评价结果。

  • Omar等人[71]:提出了情报质量指数(Quality of Indicators, QoI)的概念,用于评估开源威胁情报共享参与者的贡献水平。QoI评估方法涉及的指标包括正确性、相关性、实用性和唯一性,采用基准方法定义,并利用机器学习算法进行质量评价。
    这种方法特别关注于评估参与者对开源威胁情报共享的贡献,有助于提高共享质量和鼓励更积极的参与。

图挖掘技术的应用
  • 文献[72]:提出从图挖掘角度评估异构开源威胁情报的可信水平,构建了异构开源威胁情报图。
  • Roland等人[73]:提出了OSCTI源排序方法FeedRank,利用图模拟feed之间的关系,并对每个OSCTIF的贡献度进行量化分析。
  • 文献[74]:提出了基于知识表示算法TransE模型和RNN模型的可信评估模型,构建了一个情报知识图谱。

4.3 总结与讨论

开源威胁情报的数据融合、质量和可信性评价是保障其有效性和可靠性的关键。
这一领域的研究可以分为定性评价定量评价两个主要方向。

表 3 所示, 其中每一行代表一项研究工作,
第 1 列代表不同的研究方向;
第 3 列为主要的技术应用场景;
第 4 列为实现该项研究所应用的技术方法, 主要从数学模型以及评价技术两个方向进行归纳分析;
第 5 列为性能评估;
第 6 列为通过总结优缺点对该项研究工作的评价。

在这里插入图片描述

数据融合与质量评价的方法和技术

  • 机器学习与神经网络:在定性评价中,机器学习和神经网络模型被广泛应用。例如,文献[64-65]利用这些技术在多维度上提取特征指标。

  • 加权平均模型:在定量评价方面,加权平均模型常用于权衡各指标的重要性。文献[68,70]主要使用了加权平均数学模型对情报质量进行量化评估。

  • 图挖掘技术:有向图或知识图谱等技术逐渐成为新兴的情报质量度量方法。文献[72-74]采用图挖掘方法,如文献[72-73]使用有向图和PageRank算法,而文献[74]应用知识图谱进行评估建模。

性能评估与研究评价

  • 表3中的比较分析显示,不同的技术和方法有其独特的优点和局限性。例如,机器学习在处理大规模数据集时表现出色,而加权平均模型在考虑多个评价指标时更加灵活。

研究和应用的前景

  • 这些研究成果为开源威胁情报的质量评价和可信度打分提供了有效的技术支持,减少了人力需求,并帮助组织筛选出高质量、准确可信的威胁情报。

prompt:阅读梳理文献的尝试

结合chatgpt阅读梳理文献。

我现在在调研网安领域的威胁情报,以期待找到能做命名实体识别or关系抽取的任务。

我现在是阅读一篇论文《基于开源信息平台的威胁情报挖掘综述》,请梳理这段话,表达专业明了,保留参考文献,我需要更详细的内容,形成博客,方便阅读理解和后续思路整理。

请介绍新型网络安全威胁类型:APT、多态威胁、零日威胁、复合威胁,通过实际场景来说明,并之处其中存在的命名实体识别、关系抽取任务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1274269.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sqli-labs(9)

45. 不会显示报错信息通过or 1验证 在密码处输入)or(1 登录成功 )union select 1,2,3 # )union select 1,database(),3 # )union select 1,(select group_concat(table_name) from information_schema.tables where table_schemasecurity),3 # )union select 1,(select gro…

电脑桌面上带有日期提醒的便签工具用哪个

在电脑桌面上创建便签条目时,不少人后续复盘便签上整理的工作计划时,会想知晓当时是什么时间创建的工作计划,亦或者是该条工作计划需要什么时间触发提醒等,这时候电脑桌面便签就需要附带有相关的显示时间的功能,在电脑…

【数电笔记】码制

目录 说明: 二进制代码 1. 二 - 十进制码 2. 常用二 - 十进制代码表 2.1 例题 可靠性代码 1. 格雷码 2. 奇偶校验码 3. 8421奇偶校验码表 说明: 笔记配套视频来源:B站 二进制代码 1. 二 - 十进制码 2. 常用二 - 十进制代码表 2.1 例题…

6、单片机与AT24C02的通讯(IIC)实验(STM32F407)

IIC简介 I2C(IIC,Inter-Integrated Circuit),两线式串行总线,由PHILIPS公司开发用于连接微控制器及其外围设备。 它是由数据线SDA和时钟SCL构成的串行总线,可发送和接收数据。在CPU与被控IC之间、IC与IC之间进行双向传送,高速IIC总线一般可达…

常见算法

简单认识算法 什么是算法? 解决某个实际问题的过程和方法! 排序算法 冒泡排序 选择排序 冒泡排序 每次从数组中找到最大值放在数组的后面去 import java.util.Arrays;public class Work1 {public static void main(String[] args) {//准备一个数组in…

2023年AI报告:首个投研GPTs测评重塑AI竞争格局

今天分享的是AI系列深度研究报告:《2023年AI报告:首个投研GPTs测评重塑AI竞争格局》。 (报告出品方:国盛证券) 报告共计:10页 1.一键创建 GPTs 助力行业研究 GPTs 目前仅对企业用户和 ChatGPT Plus 会员…

一些后端测试的东西

后端测试都测试些什么 接口测试最小单元测试联调测试 接口测试 接口测试要素 可重复性 异常覆盖 环境一致 如何进行方便的接口测试 测试工具: idea-httpRequest , apifox , postman, jmeter 如何使用idea进行高效的接口测试 编写接口 启动项目直接…

数据爬取+可视化实战_告白气球_词云展示----酷狗音乐

一、前言 歌词上做文本分析,数据存储在网页上,需要爬取数据下来,词云展示在工作中也变得日益重要,接下来将数据爬虫与可视化结合起来,做个词云展示案例。 二、代码 # -*- coding:utf-8 -*- # 酷狗音乐 通过获取每首歌…

【网络】传输层 -- 详解IP协议及IP协议的分片原理

目录 一、IP协议基本概念二、IP协议头格式1、报头和有效载荷如何分离2、有效载荷是如何向上交付(分用)的3、具体IP报头 三、网段划分1、什么是网段划分2、如何进行子网划分?再次理解子网划分及如何划分 3、私有IP地址和公网IP地址4、路由 四、…

ax1800配置clash

ax1800路由器固件分享 路由器版本: 米WiFi开发版本固件 链接:https://pan.baidu.com/s/1MwJSl2chv66S_EzC3UtZwA 提取码:xbpt 固件降级 MiWiFi 后台的常用设置 -> 系统状态中点击手动升级 点击 手动升级 选择上传的包 升级完成图示例…

PyMuPDF---Python处理PDF的宝藏库详解

1、PyMuPDF简介 1.1 介绍 在介绍PyMuPDF之前,先来了解一下MuPDF,从命名形式中就可以看出,PyMuPDF是MuPDF的Python接口形式。 MuPDF MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。 …

深信服技术认证“SCSA-S”划重点:SQL注入漏洞

为帮助大家更加系统化地学习网络安全知识,以及更高效地通过深信服安全服务认证工程师考核,深信服特别推出“SCSA-S认证备考秘笈”共十期内容,“考试重点”内容框架,帮助大家快速get重点知识~ 划重点来啦 深信服安全服务认证工程师…

修改el-table表头样式

<style lang"scss" scoped> ::v-deep .el-table {.el-table__header-wrapper, .el-table__fixed-header-wrapper {th {word-break: break-word;background-color: #f8f8f9;color: #515a6e;height: 40px;font-size: 13px;}} } </style>

ROS报错:RLException:Invalid roslaunch XML Syntax: mismatched tag:

运行roslaunch文件提示&#xff1a; RLException:Invalid roslaunch XML Syntax: mismatched tag: line 45&#xff0c; column 2 The traceback for the exception was written to the log file. j 解决办法&#xff1a; line45 行多了标签&#xff1a;</node> 另外…

Intellij idea 快速定位到文件的开头或者结尾的几种方式

方式一&#xff1a;Scroll To Top / Scroll To Bottom 首先打开Keymap设置&#xff0c;并搜索Scroll To 依次点击File->Settings->Keymap可打开该界面 对于Scroll To Top 快速滑动定位到文件顶部&#xff0c; Scroll To Bottom快速定位到文件底部 默认是没有设置快捷键的…

用 LangChain 搭建基于 Notion 文档的 RAG 应用

如何通过语言模型查询 Notion 文档&#xff1f;LangChain 和 Milvus 缺一不可。 在整个过程中&#xff0c;我们会将 LangChain 作为框架&#xff0c;Milvus 作为相似性搜索引擎&#xff0c;用二者搭建一个基本的检索增强生成&#xff08;RAG&#xff09;应用。在之前的文章中&a…

分布式仿真SNN的思考

我之前实现的仿真完全基于如下图设计的 将整体的网络构成见一个邻接表&#xff0c;突触和神经元作为类分别存储&#xff0c;所以当一个神经元发射脉冲时&#xff0c;很容易的将脉冲传输到突触指向的后神经元。但是在分布式方丈中&#xff0c;由多个进程仿真整体的网络&#xff…

ChatGPT人工智能对话系统源码 附完整的搭建教程

人工智能技术的快速发展&#xff0c;对话系统成为了人们与计算机交互的重要方式之一。ChatGPT是一种基于深度学习的大型语言模型&#xff0c;其源码系统可以用于构建各种自然语言处理应用&#xff0c;如聊天机器人、智能客服、语音助手等。 以下是部分代码示例&#xff1a; 系…

金钟转债上市价格预测

金钟转债-123230 基本信息 转债名称&#xff1a;金钟转债&#xff0c;评级&#xff1a;A&#xff0c;发行规模&#xff1a;3.5亿元。 正股名称&#xff1a;金钟股份&#xff0c;今日收盘价&#xff1a;31.65元&#xff0c;转股价格&#xff1a;29.1元。 当前转股价值 转债面值…

NX二次开发UF_MTX2_initialize 函数介绍

文章作者&#xff1a;里海 来源网站&#xff1a;https://blog.csdn.net/WangPaiFeiXingYuan UF_MTX2_initialize Defined in: uf_mtx.h int UF_MTX2_initialize(const double x_vec [ 2 ] , const double y_vec [ 2 ] , double mtx [ 4 ] ) overview 概述 Returns a matrix…