追溯历史:SIEM 中的生成式人工智能革命

news2025/1/8 15:29:27

作者:来自 Elastic Mike Nichols, Mike Paquette

网络安全领域仿佛是现实世界的一个映射,安全运营中心(security operation center - SOC)就像是你的数字警察局。网络安全分析师就像是警察,他们的工作是阻止网络犯罪分子对组织发起攻击,或者在他们尝试攻击时将其阻止。当发生攻击时,类似于数字侦探的事件响应人员会从多个不同的来源收集线索,以确定事件的顺序和细节,然后制定补救计划。为了实现这一目标,团队需要将许多(有时是数十个)产品结合起来,以确定攻击的全貌并识别如何在业务遭受损失和损害之前停止威胁。

在网络安全的早期,分析师们意识到,集中证据可以简化数字调查。否则,他们将花费大部分时间尝试从那些前述的产品中分别收集所需的数据 —— 请求访问日志文件、搜集受影响系统的信息,然后手动将这些不同的数据联系起来。

我记得在我从事取证工作的时候,使用过一个名为 “log2timeline” 的工具,将数据按时间序列格式组织起来,还可以根据活动类型(如文件创建、登录等)进行颜色编码。早期的 SANS 培训课程教授了这个工具和时间线分析的强大功能。这实际上是一个 Excel 宏,可以将数据整理成一个 “超级” 时间线。这是革命性的,提供了一种组织如此多数据的简单方法,但它的生成需要很长时间。

现在,想象一下,如果侦探们必须等待几天才能进入犯罪现场,或者在他们找到合适的人给予权限之前,现场的证据对他们是禁止接触的。这就是网络安全分析师的生活。

在获取证据有限的情况下解决犯罪是一个失败的提议

在我的 SOC 职业生涯中,我经常感到惊讶的是,高级分析师花费在分析工作上的时间非常少。他们大部分的时间都花在管理数据上,比如追踪数据来源和筛选相关数据的日志。

在 21 世纪初,出现了用于为安全团队集中 “安全日志” 的产品。这项技术很快成为 SOC 中的一项基本技术,并且(经过几次命名的演变后)最终被称为安全信息与事件管理(security information and event management - SIEM)。这种产品承诺消除我们数据周围的迷雾,为团队提供一个中央存储和分析组织安全相关信息的地方。在本系列的第一部分中,我们将介绍 SIEM 演变的前三个主要阶段。

SIEM 二十年来的演变

SEM/SIM 的诞生(第0代)—— 21世纪初

集中收集和合规性

这一初期的安全日志收集被定义为 SEM(security event management - 安全事件管理)或 SIM(security information management - 安全信息管理)。它收集了系统活动的数字记录(日志数据)以及事件数据的组合。这对分析师来说是一个游戏规则改变者,因为他们现在控制着一个包含了解决数字犯罪所需数据的系统。基本上,安全团队现在拥有了自己的数据孤岛。这种产品革命主要是由于收集数据的需求驱动的,比如维护取证日志,并能向审计员和调查员证明确实收集了这些日志。这种合规性用例推动了集中安全事件收集的采用。

这种新型产品带来了挑战。SOC 现在需要安全工程师来管理大量数据。他们还需要预算来收集和存储这些信息,因为他们正在将数据从众多其他系统复制到一个单一的集中系统中。但好处是显而易见的:通过减少从整个企业收集和排序数据所花费的时间,加速检测和补救措施。一旦收到攻击通知,事件响应者几乎可以立即开始工作。

从合规到威胁检测 —— 创建 SIEM 1.0

检测建立在收集的基础上

下一个进步是在集中的 SIEM(security information and event management - 安全信息与事件管理)层应用检测逻辑。SIEM 是 SEM 中的事件数据和 SIM 中的信息数据的组合。SEM/SIM 的合规性和证据收集能力很强,但在近十年的数据收集和审查后,分析师意识到他们可以通过集中信息做得更多。SIEM 不仅仅是从其他系统整合警报并提供一个集中的日志和事件记录系统,现在还可以跨多个数据源进行分析。检测工程师可以从一个新的角度操作 —— 发现在仅对一个数据源进行分析的点解决方案中可能被忽略的威胁,例如你的防病毒软件或网络防火墙。

这种演变带来了很多挑战。除了更需要专业的专业知识和预先构建的规则外,SIEM 还集中收集了来自众多点解决方案的警报,每个解决方案本身都产生了很多误报,加剧了问题。SIEM 分析师必须审查集体网络和桌面警报。这导致了 SIEM 分析师经常问的一个问题:“我从哪里开始?”再加上 SIEM 本身的一整套新的检测警报。你的 SIEM 现在包含了网络中所有其他系统警报的总和,加上通常生成的警报数量。不用说,SIEM 产生了很多警报。

机器学习的承诺

机器学习(machine learning - ML)承诺以较少的维护需求改善未知威胁的检测。其目标是识别异常行为,而不是依靠硬编码的规则来查找每一个威胁。

在机器学习出现之前,检测工程师必须分析已经发生的攻击或可能发生的攻击(源自第一方研究),并为这种潜在的事件编写检测规则。例如,如果发现了一种利用发送给 Windows 进程的某些特定参数的攻击,人们可以编写一个规则来寻找执行时调用这些参数。但是,对手只需更改参数的顺序或以不同方式调用它们,就可以避免这种脆弱的检测。而且,如果这些参数有合法用途,可能需要花费几天(甚至几周)的时间来调整,以从检测逻辑中去除这些误报。

机器学习的承诺是极大地减少这一挑战。具体来说,ML 在两个方面有所帮助:

  • “无监督” 的基于ML的异常检测:分析师只需要决定在哪些领域寻找未知行为,如登录、进程执行和访问 S3 存储桶。然后,ML 引擎学习这些领域的正常行为,并标记出异常情况。SANS DFIR 在 2014 年制作了一个著名的海报,上面写着 “Know Abnormal…Find Evil. - 了解异常...发现恶意”。

  • 训练有素或 “监督” 的 ML 模型:人类分析师可以看到某些事物,并且他们的大脑可以联系起来,这看起来与之前观察到的攻击有些类似。这些专家能够了解攻击的发生方式,并将这些知识应用于寻找遵循类似进展的未知攻击。传统上,他们在威胁狩猎中使用这种专业知识来帮助发现安全产品可能错过的威胁。现在,有了机器学习,他们能够制定训练有素的模型检测,具有从以前的攻击中学习并找到以类似方式进行攻击的新攻击的能力。专注于行为 —— 而不仅仅是原子指标,如哈希值、文件中的字符串和 URL —— 允许检测具有更长的使用寿命和更高的攻击检测率。

2014 年 SANS DFIR 海报

异常活动的识别,或称为异常分析,使安全团队能够快速识别 “奇怪” 的活动并进行调查。奇怪可能是指某个用户在奇怪的时间从奇怪的地点登录,有时这可能是一名窃取了凭据以访问网络的对手。但有时候,这可能是正在度假的 Sally 在凌晨2点登录来解决网络问题。虽然误报增加了,但发现全新、以前没有发现的威胁的能力足以使人们对处理误报的额外帮助感到满意。用户和实体行为分析(UEBA)时代已经开始,现代 SIEM 系统由基于规则和机器学习的检测技术驱动。

SIEM 2.0 — 编排和自动化

从被动到主动的转变

正如我们所见,SIEM 曾经主要用于历史问题报告,而不是真正的端到端解决方案。SIEM 能够提醒你存在问题,但之后的清理工作需要你自行处理。这一情况随着 SOAR(security orchestration, automation, and response - 安全编排、自动化和响应)的引入而改变。这一新的产品线是为了填补 SIEM 中的功能缺口而创建的。它们提供了一个地方,用于收集和组织分析师希望执行的步骤以缓解攻击,并提供连接器连接到其它系统的生态系统以启动来自 SOAR 系统的响应。在我们的警察部门类比中,SOAR 就像是指挥其他系统执行命令的交通警察。它们是连接 SIEM 发现攻击和其他系统响应行动的粘合剂。

就像 UEBA 一样,从中央位置组织响应计划并启动行动的能力已成为现代 SIEM 的期望功能。现在,在 SIEM 2.0 的生命周期中,预期 SIEM 能够跨组织大规模收集数据(第 0 代),利用基于规则和基于机器学习的技术检测点解决方案可能错过的新威胁并在不同系统间进行关联(SIEM 1.0),并允许规划和执行响应计划(2.0)。实际上,一个新的缩写词 —— TDIR(threat detection, investigation, and response - 威胁检测、调查和响应)—— 被创造出来,以捕捉处理攻击全范围的能力。

SIEM 的第三代 — 现代安全分析

在网络安全中的生成式人工智能革命

尽管未能解决一个基本挑战 —— 网络安全领域的严重技能短缺,但 SIEM 已经成为 SOC 威胁检测、分析和调查的基础。一项由 IBM 委托进行的、由 Morning Consult 完成的 2023 年 3 月的研究发现,SOC 团队成员 “只有在一个典型工作日内完成了他们应该审查的警报的一半”。这是一个 50% 的盲点。数十年来的渐进改进(简化工作流程、自动化常规步骤、指导初级分析师等)已经有所帮助 —— 但还不够。随着消费者可访问的具有网络安全领域专业知识的生成式人工智能模型的出现,情况正在迅速改变。

这是技术第一次从高级分析师那里学习,并自动帮助初级成员应用这些知识。生成式人工智能现在帮助安全从业者制定特定于组织的应对计划、优先处理威胁、编写和策划检测、调试问题,以及处理其他常规且耗时的任务。生成式人工智能承诺将自动化反馈循环反馈到 SOC,实现每天不断的改进。我们现在可以通过这种自动化反馈和学习来闭环 OODA 循环。

由于大型语言模型的性质(生成式人工智能背后的科学),我们现在终于可以利用技术来跨越大量数据点进行推理,就像人类一样 —— 但规模更大、速度更快、理解更广泛。此外,用户可以使用自然语言与大型语言模型进行交互,而不是使用代码或数学,进一步降低了采用的障碍。以前从未有过分析师能够用自然语言提问,比如 “我的数据中是否包含任何可能对我的组织构成风险的活动?” 这是 SIEM 中可以嵌入的功能的能力上的前所未有的飞跃。生成式人工智能已成为一个强大而准确的数字 SOC 助手。

在安全运营工作流程中利用人工智能革命的产品将推出 SIEM 3.0。

了解 SIEM 演变的更多信息

本博文回顾了 SIEM 的演进历程,从集中收集数据到在组织层面检测威胁,再到自动化和编排以加速问题的解决。现在,在 SIEM 技术的第三阶段,我们终于着手解决网络安全领域的严重技能短缺。

在本系列的第二部分中,我们将讨论 Elastic Security 从 TDIR(威胁检测、调查和响应)发展为全球首个、也是唯一的 AI 驱动安全分析产品的演变过程。与此同时,你可以通过阅读这本电子书《网络安全的生成式人工智能:一个乐观但不确定的未来》来了解安全专业人员对生成式人工智能出现的反应。敬请期待第二部分!

本文中描述的任何功能或功能的发布和时间均由 Elastic 自行决定。目前不可用的任何功能或功能可能无法按时或根本无法交付。

在本博文中,我们可能使用或参考了第三方生成式人工智能工具,这些工具由各自的所有者拥有和运营。Elastic 对第三方工具没有任何控制权,对这些工具的内容、操作或使用不承担任何责任或义务,也不对你使用此类工具可能导致的任何损失或损害承担责任。在使用涉及个人、敏感或机密信息的 AI 工具时,请谨慎行事。你提交的任何数据可能用于 AI 培训或其他目的。我们不能保证你提供的信息将被保密和安全地保存。在使用任何生成式人工智能工具之前,请熟悉其隐私实践和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标志是 Elasticsearch N.V. 在美国和其他国家的商标、标志或注册商标。所有其他公司和产品名称均为其各自所有者的商标、标志或注册商标。

原文: Tracing history: The generative AI revolution in SIEM | Elastic Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1610129.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【webrtc】m114自己实现的PrioritizedPacketQueue及优先级处理

G:\CDN\WEBRTC-DEV\libwebrtc_build\src\modules\pacing\prioritized_packet_queue.h跟m98不同 :webrtc】m98 RoundRobinPacketQueue的优先级处理,m114直接使用taskqueue顺序处理了。甚至自己实现了优先级队列感觉简化了实现,更为清晰 易读,但是去掉了码率低就优先的逻辑。1…

Linux程序的地址空间,进程终止

个人主页:点我进入主页 专栏分类:C语言初阶 C语言进阶 数据结构初阶 Linux C初阶 算法 欢迎大家点赞,评论,收藏。 一起努力,一起奔赴大厂 一.程序的地址空间 1.1程序的地址空间的引入 我们知道frok可以创建…

R语言入门:“Hellinger“转化和“normalize“转化(弦转化)的公式表示与R代码实现

1、写在前面 vegan包中的decostand()函数为群落生态学研究提供了一些流行的(和有效的)标准化方法。有关decostand()函数标准化的一些标准化方法可以看我的另一篇笔记:R语言入门:vegan包使用decostand()函数标准化方法 由于在网络上没有找到关于这两个转…

AI 语音机器人系统怎么搭建

搭建AI语音机器人系统通常包括以下几个关键步骤: 确定需求和技术选型:首先要明确AI语音机器人需要实现的功能,选择合适的技术框架和工具,如自然语言处理工具、语音识别工具等。 搜集和准备数据:收集和整理与业务相关…

2.Python实战小项目—用Python批量压缩图片

2.Python实战小项目—用Python批量压缩图片 一摘要二个人简介三原理四流程五实战演示 一摘要 在Python中,批量压缩图片是一项相对直接且实用的任务,尤其适合需要处理大量图像数据的场合。Pillow库提供了一种简便的方式来达成这个目标,其强大的…

怎样在外网登录访问CRM管理系统?

一、什么是CRM管理系统? Customer Relationship Management,简称CRM,指客户关系管理,是企业利用信息互联网技术,协调企业、顾客和服务上的交互,提升管理服务。为了企业信息安全以及使用方便,企业…

我为什么想成为一名程序员

#为什么你选择成为一名程序员# 目录 原因: 后续选择: 结尾: 原因: 本人是一个00后,出生在农村当时经济相对来说比较落后,村里面基本上都没几个人有手机。当时有些小伙伴他们拿着自己大人的手机在那里玩…

Youtube DNN

目录 1. 挑战 2. 系统整体结构 3.召回 4. 排序 5. 训练和测试样本的处理 1. 挑战 (1)规模。很多现有的推荐算法在小规模上效果好,但Youtobe规模很大。 (2)新颖度。Youtobe语料库是动态的,每秒都会有…

Java中的栈和队列

1.前言 在计算机科学中,数据结构是用来组织和存储数据的方式,以便可以高效地访问和修改。栈和队列是两种最基本的数据结构,它们在各种计算过程中都有广泛的应用。本文将介绍栈和队列的概念、特性以及它们的一些常见应用。 2.栈 2.1概念 栈…

姑苏寻韵~庆开放原子开源大赛 OpenTiny 前端 Web 应用开发挑战赛路演圆满落幕。

春日已至,姑苏古城迎来了一场编程的盛宴——开放原子开源大赛OpenTiny前端Web应用开发挑战赛。历时三个月的激烈角逐,OpenTiny与众多开发者携手共赴这场智慧的较量。决赛路演于4月14日在苏州(太湖)产业软件园圆满落下帷幕~ 开放原…

编译一个基于debian/ubuntu,centos,arhlinux第三方系统

目录 前言 准备工作 下载linux源码进行编译 linux源码下载 网站 问题 解决办法 编译 可能会遇到的问题 chroot下载debian环境 进入虚拟环境 把chroot的根目录文件打包为.gz文件 编译init文件(用于系统启动时的一系列引导) 给予文件夹权限 …

Zabbix 监控软件(一)

通常我们服务搭建成功 但不清楚服务器的运行状况,这时候就需要会使用监控系统查看服务器状态以及网站流量指标,利用监控系统的数据去了解上线发布的结果,和网站的健康状态。 利用一个优秀的监控软件,我们可以: ●通过一个友好的界…

基于java+springboot+vue实现的物业管理系统(文末源码+Lw+ppt)23-23

摘 要 快速发展的社会中,人们的生活水平都在提高,生活节奏也在逐渐加快。为了节省时间和提高工作效率,越来越多的人选择利用互联网进行线上打理各种事务,通过线上物业管理系统也就相继涌现。与此同时,人们开始接受方…

Leetcode算法训练日记 | day31

专题九 贪心算法 一、分发饼干 1.题目 Leetcode:第 455 题 假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。 对每个孩子 i,都有一个胃口值 g[i],这是能让孩子们满足胃口的…

如何查看项目中使用的Qt版本

如何查看项目中使用的Qt版本 1.点击左下角电脑按钮查看Qt版本。 2.点击左侧栏项目按钮查看Qt版本。

Android开发——Fragment

Demo fragment_blank.xml <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"match_pare…

Windows系统远程桌面服务(RDP)的安全层和加密级别

1.【win10企业版/server2012】 1.服务器运行gpedit.msc&#xff0c;打开本地组策略&#xff0c;进入列表目录【计算机配置】-【管理模板】-【windows组件】-【远程桌面服务】-【远程桌面会话主机】-【安全】 2.双击“远程(RDP)连接要求使用指定的安全层”选项&#xff0c;配置…

Redis入门到通关之数据结构解析-RedisObject

文章目录 ☃️概述☃️源码 ☃️概述 RedisObject 是 Redis 中表示数据对象的结构体&#xff0c;它是 Redis 数据库中的基本数据类型的抽象。在 Redis 中&#xff0c;所有的数据都被存储为 RedisObject 类型的对象。 RedisObject 结构体定义如下&#xff08;简化版本&#xf…

linux负载均衡 和 系统负载分析笔记

1 负载均衡 1.1 计算负载 1.1.1 PELT算法简介 从Linux3.8内核以后进程的负载计算不仅考虑权重&#xff0c;⽽且跟踪每个调度实体的历史负载情况&#xff0c;该算法称为PELT(Per-entity Load Tracking) 《奔跑吧Linux内核》卷1&#xff1a;基础架构&#xff1b;P505 相关资料…

LeetCode216:组合总和Ⅲ

题目描述 找出所有相加之和为 n 的 k 个数的组合&#xff0c;且满足下列条件&#xff1a; 只使用数字1到9 每个数字 最多使用一次 返回 所有可能的有效组合的列表 。该列表不能包含相同的组合两次&#xff0c;组合可以以任何顺序返回。 解题思想 使用回溯算法 代码 class So…