SecXOps 中的数据集存储方式

news2025/1/19 14:25:55

安全数据资产
统一管理DataOps,即 Data 和 Operations 的集成,于 2014 年首次提出。Gartner 将 DataOps
定义为“一种协作性的数据管理
实践,专注于改进组织内数据管道的通信、集成和自动化”[7]。DataOps 是一种面向流程的自动化方法,适用于从数据采集到生成数据分析
报告的整个数据生命周期,通过创建对数据、数据模型和相关组件的可预测交付和变更管理,实现
更快的价值交付。在整个数据生命周期中,DataOps 提供一个所有成员无缝协作的环境,
协助数据团队将数据孤岛转变为敏捷、高速、自动化的数据供应链,持续改善和优化整个
数据管道,最大限度发挥数据价值。
DataOps 在产品开发的各个方面保障数据完整性,旨在提高数据分析质量和缩短数据
分析周期,提高企业使用数据的效率,降低使用数据的门槛和成本,让数据为企业带来更
多价值在这里插入图片描述

数据存储

定义内涵

数据存储是指将数据以某种格式记录在计算机内部或外部存储介质上。在本节中主要介
绍 SecXOps 中的数据集存储方式。

技术背景

传统的数据存储是一个手动的、管理进行驱动的过程,需要专家知识管理数据存储的整
个周期,不仅成本昂贵、耗费大量资源,也易受到存储资源复杂性的困扰和限制。随着数据
向云上部署进程的推进,传统管理方法使得存储过程和 IT 运营更为困难。DataOps 的问世缓
解了上述困境。
DataOps 的理念建立在 DevOps 之上,旨在实现敏捷数据存储、分析和管理。眼下很多
公司和企业都没有完善的数据管理过程,缺乏版本控制、持续集成等环节,数据的传递流程
需要人去沟通,而 DataOps 则是建立了一个完整的数据管道,极大地简化了数据的存储管理
流程。
一个典型的数据管道包括数据提取、集成、转换和分析阶段。在数据存储阶段,敏捷数
据流程往往从单个数据子集和子集的增量价值交付开始,需要软件开发人员、IT 运维人员和
数据团队之间进行协作,并尽可能将这个流程自动化。
DataOps 以数据作为基础和支撑。然而,对安全领域而言,安全数据资产的合法获取十
分困难。安全数据的来源通常是黑客论坛、博客、社交网络、应用程序论坛等,但这些渠道
获取的数据存在以下问题:一是数据量往往不足以支撑项目的运行,二是数据质量无法保障,
三是数据集中是否存在投毒数据、是否携带后门触发器等风险尚未可知。开发者也可以通过
爬虫程序获取安全数据,但许多企业已经具备反爬虫意识,在网页代码中嵌入了反爬虫策略,
同时也为数据收集者带来了法律风险。总之,安全数据的收集在获取渠道、获取方式上都存
在着较高难度。

思路方案

在众多开源的自动化机器学习平台中,数据的存储方式各有差异。例如 H2O,它能够从
HDFS、S3、NoSQL、SQL 中读取数据或写入数据,能从本地和分布式文件系统接收 CSV 格
式的数据,支持写代码对数据进行处理。Databricks 则与 Spark 和 Apache 的数据湖相结合,
为批处理或流式提取、转换和加载提供了一个简单的接口。
021
SecXOps 关键技术
而在 SecXOps 平台上,我们允许用户创建多个数据集,同时一个数据集可以拥有多
个版本,在每一个版本里可以存放大量的数据。一个数据集版本内的全部数据存放在一个
Kubernetes 的 PVC 当中。
PVC 是 Kubernetes 中的一个概念,全称是持久卷申领,表达了用户对存储的需求。PV
又叫持久卷,是集群中的一块存储,可以由集群管理员预先制备,也可以通过使用存储类
(storage class)来动态制备。PVC 的申领会耗费 PV 资源,SecXOps 平台上部署了 NFS 的
存储服务作为一个存储类,允许 Kubernetes 在创建 PVC 时自动创建一个 PV。
当用户想要访问数据集时,平台会根据用户的选择,创建一个 ReplicaSet。ReplicaSet
是 Kubernetes 中的一种 Pod 控制器,主要作用是能够保证一定数量的 Pod 能够正常运行。
ReplicaSet 会持续监听这些 Pod 的运行状态,一旦 Pod 发生故障,就会重启或重建。由于数
据集的查看和在线编辑对性能需求并不会很高,因此 ReplicaSet 下创建一个 Pod 即可。Pod
内包含一个用户容器,将数据文件所在的 PVC 挂载到该容器上,供用户上传、下载或在线编
辑数据文件。SecXOps 支持用户选择数据集版本的打开方式,平台上集成了 jupyterlab,允
许用户能够编写脚本对数据集进行批量化的在线修改,同时还集成了 filebrowser,允许用户
能够快速地批量上传和下载文件。
SecXOps 不仅支持用户从本地上传数据文件,从用户个人或企业内部配置的数据管理服
务(如 LakeFS 等)中批量导入数据文件,从公有数据管理服务中批量导入数据文件,还支
持用户自定义部署数据采集服务(例如一些流量采集等服务),自动化生成数据集,全面打通数据获取通道,让安全数据的来源更加广泛

参考资料

绿盟SecXOps安全智能分析技术白皮书

友情链接

GB-T 38674-2020 信息安全技术 应用软件安全编程指南

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/84806.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Java开发的(控制台)模拟的多用户多级目录的文件系统【100010035】

多级文件系统 1 设计目的 为了加深对文件系统内部功能和实现过程的理解,设计一个模拟的多用户多级目录的文件系统,并实现具体的文件物理结构、目录结构以及较为完善的文件操作命令集。 2 设计内容 2.1系统操作 操作命令风格:本文件系统的…

110115-07-6,Ac-LLM-CHOCalpain 抑制剂

Ac-LLM-CHO (ALLM) is a potent competitive inhibitor of cathepsin L (Ki0.6 nM) and cathepsin B (Ki100 nM). Ac-LLM-CHO (ALLM)是组织蛋白酶L (Ki0.6 nM)和组织蛋白酶B (Ki100 nM)的有效竞争性抑制剂。 编号: 124055中文名称: Calpain 抑制剂 II: Ac-Leu-Leu-M…

[附源码]Node.js计算机毕业设计点餐系统设计Express

项目运行 环境配置: Node.js最新版 Vscode Mysql5.7 HBuilderXNavicat11Vue。 项目技术: Express框架 Node.js Vue 等等组成,B/S模式 Vscode管理前后端分离等等。 环境需要 1.运行环境:最好是Nodejs最新版,我…

游戏开发59课 性能优化

7. 耗电优化 游戏耗电和游戏卡并无必然联系,有些游戏在某些设备上虽然运行很流畅,但发现耗电很厉害,玩了不到半个小时,电量已经出现警报。游戏耗电的原因主要是因为:CPU占用普遍高,内存操作频繁&#xff0…

Spring MVC学习 | 获取请求参数

文章目录一、ServletAPI获取二、控制器方法形参获取2.1 不使用RequestParam注解2.2 使用RequestParam注解2.2.1 简介&使用2.2.2 相关注解2.3 实体类类型的形参三、中文乱码问题3.1 在tomcat中设置编码(了解)3.2 使用Spring MVC内部过滤器设置编码学习…

【PortSwiggerのWeb Security Academy靶场】SQL Injection系列 9th

Subject Lab: Blind SQL injection with conditional responses Url: portswigger.net/web-securit… Mind Palace 在带着 cookies的后续访问网页时会找到出现的 Welcome back! 标志 > 无法回显 > 采用盲注的方式 0x01 确认注入点 0x02 爆破数据库名 # 测试informati…

qiankun 部署微前端-vue2(一)

自从前后端分离以来,一直都有个困惑,就是随着项目的功能的不断拓展,项目变得不断臃肿,每次打包编译,都要把整个项目编译,非常耗时。如果前端也能像后端一样,在项目搭建初期,有类似微…

C++11【包装器】

包装器📖1. 为什么需要包装器📖2. 如何使用包装器📖3. bind函数📖1. 为什么需要包装器 包装器也叫做适配器,C中的function本质是一个类模板,也是一个包装器. 为什么需要function呢? 我们来看…

ant-design-vue修改input组件样式

问题场景 不得不说ant-design-vue的样式是真的难改。。。今天尝试了很多种方案,都无疾而终。最终,通过全局scss文件引入的方式解决了。 几种方案: 直接行内样式,发现部分可以,部分不行将style 的scoped属性去掉&#…

非线性负载的主要分类及其特性

非线性负载的主要分类 通常而言,由线性元件原件组成的负载称为线性负载,线性负载的输出与输入呈线性关系,典型的线性负载如电阻、电容和电感等;而由非线性元件构成的负载为非线性负载,在正弦波电压供电时会产生非正弦…

Sentinel服务流控

Sentinel通过流量控制(flow control)以及熔断降级来保护系统资源 QPS超过阈值直接失败 流量控制(flow control),其原理是监控应用流量的 QPS 或并发线程数等指标,当达到指定的阈值时对流量进行控制&#x…

如何使用ABAQUS对新能源动力电池进行Pack分析

电池Pack的仿真,按照系统层次,可从电芯、模组、Pack和整车逐级分析。电芯主要集中于机械性能的材料拟合、激光焊接以及电-化学-热-机耦合建模,模组主要集中于跌落、振动以及模组冷却,Pack主要集中于**、冲击和振动以及Pack热管理&…

Token Merging: Your ViT But Faster

论文:https://arxiv.org/pdf/2210.09461.pdf 代码: https://github.com/facebookresearch/ToMe 这篇论文写的很棒呀,以摘要为例,第一句话指明ToMe的作用(提高ViT-based模型的训练和推理速度)和特色&#x…

java面试强基(21)

什么是线程和进程? 何为进程? ​ 进程是程序的一次执行过程,是系统运行程序的基本单位,因此进程是动态的。系统运行一个程序即是一个进程从创建,运行到消亡的过程。 ​ 在 Java 中,当我们启动 main 函数时其实就是启动了一个 J…

提质增效!北京筑龙助力蒙牛集团采招数智化升级

近两年,全球经济下行压力加剧,市场形势波动使得集团企业面临着很大的经营压力。随着数字经济时代的到来,利用数字技术重构价值链、重组业务流程,或创建新的生态系统平台成为集团企业数字化转型的契机。 蒙牛电子采购招标平台作为…

WEB网页设计期末作业个人主页——基于HTML+CSS制作个人简介网站

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

现实中的项目范围变更

大多数招投标或签合同的项目(TOG或TOB),范围变更是极少的,一旦发起范围变更申请,这个流程是非常复杂的,而且会有负面影响,尤其是TOG的项目。 项目范围变更,往往会引起项目金额变更,核减、增加、不变都有可能。 TOG项目的范围变更,常是因为政策变了、上级要求等不可…

(附源码)Springboot网上购物平台 毕业设计 141422

Springboot网上购物平台的开发 摘 要 随着Internet的使用越来越广泛,在传统的商业模式中,对于日常各类商品,人们习惯于到各种商家店铺购买。然而在快节奏的新时代中,人们不一定能为购买各类商品腾出时间,更不会耐心挑…

Docker管理工具Portainer忘记admin登录密码怎么办?

Portainer官网解决方法链接 https://docs.portainer.io/v/ce-2.11/advanced/reset-admin 炒鸡详细步骤! 1.查看所有容器,包括未运行的 docker ps -a 2.找到Portainer对应信息 3.停止Portainer容器 docker stop portainerid 我这里就应该是 docker stop 507566…

Unity VFX图表初级到中级教程

Unity VFX图表初级到中级教程 从 Unity 学习新的视觉效果工具并开始制作一些很棒的魔法效果 课程英文名:Unity VFX Graph - Beginner To Intermediate 此视频教程共4.5小时,中英双语字幕,画质清晰无水印,源码附件全 下载地址 …