安全数据资产
统一管理DataOps,即 Data 和 Operations 的集成,于 2014 年首次提出。Gartner 将 DataOps
定义为“一种协作性的数据管理
实践,专注于改进组织内数据管道的通信、集成和自动化”[7]。DataOps 是一种面向流程的自动化方法,适用于从数据采集到生成数据分析
报告的整个数据生命周期,通过创建对数据、数据模型和相关组件的可预测交付和变更管理,实现
更快的价值交付。在整个数据生命周期中,DataOps 提供一个所有成员无缝协作的环境,
协助数据团队将数据孤岛转变为敏捷、高速、自动化的数据供应链,持续改善和优化整个
数据管道,最大限度发挥数据价值。
DataOps 在产品开发的各个方面保障数据完整性,旨在提高数据分析质量和缩短数据
分析周期,提高企业使用数据的效率,降低使用数据的门槛和成本,让数据为企业带来更
多价值
数据存储
定义内涵
数据存储是指将数据以某种格式记录在计算机内部或外部存储介质上。在本节中主要介
绍 SecXOps 中的数据集存储方式。
技术背景
传统的数据存储是一个手动的、管理进行驱动的过程,需要专家知识管理数据存储的整
个周期,不仅成本昂贵、耗费大量资源,也易受到存储资源复杂性的困扰和限制。随着数据
向云上部署进程的推进,传统管理方法使得存储过程和 IT 运营更为困难。DataOps 的问世缓
解了上述困境。
DataOps 的理念建立在 DevOps 之上,旨在实现敏捷数据存储、分析和管理。眼下很多
公司和企业都没有完善的数据管理过程,缺乏版本控制、持续集成等环节,数据的传递流程
需要人去沟通,而 DataOps 则是建立了一个完整的数据管道,极大地简化了数据的存储管理
流程。
一个典型的数据管道包括数据提取、集成、转换和分析阶段。在数据存储阶段,敏捷数
据流程往往从单个数据子集和子集的增量价值交付开始,需要软件开发人员、IT 运维人员和
数据团队之间进行协作,并尽可能将这个流程自动化。
DataOps 以数据作为基础和支撑。然而,对安全领域而言,安全数据资产的合法获取十
分困难。安全数据的来源通常是黑客论坛、博客、社交网络、应用程序论坛等,但这些渠道
获取的数据存在以下问题:一是数据量往往不足以支撑项目的运行,二是数据质量无法保障,
三是数据集中是否存在投毒数据、是否携带后门触发器等风险尚未可知。开发者也可以通过
爬虫程序获取安全数据,但许多企业已经具备反爬虫意识,在网页代码中嵌入了反爬虫策略,
同时也为数据收集者带来了法律风险。总之,安全数据的收集在获取渠道、获取方式上都存
在着较高难度。
思路方案
在众多开源的自动化机器学习平台中,数据的存储方式各有差异。例如 H2O,它能够从
HDFS、S3、NoSQL、SQL 中读取数据或写入数据,能从本地和分布式文件系统接收 CSV 格
式的数据,支持写代码对数据进行处理。Databricks 则与 Spark 和 Apache 的数据湖相结合,
为批处理或流式提取、转换和加载提供了一个简单的接口。
021
SecXOps 关键技术
而在 SecXOps 平台上,我们允许用户创建多个数据集,同时一个数据集可以拥有多
个版本,在每一个版本里可以存放大量的数据。一个数据集版本内的全部数据存放在一个
Kubernetes 的 PVC 当中。
PVC 是 Kubernetes 中的一个概念,全称是持久卷申领,表达了用户对存储的需求。PV
又叫持久卷,是集群中的一块存储,可以由集群管理员预先制备,也可以通过使用存储类
(storage class)来动态制备。PVC 的申领会耗费 PV 资源,SecXOps 平台上部署了 NFS 的
存储服务作为一个存储类,允许 Kubernetes 在创建 PVC 时自动创建一个 PV。
当用户想要访问数据集时,平台会根据用户的选择,创建一个 ReplicaSet。ReplicaSet
是 Kubernetes 中的一种 Pod 控制器,主要作用是能够保证一定数量的 Pod 能够正常运行。
ReplicaSet 会持续监听这些 Pod 的运行状态,一旦 Pod 发生故障,就会重启或重建。由于数
据集的查看和在线编辑对性能需求并不会很高,因此 ReplicaSet 下创建一个 Pod 即可。Pod
内包含一个用户容器,将数据文件所在的 PVC 挂载到该容器上,供用户上传、下载或在线编
辑数据文件。SecXOps 支持用户选择数据集版本的打开方式,平台上集成了 jupyterlab,允
许用户能够编写脚本对数据集进行批量化的在线修改,同时还集成了 filebrowser,允许用户
能够快速地批量上传和下载文件。
SecXOps 不仅支持用户从本地上传数据文件,从用户个人或企业内部配置的数据管理服
务(如 LakeFS 等)中批量导入数据文件,从公有数据管理服务中批量导入数据文件,还支
持用户自定义部署数据采集服务(例如一些流量采集等服务),自动化生成数据集,全面打通数据获取通道,让安全数据的来源更加广泛
参考资料
绿盟SecXOps安全智能分析技术白皮书
友情链接
GB-T 38674-2020 信息安全技术 应用软件安全编程指南