2018 年,Gartner 将 DataOps 纳入到数据管理技术的成熟度曲线之中。Gartner 认为,DataOps 是一种协作式数据管理实践,改善整个组织内数据管理者和使用者之间数据流的沟通、集成和自动化,通过对数据、数据模型和相关工序创建可预测的交付和变更管理,更快的交付价值。
在国内市场,信通院认为,DataOps 是一种面向流程的数据管理方法,旨在提高数据交付的质量并缩短数据交付的周期。它强调通过构建高效协同机制、建立精细化的数据运营体系以及打造规范化、一体化的数据开发流程,实现数据产品的高质量和高效率交付。
通过建设 DataOps 体系,能够帮助企业重构研发治理一体化流水线,推动跨团队跨功能的协作,打破“数据孤岛”,促进不同团队之间的沟通和协作。在数据生产端,通过数据加工流程中的自动化技术或工具,能够实现数据的快速、可靠和高效交付,在数据消费端,支持自助服务形式,帮助用数人员自主获取和处理数据,减少了手动工作,提高了整体的运营效率,降低了运营成本。
同时,通过持续的数据质量监控和自动化的数据研发治理流程,确保数据的准确和可靠,提高业务响应和决策的速度与质量。此外,借助于数据目录、数据血缘和数据验证等手段,能够帮助企业构建可信的数据环境,提高了数据的可用性和可信度。
然而,企业要建设 DataOps 体系,不仅需要考虑现有各个数据开发、运维和管理平台如何实现一站式、一体化建设,还需要找到通往自动化、智能化的方向发展路径,保障整个数据平台的高可用性和连续性,最终达到“效率”和“管理”的兼顾与平衡。
国内 Data Fabric 架构理念实践者与引领者 Aloudata 大应科技,秉承“NoETL”的创新理念,致力于消除数据管理技术瓶颈,提升 ETL 工程自动化水平,助力企业平滑升级至下一代大数据基础设施。在企业建设 DataOps 体系上,Aloduata 认为需要构建“工作流、数据流和控制流”三层架构。工作流涵盖数据探查、开发、测试、部署、运维和监控等各个活动,数据流涵盖数据从入湖仓、加工、流转到出湖仓进入各个应用场景的完整链路,控制流作为 DataOps 体系的感知决策中心,驱动工作流、数据流敏捷流转和持续迭代。
为了构建 DataOps 体系的控制流,需实时捕获、解读及评估 DataOps 体系内的各类元数据信息,这就要求元数据从以往的“被动”状态转变为“主动”角色,从而使得主动元数据成为了企业成功建设 DataOps 体系的新支点。相应地,主动元数据平台便构成了企业建设 DataOps 体系不可或缺的基础架构与核心平台。
基于全球独创算子级血缘技术,Aloudata 打造了主动元数据平台——Aloudata BIG,能够帮助企业自动构建准确、精细、全面、实时的数据血缘图谱,作为“控制流”,驱动 DataOps 体系实现主动数据管理和敏捷数据协同。
基于 Aloudata BIG 主动元数据平台,能够为企业建设 DataOps 体系提供四大能力支持:
- 算子级血缘解析:基于语义分析技术实现对 SQL 脚本的算子级自动解析和算子级血缘图谱构建,实现了对全域字段计算语义的精准刻画
- 元数据语义挖掘:自动抽取字段算子级加工口径,结合上下游元数据信息挖掘业务语义,自动生成业务描述;对元数据进行分类、关联分析等,实现全域数据自动判重和编目。
- 主动元数据服务:基于对元数据的深入分析和挖掘,可提供高置信的建议或设计方案;通过挖掘行为元数据提供数据使用建议;通过分析链路冗余依赖提供时效优化建议。
- 反向元数据集成:可配置化提供各类服务 API,与客户的数据资产管理平台、数据集成开发平台或其他数据工具无缝集成,无需改变使用习惯,与 DataOps 工作流、数据流打通。
在真实的企业数据研发运营环境中,Aloudata BIG 帮助招商银行逐步落地 DataOps,将现有血缘图谱升级为算子级血缘图谱,实现 99% 的血缘解析准确率,实现元数据应用智能化、链路保障自动化和架构治理长效化,推动数仓快速实现资产数量下降 40%、平均链路缩短 50%。如对主动元数据和 DataOps 落地感兴趣,欢迎访问 Aloudata 官网,了解更多。