报告编委
李喆
爱分析合伙人&首席分析师
廖耘加
爱分析分析师
目录
1. 研究范围定义
2. 市场洞察
3. 厂商全景地图
4. 市场分析与厂商评估
5. 入选厂商列表
1. 研究范围定义
研究范围
在后疫情时代,以数据分析为代表的数据消费场景日益丰富,数据驱动业务增长成为市场共识,数据开发管理越来越受到企业决策者重视。
当前,各类管理信息系统、协同办公系统的应用,物联网和边缘设备的普及,都让企业端数据采集和分析的场景变得越来越多,数据驱动的场景从当前集中在前端的营销、销售环节,正在向后端供应链的全场景延伸,从与消费互联网紧密相关的零售电商向金融、教育、医疗、工业等全行业覆盖,数据消费场景的丰富和分析需求的快速增长导致数据应用开发需求迅速增加。
金融、零售等行业头部企业纷纷成立独立的数据管理部门,在数据开发与管理方面的投入明显增加。建设银行、民生银行、兴业银行等金融机构通过新建数据管理部门来实施大数据战略,快速释放数据生产力,实现数据资产的集中管理,聚集数据人才,深度挖掘与共享数据资源,从而利用数据驱动全方位支持业务发展。
尽管对数据的需求和投入不断增大,但在实际管理和应用时企业仍面临诸多挑战:
企业内部数据管理的协作成本越来越高。一方面,数据分析工具多元化导致数据用户角色更复杂,企业内现在设置了如数据工程师、数据管理员、报表开发人员、运维工程师等多个职位,反而容易造成职责边界交叉模糊,协作困难。另一方面,IT部门、数据部门和业务部门之间难以建立起紧密的融合关系,数据部门相对弱势,难以推动业务部门主动用数,整体数据应用效率较低。
单个环节的自动化无法解决全局问题。尽管企业在数据开发、数据治理等单个环节采购了相关的工具或平台,实现了局部的自动化,然而仅仅能解决表面问题,无法真正解决全局需求。难以建立覆盖所有业务的规范统一、集成互联的数据基础,从根本上消除数据孤岛,实现企业级数据集成整合、全面共享应用,提升企业大数据能力。
数据应用开发需求增长与数据用户角色的复杂致使企业数据开发、数据运维工作量以及数据应用交付协调难度大大增加。因此,企业需要一套全新解决方案,真正实现数据驱动业务增长。DataOps以其能服务于业务部门、大数据部门,提供敏态数据开发支持,优化数据生产者和数据消费者协作效率,成为解决以上问题的最佳方案。
在此背景下,为企业引入DataOps过程中提供全面的规划、建设和产品选型参考,爱分析调研并撰写了《2022年爱分析DataOps厂商全景报告》。
DataOps市场定义
图 1: 数据全生命周期
数据全生命周期包括三个阶段:首先,由业务部门在业务运行过程中产生原始数据;其次,大数据部门(IT部门)对原始数据进行数据加工;最后,加工后的数据再次回到业务部门完成数据消费。因此,在数据全生命周期中核心环节基本上由大数据部门(IT部门)完成。
大数据部门(IT部门)职责包括两方面:1)数据资产统一管理;2)支持业务部门的敏稳双态数据消费需求。
DataOps核心是面向于大数据部门的第二项职责,既满足业务部门稳态的数据消费需求,如数据报表、数据可视化、自助式分析等;也要满足业务部门敏态的数据消费需求,如机器学习建模、智能推荐等,敏态需求迭代速度更快,其中涉及到很多探索式需求。
DataOps市场定义:服务于业务部门(业务部门ITBP)和大数据部门,满足敏稳双态数据消费需求,提升数据加工环节效率的咨询、工具和服务。
图 2: DataOps市场全景地图
基于数据全生命周期三大阶段,进一步将数据加工环节拆分为数据采集(数据同步)、数据开发、数据服务(数据虚拟化)和数据质量提升;将数据消费环节拆分为数据分析和数据应用。并根据每一阶段存在的业务需求,映射出对应的细分市场。
本次报告,爱分析认为DataOps全景图主要覆盖数据加工环节,具体来说,与数据采集、数据同步对应的是“敏捷数据管道”市场;与数据开发对应的是“一站式数据开发管理平台”市场;与数据服务对应的是“数据服务平台”市场、“智能数据资产目录”市场和“指标中台”市场;与数据质量提升对应的是“数据可观测性平台”市场和“数据治理”市场。
爱分析认为,甲方企业真正要实现DataOps,必须具备完整的数据能力,建设一整套面向业务需求的数据开发管理机制,仅仅具备单点能力是远远不够的。因此,上述对DataOps市场划分,主要是考虑到市场发展现状、甲方企业建设进展和厂商能力,并不意味着具备单点能力就可以实现DataOps。
爱分析综合考虑市场关注度、甲方需求和实际落地进展等因素,选取以下3个特定市场进行重点分析,分别是“一站式数据开发管理平台”、“敏捷数据管道”和“智能数据资产目录”。
本报告面向金融、制造、汽车、消费品零售、能源等行业的大数据部门负责人、IT部门负责人和业务部门(业务部门ITBP),通过对各特定市场的需求定义和代表厂商能力解读,为企业数字化转型规划与厂商选型提供参考。
厂商入选标准
本次入选报告的厂商需同时符合以下条件:
- 厂商的产品服务满足各市场分析的厂商能力要求;
- 厂商具备一定数量以上的付费客户(参考第4章各市场分析部分);
- 厂商在特定市场的营业收入达到指标要求(参考第4章各市场分析部分)。
2. 市场洞察
1.DataOps市场规模超180亿元
爱分析推算,2022年中国DataOps市场规模为185.1亿元人民币,同比增速为13.0%。考虑到大部分DataOps项目甲方还是大型企业,立项和交付受疫情影响很大,2022年增速较2021年明显放缓,但预计2023年会40%以上的增速,市场进入快速发展阶段。
图 3: 中国DataOps市场规模预测
DataOps市场由软件产品和服务组成,现阶段整个市场并未形成统一标准和规范,绝大多数DataOps项目都是基于甲方企业自身需求进行落地,因此,软件产品占比30%左右,大量项目还是以服务为主。大部分DataOps项目是厂商提供核心产品组件,基于实际甲方需求,形成DataOps解决方案。
DataOps市场甲方以金融、制造、能源、消费品与零售等行业为主,主要是以集团型甲方企业和行业头部甲方企业为主,但两者对DataOps的需求略有不同。集团型甲方企业在实际开展数据管理工作时,已经深刻意识到数据管理与数据服务的挑战,正在寻求新的数据管理解决方案。行业头部甲方企业在数字化转型、数据能力建设处于行业前列,数据部门自身有很强烈的创新和探索意愿,愿意尝试更多新的技术方案。
2.DataOps是实现数据驱动业务的关键基础设施
DataOps概念一经出现,就会不断跟数据中台进行比较。爱分析认为,数据中台承载了企业实现数字化转型的长远愿景,DataOps解决了数据驱动业务的实际问题。
2019年至今,数据中台一直备受诟病,建设预期与实际结果之间的巨大落差是大量数据中台项目失败的重要原因之一。很多数据中台项目需求来自企业决策者,并非技术部门或数据部门,数据中台往往承载了企业决策者实现数字化转型的美好预期,不过数字化转型并非一蹴而就,企业在数字化转型中遇到的挑战也不可能完全依靠技术平台来解决。
数据中台建设虽然出现很多负面新闻,但持续数年的数据中台建设对整个数据智能市场发展还是起到了重要推动作用。第一,数据中台在实际企业业务开展中还是发挥了价值,数据驱动业务、数据驱动决策的理念深入人心,越来越多的企业决策者和业务人员重视数据的价值,将数据分析作为一项重要工具。第二, “数据统一管理与共享服务”等理念被大量企业的技术部门和数据部门所接受,越来越多的企业用这套理念来建设自身的数据开发与管理能力。
DataOps的需求多数来自于技术部门或数据部门负责人,解决的是企业开展数据开发管理工作的挑战。当越来越多的业务部门关注数据,基于数据分析来实现业务增长,对企业的技术部门或数据部门而言,最大的挑战是如何基于有限资源,最大化地满足多个业务部门的数据消费需求。
一味地增加人力和预算,并不能从根本上解决这一问题。以某头部互联网公司为例,其数据开发管理团队一度增加到千人规模,但依然无法满足各个业务部门提出的数据需求。技术部门的挑战一定要通过新的数据开发管理服务标准、流程和协作机制来解决,才能满足企业日益增长的数据消费需求。
爱分析认为,实现数据驱动业务在技术架构创新的同时,还需要关注数据与业务之间的协作机制、流程和标准创新,后者是实现数据驱动业务的关键,DataOps重点在解决这一问题。
3.DataOps考验厂商的产品架构能力
与数据湖仓引擎、实时计算引擎不同,DataOps并非技术架构创新,而是产品架构创新。性能是DataOps项目建设的重要指标,但并非最核心指标。大部分DataOps建设面临的问题是,如何实现技术、数据和业务的融合,同时满足三方的需求。
第一,应用开发与数据开发融合。当前大部分企业的应用开发与数据开发还是分开,但越来越多应用都是数字化应用,基于数据驱动的应用,数据开发与应用开发呈现融合态势,如何在满足IT运维、安全等前提下,提升数据开发的效率是一大挑战,特别是集团型企业多数都有很强的合规要求。
第二,业务深度参与数据开发工作。当前业务和数据之间的协作并不紧密,自助式分析等数据分析工具兴起,让业务部门具备自助式数据分析和管理的能力,但大部分数据开发工作业务部门依然没办法深度参与,会导致很多数据开发工作并不能满足业务需求,特别是在当下业务快速迭代的背景下。
基于上述挑战可以看出,每个甲方企业在落地DataOps项目时,一定存在非常大的差异化,但背后要解决的本质问题会非常类似。对于DataOps厂商而言,需要从数据开发管理的全局出发,以终为始,在设计产品架构时要考虑到企业完整需求,才能够应对不同DataOps项目的差异化甲方需求。
3. 厂商全景地图
爱分析基于对甲方企业和典型厂商的调研以及桌面研究,遴选出在DataOps市场中具备成熟解决方案和落地能力的入选厂商。
4. 市场分析与厂商评估
爱分析对本次DataOps项目重点研究的特定市场定义如下。同时,针对参与此次报告的部分代表厂商,爱分析撰写了厂商能力评估。
4.1 一站式数据开发管理平台
市场定义:
一站式数据开发管理平台,是指针对整个数据加工链路进行数据的监控、管理和运维,实现数据质量持续提升。
甲方终端用户:
金融、制造、汽车、消费品零售、能源等行业的大数据部门负责人、IT部门负责人
甲方核心需求:
对甲方而言,核心是建立一套面向未来数据开发的机制,提升面向业务视角的数据开发能力,而不仅仅是实现数据整合。
过往,甲方更多是将数据整合和管理作为企业的阶段性目标和项目来完成,对数据如何应用、如何在业务场景中发挥价值关注度不足。在实践过程中,投入大量资源和人力,完成数据整合之后,“取数难”、“用数难”、数据质量低等问题依然存在,甲方还是无法发挥数据的价值。
因此,甲方真正需要具备的是一套完整的数据开发管理的能力,包含但不限于统一开发管理平台、面向业务需求的开发管理流程与机制等。
1)梳理流程,建立统一的开发管理机制。
- 在甲方现有流程中,应用开发和数据开发往往是分开进行,但考虑到越来越多数字化应用是基于数据驱动这一趋势下,企业需要考虑将二者融合。过去建设的数据中台尽管一定程度上能够支持报表、自助式分析等应用,但实质上仍未能满足支撑整个数据开发管理体系,无法满足越来越多基于数据驱动的应用需求,特别是以机器学习建模为代表的探索式应用。
- 随着企业数字化转型程度加深,数据管理和应用需求越来越迫切,很多甲方成立专门的数据部门处理数据相关的问题,并与IT部门和业务部门厘清职责边界,建立起协作关系,数据部门与IT部门、业务部门如何进行协作,内部需要达成共识并建立协作机制。
- 数据开发和管理的建设并非一蹴而就,而是一个长期的工程。在实际建设中,既要考虑长期方向与目标,与整个公司战略方向相适配,又要设置阶段性目标,让高层和相关部门感受到落地效果。因此,甲方需要明确数据开发和管理的实现路径,并设置阶段性目标。
- 对于金融等强监管行业,整个机制还需要符合监管要求。自数据安全法、个保法等法律法规出台以来,监管机构对数据安全审查加强,企业在数据开发和管理过程中要注意合规问题,审慎使用数据,提升数据治理水平。
2)搭建功能丰富、具备扩展性的开发管理平台。
- 经过多年信息化和数字化建设,绝大多数甲方已经具备一定数据基础,以MPP、Hadoop为代表的技术架构,以大数据平台为核心的数据开发和治理工具,因此,一站式数据开发管理平台需要兼容现有的数据基础设施。同时,随着业务的发展,未来产生越来越多的创新业务场景,平台需要有充分的扩展性以应对多元的需求,能够支持各类型业务场景开展。
- 平台需要围绕整个数据开发管理的需求,提供丰富的功能,并具备自动化开发能力。企业需要在这一平台上完成所有类型数据的开发和管理,覆盖数据加工全链路的监控、管理、运维等需求,具备对全域数据治理的能力。同时,为应对越来越多且时效性越来越强的开发任务,还需要利用自动化工具提升效率。
- 厂商需要具备咨询能力和成功实践经验,能提供成熟的方法论。不仅提供数据平台的产品,还能够基于可复用的成功经验,针对客户的业务需求和内部建设现状指导实施落地;需要具备规划能力,能够设计一套适用于未来几年的框架,帮助数据部门、IT部门、业务部门能够达成共识,通过帮助客户梳理流程,基于数据产品调整组织架构并优化协作方式,提供完整的咨询服务;此外,还需要为客户提供建议,帮助甲方设置实现路径,并制定阶段性目标。
- 产品需要有较强的架构能力和可扩展性。需要具备解耦能力,采用模块化方式构建,能够单独拆分功能模块按需提供。在扩展性方面,需要能够适配企业内的其他生态,支持多种接口协议,已封测及对接多种软件或硬件接口调用等方式,能够快速满足企业未来的创新应用。
- 产品需要具备丰富的功能,能够覆盖数据加工的全流程,包括数据开发、数据治理、数据资产和运维监控等各个方面,能够提供多人可协作的项目空间管理,具备持续集成和发布的能力。
入选标准:
1.符合一站式数据开发管理平台市场分析的厂商能力要求;
2.累计在该市场服务客户数10家及以上;
3.累计在该市场收入5000万及以上;
代表厂商评估:
火山引擎
厂商介绍:
北京火山引擎科技有限公司(以下简称“火山引擎”),是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。
产品服务介绍:
火山引擎数智平台(Volcengine Data Intelligence,英文简称VeDI),基于字节跳动数据平台多年的“数据驱动”实践经验,汇集端到端的数智产品、场景化的行业解决方案和专业的数智转型咨询。其中大数据研发治理套件DataLeap是一站式大数据研发治理套件解决方案,提供数据集成、开发、运维、治理、资产管理等能力。以独立部署方式,通过数据治理的思维,综合运用数据管理制度、人员组织、技术方法和流程标准等手段,帮助企业对数据资产在可用性、完整性和安全上实现全面有效的管理,赋能企业基于数据驱动下的业务创新。目前,已服务几百家来自汽车、零售、互联网、金融、文旅等行业的知名企业。
厂商评估:
整体来看,火山引擎基于数智平台和一站式大数据研发治理套件打造的数据驱动管理解决方案,在产品功能、产品架构与理念、落地实践经验、体系机制四方面具备优势。
1)功能丰富易用,提供一站式数据研发全链路管理。
DataLeap为企业提供基于DataOps敏捷研发流程、海量任务秒级调度能力和开源计算引擎的拓展能力,覆盖数据研发与运维、数据治理、数据资产和安全合规等各个方面,赋能业务团队进行数据自治。
具体来说,在全场景数据整合环节,DataLeap支持20+多源异构数据集成,涵盖常见的业务存储系统,支持全量、增量、实时的数据同步;在全链路的数据研发环节,DataLeap支持多引擎(批、流、OLAP),敏捷开发CI/C,对开发、测试、发布、运维等研发全链路进行管理;在数据治理环节,DataLeap集合了基线监控、数据质量、SLA治理等能力,提供事前预警、事中处理、事后复盘及推荐优化的功能;在数据资产建设方面,DataLeap具备数据资产快速接入及自动构建全链路血缘等技术。
2)技术架构先进,融合分布式数据治理理念,能够应对高并发、大批量数据处理需求。
火山引擎创新性提出分布式数据治理的理念,并落地于DataLeap产品中。DataLeap采用了标准化、组件化的解耦架构,各个模块均可独立使用分布式治理模式,建设周期较短,适配能力强;企业用户不仅能实现各级业务及个人的自驱治理,还能充分根据业务阶段来制定治理的内容,让数据治理对业务的冲击和影响可以尽可能最小化;专业的治理知识可以沉淀下来,实现产品化协同,并结合智能化推荐功能,为企业提升执行效率。
DataLeap通过对引擎和架构的优化,提升了产品性能、扩展性和实时性,以应对业务多样性和复杂度带来的庞大数据处理作业量要求。为满足时效性的需求,火山引擎通过自研的分布式调度系统,实现了秒级调度能力。同时提供了任务的分级打标机制,通过多种任务资源控制方式,实现资源最合理的调配。还可以根据任务的历史情况,对不合理的任务配置,提出配置优化的告警建议。
3)数据技术能力均来自于字节跳动内部多年实践经验的积累与沉淀。
VeDI及DataLeap沉淀了字节跳动各业务线的数据治理经验和规则,适合多种类型客户在业务的不同阶段使用。
字节跳动根据内部业务的痛点和需求,从2014年开始研发并逐步迭代出一套能够挖掘分析海量数据、有效赋能业务的数据平台。利用这一平台敏捷支持内部今日头条、抖音、西瓜视频、朝夕光年等各大业务线后,对大数据的架构、产品、治理、安全隐私、组织设计等方面积累了丰富实践,开始对外To B输出和商业化。目前,火山引擎已经沉淀了完整的行业Know-How,能够基于各部分产品组合和调用为客户提供端到端解决方案,并以整体VeDI的方式呈现。
4)引入BP机制,帮助客户建立体系化的数据治理方法。
火山引擎为客户引入字节成熟的数据BP模式,从组织层面配合数据产品实现数据治理落地,切实把握业务的痛点,让数据工具和平台真正用起来。
数据BP,即“数据业务伙伴”,本质是将具备数据专业能力的人才上升至业务线。数据BP的职责是在一线配合数据分析师充分满足数据需求,同时保障数据治理工作的有序落地。希望在数据治理成果推进到一定程度之后,为企业进一步探索数据赋能业务发展的方法。
火山引擎还会派专家团队驻场,近距离参与企业的数据治理工作中。对企业的实际情况进行具体问题分析后,在数据指标治理、业务数据治理、埋点数据治理、数据底座管理体系四大方向上,给出建议并协助企业进行体系化建设,为企业跨职能的数据治理实践提供长期稳定抓手。
典型客户:
得到
代表厂商评估:
科杰科技
厂商介绍:
科杰科技是一家数据能力构建商,核心技术团队拥有丰富的头部互联网企业云数据平台搭建及运营经验,致力于将成熟完备的数据底座产品与多业态复杂场景的最佳实践有机融合,为企业提供数据管理、开发挖掘、运维一体化的整套方案,助力企业快速构建数据能力,实现高度规范化、敏捷化的数据工作协同与数据应用创新。现已服务百余家 政府单位及金融、能源、汽车、零售等行业头部企业。
产品服务介绍:
科杰科技核心产品湖仓一体数据智能平台 Keen Data Lakehouse是基于云原生技术自主研发的数据底座产品,产品设计内置12大功能模块,在实现多云资源统一纳管、弹性扩展和灵活调度的基础上,满足数据统一采集、存储、开发、管理和服务的需求,具有高性能高稳定性的特性。其中数据开发管理平台Keen BDP、数据同步系统Keen Dsync、实时计算平台Keen Stream、数据标准产品Keen DSM、数据质量产品Keen DQM、主数据管理平台Keen MDM、数据资产目录Keen Asset、数据服务平台Keen DAAS、数据标签平台Keen TAG功能模块与一站式数据开发管理平台直接相关。
厂商评估:
整体来看,科杰科技形成了“领先的大数据技术+全域数据资产管理+大数据工作方法论”三位一体的解决方案,在产品、技术、行业Know-How和咨询服务方面具备优势。
1)产品功能全,产品架构能力强。
- 基于过往实践,科杰科技覆盖数据开发管理的全生命周期,产品功能丰富。科杰科技将DataOps的理论融入产品设计中,支持DataOps持续集成、持续开发、持续运营方法论的最佳实践。科杰产品矩阵覆盖数据集成、数据转换、数据开发、智能任务依赖、智能血缘解析、自动沉淀数据资产的全生命周期,在贯穿全流程工程化能力的同时提供全局统一数据标准、数据质量、主数据管理、元数据管理以及数据安全的全方面数据治理能力,是数据治理与数据工程相融合的增强型大数据平台产品,提供一站式数据源到数据洞察分析和数据编织能力,为企业数字化转型提供数据底座能力。
- 科杰科技对重点功能进行产品化、模块化封装,整个平台采取松耦合架构,能够独立交付部署。Keen Data Lakehouse整体采用松耦合结构搭建而成,产品具备高度自主性和灵活性。科杰科技针对重点功能进行产品化、模块化封装,每个模块都能够与企业内信息系统进行对接,支持独立交付和部署应用。因此能够面向多业态、复杂的业务场景,以乐高式的产品组合方式搭建,支持大型组织全角色精细化业务开展,持续高效地创造高质量、可复用的数据资产。
2)底层技术架构领先,支撑集团企业多源异构数据统一纳管。
- Keen Data Lakehouse采用了领先的湖仓一体、新一代技术架构。这一架构兼具数据仓库的高性能、强管理能力和数据湖的灵活性,具备批流一体、存算分离、数据编织、ACID事务性等特点,打通企业的数据孤岛和数据烟囱,提供一个统一可共享的数据底座。通过将生产过程中大量结构化和非结构化的离线、实时数据抽取到数据仓库,实现多源多态数据汇聚,为后续数据标准化、资产化、安全管理等需求提供了基础条件。
- 科杰科技通过多模数据统一处理技术,实现企业数据在数据湖和数据仓库之上的无缝调度和管理,避免大数据平台、云数仓、分析型数据库等现有数据资产的迁移。既能利用企业已有建设成果提供包容性支撑,对历史数据、实时数据进行存储、计算和查询,保持现有业务的连续性;又能以逻辑统一的数据资产和协作方式进行开发,面向未来数据工作保持开放性,为技术部门与业务部门的高效协作奠定了基础。
3)行业落地经验丰富,对集团企业的数据资产统一管理和高效协作方式有深刻理解。
- 科杰科技的核心研发成员具有互联网大厂背景和十多年大数据实战经验,曾亲身经历大型企业的大数据部门组建、数据中台项目的建设,对于大型企业的集团、分公司、不同业务条线之间数据权限、数据安全、数据使用和存储压力问题了解深入,能够根据不同企业的组织架构、业务流程等特点,提出适合的解决方案。
- 基于多年实践经验,科杰科技总结形成一套标准完善的企业级数据底座落地实施流程,结合Keen Data Lakehouse产品矩阵,能够大大提升项目实施效率。目前,已在金融、新零售、能源、工业互联网、汽车、通信等行业成功落地,并打造了具有针对性的多个行业解决方案。
4)具备咨询服务能力,能为企业持续构建大数据能力提供建议。
- 科杰科技能够为客户提供前期的数字化咨询服务,根据企业现状给出问题诊断和建设路径,帮助企业内部的IT技术部门、数据部门和业务部门达成共识、明确目标、梳理流程、制定规则,真正实现数据驱动业务、数据驱动管理,推动一站式数据开发管理平台项目真正实现落地。
典型客户:
一汽、中石化、永旺、中金公司、银华基金
4.2 敏捷数据管道
市场定义:
基于ETL、ELT、CDC、Kafka等方式,从多种数据源采集原始数据,经过数据转换,存储至数据湖(数据仓库)中,实现数据集成和标准化。
甲方终端用户:
制造、汽车、消费品零售、能源等行业的大数据部门负责人、IT部门负责人和业务部门(业务部门ITBP)
甲方核心需求:
甲方的目标是更加敏捷、自动化地搭建数据管道,并对数据管道进行统一管理和编排。
随着数字化转型的深入和数据消费需求的增加,甲方内部的IT环境和数据环境越来越复杂,数据集成工具越来越多,彼此难以融合,相互割裂运行,对运维和管理提出了很高的挑战。与此同时,数据管道的重要度越来越高,特别在业务部门对数据分析需求日益增长的趋势之下,越来越多的数据管道建设需求来自于业务部门。
因此,数据管道逐步从整个大数据平台独立出来,作为一个独立项目进行建设、运维和管理。以新消费、新能源为代表的行业,IT部门规模不大,但业务部门有很强烈的数据分析需求,敏捷、轻量、自助式数据管道建设需求日益增强。
1)数据类型和应用场景越来越多,对数据管道建设提出了更高要求。
- 传统企业面临的数据应用场景也更加多元,如BI报表、实时决策、基于机器学习的预测性分析等;同时,数据体量和多样性也在快速增长,随着物联网应用的落地,时序、GIS、图像、视频、文本等新兴数据类型大规模涌现。因此需要支持离线和在线场景,结构化、半结构化、非结构化等数据类型的数据采集。
2)业务快速迭代,敏捷搭建和自动化运维管理是数据管道建设的必备能力。
- 企业业务进行数字化转型,产生大量数字化应用,对数据分析、数据应用提出了更高的要求。一方面业务发展变化快,传统的ETL数据抽取、转换和加载工作量繁杂,单这一流程会耗费数周乃至上月时间,导致业务面临时效性之后,因此需要能够快速搭建数据管道;另一方面随着管道数量和数据量的迅速增加,数据管道的运维管理压力变大,人工运维的模式无法应对,需要更多自动化的工具。
厂商能力要求:
- 厂商需要支持多类型数据源,满足业务场景需求。同时支持离线和实时集成模式,满足ETL、ETL、CDC、Kafka等多种技术路线,支持常见的各类型数据源,满足各类型业务系统之间复杂的数据分发、推送、传输和共享发布。
- 围绕着运维管理监控,厂商需要支持丰富的工具链和较高的自动化程度。提供组件化的多种类型数据处理工具,支持相互衔接组合,以满足数据采集、数据转换、数据存储过程中的各种数据处理需求,并把重复的工作流程嵌入自动化,提升效率。
- 产品需要具备易用性。数据管道的使用人群不仅仅是IT部门,还有一部分业务部门的ITBP角色,因此根据不同使用角色的需求,需要支持通过拖、拉、拽等简单操作方式完成数据集成流程的构建和相关功能。
入选标准:
1.符合敏捷数据管道市场分析的厂商能力要求;
2.累计在该市场服务客户数10家及以上;
3.累计在该市场收入1000万及以上。
代表厂商评估:
谷云科技
厂商介绍:
谷云科技(广州)有限责任公司成立于2017年,是国内最早一批专注于iPaaS混合集成中台研发的产品和技术解决方案提供商。公司专注于数据集成、服务集成、MQ消息集成、API管理领域,从底层开发框架入手完全自主研发,并基于统一平台自主研发了全线RestCloud系列产品,服务于零售、制造、金融、教育等行业企业客户,以及政府机构等各类组织。
产品服务介绍:
RestCloud 数据集成平台是谷云科技基于DataOps理念完全自主研发和创新的新一代数据集成平台,平台一站式融合了ETL、ELT、CDC、API等能力,可帮助企业客户快速搭建批流一体的数据集成底座,实现业务系统之间的数据集成和多源异构数据的交换和融合。
作为一套面向数据集成的轻量化、标准化产品,RestCloud 数据集成平台采用全Web化配置,开箱即用,能够让用户实现自助式构建数据管道,并具有丰富的组件,帮助用户实现开发、测试、发布、监控、告警、运维等一系列工作。同时,结合谷云科技的API服务平台,RestCloud数据集成平台可以帮助企业快速构建轻量级数据中台,满足企业统一数据管理和数据共享需求,帮助IT部门实现对业务部门的支持。
厂商评估:
整体来看,谷云科技自主研发的数据集成平台在数据传输性能、任务调度架构、产品易用性和系统稳定性等方面具备优势,同时创新的把CDC和ETL进了一体化设计,使得实时流数据和批数据可以进行混合处理和合并。
1)技术能力强,覆盖多种技术路线,满足多种场景数据处理要求。
- 谷云科技的RestCloud数据集成平台支持ETL/ELT离线数据处理和CDC实时数据处理等技术路线,能够满足企业客户离线和实时业务场景的数据处理需求,满足大中小型企业进行数据仓库/数据中台构建、客户主数据平台的构建、工业互联网IoT设备的数据采集、云上云下SaaS数据同步、混合云数据同步等各种复杂数据集成应用场景的需求。同时,通过配置BI以及API数据服务,谷云科技还可构建各种数据应用的创新场景,满足于企业敏态化数据消费需求。
谷云科技的RestCloud 数据集成平台能够广泛支持企业的各类数据源和数据类型,不但具备功能强大的离线数据处理能力,同时具备实时数据传输能力,能够支持包含国产数据库在内的40多个数据源,以及Kafka、MQTT物联网数据、HTTP等多类型实时数据流接入。
2)产品架构设计能力强,具有标准化、轻量化等特点。
- 谷云科技将RestCloud 数据集成平台分为执行层、管理层和调度层支持10000+数据管道的准确调度和执行,平台作为标准化产品,能够按模块进行自由地分离和组装,大大增强了平台的灵活性和可扩展性。一方面,平台可以快速接入新的数据源,满足不同场景的数据需求;另一方面,可以根据用户的偏好和现状,自定义配置平台的功能和数据处理组件,平台采用轻量化架构可以几分钟内完成部署上线并可运行在公有云、私有云以及个人电脑上。
3)产品易用性强,能够满足不同发展阶段的企业需求。
- 基于过往实践经验,谷云科技将大量数据集成、数据服务过程中涉及的功能模块封装到RestCloud数据集成平台中,数据抽取、加载、清洗、运算、脱敏、行转列、列转行等相关组件超过100种。
考虑到不同企业用户自身IT能力的差异,谷云科技的RestCloud平台支持自助式开发设计,支持基于纯Java语法的自定义规则和算法,能够通过规则实现复杂的自定义业务逻辑处理。因此,用户通过可视化拖、拉、拽方式,完成数据管道的构建并实现数据抽取、转换、清洗、脱敏、加载等功能。
4)底层技术架构以自研为主,平台系统稳定性、可用性强。
- 谷云科技基于微服务架构研发的RestCloud数据集成平台,能够支持大规模的分布式部署架构,满足企业用户的云原生应用场景的需求。基于微服务架构对整个平台进行技术解耦,每个功能模块都可以独立运行,使得平台未来具备SaaS化的发展潜力。
ETL、ELT、CDC、调度平台、API开发平台等技术均以自研为主,而不是基于开源技术架构之上做改进和优化,底层技术能力完全自主可控,提升了整个平台的稳定性和可控性。
典型客户:
浙商证券、中金财富、三一重工、中建科工、亿纬锂能
4.3 智能数据资产目录
市场定义:
面向业务场景,结合机器学习和知识图谱技术,实现元数据一站式、自动化管理,包含数据采集、数据血缘、数据标准、数据发现、权限管理、资产监控等。
甲方终端用户:
金融、制造、汽车、消费品零售、能源等行业及政府机关的大数据部门负责人、IT部门负责人
甲方核心需求:
业务与数据“脱节”是很多甲方当前面临的重要问题之一。一方面,数据开发部门对业务理解有限,导致整个数据开发过程缓慢;另一方面,不同业务之间的数据如何打通和融合,建立统一的数据标准,对数据开发部门来说挑战很大。以政府应急管理为例,数据来自于多个不同的委办局,需要以一套标准、流程和规范来开展工作,实现对安全隐患的排查、监督和管理,背后是对不同业务的数据表单、字段和指标的融合和统一。企
针对当前快速、多变的数据服务需求,甲方的目标是基于现有数据资产目录基础上增加更多面向业务场景的标签和指标,实现数据部门与业务部门的连接,并同时具备自动化迭代能力,持续提升数据开发效率。
1)快速梳理业务、建立业务认知的方法论。
- 以业务为中心,解决“数据在哪里”、“数据谁负责”以及数据如何用等问题,识别出业务主责部门、相关核心业务系统的核心对象、核心数据,打通查数/取数环节、打通基础类数据和指标类数据的联系。这些问题需要有一套方法论,能够帮助数据开发部门快速开展工作的标准、流程和规范。
2)兼顾当前和未来需求的可扩展架构。
- 随着创新业务发展,未来会有越来越多业务部门纳入到数字化建设中,数据驱动业务渗透率持续提升,势必使得数据复杂度持续提升,如何能够兼顾当前业务需求,并为长期发展奠定基础,需要一套具备可扩展性的技术架构,能支撑未来的更丰富的应用需求,实现业务流程和场景智能化的提升。
厂商能力要求:
- 厂商需要满足对甲方业务理解能力,能够基于业务视角提供解决方案。基于厂商自身积累的方法论,快速从多维度业务视角理解业务表达的含义、关系和趋势,理解业务服务的对象、范围,厘清数据与业务、业务与业务之间的关系,建立起对业务的认知,从而指导数据汇聚和数据应用。
- 厂商需要具备较强的技术架构能力,产品满足自动化和扩展性需求。能够通过原生集成和扩展的方式连接全域数据,并结合机器学习和知识图谱等技术,实现自动编目数据、自动化数据和业务血缘,支持数据治理工作,并满足不断丰富的业务场景和数据应用需求。
入选标准:
1.符合智能数据资产目录市场分析的厂商能力要求;
2.累计在该市场服务客户数5家及以上;
3.累计在该市场收入1000万及以上。
代表厂商评估:
爱数
厂商介绍:
上海爱数信息技术股份有限公司(简称“爱数”)成立于2006年,是领先的全域数据能力服务商。爱数以全域数据能力、统一架构和平台+生态模式,打造创新的大数据基础设施,通过AnyBackup、AnyShare、AnyRobot、AnyDATA、AnyFabric等产品覆盖全域数据的整合、治理、保护,实现数据资产化和知识化,与客户共创数据驱动型组织。依托自身强大的大数据基础设施,爱数已服务超40个国家、地区的27000+客户。
产品服务介绍:
AnyFabric是面向全域数据的数据资产管理平台,为企业或政府机构提供的一套智能数据资产管理解决方案。基于领域认知智能和Data Fabric架构思想,通过对元数据的全面采集、深度学习、认知推理分析,自动关联数据的业务语义,快速生成数据资产知识网络,实现业务与数据的连接,业务与业务的连接,从而实现以业务为中心的数据管理和运营,助力客户实现数据驱动组织,通过认知智能辅助数据管理和业务决策。目前已经在政府、制造、零售等行业率先落地,已经积累了不少成功落地案例。
厂商评估:
整体来看,爱数基于Data Fabric架构研发的AnyFabric在数据管理架构、认知智能和开放集成能力上具备优势。
1)以业务为中心设计产品架构,产品功能丰富且贴近业务需求。
- AnyFabric通过业务治理整合数据孤岛,简化数据治理。相较于基于数仓的强管控模型下集中化的数据治理,爱数采用了以业务为中心编织、连接所有元数据,通过建立数据资产知识网络来编织和驱动数据的方式。AnyFabric通过连接型架构和领域认知智能作为核心引擎,以业务模型为中心连接全域数据,利用知识图谱引擎构建数据资产知识网络,形成了增强型数据资产目录。不仅能够赋能企业整合数据孤岛,还能从业务视角出发,自动化、精确指导数据归集、清洗、开发和加工等,简化数据治理。
- AnyFabric基于业务提升数据质量,实现数据资产化。AnyFabric所建立的数据资产知识网络,能够快速发现业务与业务之间的融合关系,监控业务指标、风险定位,做出问题分析、价值判断等。在数据准备环节围绕业务透视企业多个系统间的复杂关系,并实现直接获取业务部门真正需要的原始数据,提高数据质量。基于业务标准并结合领域认知智能,高效组织和调度数据,开展数据治理,最终有效赋能业务最大化产生价值。
- AnyFabric的业务可扩展性强。爱数采用业务视角的连接型架构,并将智能资产目录建立的流程和模板固化到产品中。当企业出现新的业务时,将按照步骤进行业务梳理和成果输出,原有的业务语义能够由机器学习自动推荐,并识别相关的业务对象、业务对象,最终迅速到融入领域业务知识网络中。后台通过自动更新,不断丰富业务和数据之间的关系,实现自动迭代和拓展,更好的应对企业的业务扩张。
2)融合知识图谱技术,具备自动化和智能化能力。
- 爱数在知识图谱领域已有超过四年的技术沉淀,并在多个行业有成功项目落地经验。在原有数据资产目录之上,结合爱数现有知识图谱技术沉淀,使得数据资产目录具备自动化和智能化,形成领域知识网络,并在此基础上实现推理分析和辅助决策,最终实现业务智能化。
- AnyFabric通过融合机器学习、知识图谱等先进技术,实现自动化的元数据采集、编目数据和数据血缘跟踪。通过自动抽取本体和连接,并辅以人工校核,自动形成单业务知识图谱,将多个单业务知识图谱自动汇聚,连接生成企业级的业务知识网络,赋能数据服务开发工作。借助自动化、智能化技术降低整个过程中数据编目的复杂性和工作量,帮助业务和数据管理人员轻松掌握数据的转换和流动。
3)统一技术架构,能够与爱数其他产品线融合,能够提供端到端的解决方案。
- AnyFabric沿用了爱数统一的技术栈架构,与AnyDATA、AnyShare等爱数产品内置对接,在统一的ONE架构上融合部署和深度集成,降低数据管理的运维难度和复杂性,为企业提供全域数据能力和一致的用户体验。
典型客户:
中新天津生态城、郴州市城市大脑、中国中车