7 月 16 日 - 17 日,由中国通信标准化协会和中国信息通信研究院主办,大数据技术标准推进委员会承办,InfoQ 联合主办的「2024 可信数据库发展大会」(TDBC)在北京召开。
酷克数据解决方案架构师吴昊受邀参与“电信行业数据库应用创新分论坛”,并发表《存算分离架构:加速电信行业数据处理,驱动业务创新》主题演讲,深入剖析了当前电信行业在数据平台建设过程中面临的挑战,并分享了存算分离架构的 HashData 云数仓在电信行业的方案与成果。
吴昊指出,移动互联网的发展导致电信行业数据量激增,这对数据平台的建设提出了前所未有的挑战。从解决单点业务问题到垂直大数据应用,再到企业级大数据中心的构建,这一系列的演变,不仅要求数据平台在数据处理和业务支撑上具备更强的能力,更重要的是,催生了一种全新的数据思维。在这种新思维下,数据洞察不再依存于基于复杂模型的抽样理论,而是基于全量数据进行分析,进行全量计算,从而降低对复杂模型的依赖。
这要求数据平台必须拥有出色的处理能力和高度的灵活性,以便能够迅速适应不断变化的数据环境和业务需求。然而,传统的 MPP 数据库由于采用了存储与计算紧密耦合的架构,导致其弹性伸缩能力不足,难以满足当前数字化转型需求。为了解决这些挑战,需要采用新的技术架构和管理方法,以提高数据平台的灵活性、可扩展性和安全性。
针对上述挑战,吴昊详细介绍了基于存算分离架构的 HashData 云原生数据仓库的独特优势。他强调,HashData 采用元数据、计算和存储三者分离的架构,能够更好地适应跨集群、跨中心以及跨云中心的数据访问。
HashData 利用统一的元数据和存储服务,构建了具有权威性的企业级数据视图,使得多个计算集群能够无缝共享数据。借助云端资源的灵活伸缩性,不仅显著提升了运维效率,还降低了系统复杂度,并成功消解了木桶效应等潜在问题。基于存算分离和云原生架构,目前 HashData 部署的最大规模已达到 35000 节点,能够根据业务需求动态地分配资源,从而实现了计算资源的高效利用与弹性扩展。
•多形态数据集中存储能力,打破数据存储孤岛:非结构化多模态数据涵盖范围广,管理过程复杂。HashData 引入 Directory Table 目录表,存储和管理非结构化数据对象的元数据,这些元数据以结构化的形式存在 ,元数据信息与共享存储上的非结构化数据文件本身形成关联关系,用户可以使用熟悉的 SQL 语句来操作 Directory Table 和普通表。
•利用外部表/连接器集成大数据生态,融入企业湖仓架构:面对日益多样化的数据分析场景,HashData 云数仓提供湖仓一体技术方案,数据可以在湖仓之间高效互通,支持多种数据类型存储,从架构上真正实现了湖仓一体,减少用户重复建设成本。HashData 可以同步 Hive、Hudi、Iceberg 元数据,建立外部表,并行访问大数据生态数据,参与 SQL 计算,并将数据缓存在计算节点,供后续使用。
•多样化分析计算能力—HashML 引擎:AI 技术的兴起为我们提供了新的机遇。HashData 基于 In-Database AI 的理念,内置功能丰富的 AI 开发工具箱 HashML,在一套架构下同时提供了面向 SQL 查询分析任务的 MPP 计算引擎和面向机器学习和深度学习任务的 ML/DL 计算引擎,赋能用户在数据查询处理、高级分析、机器学习、深度学习等场景的一站式、多层次融合分析和 AI 能力,帮助企业快速开发大模型等 AI 应用。
•存算分离的弹性架构,克服传统 MPP 局限性:HashData 通过独特的元数据、计算与存储分离架构,实现了计算集群的按需搭建与横向扩展,从而有效突破了传统 MPP 数据库在并发和计算能力上的局限。基于云原生能力,让计算、存储实现秒级独立伸缩,多个计算集群间共享同一份元数据信息,从而支撑企业业务的灵活扩展,确保工作负载在峰值场景下平稳运行。在保证了数据的一致性的同时,更节省存储和调用资源,大幅降低系统建设和维护成本。
吴昊进一步分享了 HashData 在电信行业的实际应用案例:
•基于信创底座构建湖仓融合的数据中台:某大型运营商选用 HashData 进行数据中台信创升级改造。HashData 运用云原生技术重构大数据算力调度引擎,并基于客户信创底座构建多样化分析平台。该平台融合现有大数据体系,支持批量和准实时分析,采用联邦 HDFS 统一存储、管理多源异构数据,实现数据一次入湖、直观分析。同时,支持多引擎融合,允许用户根据需求灵活选择计算引擎,并能根据租户需求隔离计算业务集群,弹性调整算力。基于存算分离架构,该平台能够满足各类业务场景的技术需求,实现业务资源需求快速交付,历史数据平滑过渡,核心技术自主可控,为用户业务增长提供了强有力的支持。
•基于 K8S 打造云原生数据平台:某运营商联合酷克数据团队,突破以往容器化仅用于无状态应用场景或开发测试环境的限制,采用 K8S+HashData 的技术路线,在国内率先建成真实生产环境下的容器化部署大规模云原生数据仓库。相比原有数据平台,基于容器化部署的 HashData 云数仓,具备高可用、高并发、计算资源水平无限扩展、秒级扩缩容等能力,扩缩容期间不影响业务连续性,实现了计算资源快速部署、高效交付的建设目标。
最后,吴昊展望了存算分离架构在电信行业的广阔前景。他认为,随着技术的不断进步和业务的持续发展,存算分离架构将在更多领域发挥重要作用。酷克数据也将继续致力于云端数据仓库的研发与应用推广,为电信行业乃至整个社会的数字化转型贡献更多力量。