从 Data 到 Data + AI,必然之路还是盲目跟风?
- 前言
- 从 Data 到 Data + AI
前言
数据和人工智能的发展日新月异,深刻地改变着我们的生活和工作方式。数据平台作为数据处理和分析的核心基础设施,也在不断演进和发展。从数据库时代到大数据时代,再到如今的大模型时代,每一次变革都带来了新的机遇和挑战。
数据量的爆炸式增长和人工智能技术的广泛应用,企业对数据平台的要求也越来越高。如何有效地管理和利用数据,挖掘数据中的价值,成为了企业关注的焦点。同时,数据平台的架构也在不断演变,从传统的 Lambda 架构到湖仓一体架构,再到云原生架构,每一次演进都是为了更好地满足企业的需求。
然而,在数据平台的发展过程中,也面临着一些问题和挑战。例如,结构化数据分析架构在存储层、组装式数据架构和计算引擎等方面存在的不足,限制了数据平台的灵活性和效率。此外,随着 AI 新计算范式的出现,数据平台需要适应从 1:1 到 M:N 的体系架构转变,以及 Data Centric AI、重回搜索时代和统一元数据管理等趋势的发展。
在这个背景下,我们需要深入探讨数据平台的未来发展方向,寻找解决现有问题的方法。通过不断的创新和实践,推动数据平台的演进,使其能够更好地支持企业的数字化转型和发展。希望本文能够为读者提供一些有益的思考和启示,共同探索数据平台的未来之路。
从 Data 到 Data + AI
在当今数字化时代,数据和人工智能(AI)已成为企业发展的核心驱动力。随着技术的不断进步,数据基础设施也在经历着深刻的变革。本文将深入探讨数据基础设施从Data到Data + AI的演进历程,结合实践经验,分析当前数据平台的发展现状、新一代数据平台架构的演进思路以及未来的发展趋势和未解难题。
回顾历史,数据平台技术经历了三次革命。从1970年代的数据库时代,到2000年代的大数据时代,再到2022年开始的大模型时代,每一次变革都为企业带来了新的机遇和挑战。数据库时代奠定了数据应用创新的基础,如商业智能(BI)等;大数据时代则以海量数据和低成本、分布式架构为特点,推动了数据处理能力的提升;而大模型时代的到来,为行业带来了更多智能的可能性,如生成式AI能够基于数据推理出更多的可能性,具有更大的创新性。
当前,数据平台的发展呈现出一些特点。从物理结构上看,数据平台从生产系统中采集数据,集中存储在统一的数据存储中心,然后通过BI或AI方式进行分析洞察,与上层数据应用对接。从技术组件视角来看,数据平台涉及众多成熟组件,但搭建和运营并不简单,需要处理分层和多种技术组件。目前,主流数据平台架构是以结构化数据为主的Lambda架构,结合数据湖和一些AI平台,组成集成化解决方案。数据存储以数据湖和数据仓库为代表,上层配备不同处理引擎,以满足批处理、流式处理和实时分析需求。
然而,当前数据平台也面临一些挑战。在结构化数据分析方面,存储层存在数据冗余、不一致性等问题,导致数据质量问题和成本增加。同时,组装式数据架构复杂,缺乏灵活性,管理和开发成本高。为解决这些问题,业界提出了湖仓一体的概念。自2019年开始,湖仓一体逐渐成为业界共识,其关键在于采用标准、开放的存储介质结构,实现数据一致性、更新能力和流处理能力的提升。例如,Iceberg成为数据湖表格式标准的赢家,Snowflake和Databricks等先后宣布支持。但湖仓一体在实际落地时形态多样,理想情况是所有数据持久化在公共存储上,通过缓存或索引优化,数据只有一份元数据,统一存储。
此外,云原生也成为数据平台的重要架构概念。从2000年开始,云计算或云原生架构的能力得到广泛应用,实现了存储和计算的分离。数据持久化在低成本存储上,计算通过弹性计算方式管理,资源实现池化。这带来了诸多好处,如高效利用池化资源、解决数据负载争抢和隔离问题、降低成本、提升用户体验和服务等级协议。
在结构化数据分析演进中,计算引擎的一体化也是重要趋势。目前,市场上的计算引擎存在数据冗余、SQL开发语法和语义差异等问题,导致资源成本和开发成本增加,新业务响应时间变慢。因此,未来的计算引擎应朝着统一的接口、语法和语义方向发展,提供面向数据新鲜度、查询性能和资源成本的多种平衡点,并支持在平衡点之间灵活调节。
面向未来,数据平台有四个发展趋势。首先,数据平台体系架构从1:1向M:N转变。随着AI能力的兴起,数据平台需要能够管理更多类型的数据,如非结构化数据。同时,需要整合大模型的能力,实现数据融合处理,将AI能力与非结构化数据相连接,洞察出有价值的信息。
其次,Data Centric AI成为关键。在AGI时代,模型和算力高度同质化,企业的差异化竞争关键在于如何将私有数据与现有能力连接。大部分AI任务实际上是数据处理范畴,因此海量高质量数据和私有数据是预训练模型效果和落地的前提。
第三,数据平台架构重回搜索时代。以前的数据平台侧重于BI分析,现在进行模型应用时需要类似搜索的技术框架和链路。例如,在智能问答系统中,处理非结构化数据的流程与结构化数据加工相似,包括数据的采集、转换、存储等,同时还需要与大模型对接,解决非结构化数据的处理问题。
最后,统一元数据管理的重要性提升10倍,但构建难度也相应增加。目前,企业中有80%的数据是暗数据,即非结构化数据,这些数据管理不成熟。随着大模型和AI技术的发展,有机会更好地挖掘和利用这些暗数据,但如何将其纳入数据管理平台,进行资产化、打标签和增强元数据信息,是下一代数据平台需要解决的关键问题。
针对这些趋势,许多厂商进行了大量探索和尝试,但也遇到了一些未解决的难题。例如,SQL与Python在自动代码生成成为主流时,谁将是赢家;数据平台的“自动驾驶”何时能实现;半/非结构化数据知识的显式表达最终方式是什么。这些问题都需要进一步的研究和探索。
数据基础设施的演进是一个不断发展的过程。从Data到Data + AI,我们需要不断创新和优化数据平台架构,以适应时代的发展需求。未来,我们期待看到更多的技术突破和创新应用,为企业带来更大的价值和竞争力。