从 Data 到 Data + AI,必然之路还是盲目跟风?

news2024/11/24 16:26:59

从 Data 到 Data + AI,必然之路还是盲目跟风?

  • 前言
  • 从 Data 到 Data + AI

前言

数据和人工智能的发展日新月异,深刻地改变着我们的生活和工作方式。数据平台作为数据处理和分析的核心基础设施,也在不断演进和发展。从数据库时代到大数据时代,再到如今的大模型时代,每一次变革都带来了新的机遇和挑战。

数据量的爆炸式增长和人工智能技术的广泛应用,企业对数据平台的要求也越来越高。如何有效地管理和利用数据,挖掘数据中的价值,成为了企业关注的焦点。同时,数据平台的架构也在不断演变,从传统的 Lambda 架构到湖仓一体架构,再到云原生架构,每一次演进都是为了更好地满足企业的需求。

然而,在数据平台的发展过程中,也面临着一些问题和挑战。例如,结构化数据分析架构在存储层、组装式数据架构和计算引擎等方面存在的不足,限制了数据平台的灵活性和效率。此外,随着 AI 新计算范式的出现,数据平台需要适应从 1:1 到 M:N 的体系架构转变,以及 Data Centric AI、重回搜索时代和统一元数据管理等趋势的发展。

在这个背景下,我们需要深入探讨数据平台的未来发展方向,寻找解决现有问题的方法。通过不断的创新和实践,推动数据平台的演进,使其能够更好地支持企业的数字化转型和发展。希望本文能够为读者提供一些有益的思考和启示,共同探索数据平台的未来之路。

从 Data 到 Data + AI

在当今数字化时代,数据和人工智能(AI)已成为企业发展的核心驱动力。随着技术的不断进步,数据基础设施也在经历着深刻的变革。本文将深入探讨数据基础设施从Data到Data + AI的演进历程,结合实践经验,分析当前数据平台的发展现状、新一代数据平台架构的演进思路以及未来的发展趋势和未解难题。

在这里插入图片描述

回顾历史,数据平台技术经历了三次革命。从1970年代的数据库时代,到2000年代的大数据时代,再到2022年开始的大模型时代,每一次变革都为企业带来了新的机遇和挑战。数据库时代奠定了数据应用创新的基础,如商业智能(BI)等;大数据时代则以海量数据和低成本、分布式架构为特点,推动了数据处理能力的提升;而大模型时代的到来,为行业带来了更多智能的可能性,如生成式AI能够基于数据推理出更多的可能性,具有更大的创新性。

当前,数据平台的发展呈现出一些特点。从物理结构上看,数据平台从生产系统中采集数据,集中存储在统一的数据存储中心,然后通过BI或AI方式进行分析洞察,与上层数据应用对接。从技术组件视角来看,数据平台涉及众多成熟组件,但搭建和运营并不简单,需要处理分层和多种技术组件。目前,主流数据平台架构是以结构化数据为主的Lambda架构,结合数据湖和一些AI平台,组成集成化解决方案。数据存储以数据湖和数据仓库为代表,上层配备不同处理引擎,以满足批处理、流式处理和实时分析需求。

然而,当前数据平台也面临一些挑战。在结构化数据分析方面,存储层存在数据冗余、不一致性等问题,导致数据质量问题和成本增加。同时,组装式数据架构复杂,缺乏灵活性,管理和开发成本高。为解决这些问题,业界提出了湖仓一体的概念。自2019年开始,湖仓一体逐渐成为业界共识,其关键在于采用标准、开放的存储介质结构,实现数据一致性、更新能力和流处理能力的提升。例如,Iceberg成为数据湖表格式标准的赢家,Snowflake和Databricks等先后宣布支持。但湖仓一体在实际落地时形态多样,理想情况是所有数据持久化在公共存储上,通过缓存或索引优化,数据只有一份元数据,统一存储。

此外,云原生也成为数据平台的重要架构概念。从2000年开始,云计算或云原生架构的能力得到广泛应用,实现了存储和计算的分离。数据持久化在低成本存储上,计算通过弹性计算方式管理,资源实现池化。这带来了诸多好处,如高效利用池化资源、解决数据负载争抢和隔离问题、降低成本、提升用户体验和服务等级协议。

在结构化数据分析演进中,计算引擎的一体化也是重要趋势。目前,市场上的计算引擎存在数据冗余、SQL开发语法和语义差异等问题,导致资源成本和开发成本增加,新业务响应时间变慢。因此,未来的计算引擎应朝着统一的接口、语法和语义方向发展,提供面向数据新鲜度、查询性能和资源成本的多种平衡点,并支持在平衡点之间灵活调节。

面向未来,数据平台有四个发展趋势。首先,数据平台体系架构从1:1向M:N转变。随着AI能力的兴起,数据平台需要能够管理更多类型的数据,如非结构化数据。同时,需要整合大模型的能力,实现数据融合处理,将AI能力与非结构化数据相连接,洞察出有价值的信息。

在这里插入图片描述

其次,Data Centric AI成为关键。在AGI时代,模型和算力高度同质化,企业的差异化竞争关键在于如何将私有数据与现有能力连接。大部分AI任务实际上是数据处理范畴,因此海量高质量数据和私有数据是预训练模型效果和落地的前提。

第三,数据平台架构重回搜索时代。以前的数据平台侧重于BI分析,现在进行模型应用时需要类似搜索的技术框架和链路。例如,在智能问答系统中,处理非结构化数据的流程与结构化数据加工相似,包括数据的采集、转换、存储等,同时还需要与大模型对接,解决非结构化数据的处理问题。

在这里插入图片描述

最后,统一元数据管理的重要性提升10倍,但构建难度也相应增加。目前,企业中有80%的数据是暗数据,即非结构化数据,这些数据管理不成熟。随着大模型和AI技术的发展,有机会更好地挖掘和利用这些暗数据,但如何将其纳入数据管理平台,进行资产化、打标签和增强元数据信息,是下一代数据平台需要解决的关键问题。

针对这些趋势,许多厂商进行了大量探索和尝试,但也遇到了一些未解决的难题。例如,SQL与Python在自动代码生成成为主流时,谁将是赢家;数据平台的“自动驾驶”何时能实现;半/非结构化数据知识的显式表达最终方式是什么。这些问题都需要进一步的研究和探索。

数据基础设施的演进是一个不断发展的过程。从Data到Data + AI,我们需要不断创新和优化数据平台架构,以适应时代的发展需求。未来,我们期待看到更多的技术突破和创新应用,为企业带来更大的价值和竞争力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2129392.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux系统使用Docker安装DockerUI并实现远程管理本地容器无需公网IP

文章目录 前言1. 安装部署DockerUI2. 安装cpolar内网穿透3. 配置DockerUI公网访问地址4. 公网远程访问DockerUI5. 固定DockerUI公网地址 前言 DockerUI是一个docker容器镜像的可视化图形化管理工具。DockerUI可以用来轻松构建、管理和维护docker环境。它是完全开源且免费的。基…

如何用MATLAB搭建ResNet网络(复现论文)

文章目录 前言基础工具网络搭建ResNet网络代码完整代码总结参考文献 前言 之前暑假实习了3个月,后来又赶上开学一堆事,现在终于有时间记录一下学习经历。新的学期开始了,要继续努力。 因为最近要做一个无人机航迹分类的项目,所以…

一周完成计算机毕业设计论文:高效写作技巧与方法(纯干货/总结与提炼)

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

Trie字符串统计(每周一类)

这节课我们学习Trie字符串。这个算法的主要应用就是字符串的快速存储和查找。我们通过下面这个题来讲 Tire字符串统计 ,另外说个题外话,本人是从ACwing里学习的算法知识,希望大家支持一下y总(ACwing大佬),如果觉得我这里的知识讲得…

Unity Apple Vision Pro 开发(十):通过图像识别锚定空间

XR 开发者社区链接: SpatialXR社区:完整课程、项目下载、项目孵化宣发、答疑、投融资、专属圈子 课程试看:https://www.bilibili.com/video/BV1mpH9eVErW 课程完整版,答疑仅社区成员可见,可以通过文章开头的链接加入…

另类动态规划

前言&#xff1a;一开始我根本想不到这个题目是一个动态规划的题目&#xff0c;而且我一开始的初始状态还写错了 我还忘记了写算法题的基本步骤&#xff0c;先看数据范围&#xff0c;再考虑能不能用动态规划写 题目地址 #include <bits/stdc.h> using namespace std; #de…

RTR_Chapter_4_上半部分

第四章 Transform 变换 变换&#xff08;transform&#xff09;是指以点、向量、颜色等实体作为输入&#xff0c;并以某种方式对其进行转换的一种操作。对于计算机图形学从业者而言&#xff0c;熟练掌握变换相关的知识是非常重要的。通过各种变换操作可以对物体、光源和相机进…

开源网安斩获CCIA中国网络安全创新创业大赛总决赛三等奖

近日&#xff0c;由中央网信办指导&#xff0c;中国网络安全产业联盟&#xff08;CCIA&#xff09;主办的2024年中国网络安全创新创业大赛总决赛及颁奖典礼在国家网络安全宣传周落下帷幕。开源网安“AI代码审核平台CodeSec V4.0” 凭借在AI方向的技术创新、技术突破及功能应用创…

数据库——MySQL概述

一、数据库 存储数据的仓库&#xff0c;数据是有组织的存储&#xff0c;简称database&#xff08;DB&#xff09; 二、数据库管理系统 操控和管理数据库的大型软件&#xff08;DBMS&#xff09; 三、SQL 操作关系型数据库的编程语言&#xff0c;定义了一套操作关系型数据库…

【2024】前端学习笔记1-HTML主体框架-文本标签

学习笔记 HTML主体框架标题标签:h段落标签:p加粗标签:strong、b斜体文本标签:em、i下划线标签:u上标、下标:sup、sub内联容器:span换行标签:brHTML主体框架 HTML主体框架 <!DOCTYPE html> <html lang="en"><head><meta charset="…

【Linux 19】线程概念

文章目录 &#x1f308; 一、线程的概念⭐ 1. 线程是什么⭐ 2. 线程的优点⭐ 3. 线程的缺点⭐ 4. 线程的异常⭐ 5. 线程的用途 &#x1f308; 二、进程和线程⭐ 1. 进程和线程的区别⭐ 2. 进程的多线程共享⭐ 3. 进程和线程的关系⭐ 4. 线程私有的资源 (重要&#xff1a;面试) …

Map--08--CurrentHashMap 与 Hashtable的异同?

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 Map方法computeIfAbsent1.computeIfAbsent 方法的简介2.案例computeIfAbsent() Map方法computeIfAbsent computeIfAbsent方法是Java 8中引入的一种简化操作Map的方…

探索 AI 代理驱动的汽车保险索赔 RAG 管道。

这篇文章中&#xff0c;我探讨了最近的一项实验&#xff0c;旨在创建一个针对保险行业量身定制的 RAG 管道&#xff0c;专门用于处理汽车保险索赔&#xff0c;目的是尽可能减少处理时间。 我还展示了 Autogen AI Agents 的实施&#xff0c;通过代理交互和对样本汽车保险索赔文件…

李宏毅结构化学习 01

文章目录 一、结构化学校介绍二、线性模型 一、结构化学校介绍 训练时&#xff0c;F(x,y)是评估X与Y有多匹配&#xff0c;越匹配&#xff0c;R的值就越大。 测试时&#xff0c;确定F(x,y)后&#xff0c;给定一个x后&#xff0c;穷举所有y&#xff0c;使得F最大的那个就是 y ~ \…

k8s的配置

k8s的配置 拉取镜像&#xff0c;创建pod&#xff1a;从阿里云拉取 [rootk8s-master ~]# kubectl run nginx --imagenginx:latest [rootk8s-master ~]# kubectl get po -Aowide|grep nginx default nginx 0/1 ImagePullBackO…

【Linux取经之路】用户权限管理

目录 shell命令以及运行原理 Linux权限的概念 1、用户的概念 2、切换用户 Linux权限管理 1、文件访问者的分类 2、文件类型和访问权限 3、文件访问权限的修改 4、文件所有权的修改 5、设置权限掩码 6、用户提权 7、目录的权限 8、粘滞位 shell命令以及运行原理 Linu…

D - 88888888

设N有K位 则&#xff1a; p998244353&#xff0c;是质数&#xff0c;vn%p只需要求一下分母的逆元即可。 分母于p互质&#xff0c;满足飞马小定理&#xff0c;故可以用其求逆元。 再用一下这个结论就OK了 #include<bits/stdc.h> using namespace std; #define int long…

《JavaEE进阶》----16.<Mybatis简介、操作步骤、相关配置>

本篇博客讲记录&#xff1a; 1.回顾MySQL的JDBC操作 2..Mybatis简介、Mybatis操作数据库的步骤 3.Mybatis 相关日志的配置&#xff08;日志的配置、驼峰自动转换的配置&#xff09; 前言 之前学习应用分层时我们知道Web应用程序一般分为三层&#xff0c;Controller、Service、D…

使用Python从头开始创建PowerPoint演示文稿

目录 一、环境搭建与基础知识 1.1 环境搭建 1.2 基础知识 二、创建演示文稿对象 三、添加幻灯片 3.1 选择幻灯片布局 3.2 设置幻灯片内容 3.2.1 设置标题和副标题 3.2.2 添加文本内容 3.2.3 插入图片 3.2.4 插入图表 四、高级应用&#xff1a;批量生成演示文稿 4.…

太惨了!许家印前妻每个月只能花18万

文&#xff5c;琥珀食酒社 作者 | 积溪 许家印前妻被判了 我跟你说啊她真是太惨了 一个月只能取18万啊 你说这日子怎么过啊 买个包包都不够啊&#xff01; 大家都知道许皮带爆雷&#xff08;BL&#xff09;后 丁玉梅虽然和许皮带战略性离婚&#xff0c;逃到了英国 还把…