大模型、实时需求推动湖仓平台走向开放

news2024/11/14 23:34:04

大模型、实时需求高涨

AGI 时代,以 ChatGPT、Midjourney 等为代表的大模型迅速应用加速了 AI 普及,越来越多的企业选择搭建自己的 AI 基础设施,训练行业大模型。

另一方面,企业为了在瞬息万变的市场环境中更快的做出商业决策,正在将数据平台从离线转向实时数据平台。“双十一 ”和春晚直播实时大屏、银行和证券交易行为实时监控、电商和短视频的实时个性化推荐等只是全行业在线化的冰山一角。


AI + 实时,俨然成为了企业数据平台无法避免的技术焦点。那么,如何让企业数据平台拥抱AI+实时的双重能力?
为什么难实现?

对于现阶段的大数据平台和传统数据仓库等企业数据平台,姑且不论同时整合 AI + 实时,单独的 AI 平台或者实时数据平台都不得不通过复杂架构,耗费大量资源和人力来实现。我们不妨先来分别看看现在的 AI 和实时架构是如何实现的。

AI 与数据平台

机器学习和人工智能的模型训练采用结构化数据和非结构化数据。结构化数据价值非常高,数据质量也非常好,因此有些 AI 问题主要基于结构化的数据建模。一个很典型的例子就是银行基于结构化数据,面向个人客户开发的信用评分卡,既有可解释性,又能满足实时的信用评估。

那么,传统数仓的大量结构化数据该如何被用于训练 AI 模型呢?常见的方式是,当机器学习平台需要访问数据集时,需要先通过 JDBC 或者外部表的形式把数据从数据仓库导出到分布式存储中,然后再并行处理这些数据,用以进行模型训练和分析。在大规模数据处理场景中,这种不断导出数据的方式显然是不现实的,因为导出 TB 或者 PB 级别的数据通常得花好几个小时甚至几天的时间,既费力又费时。

在过去几年中,在业界产生广泛影响力的机器学习和 AI 模型几乎都是从非结构化数据中获取的。尽管在传统数据仓库中,可以将非结构化数据视为简单的文本或二进制类型 (TEXT、VARCHAR、BLOB),然而通过这种方式训练AI模型效率低下,同样需要从数据仓库中导出数据后再做建模。

因此,企业逐渐选择数据湖这种更加开放的形态来训练 AI 模型。结构化数据和非结构化数据(文本和图像等)直接进入数据湖,以数据湖开放的存储格式存储,如 ORC 和 Parquet,使用开源工具去直接操作数据。传统数据湖平台通常由 Hadoop 实现,因为 Hadoop 的局限性,比如缺乏事务支持,缺乏很好的数据治理方法等等,数据湖都难免形成数据沼泽。

实时数据平台

传统数据平台不仅在 AI 模型的支持上出现了诸多问题,在实时数据处理方面也面临着极大挑战。

传统数据平台的数据处理流程一般是这样的。首先,从业务系统 CRM、ERP 或者其他数据源把这些业务数据收集过来,然后经过离线数据 ETL 对数据进行数据清洗、数据加工。在这个过程中会涉及数据建模和分层,最终会把加工后的数据提供给 BI 工具,或者写到数据库并推到一个在线服务系统,供用户进行访问,这些用户包括用户、运营人员或管理团队等等。

我们可以发现,即便在没有做实时数据处理的情况下,这样的数据处理链路就已经很冗长了。然而,当我们不解决既有离线问题的情况下就向实时转型,问题将更加复杂。

实时数据是如何处理的?

目前主要采用传统 Lambda 和 Kappa 架构。以 Lambda 架构的实现方法为例,Lambda 以传统的离线数仓为主,然后引入了实时数据的处理链路。T+1 数据仍然是走传统离线数仓链路,然后再加上一个实时的数据链路,再把这些实时数据和离线数据汇总到一起,然后再通过一个服务层提供数据服务,对外提供的服务可能是点查询,也可能是做复杂分析。

离线链路用 Hive/Spark,实时用 Flink。但在实际的落地中,如果需要引入实时查询,可能要再加上 ClickHouse/Drill/Presto;如果需要做数据的离线归档,还需要 Hive;为了满足一些高并发点查询需求,还要再引入了 HBase 和 MySQL。引入这么多产品组件,本质原因还是缺少一个在并发、性能和开放性兼顾的产品。

因此 Lambda 架构并没有从源头上解决传统离线数仓的问题,而是在传统离线数仓上加了一条链路,让整个系统变得更加复杂。数据可能会存两份或者存多份,实时链路和离线链路数据也不统一。除此之外,整个架构维护起来是非常复杂的,学习和开发成本比较高。


如何破局?

为了实现用更丰富的数据源训练 AI 模型,我们以极高的代价将数仓的数据导出后再并行处理;为了实现实时数据处理,我们不惜选择冗长的数据处理链路,造成多份数据和多个计算引擎烟囱林立。这些痛点都将我们引向对一个问题的思考:我们能不能只用一份数据,精简计算引擎?

答案是可以的

当下,存储和计算的数据无非是结构化、非结构化和流式数据。破局的第一步,就是在数据的存储方面采用开放格式的一份数据,如 Parquet、ORC、Hudi 等。各个计算引擎都使用开放的数据格式(如 ORC 或 Parquet 等),数据以开放文件格式被写入数据平台,之后就能被多个引擎多次直接读取和使用。

有了存储的开放性,在计算引擎方面,我们就可以尽量优化和减少计算引擎的数量,并针对结构化数据、非结构化数据和流式数据,选用各具优势的计算引擎:● 针对流数据的计算,采用常见的 Flink;● 针对非结构化数据机器学习,可以采用 Spark;● 针对结构化数据,需要兼容开放数据格式,兼顾实时查询、离线分析、高并发和高可用的分析引擎,比如偶数的 OushuDB。

至此,开放格式,一份数据,多个引擎的架构初步形成,这样的“一数多擎”架构形成了可以破局当前企业数据困境的方案——实时湖仓(Realtime Lakehouse)。

“一数多擎”是我们在多个行业的湖仓一体项目落地中不断迭代的最佳实践。企业在选择多个引擎时一定需要基于“化繁为简”和“扬长避短”原则,比如 OushuDB 可以完全实现Hive、Presto、ClickHouse、HBase 等引擎的功能,引入 OushuDB 后就不需要再依赖这些引擎,这样可以极大简化系统开发和运维的复杂度。Flink 擅长流处理,就使用 Flink 做流处理,而不是使用 Flink 来做 SQL 查询,Spark 擅长做机器学习,就使用 Spark 做机器学习,而不是使用 Spark 来做流处理和 SQL 查询。Hive 查询慢,就不必再保留 Hive,可以使用 OushuDB 取代。


开放的“一数多擎”
带来哪些价值?

●首先就是开放本身的价值,开放直接解决了当前数据平台在AI模型训练和实时数据处理过程中多份数据造成的数据冗余和数据不一致。同时,开放的格式让湖仓一体很容易获得最优的 SQL 引擎、ETL、流处理引擎和机器学习引擎的支持。●其次,一份数据整合了非结构化数据和结构化数据存储,图像、文本可以直接用于 AI 模型训练,结构化数据也无需被多次读取、复制和导出。●再次,“一数多擎”必然要求彻底的存算分离架构,让企业湖仓平台不受集群规模的限制,动态扩展集群规模。

● 另外,由于过往实时、离线数据处理链路极其冗长和复杂,造成数据建模、元数据管理、数据治理都难以高效的实施,“一数多擎”精简了不必要的引擎组件,整个架构变得简洁,既为数据建模、数据治理提供了平台基础,又让学习、开发和维护成本都大幅下降。


总结

IDC 调研显示,企业在数字化商业过程中更加关心利用数据和信息来创造自身竞争优势,因此实现底层统一的数据管理是进行上层资产管理和业务决策分析的关键。

以往,由于技术水平的制约和方案的局限性,我们难以实现底层统一的数据管理。因此,为了能用更丰富的数据源训练AI模型,我们以极高的代价将数仓的数据导出;为了实现实时数据处理,我们不惜选择冗长的数据处理链路,造成多份数据和多个计算引擎烟囱林立。

于是才有了我们现在讨论的问题及对应总结出的方案:基于开放的数据格式,存储一份数据,避免数据冗余,有针对性的精选优势引擎组件,通过具备“一数多擎”架构的实时湖仓方案,我们可以同时解决 AI 和实时数据处理在过去所面临的困境,逐步形成完整的企业数智生态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1114171.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为云文件上传(单个上传和分段上传)

首先引入静态文件: 华为云官网提供js下载的链接 然后后端提供一个公用接口,返回华为云上传的基本配置: 官网提供的链接:华为云obs信息配置 一:单个上传 huaweiyunUpload (file, fileName, name, url, size, callb…

外包干了3年,技术不进步还退了?

外包没有很高的工资是真不能干呀!干了3年,把自己废了 先说情况,大专毕业,20年通过校招进入深圳某软件公司,干了接近3年的(点点点)功能测试,今年年中,感觉自己不能够在这样…

为什么说指针是c语言的灵魂?

为什么说指针是c语言的灵魂? 语言主要操作的对象是数据,c语言里面能够有大容量数据的地方就是指针指向的heap内存。从这 个角度来看,确实指针就是数据的灵魂。最近很多小伙伴找我,说想要一些c语言资料,然后我根据自己…

C语言求解汉诺塔问题

完整代码: /*Hanoi(汉诺)塔问题。这是一个古典的数学问题:古代有一个梵塔,塔内有 3 个 座 A,B,C,开始时 A 座上有 64 个盘子,盘子大小不等,大的在下,小的在上。有一个老…

软件测试/测试开发丨南科大计算机系本科生获“火焰杯”软件测试高校就业选拔赛一等奖

2022年12月2日,计算机系党总支书记、副系主任王琦副教授在工学院南楼551会议室为19级徐驰同学颁发第二届“火焰杯”软件测试开发选拔赛一等奖奖项,为刘烨庞助理教授颁发赛事优秀指导老师奖项。徐驰同学于2022年4月获得该赛事全国总决赛第一名&#xff0c…

Cross-Modal Joint Embedding with Diverse Semantics

计算两个嵌入之间的相似度得分,然后利用损失函数进行联合嵌入损失最小化优化并更新参数 辅助信息 作者未提供代码

CSS 效果 圆形里一个文字居中

效果实现源码&#xff1a; 宽度&#xff0c;高度必须确认&#xff0c;且相等 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><style>.circlew {width: 45px;height: 45p…

用3D扫描生成合成数据

合成数据集&#xff08;Synthetic Datasets&#xff09;正在成为计算机视觉模型训练的标准部分。 虽然新工具使合成数据集变得更容易访问&#xff0c;但除了标准机器学习过程之外&#xff0c;许多工具还需要对 3D 建模有基本的了解。 最简单的捷径是从现实世界中获取现有对象并…

文件夹图片相似图片检测并删除相似图片

项目开源地址 pip install imagededupgit clone https://github.com/idealo/imagededup.git cd imagededup pip install "cython>0.29" python setup.py installQuick Start from imagededup.methods import PHash phasher PHash()# Generate encodings for all…

【数据提取】 Python 提取PDF中的文字和图片

从PDF中提取内容能帮助我们获取文件中的信息&#xff0c;以便进行进一步的分析和处理。此外&#xff0c;在遇到类似项目时&#xff0c;提取出来的文本或图片也能再次利用。要使用Python从PDF文件中提取文本和图片&#xff0c;可以借助 Spire.PDF for Python 这个第三方库。具体…

Allegro两种自动对齐方法

本法基于cadence的allegro可以在PCB设计运用&#xff0c;使用方法如下&#xff1a; 方式一&#xff1a;allegro软件的自动对齐——使用过程繁琐一点 1.在“setup”下拉选项中选择“application mode”&#xff0c;在副选项中选择“placement edit”&#xff1b; 2.在“Find”…

vue3+element-plus 高度封装搜索组件,支持多种类型

目录 一、应用场景 二、开发流程 三、详细开发流程 1.新建文件 2.开始步骤 3.详细代码 (1).index.vue (2).搜索组件 (3).单个搜索组件 总结 一、应用场景 一般很多网站&#xff0c;有很多数据列表&#xff0c;基本都要做搜索的功能&#xff0c;如果涉及很多页面&…

【笔记】centos7 python2.7.5安装paramiko

更直接的方式&#xff0c;参考: 离线安装_离线安装paramiko 这个更简单。 准备 资源链接: https://download.csdn.net/download/qq_26834611/88445708https://download.csdn.net/download/qq_26834611/88445708 或者选择自己下载 1. 下载python-devel 在一台能联网的cent…

静电放电保护和片式压敏电阻器

1 引言 随着电子设备功能的增加&#xff0c;输入∕输出连接器也随之增多&#xff0c;这为静电放电&#xff08;ESD&#xff09;提供了进入电路的路径&#xff0c;静电放电保护问题变得不容忽视。因此&#xff0c;有必要采用静电放电保护元件&#xff0c;在静电放电进入电路板之…

Doris删库元数据删除怎么办?紧急恢复单副本情况

简介 正常情况下&#xff0c;如果是多副本的数据存储很容易修复&#xff0c;删除一个两个be也能根据doris自身的恢复机制恢复起来&#xff0c;但是&#xff0c;有时候可能有些表没有弄多个副本&#xff0c;那么就有点搞头了。 案例说明&#xff1a;fe的master节点的数据误删除…

笔记本电脑Windows10安装

0 前提 安装windows10的电脑为老版联想笔记本电脑&#xff0c;内部没有硬盘&#xff0c;临时加装了1T的硬盘。 1u盘准备 准备u盘&#xff0c;大小大于16G。u盘作为系统盘时&#xff0c;需要将内部的其他文件备份&#xff0c;然后格式化。u盘格式化后&#xff0c;插入一款可以…

eNSP-OSPF协议其他区域不与骨干区域相连解决方法2

隧道技术 AR1 [ar1]int g0/0/0 [ar1-GigabitEthernet0/0/0]ip add 192.168.1.1 24 [ar1-GigabitEthernet0/0/0]quit [ar1]ospf [ar1-ospf-1]area 0 [ar1-ospf-1-area-0.0.0.0]net 192.168.1.0 0.0.0.255 [ar1-ospf-1-area-0.0.0.0]quit AR2 [ar2]int g0/0/0 [ar2-GigabitEthe…

父组件与子组件的属性透传

透传是vue中一种特性&#xff0c;官方的解释是&#xff1a;“透传 attribute”指的是传递给一个组件&#xff0c;却没有被该组件声明为 props 或 emits 的 attribute 或者 v-on 事件监听器。最常见的例子就是 class、style 和 id。这句话解释过来就是一些不被prop定义的属性直接…

信钰证券:这些板块,逆市走强!

A股商场今天上午出现调整&#xff0c;上证指数跌破3000点&#xff0c;不过跌幅不大。 新动力赛道股打开反弹&#xff0c;其间&#xff0c;锂矿概念股成为上午商场最大亮点&#xff0c;吉翔股份2连板&#xff0c;龙头股赣锋锂业暴升7.74%。风电股也震荡走强&#xff0c;威力传动…

Hadoop学习总结(搭建Hadoop集群(完全分布式模式))

学习搭建Hadoop集群&#xff08;完全分布式模式&#xff09; 链接&#xff1a;https://pan.baidu.com/s/1wwTKk-XxHbccHjE-Xk2PTA 提取码&#xff1a;q7j7 在SecurityCRT 或者在 Xshell 进行虚拟机链接 &#xff08;这里使用Xshell &#xff09; 在hadoop001里配置 如果没…