【金猿人物展】天云数据雷涛:从数据湖到湖仓一体再到数据编织,完成的是燃油车到油电混再到纯电技术的改造...

news2024/12/23 11:17:19


4a09a37b327a036e6b1161176b592a97.png

5b5b1d5cbf245e415e77edf3990cd254.png

雷涛

本文由天云数据CEO雷涛撰写并投递参与“数据猿年度金猿策划活动——2022大数据产业趋势人物榜单及奖项”评选。

1ae891ea10510966bed9ef5a65a358ec.png




‍数据智能产业创新服务媒体

——聚焦数智 · 改变商业


17c09c2c06de19ef5d117850f9c3116f.png

这一两年,北美以Facebook、谷歌为驱动的存算分离的虚拟数仓架构,正在非常快速的洗牌现代的数据融合市场。其大的背景驱动是市场正在经历从数字化转向信息互联网和产业互联网阶次性的台阶变化。在这种变化之下,其实背后的技术驱动还是非常清晰很明显的,就是以Java、SQL为核心的流程驱动业务转向了AI和分布式这些技术框架的数字驱动业务。产业互联网带来了数据使用方式上的一次革命性升级。

1、第一个变化,就是数据新鲜度的变化。我们在使用什么时间的数据,是在消费以天、小时级、分钟级、秒级还是百毫秒级的数据?

20a10986121aeea27a638a8d37a3cbc2.png

俄乌战争,两个相同工业体系相同装备体系的国家,用不同的军事思想和技术手段打了一场令人瞠目结舌的仗。信息技术已经改变战争模式, 如果不能支撑实时性的战情数据流,不能确保数据的鲜活度,从本质上来讲双方打得就不是同一场战争了,因此市场需要高度重视HTAP系统提供新鲜分析的重要性。

今年一篇论文《我的HTAP系统有多好?》,谈到的第一个技术指标就是Freshness(新鲜度)。就你在消费什么时间的数据?用什么样的一个方式?如果基于传统BI架构的话,我们需要从Oracle、MySQL这些交易型的生产系统里把数据同步出来,用ETL的方式或者是批处理的方式加工到数据仓库里头。所以在数据仓库里,待分析的原材料已经是以天为时间的信息了。

你是在消费以天、小时级、分钟级、秒级还是百毫秒级的数据?我们怎么去把一些从最早的Storm、Spark Streaming这些流计算的框架到现在比较成熟的像Kafka、Flink的框架来驱动一个流数据作业?比如量化交易里,我们怎么去对冲击成本?对实时的挂单数据去做一个预测?这个肯定要基于3秒之内的挂单数据来完成。

现在的一些开源框架,通过工程化的手段能够被市场接受了。把TP和AP做融合,成为湖仓一体的概念;然后把MPP数据库与湖仓一体融合,成为新技术趋势。实际上就是将MPP数据库加Hadoop开源。

这种现象会带来什么风险?MPP数据库不能单独支持湖仓一体,它需要 Hbase 和 ES 来配合,本质还是属于数据集。在某大型股份制银行,为了支持手机银行端的个性化数仓,实现手机端对大屏小屏化的趋势,传统 MPP 结构根本没法满足刚才说的这种服务价值,还要配套数百个节点,所以现在市场上湖仓一体的本质还是一个集成方案,需要在传统MPP数据库和开源Hadoop之间做大量的数据同步和一致性校验。既然要有数据同步,就必然有时间窗口、数据的不及时性、不一致性。

HTAP现在作为一种主流的技术框架,已经开始进入到核心数据驱动业务的前端,支撑我们消费最新鲜的数据。我们怎么用数据,流的形式跟库发生关系HTAP就是Hybrid Transaction and Analytical Process就是混合负载架构。

2、第二个变化,我们面向谁在提供数据服务?互联网的数据产销合一方式带动了流程驱动向数据驱动的数据库架构转型,数据从服务决策者转向服务一线人员,HTAP系统才能保障每个人都能实时看到同样高质量的数据。

59fffa5839659cfa1c25a8a5d0a08ba3.png

乌克兰的反攻又是如此之快,虽然俄方用上了核武器却依旧久攻不胜,核心是少了一样“杀手锏”:通过实时高并发数据基础设施构建最短秒杀伤链。俄乌军事行动,进一步验证了马赛克理论的分布式作战思想,分布式调度的核心是N条实时高并发的数据链,战场下沉式服务要支撑每一个士兵的作战请求,数据库必须能支撑高并发。乌军化整为零,将作战体系分解为数量更多、规模更小、功能更少、更容易组合的作战模块,从而夺取战场的综合制权。20秒杀伤链替代了集中指挥调度中心,让前线的士兵可以像使用滴滴打车一样匹配作战目标、火力资源。

我们在面前谁提供数据服务?这个问题是非常关键。

传统BI以报表、可视化更多是面向C-Level的决策,所以是宏观的、共性的、统计趋势性的问题。但互联网带来的金融服务的业务化,越来越多地把数据驱动业务推到了理财经理,推到了营业厅一线,甚至推到了C端客户。从大屏演示转向了C端客户的小屏操作,这种个性化的数据驱动和要求对后台的技术设施提出了一个非常关键的、很难逾越的技术指标就是:高并发。

我们以前在数据消费的时候更多的都是在数据仓库里完成。数据仓库是OLAP分析型业务,通过侵占更多的资源来完成一个大IO操作。所以MPP数据库有一个很大的挑战就是它不能够支持高并发,它的作业是排队机制。当遇到个性化服务下沉时,它就碰到了一个瓶颈。

市场提出了一个新概念Lakehouse(湖仓一体),就是把数据仓库处理结果再同步到一个大数据平台,比较受欢迎的方式就是MPP再加上Hbase。我曾经看到一个国产化项目,真的把MPP数据库给替代了。但是面向1亿多用户的小屏服务的时,它不得已还要同步到一个大规模的Hbase里头,Hbase来支撑MPP数据库的个性化的驾驶舱与提交,又变回开源且复杂的工程。就这个项目大概300多个节点Hbase、600多个运维开发人员,每年的运维费用、开发服务费用大概3个多亿的人力成本。

所以用产品级基础设施架构去替代开源工程和大规模人力外包服务是一个很典型的一个技术平台趋势。无疑又是HTAP混布型数据库,可以支撑替代MPP加Hbase这个结构来实现服务下沉。

3、最后一个变化,基于存算分离、联邦计算的数据编织架构,带来了一次去ETL、去主数据MDM,数据处理的逻辑开始被渐渐从传统的指标加工转向数据特征加工,支撑AI智能服务应用。

bd8d436c64abbe419a17373084576f24.png

一、合适的数据在哪里?

这是传统数据治理的一些范畴和问题,传统的数据治理都是以主数据、数据字典这些方法去做数据标准,通过对Delta体系里规定的关键指标分解到库这个实体,从主题、视图一层一层展开去做。

去年Delta2.0、Gartner均提出了Data Fabric,这是一个全新的数据组织结构,也是自下而上通过对IT信息化系统还原进而对存储过程、SQL语句的还原。数据编织把IT反馈的数据依赖逻辑用一个更高维的数据结构表达,就是知识图谱、复杂网络,通过把字段和库、表之间的关系,还有主键外链的这种业务逻辑,表达到一个点和边高维的可计算的元数据网络里头,通过元数据网络的计算来承担。因此新兴的方式开始从传统的数据治理走向了Data Fabric数据编织。

在数据编织架构里,很多我们耳熟能详的ETL、MDM主数据处理的逻辑渐渐被洗牌掉,我们开始用一种新兴的‘不动Data’而‘动Code(代码)’的方式来完成大规模数据在分布式环境下的融合、处理和计算。

新兴的数据编织技术有两个核心,帮助他在工具箱里头获得的能力。第一个是2016年Google提的Query Federation,可以将一个SQL在逻辑计划拆解粉碎以后通过联邦计算的方式推送到被融合的数据库的节点上执行,也就是通过一个大的HTAP数据库去连接不同的Oracle、MySQL,或者是Hbase、Hive这些数据库,然后将统一的SQL透明化的执行在边缘侧。第二个是数据编织Data Fabric,可以通过抽象语义层来完成存算分离的架构。存算分离架构带来的好处就是数据存储还在各个Oracle、MySQL里头,因此在统一的HTAP系统里面只有计算节点,通过内存的计算,它获取的数据并不是把整个库同步到目标层,而是只是针对这个SQL语句,所涉及到的字段级别在计算场景这一时刻同步到内存里完成计算。

二、如何实现有效的数据编织呢?

赫伯特·西蒙在数据驱动业务里曾经设计过,也是我们在工程里面经常对外讲的“符号主义”。面向确定性流程的数据管道我们可以把它描述出来,在一个免代码的中台环境里面把它描述成一个数据流,然后把这个数据流封装成一个容器,服务发布到任何一个分布式的Hadoop集群、大数据平台之上去执行,这样我们就可以弹性的定义不同的数据管道。

数据管道一旦定义出来就可以发布成一个云原生的Docker服务镜像,给数据使用者。数据使用者可以订阅,每天像数据API一样去使用。如果加上AI专家系统,就可以编排很多个管道。AI的专家系统其实是由业务人员、数据驱动的业务人员去使用,通过拖拉拽的形式完成数据的服务流的定义,它就可以去SQL化甚至去ID化的来生成这种服务定义的接口。

这整个过程,也就是从数据湖到湖仓一体再到数据编织,完成的是燃油车到油电混到纯电技术的改造。激光雷达、无人驾驶、电池重组技术这些内容在以前的燃油车时代是不用看的,这也也意味着我们现在的信息化市场、IT市场经历一次结构性的变化。

今天IT向DT的迁移,流程驱动转向数据驱动,并不仅仅是一个概念的迭代。而更多的是,很多基础的核心组件发生一些变化。这些组件从严谨的执行人类指令的这些系统架构、代码程序,转向了由数据驱动的供给和消费。

这不是简单的替代逻辑,是产业链升级逻辑。作为一个科技产业从业者,我对“2023年大数据产业”也做两点趋势判断:

1、信创是一项非常清晰的国家战略

所有支撑市场服务的开源工程必将转向原创产品,国产数据库必须摒弃利用开源封装的伪软壳技术,才能掌握硬核技术核心突破外部限制,实现技术创新科技创新。

国产数据库起步晚,在信息、人才、技术等多重窘境之下,很多企业采用“拿来主义”的手段弥补国产技术的空白。要么基于开源系统改进,要么从厂商购买源码授权,我前面也提了很多开源工程,也完成了服务且暂时被市场接受,但其产品架构几乎不可能调整,想掌握其核心技术更是难上加难。

数据库作为一个具有国家属性的产品,必然与属国命运与共。国产数据库必须走自主创新的道路,摒弃利用开源封装的伪软壳技术,掌握硬核技术核心,突破外部限制,实现技术创新科技创新。才能有机会实现追赶甚至超越,才能接得住面临第三波数字红利。

2、产业互联网时代更多是机器生产/消费数据

逻辑计划升级是数据库面向机器数据必然要走的路径,不再仅局限于数据可视化这种服务为目标的 SQL 操作,而是面向机器学习算法、内置ML能力。支撑数据供给和消费的一体化,AI-Native数据库是最后的归宿。

随着IT向DT迁移,就像燃油车和电车的区别一样,IT市场正在被一些新兴的技术组件所替代,这些组件的核心就是供给和消费的一个数据闭环。任何一个新事物的落地,都不会立竿见影的有结果,也不可能直接对号入座到旧世界,它肯定是要完成一个最小级闭环。数据库作为供给侧,AI 作为消费侧,这是我们相信的一个最小级的闭环。

互联网带来了个性化服务,淘宝推荐引擎、千人千面个性化结果,要跑的是贝业斯网络、是协同过滤算法,是这些算法再替代SQL的可视化服务。怎么能够在同一个计算的库体上,面向机器学习的操作面向新兴的数据驱动业务的算法?AI内生数据库是一个必然要走的路径。尤其是应对产业互联网,第三波的机器数据生产,更多的物联网的机器生产、传感器,他的机器数据物理意义人理解越来越难,比如油压、温度、结蜡、工况都是一些科学属性。这些数据它很难用决策,因为它对人类来说需要更强的科学知识才能去理解。所以将会是机器生产数据,机器消费数据,数据供给和消费一体化。

·关于雷涛

雷涛 天云融创数据科技(北京)有限公司 CEO,博士后工作站企业导师,中关村高聚人才,国家人工智能最高奖项“吴文俊人工智能科学技术奖”获得者。

拥有30余年北美信息科技公司从业经验,主导并参与中国移动、中国联通、工商银行总部等多个亿级大型信息化项目规划建设;

2005年入席SNIA存储工业协会中国区技术委员会联合主席,2013年首批CCF中国计算机学会大数据专委会委员,长江商学院特聘讲师。

660d1a16ec12d1b2c82eecb1ac9d65c0.jpeg

71cf0bf082c7dd8bea23a059a69c2acb.jpeg

2813cb6224f47e1aaf7df8b4ac532997.png

18172450bc253e42788c0150caed3267.png

《2022中国企业数智化转型升级服务全景图/产业图谱2.0版》

346d38cf51cdc8f9729da380562ed4bd.png

《2022中国数据智能产业图谱2.0版》

9ed0a5d09d609a747ccd7fd34ecd8e62.png

‍❷ 创新服务企业榜‍‍‍

❸ 创新服务产品榜

❸ 最具投资价值榜

❺ 创新技术突破榜

3018fc88b66a48bb4f6c2094fbb36f25.png

条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》

联系数据猿

974b96cf6f32e6016a4cb445b22d81de.png

9a35c9f97c9c4f7dd7aa0cedccb3f7cf.png

c708286820e9ac77d6cb6649006efb68.png

e327a5ece9da26cd8e13ff19b9b9ed34.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/113872.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【408篇】C语言笔记-第十七章(考研必会的排序算法(下))

文章目录第一节:选择排序1. 选择排序原理解析2. 选择排序代码实战3. 时间复杂度与空间复杂度第二节:堆排序1. 堆排序原理解析2. 堆排序代码实战3. 时间复杂度与空间复杂度第三节:归并排序1. 归并排序原理解析2. 归并排序代码实战3. 时间复杂度…

5、前端笔记-JS-运算符

运算符也被称为操作符,用于实现赋值、比较和执行算数运算等功能的符号 常用的运算符: 算数运算符、递增和递减运算符、比较运算符、逻辑运算符、赋值运算符 1、算术运算符 -*/% - * / %(1)%取余可以用来判断一个数是否可以被整除…

家政清洁服务系统设计与实现

开发工具(eclipse/idea/vscode等): 数据库(sqlite/mysql/sqlserver等): 功能模块(请用文字描述,至少200字): 修改意见:题目改为“家政清洁服务系统设计与实现” 提供服务:钟点打扫卫生(按小时收…

node.js+uni计算机毕设项目基于微信平台的大学生时间规划管理小程序设计(程序+小程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置: Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术: Express框架 Node.js Vue 等等组成,B/S模式 Vscode管理前后端分离等…

二次封装a-upload组件,自定义上传预览

a-upload封装效果自定义上传customRequesttransformFile上传前修改文件流自定义预览调整props和a-uoload一致install封装vue组件结束效果 编辑 预览 不展示删除和上传 空数据 自定义图片样式 自定义上传customRequest 入参是本地上传的文件流 async customRequest(file) …

Java笔记之线程池详解

文章目录一、线程池是什么?二、为什么要使用线程池?三、jdk自带的四种线程池1. 线程池参数2.工作队列3.拒绝策略4.四种线程池一些示例四、自定义线程池一、线程池是什么? 一种线程使用模式,是一种多线程处理形式,处理…

FineReport表格软件-CSS动态切换年月日查询报表

1. 概述 1.1 版本 报表服务器版本 功能变更 11.0 -- 1.1 预期效果 由于业务的需要,很多情况下需要当满足某个条件时,某些查询条件才显示出来,如下图所示: 1.2 实现思路 由于业务的需要,很多情况下需要当满足某个…

[Flask]环境配置和项目框架的构建

一、配置flask 在Python环境下使用控制台的pip install命令进行安装 pip install Flask2.1.0 !!!安装版本必须是2.x以上,否则可能出现错误:cannot import name escape from jinja2 (flask 2.x放弃了对jinj…

CloudCompare 的简单的使用说明

File open:打开 save:保存 Global Shift settings:设置最大绝对坐标,最大实体对角线 Primitive Factory:对点云进行原始加工,改变原始点云的形状 3D mouse:对3D鼠标(如3Dconnexion&a…

二叉树的绘制

目录 一、知乎方法 二、动手实践 DOT 语言 无向图 有向图 绘制二叉树 设置属性 如何绘制优美的二叉树 一、知乎方法 知乎上的大佬提供了一系列画图的方法,感兴趣的朋友可以自行去看看 用 Graphviz 绘制一棵漂亮的二叉树 - 南浦月 二叉搜索树&#xff0c…

庖丁解牛式讲解并发编程,GitHub高星最新开源阿里Java进阶必备手册

最近看到粉丝群里讨论最多的问题是现在Java这么卷,担心年龄大了以后会被裁员或者清退,要怎么做才能保住自己的“饭碗”。楼主认为不论是阅读优秀源码、领略设计思路,还是学习优秀架构、代码设计等等,都是加薪升职的正确路径&#…

安全分析开发环境 技术背景

安全分析开发环境一键部署 Gartner 报告中指出 [7],Platfor m Ops for AI 是一种编排和扩展运营人工智能的方法,利用跨数据、机器学习、人工智能和应用程序 开发管道的多种最佳实践,为基于人工智能的系统创建一个高效的交付模型。Platform O…

RV1126笔记十七:吸烟行为检测及部署<四>

若该文为原创文章,转载请注明原文出处。 转换成onnx模型(windows) 一、查看pt文件 准备好训练好的pt文件,可以用Netron打开看看大概长啥样: 二、模型转换 主要的目的是想把训练好的pt文件转成onnx模型,为后面RV1126的部署做铺垫。 我们是在py38的con…

ChatGPT怎么突然变得这么强?华人博士万字长文深度拆解GPT-3.5能力起源

文章目录一、2020 版初代 GPT-3 与大规模预训练二、从 2020 版 GPT-3 到 2022 版 ChatGPT三、Code-Davinci-002和 Text-Davinci-002,在代码上训练,在指令上微调四、text-davinci-003 和 ChatGPT,基于人类反馈的强化学习的威力五、总结当前阶段…

SAP MM SPED输出报错-No authorization for delivery from shipping point US##-之对策

SAP MM SPED输出报错-No authorization for delivery from shipping point US##-之对策 前日收到某客户业务人员上报的一个问题,说是发现某个公司间STO单据的外向交货单里SPED 这个output不成功,不能成功触发inbound delivery单据。 相关报错信息如下&am…

项目实战之旅游网(四)后台角色管理(上)

目录 一.角色列表 二.新增角色 三.修改角色 四.删除角色 一.角色列表 接下来我们编写角色管理功能&#xff0c;首先查询角色列表: 1.编写RoleService Service public class RoleService {Autowiredprivate RoleMapper roleMapper;public Page<Role> findPage(int …

【无线通信】鲸鱼优化算法及其在无线网络资源分配中的应用(Matlab代码实现)

&#x1f468;‍&#x1f393;个人主页&#xff1a;研学社的博客 &#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜…

腾讯云Linux 轻量应用服务器如何搭建 FTP 服务?

Vsftpd&#xff08;very secure FTP daemon&#xff09;是众多 Linux 发行版中默认的 FTP 服务器。本文以 CentOS 7.6 64位操作系统的轻量应用服务器为例&#xff0c;使用 vsftpd 软件搭建 Linux 轻量应用服务器的 FTP 服务。 本文搭建 FTP 服务组成版本如下&#xff1a; Lin…

node.js+uni计算机毕设项目基于微信点餐系统小程序(程序+小程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置&#xff1a; Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分离等…

Allegro如何设置格点操作指导

Allegro如何设置格点操作指导 在PCB设计的时候,格点是一个很好用的工具,Allegro可以设置格点 具体操作如下 选择Setup-GirdsNon-Etch和All Etch中的X和Y都输入5,代表都是5的格点