镜舟科技客户成功团队负责人孟庆欢:湖仓一体将成为数据架构的新范式

news2024/9/23 11:23:09

a4d9c0f96cc25f8cf8cd5646fe83de42.jpeg

e6e37279fa2ad07f98f0633bf774c45e.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


随着数字化的概念逐步深入不同领域企业的运营中,业务形态和数字化路径也越来越丰富。这也为企业数据处理、储存的方式提出了更多要求。对于企业,尤其是数据驱动型企业来说,需要强大的解决方案来管理和分析整个组织中的大量数据,这些系统必须具有可伸缩性、可靠性和安全性,并且必须具有足够的灵活性以支持各种数据类型和使用场景。这些要求远远超出了任何传统数据库的能力,因此,数据仓库、数据湖等多种不同的架构逐渐成为了数据库行业的热门技术。

2024年1月17日,由数据猿和上海大数据联盟主办,上海市经济和信息化委员会、上海市科学技术委员会指导的“第六届金猿季&魔方论坛——大数据产业发展论坛”上,镜舟科技客户成功团队负责人孟庆欢在主题演讲中与到场嘉宾和观众们探讨了湖仓架构在数据价值释放中的角色。

镜舟科技成立于2022年,致力于建立湖仓架构下的数据分析创新产品帮助企业提升效率。其研发的镜舟分析型数据库、湖仓分析引擎,是基于StarRocks开发的国产企业级产品。镜舟分析型数据库在实时数仓、OLAP报表、数据湖分析等场景中满足客户多维复杂、实时、高并发的数据分析需求,帮助客户构建数据驱动的全新业务和管理模式。

镜舟湖仓分析引擎采用的湖仓架构作为一种先进的数据存储和管理方式,通过集成多源、多格式、大规模的数据,为企业提供了更灵活、高效的数据管理方案,成为释放数据价值的强大引擎。

d183622b2c985449b52c2baa93070707.jpeg

“四世同堂”的数据架构

在当前大数据分析架构下有两条主流的技术路线。一个是数据仓库,另一个是数据湖。

数据仓库是一种企业系统,用于分析和报告来自多个来源的结构化和半结构化数据,例如销售终端交易、营销自动化、客户关系管理等。数据仓库适用于点对点分析以及自定义报告。数据仓库可以将当前数据和历史数据都存储在一个地方,旨在提供长期数据视图,这使其成为商业智能的主要组成部分。

经过几十年的发展和产品更新迭代,数据仓库目前已经“四世同堂”:从最早期的关系型数据库,到中期 Hadoop 等数据仓库,一直延伸到云计算领域,包括云原生的数仓,和以 Snowflake 这类产品为代表的数仓路线。数据仓库的主要优点包括数据质量较高、查询性能较高、实时性强、数据治理难度低。

数据湖作为后起之秀,从2012年开始逐步发展,目前已经成为许多前沿企业落地数据应用的新一代底座。

数据湖提供了一个可伸缩的安全平台,使企业能够以任何速度从任何系统中提取任何数据,无论数据来自本地、云还是边缘计算系统;以全保真的方式存储任何类型或数量的数据;实时或批量处理数据;使用 SQL、Python、R 或任何其他语言、第三方数据或分析应用分析数据。

与数据仓库相比,数据湖同时由其“不”是什么来定义。它不仅仅是存储空间,也不完全等同于数据仓库。

在大模型快速发展的2023年,数据湖的应用也变得更加频繁。数据湖可以作为AI数据的底座,可以储存大模型训练所需的数据——数据湖的架构天然地支持AI训练。

虽然数据湖和数据仓库都能够存储一定容量的数据,但它们都针对不同用途进行了优化。总体来说,数据仓库通常适用于存储商业行为中常见的重复性报告和分析数据,如月度销售报告、每个区域的销售跟踪数据或网站流量。而数据湖主要是为处理大量大数据而开发的,公司通常可以将原始数据通过批量传输和/或流式传输的方式移动到数据湖中,而无需对其进行转换。两者之间是互补关系而非竞争关系,因此企业可能需要同时使用这两种技术。

“湖”与“仓”怎样结合?

同时使用两种技术在落地过程中有两种模式。

一种是“湖上建仓”,即将数据录入数据湖中,再在数据湖上叠加数据仓库,按照数据仓库模式将数据湖中的数据源源不断地放入仓库进行加工应用。这相当于将数据湖作为数据源使用,只是将数据先放入数据湖,然后再按需放入仓库进行应用。

第二种方式是“仓外挂湖”,即一部分数据储存在数据仓库中,一部分储存在数据湖中。当业务应用需要进行数据查询时,将数据放在湖里,利用数据仓的能力查询数据湖里的数据。

但是,无论是湖上建仓还是仓外挂湖,这两种模式的整体数据仍然割裂,仓库和湖里都有与外界不相通的部分数据,这给后续数据运维和管理增加了很多成本。

因此,一种将数据仓库和数据湖结合的架构就显得非常有必要了。

StarRocks就是一种将两者相结合的架构。

818dc7e45cbfe97d8f894381db26c0d7.png

孟庆欢介绍,用户可以选择现有的数据湖,或者直接选择 StarRocks作为数据湖。在此基础上,用户可以通过StarRocks的引擎能力构建BI报表应用、数据探查应用以及离线数据加工应用等。

与之前湖上建仓和仓外挂湖的区别在于,这种架构不再将数据和管理进行分散,而是一体化管理,并且在此基础上附加湖与仓的能力,形成湖仓一体的架构。

目前,StarRocks 已经在国内 300 多家市值超过 70 亿人民币的大规模公司中落地,开始逐步实现湖仓新范式。

企业在应用这种模式时,相当于对原有数据架构进行了一次全新的升级和改造。在这个过程中有一部分能力可以利用旧有的大数据架构,另一部分可以利用StarRocks的能力开通数据实时分析领域的新场景。

作为一种全新的范式,数据链路与湖的方式、仓的方式有了显著的区别。所有数据源都可以把StarRocks作为统一的数据湖仓入口进行写入。在这个过程中,如果业务应用希望使用湖中或者仓中的数据,可以通过物化视图能力,进行数据模型构建。这样,就可以逐步将原始数据根据物化视图的进行简化,不再像以前更新、操作数据时那样需要外置一个工具调度平台进行应用。

在整个分析过程中,数据库提供了统一的元数据管理模块,用户可以简单迅速的创建、维护不同数据源的原数据,并自动进行更新。利用这种方式,在后续的数据处理过程中会有一个相对完善的入口,基于此进行数据分析操作会非常方便。

在性能方面,以原有湖仓分析中经常用到的参数作为参照物,替换成StarRocks可以提升3倍以上的性能,资源和开发成本大幅度降低。

湖仓一体的实际应用

孟庆欢还分享了两个湖仓一体的实战案例。

在携程业务中,由于企业每天需要处理大量机票、酒店和旅行数据,业务人员需要访问的报表数据量非常大。原有模式导入的成本非常高,并且在数据更新方面的支持并不完善,因此一旦数据发生变化,需要重新刷新整个数据,成本相对较高。

另外,导入的数据与原始数据之间存在一定的数据时效性滞后,导致数据之间无法严格保持一致。这导致业务在访问时也会频繁出现问题。同时,在查询时,原有的性能已经无法满足日益高涨的数据查询性能要求。

因此基于这些痛点,携程实验了StarRocks替换原有架构。首先能带来的性能提升是查询,查询速度提高了7倍以上。StarRocks整体兼容了原有系统,因此在整个业务切换过程中完全无感。前一天把数据整合好后,第二天直接进行切换,业务只能体会到速度的增加,完全感觉不到使用习惯上的变化。

另一个案例是小红书,小红书是年轻人的社交分享平台,其后台数据访问量非常巨大,有上万张的数据运营报表,每天要处理的数据量极高。原有架构需要维护庞大的数据分析机器资源,替换为StarRocks后,企业节省了一半服务器的数据资源也可以实现原有需求。

在替换StarRocks之后,企业数据处理的整体性能和成本都发生了变化。总体而言,当企业应用湖仓的分析架构替换原有的数据仓库和数据湖的架构之后,整个应用模式会更加简单,数据无需反复处理。整体服务器资源或应用资源也会更加可控,无需为不可控成本付出时间和精力。企业可以按照业务逻辑加工的口径,按需进行数据加工和实际应用。

镜舟科技的产品镜舟湖仓分析引擎是基于 StarRocks 开发的企业级产品,致力于帮助企业建立“极速统一”的湖仓分析新范式,满足金融政企客户对技术支持、解决方案、生态建设、售后保障等方面的极致要求。

镜舟湖仓分析引擎既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。镜舟湖仓分析引擎兼容 MySQL 协议,可使用 MySQL 客户端并适配各类主流 BI 工具,同时擎具备水平扩展、高可用、高可靠、易运维等特性。

未来镜舟科技计划在湖仓领域不断探索,进一步加强离线数据和批量数据处理能力,打造更加一体化的湖仓产品平台。

孟庆欢最后总结,随着技术的不断发展,湖仓架构将进一步演化,引领下一场数据革命。在技术的赋能下,湖仓将不断释放更为丰富、有价值的数据,为企业业务提供更强大的数据支持,推动业务创新和发展。湖仓架构的未来,将是数据与技术相互融合、协同发展的新时代。

文:十四 / 数据猿
责编:凝视深空 / 数据猿

978143b821e6b8b73e9e0e9491ff359e.jpeg

44db119d9a412fba0a5b4b8723f9fb36.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1430850.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LNMP.

一.mysl配置 1.安装mysql yum install mysql-server -y 2.进入mysql配置文件目录 cd /etc/my.cnf.d3.编辑mysql配置文件 vim mysql-server.cnf 在[mysqld]中添加: character-set-serverutf84.启动mysql服务 systemctl start mysqld5.登入mysql mysql 6.创建数据库 cre…

153基于matlab的滚动轴承故障诊断

基于matlab的滚动轴承故障诊断,基于小波包分解,得到数据峭度值,以正常与故障数据峭度差值进行最大尺度重构,对重构信号进行包络谱分析。程序已调通,可直接运行。 153matlab 信号重构 包络谱分析 故障诊断 (xiaohongshu…

Macbook 安装金铲铲之战等 IOS 游戏

前言 Macbook 现在可以玩一下 IOS 系统上的游戏啦,以笔者的 M1 Pro 芯片为例 步骤 一、安装 PlayCover 推荐 Sonama 安装 Nightly 版本 官网地址: https://playcover.io/ Nightly: https://nightly.link/playcover/playcover/workflows/2.nightly_re…

基础小白快速入门python------Python程序设计结构,循环

循环在计算机中,是一个非常重要的概念,是某一块儿代码的不断重复运行,是一种逻辑思维 在编程中的体现,运用数学思维加代码结合加数据,就构成了一个循环。 在Python中,循环主要分为三大类 for循环 while循…

二维图像生成 3D 场景:nerfstudio 帮你简化流程 | 开源日报 No.164

nerfstudio-project/nerfstudio Stars: 7.7k License: Apache-2.0 nerfstudio 是一个友好的 NeRFs 协作工作室。 该项目旨在简化创建、训练和测试 NeRFs 的端到端流程,支持更模块化的 NeRFs 实现,并提供了简单的 API。 其主要功能和优势包括&#xff1…

ABAP 笔记--内表结构不一致,无法更新数据库MODIFY和UPDATE

目录 ABAP 笔记内表结构不一致,无法更新数据库MODIFY和UPDATE ABAP 笔记 内表结构不一致,无法更新数据库 MODIFY和UPDATE 如果是使用MODIFY或者UPDATE

【DDD】学习笔记-什么是模型

从领域驱动的战略设计进入战术设计,简单说来,就是跨过系统视角的限界上下文边界进入它的内部,从分层架构的逻辑分层进入到每一层的内部。在思考内部的设计细节时,首先需要思考的问题就是:什么是模型(Model&…

Android 13.0 原生SystemUI下拉通知栏每条通知默认展开

1.前言 在13.0的系统rom原生开发中,在在对SystemUI下拉通知栏做定制的时候,在下拉状态栏的时候,通知栏中最后一条通知默认是收缩的 点击按钮 就会展开 原生系统systemui就是如此,为了更美观 所以要求最后一条通知也默认展开,显得更美观 最终效果图: 2.原生SystemUI下拉通…

Git使用命令大全

命令大全参考阮一峰的博客,根据自己的使用习惯作了调整。 Git常用命令 其他常用的命令 配置Git # 显示当前的Git配置 $ git config --list# 编辑Git配置文件 $ git config -e [--global]# 设置提交代码时的用户信息 $ git config [--global] user.name "[nam…

Multiuser Communication Aided by Movable Antenna

文章目录 II. SYSTEM MODEL AND PROBLEM FORMULATIONA. 通道模型B. Problem Formulation III. PROPOSED SOLUTION II. SYSTEM MODEL AND PROBLEM FORMULATION 如图1所示,BS配置了尺寸为 N N 1 N 2 NN_{1} \times N_{2} NN1​N2​ 的均匀平面阵列(uni…

第二十五天| 216.组合总和III、17.电话号码的字母组合

Leetcode 216.组合总和III 题目链接:216 组合总和III 题干:找出所有相加之和为 n 的 k 个数的组合,且满足下列条件: 只使用数字1到9每个数字 最多使用一次 返回 所有可能的有效组合的列表 。该列表不能包含相同的组合两次&#…

【Qt5小项目】接金币小游戏

代码量在250行左右, 需要源码的可以私信我。

蓝桥杯嵌入式第六届真题(完成)STM32G431

蓝桥杯嵌入式第六届真题(完成)STM32G431 题目部分 相关文件 main.c /* USER CODE BEGIN Header */ /********************************************************************************* file : main.c* brief : Main program b…

计算机科学导论(0)冯诺依曼体系结构

文章目录 定义主要特点缺陷定义 冯诺依曼体系结构(Von Neumann architecture),也称为普林斯顿体系结构(Princeton architecture),是一种计算机架构理论,由匈牙利数学家和物理学家约翰冯诺依曼(John von Neumann)在1945年提出。这一体系结构是现代计算机设计的基础,其…

Python(SQLite)executescript用法

SQLite 数据库模块的游标对象还包含了一个 executescript() 方法,这不是一个标准的 API 方法,这意味着在其他数据库 API 模块中可能没有这个方法。但是这个方法却很实用,它可以执行一段 SQL 脚本。 例如,如下程序使用 executescr…

Leetcode刷题笔记题解(C++):99. 恢复二叉搜索树

思路: 二叉搜索树的中序遍历是递增序列,可以在中序遍历中记录两个需要交换的节点,直到遍历完毕之后,对两个节点的值进行交换即可得到正确的二叉搜索树 比如中序序列为 1 2 3 7 5 6 4(7比5大记录7为x&#xf…

FlashFXP 下载、安装、使用

官网 FlashFXP - Secure FTP Client Software for Windows. Upload, Download, and Synchronize your files. 下载 使用 新建连接 输入ftp服务器信息 下图说明连接上了

第五讲:函数与类库

第五讲:函数与类库 第五讲:函数与类库函数定义实参变量的作用域返回值代码复用 类创建和使用类继承导入类 模块与库概念标准库第三方库 第五讲:函数与类库 函数 定义 函数就是代码块,只不过我们给这个代码块特地进行命名&#…

2023年哪个前端框架用的最多?

2023 年,TypeScript 的每月下载量持续稳定增长,年度累计下载量高达2,071,832,110(20.7 亿),展现了强大的市场需求和用户认可。 本文来通过详细的数据(2023 年 npm 累计下载量),看看…