2024可信数据库发展大会|存算分离架构驱动电信数据平台革新

news2024/9/21 13:37:51

7 月 16 日 - 17 日,由中国通信标准化协会和中国信息通信研究院主办,大数据技术标准推进委员会承办,InfoQ 联合主办的「2024 可信数据库发展大会」(TDBC)在北京召开。


酷克数据解决方案架构师吴昊受邀参与“电信行业数据库应用创新分论坛”,并发表《存算分离架构:加速电信行业数据处理,驱动业务创新》主题演讲,深入剖析了当前电信行业在数据平台建设过程中面临的挑战,并分享了存算分离架构的 HashData 云数仓在电信行业的方案与成果。

69ed5ea63e4f7b40d760de9f4d2e1051.jpeg


吴昊指出,移动互联网的发展导致电信行业数据量激增,这对数据平台的建设提出了前所未有的挑战。从解决单点业务问题到垂直大数据应用,再到企业级大数据中心的构建,这一系列的演变,不仅要求数据平台在数据处理和业务支撑上具备更强的能力,更重要的是,催生了一种全新的数据思维。在这种新思维下,数据洞察不再依存于基于复杂模型的抽样理论,而是基于全量数据进行分析,进行全量计算,从而降低对复杂模型的依赖。


这要求数据平台必须拥有出色的处理能力和高度的灵活性,以便能够迅速适应不断变化的数据环境和业务需求。然而,传统的 MPP 数据库由于采用了存储与计算紧密耦合的架构,导致其弹性伸缩能力不足,难以满足当前数字化转型需求。为了解决这些挑战,需要采用新的技术架构和管理方法,以提高数据平台的灵活性、可扩展性和安全性。


针对上述挑战,吴昊详细介绍了基于存算分离架构的 HashData 云原生数据仓库的独特优势。他强调,HashData 采用元数据、计算和存储三者分离的架构,能够更好地适应跨集群、跨中心以及跨云中心的数据访问。



f22aea4595b63965cecc24baed1969da.jpeg


HashData 利用统一的元数据和存储服务,构建了具有权威性的企业级数据视图,使得多个计算集群能够无缝共享数据。借助云端资源的灵活伸缩性,不仅显著提升了运维效率,还降低了系统复杂度,并成功消解了木桶效应等潜在问题。基于存算分离和云原生架构,目前 HashData 部署的最大规模已达到 35000 节点,能够根据业务需求动态地分配资源,从而实现了计算资源的高效利用与弹性扩展。


•多形态数据集中存储能力,打破数据存储孤岛:非结构化多模态数据涵盖范围广,管理过程复杂。HashData 引入 Directory Table 目录表,存储和管理非结构化数据对象的元数据,这些元数据以结构化的形式存在 ,元数据信息与共享存储上的非结构化数据文件本身形成关联关系,用户可以使用熟悉的 SQL 语句来操作 Directory Table 和普通表。



89910739570736b9f0b68930969e3202.jpeg


•利用外部表/连接器集成大数据生态,融入企业湖仓架构:面对日益多样化的数据分析场景,HashData 云数仓提供湖仓一体技术方案,数据可以在湖仓之间高效互通,支持多种数据类型存储,从架构上真正实现了湖仓一体,减少用户重复建设成本。HashData 可以同步 Hive、Hudi、Iceberg 元数据,建立外部表,并行访问大数据生态数据,参与 SQL 计算,并将数据缓存在计算节点,供后续使用。


d732df2a24ea56afdc6dcc434e525684.jpeg


•多样化分析计算能力—HashML 引擎:AI 技术的兴起为我们提供了新的机遇。HashData 基于 In-Database AI 的理念,内置功能丰富的 AI 开发工具箱 HashML,在一套架构下同时提供了面向 SQL 查询分析任务的 MPP 计算引擎和面向机器学习和深度学习任务的 ML/DL 计算引擎,赋能用户在数据查询处理、高级分析、机器学习、深度学习等场景的一站式、多层次融合分析和 AI 能力,帮助企业快速开发大模型等 AI 应用。


•存算分离的弹性架构,克服传统 MPP 局限性:HashData 通过独特的元数据、计算与存储分离架构,实现了计算集群的按需搭建与横向扩展,从而有效突破了传统 MPP 数据库在并发和计算能力上的局限。基于云原生能力,让计算、存储实现秒级独立伸缩,多个计算集群间共享同一份元数据信息,从而支撑企业业务的灵活扩展,确保工作负载在峰值场景下平稳运行。在保证了数据的一致性的同时,更节省存储和调用资源,大幅降低系统建设和维护成本。


吴昊进一步分享了 HashData 在电信行业的实际应用案例:


•基于信创底座构建湖仓融合的数据中台:某大型运营商选用 HashData 进行数据中台信创升级改造。HashData 运用云原生技术重构大数据算力调度引擎,并基于客户信创底座构建多样化分析平台。该平台融合现有大数据体系,支持批量和准实时分析,采用联邦 HDFS 统一存储、管理多源异构数据,实现数据一次入湖、直观分析。同时,支持多引擎融合,允许用户根据需求灵活选择计算引擎,并能根据租户需求隔离计算业务集群,弹性调整算力。基于存算分离架构,该平台能够满足各类业务场景的技术需求,实现业务资源需求快速交付,历史数据平滑过渡,核心技术自主可控,为用户业务增长提供了强有力的支持。


•基于 K8S 打造云原生数据平台:某运营商联合酷克数据团队,突破以往容器化仅用于无状态应用场景或开发测试环境的限制,采用 K8S+HashData 的技术路线,在国内率先建成真实生产环境下的容器化部署大规模云原生数据仓库。相比原有数据平台,基于容器化部署的 HashData 云数仓,具备高可用、高并发、计算资源水平无限扩展、秒级扩缩容等能力,扩缩容期间不影响业务连续性,实现了计算资源快速部署、高效交付的建设目标。


最后,吴昊展望了存算分离架构在电信行业的广阔前景。他认为,随着技术的不断进步和业务的持续发展,存算分离架构将在更多领域发挥重要作用。酷克数据也将继续致力于云端数据仓库的研发与应用推广,为电信行业乃至整个社会的数字化转型贡献更多力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1935753.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PyTorch使用细节

model.eval() :让BatchNorm、Dropout等失效; with torch.no_grad() : 不再缓存activation,节省显存; 这是矩阵乘法: y1 tensor tensor.T y2 tensor.matmul(tensor.T)y3 torch.rand_like(y1) torch.matm…

破解反爬虫策略 /_guard/auto.js(一) 原理

背景 当用代码或者postman访问一个网站的时候&#xff0c;访问他的任何地址都会返回<script src"/_guard/auto.js"></script>&#xff0c;但是从浏览器中访问显示的页面是正常的&#xff0c;这种就是网站做了反爬虫策略。本文就是带大家来破解这种策略&…

USB3200N模拟信号采集卡12位8路500K采样带DIO带计数器

1、概述&#xff1a; USB3200N多功能数据采集卡&#xff0c;LabVIEW无缝连接&#xff0c;提供图形化API函数&#xff0c;提供8通道&#xff08;RSE、NRSE&#xff09;、4通道&#xff08;DIFF&#xff09;模拟量输入&#xff0c;4路可编程数字I/O&#xff0c;1路计数器。 USB3…

C/C++蓝屏整人代码

文章目录 &#x1f4d2;程序效果 &#x1f4d2;具体步骤 1.隐藏任务栏 2.调整cmd窗口大小 3.调整cmd窗口屏幕颜色 4.完整代码 &#x1f4d2;代码详解 &#x1f680;欢迎互三&#x1f449;&#xff1a;程序猿方梓燚 &#x1f48e;&#x1f48e; &#x1f680;关注博主&a…

前端实现视频播放添加水印

一、效果如下 二、代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Document</title> </head> <body><style>.container {position: relative;}.base {width: 300px;hei…

VTD学习笔记(一)-启动vtd、基本界面和按钮

写在前面&#xff1a;真快啊&#xff0c;眨眼就毕业上班了&#xff0c;岗位也是做仿真&#xff0c;看来以后就是一直做仿真了&#xff0c;再见了定位~。公司使用的是vtd&#xff0c;看资料是一个很庞大的自动驾驶仿真软件&#xff0c;囊括了车辆动力学到传感器仿真&#xff0c;…

基于Java技术的智慧外贸平台

你好呀&#xff0c;我是计算机学姐码农小野&#xff01;如果有相关需求&#xff0c;可以私信联系我。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;B/S模式、Java技术、SpringBoot框架 工具&#xff1a;Eclipse、MySQL数据库开发工具 系统展示 首…

【网络工具】Charles 实战(下)

✍个人博客&#xff1a;Pandaconda-CSDN博客 &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/iAmAo &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会整理一些工作或学习中用到的工具介绍给大家~ &#x1f4d8;Charles 系列文章&#xff1a; 【网络工…

昇思25天学习打卡营第02天|张量Tensor

这节学习的张量&#xff08;Tensor&#xff09;的内容进行总结 &#xff1a; 1、张量的概念&#xff1a;张量是一种多线性函数&#xff0c;可以表示矢量、标量和其他张量之间的线性关系。张量是MindSpore网络运算中的基本数据结构&#xff0c;类似于数组和矩阵。 2、可以通过直…

【同行案例】亚马逊精铺卖家,2年跨境选品思路分享!

店雷达年度商家实战经验分享又来啦&#xff01;希望给各位商友一些选品思路参考。该商家主做亚马逊&#xff0c;2年跨境经验&#xff0c;主营类目艺术品&#xff0c;精铺模式。 一、亚马逊选品思路分享 ☛对于中小卖家&#xff0c;选择月销量300-1000可以较好平衡投入和产出&…

Langchain-Chatchat3.1版本docker部署流程——知识库问答

Langchain——chatchat3.1版本docker部署流程Langchain-Chatchat 1. 项目地址 #项目地址 https://github.com/chatchat-space/Langchain-Chatchat #dockerhub地址 https://hub.docker.com/r/chatimage/chatchat/tags2. docker部署 参考官方文档 #官方文档 https://github.c…

.env.local 配置本地环境变量 用于团队开发

.env.local 用途&#xff1a;.env.local 通常用于存储本地开发环境中的环境变量。这些变量可能包括敏感数据或特定于单个开发者的设置&#xff0c;不应该被提交到版本控制系统中。优先级&#xff1a;在大多数框架中&#xff0c;.env.local 文件中的变量会覆盖其他 .env 文件中…

【Git远程操作】向远程仓库推送 | 拉取远程仓库

目录 1.向远程仓库推送 ​1.1本地仓库的配置 1.2remote-gitcode本地仓库 1.3推送至远程仓库 2.拉取远程仓库 现阶段以下操作仅在master主分支上。 1.向远程仓库推送 工作区☞add☞暂存区☞commit☞本地仓库☞推送push☞远程仓库注意&#xff1a;本地仓库的某个分支 ☞推…

在Ubuntu上安装redis

Ubuntu上安装redis 一、通过下载redis的压缩包安装二、通过apt包管理器安装Redis三、修改redis的配置文件四、控制redis启动 Redis是一种开源的内存数据存储&#xff0c;可以用作数据库、缓存和消息代理等。本文将会介绍两种不同的安装方式&#xff0c;包括通过压缩包安装以及通…

钡铼Profinet、EtherCAT、Modbus、MQTT、Ethernet/IP、OPC UA分布式IO系统BL20X系列耦合器

BL20X系列耦合器是钡铼技术开发的一款用于分布式I/O系统的设备&#xff0c;专为工业环境下的高速数据传输和远程设备控制而设计&#xff0c;支持多种工业以太网协议&#xff0c;包括Profinet、EtherCAT、Modbus、MQTT、Ethernet/IP和OPC UA等。如果您正在考虑部署BL20X系列耦合…

如何学习Spark:糙快猛的大数据之旅

作为一名大数据开发者,我深知学习Spark的重要性。今天,我想和大家分享一下我的Spark学习心得,希望能够帮助到正在学习或准备学习Spark的朋友们。 目录 Spark是什么?学习Spark的"糙快猛"之道1. 不要追求完美,在实践中学习2. 利用大模型作为24小时助教3. 根据自己的节…

数据结构课程设计:源代码(C)客房信息管理系统

main.c #include <unistd.h> #include "SeqList.h" #include "User.h"int main() {SL user;SLInit(&user);char ans 0;printf("是否需要导入昨日续住客人的数据&#xff1a;y/n\n");scanf(" %c", &ans);if (ans y){L…

JVM(day2)经典垃圾收集器

经典垃圾收集器 Serial收集 使用一个处理器或一条收集线程去完成垃圾收集工作&#xff0c;更重要的是强调在它进行垃圾收集时&#xff0c;必须暂停其他所有工作线程&#xff0c;直到它收集结束。 ParNew收集器 ParNew 收集器除了支持多线程并行收集之外&#xff0c;其他与 …

C++写一个线程池

C写一个线程池 文章目录 C写一个线程池设计思路测试数据的实现任务类的实现线程池类的实现线程池构造函数线程池入口函数队列中取任务添加任务函数线程池终止函数 源码 之前用C语言写了一个线程池&#xff0c;详情请见&#xff1a; C语言写一个线程池 这次换成C了&#xff01;…

C#知识|账号管理系统-账号信息管理界面[1]:账号分类选择框、Panel面板设置

哈喽,你好啊,我是雷工! 前一节实现了多条件查询后端代码的编写, 接下来继续学习账号信息管理界面的功能编写,本节主要记录账号分类选择框和Panel的设置, 以下为学习笔记。 01 功能说明 本节实现以下功能: ①:账号分类选择框只能选择,无法自由输入; ②:账号分类框默认…