四个“一体化”——构建数智融合时代下的一站式大数据平台

news2025/1/4 6:11:40

图片

随着智能化技术的飞速发展,尤其是以生成式AI为代表的技术快速应用,推动了数据与智能的深化融合,给数据基础设施带来了新的变革和挑战。如何简化日益复杂的系统架构,提高数据处理效率,降低开发运维成本,促进数据开放共享和创新应用,成为企业关注的核心问题。

一站式大数据平台,旨在通过一个平台即可满足各类业务需求,成为数智融合时代下数据基础设施的发展趋势,并从四个维度向四个“一体化”方向演进:数据架构-湖仓集一体化;数据处理-多模型一体化;数据分析-历史与实时数据一体化;资源管理-多集群应用、资源和数据一体化

数据架构:湖仓集一体化

图片

过去,企业在建设数据平台时通常使用传统的Hadoop湖+MPP仓的混合架构,逐渐有部分企业开始使用类似Hudi/Iceberg的湖仓技术。这两种技术架构都存在一些局限性,在线分析能力较弱,无法满足集市业务需求。因此企业往往需要再引入额外的分析查询引擎,用混合架构来满足湖仓集业务需求。

混合架构中,数据需要存储在不同平台里来提供服务,首先就造成了数据冗余和存储资源占用其次,数据需要跨平台ETL流转,流转开销高,时效性较差。数据跨平台流转中还容易导致数据一致性问题,影响业务正确性。此外,多平台的开发标准不一致,存在一定的技术门槛,权限管理复杂。

星环科技大数据基础平台TDH从2014年支持了事务表和存储过程开始,形成了湖仓集一体雏形,在2023年TDH9.3版本中引入了湖仓集统一存储格式Holodesk,只需一种存储格式即可同时满足ODS数据实时数据接入、数仓模型加工和高性能集市查询分析等业务,不需要针对不同的业务场景使用不同的存储引擎而构建烟囱式混合架构。在星环一体架构下,湖仓集对用户来说,仅仅是业务逻辑上的区分,底层使用统一的技术栈,真正实现湖仓集一体化。

图片

新发布的TDH9.4在资源隔离、端到端性能、统一运维管理等方面升级,帮助用户构建真一体化、高性能、易运维的湖仓集一体化平台。

  • 资源隔离新架构,在同一份数据上跑批查询混合负载互不影响。一套集群一份数据,基于Raft协议保障分布式一致性,在CPU、内存、IO、网络资源方面完全隔离,结合基于容器化的动态资源调整能力,保障不同的批量业务与查询业务性能需求。存储方面,针对湖仓集多种混合负载业务,支持分区级多级冷热数据存储,最大化利用存储资源,降低总体存储成本。

  • 端到端性能10倍提升,全面降低TCO。相比于Hudi+Clickhouse+Hbase的混合架构,TDH湖仓集同一份数据,ETL时间节约95%,存储空间节省3/4,批量入库性能提升3倍,实时入库性能提升5倍,批量加工和多表关联分析性能提升5-10倍,统计性能提升3倍,带小量聚合的查询业务性能提升1.5倍。

  • 湖仓集统一运维管理,大幅降低运维管理成本。湖仓集统一的监控导向UI,提供更细粒度的集群运行、资源使用、组件指标等监测,提供界面化补丁管理、磁盘管理等。此外,TDH支持X86和ARM混合集群部署和统一管理,首个在10000节点X86/ARM混部集群下,通过信通院云原生湖仓一体专项评测。

  • 支持 Python 生态,高效支撑大模型应用。基于统一的分布式计算引擎,提供分布式Python引擎,来帮助用户更方便地用Python进行分布式数据处理。并提供POSIX接口,挂载分布式文件系统TDFS到本体磁盘,让用户可以像处理本地数据一样处理海量AI训练数据,高效支撑数智融合时代下大模型应用和各类数据智能场景。

数据处理:多模型一体化

图片

过去,不同的数据模型往往需要独立的平台来处理,而这些不同的产品在接口标准上不一致,开发者和业务分析人员需要掌握不同的语言。同样,这些产品也使用了各自独立的计算引擎和存储,数据存储在各自生态中难以互通,在业务上如果涉及到跨模型的混合业务,需要把数据从一个平台导入到另一个平台中,ETL流转效率低,同时也难以保证数据的准确性、一致性和实效性。

多模数据库旨在单个系统中集成了多个关系型和/或非关系型数据引擎(例如,文档、图、键值、时序等),满足业务对于结构化、半结构化、非结构化数据的统一管理需求,实现数据的多模融合处理。通过使用单个系统来降低操作的复杂性,更好地支持不同场景下的多种类型数据处理。

随着大语言模型的快速发展,对于多种模型数据的处理需求越来越高,同时由于其存在领域知识缺乏、知识时效性低、回答易幻觉、隐私数据不安全等局限性,需要通过检索外置知识库的方式来增强大模型能力。通过多种模型一体化处理的平台,在增强大模型的同时,可以降低系统搭建、开发、运维等方面难度,因此多模数据库成为大模型时代的刚需。

星环科技从2020年实现了多模型数据的统一处理技术,基于四层统一的架构提供统一的接口层,统一的计算引擎层,统一的分布式存储管理层和统一的资源管理层,并支持关系型、图、时序、时空、向量、键值等11种数据模型,业内首个通过了信通院《多模数据库技术要求》评测

图片

TDH9.4在多模型能力进行了升级,向量存储引擎Hippo发布了2.0版本,单机存储容量提升20倍,结合分布式架构可支持百亿字的向量存储,检索性能提升10倍以上,并提供完整的企业级能力,包括冷热灾备、跨集群数据同步、生命周期管理等,帮助用户更安全、便捷地支撑大模型应用。

图存储引擎StellarDB发布了5.1版本,引入GPU作为计算资源,部份场景下如子图查询性能提升10倍以上,结合深度图算法提供图谱召回、图谱推理等能力,提升大模型的准确度,帮助用户构建企业级知识库系统。

基于TDH多模型统一技术架构,满足大模型场景下多模态数据的统一存储管理与服务,大幅简化知识库的知识存储与服务层架构,降低开发与运维成本。通过将TDH作为大模型外置知识库,可以检索文本/图片/音视频转化后的向量数据、图数据、以及传统关系型数据等,并进行联合召回,可以极大增强大模型的准确率。

图片

数据分析:实时与历史数据一体化

图片

随着业务的快速发展以及企业内部决策的要求不断提高,用户对数据实时性的要求越来越迫切。实时数据处理架构Lambda和Kappa,在各自使用的场景都能解决一部分实时或近实时的用户需求,但是随着业务实时要求的提高,两种架构均存在一定的不足,主要体现在:

(1)Lambda架构将实时和历史数据分离,随着历史数据的积累,批量计算的性能会下降明显;

(2)Kappa架构通过流计算的方式实现了数据融合,但流与流之间的时间窗口难以精确控制,流与流存在数据关联不上的问题。

星环科技ArgoDB 6.1版本中推出了数据增量计算能力,提出了业务实时计算新范式。在实时处理数据架构上,解决了Lambda架构中的实时与历史数据的不融合问题;同时避免了Kappa架构中的流与流计算窗口不可控问题。从数据的加载到数据的加工,保障了数据业务端到端的实时性能,极大地提升了业务分析的时效性。

ArgoDB6.1的增量计算技术,打破流表和物理表的使用壁垒,增量交由数据库识别、关联和分析:

  • 大幅降低资源维护成本,窗口下沉到存储,数据无中间状态,流状态时间窗口维护成本从100%降至0(即“零”维护成本);

  • 实时性能 & 数据准确性提升,减少计算数据量,为结果表实时提供最新的关联计算值;(即数据“不丢”“不重”且“计算高效”);

  • 增量数据可重复使用,原始数据落表,增量的数据可供下游使用,配置链路简单且数据可重复使用。

图片

基于ArgoDB 6.1增量数据计算能力,可在一个数据库系统中实现多种实时场景,数据仅需在库内流转:

  • 场景一(即席查询,写入即服务):数据直接写入ArgoDB,由ArgoDB提供OLAP 查询和在线服务;

  • 场景二(增量数据准实时加工):在 ArgoDB 中进行ODS数据清洗,并在DWD数据明细层预加工后直接进行汇聚层加工,对接上层应用;

  • 场景三(增量数据实时统计,事件驱动加工):DWD明细层预加工和DWS汇聚层预加工全部由ArgoDB增量计算完成,并提供给上层应用,帮助用构建新一代的实时数据仓库。

资源管理:多集群应用、资源和数据一体化

图片

企业通常根据不同的业务系统构建多个不同的大数据集群,多个集群的运维管理给企业带来了很多困扰。不同的集群各自孤立,底层资源无法统一、无法均衡的调度和最大化利用,并且各个集群上的数据难以互通,当涉及跨集群数据调用时,需要在各个集群之间ETL,效率较低,也难以保证数据的准确性、一致性和实效性。当有新业务需要上线时,需要建设新的集群,进一步加剧上述问题。

多个大数据集群统一管理,能够将多集群统一纳管,实现资源统一调度,数据统一管理,并能够快速响应,满足新业务上线需求。

星环科技数据云平台TDC,在一个平台上提供了数据PaaS、分析PaaS、应用PaaS服务,底层共享基础设施资源,能够实现不同业务、不同环境下的多个集群统一纳管,不仅提供星环科技的大数据与人工智能产品等产品服务,也能够托管如Spark、Flink等开源生态产品。

图片

TDC 5.0在多集群及应用统一纳管基础上,对跨集群资源均衡调度、自动弹性伸缩、数据共享等能力进一步升级,帮助用户构建一体化的大数据与智能平台,降低企业多集群运维管理成本,最大化资源利用率,加速业务上线与创新。

  • 跨集群资源均衡调度 实现对多个集群底层资源的统一管理,当某个集群负载较大,需要扩展存储或者计算资源时,能够跨集群自动调用富余集群的资源,实现多个集群之间资源的均衡调度,提升所有集群的整体资源利用率。

  • 跨集群自动弹性伸缩 根据配置的基于时间周期、负载变化的自动弹性伸缩策略,对业务繁忙时间段和业务负载突增时,自动进行存储和计算资源的扩缩容,满足业务对资源的需求,保障业务性能的稳定性。

  • 跨集群数据共享  跨多个集群实现数据的共享,集群之间不需要做ETL,可以直接共享使用对方集群的存储,进而实现No Copy的数据共享,避免数据复制带来的存储压力和数据时延,以及不一致性问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1922044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

十、(正点原子)Linux阻塞和非阻塞IO

阻塞和非阻塞 IO 是 Linux 驱动开发里面很常见的两种设备访问模式,在编写驱动的时候一定要考虑到阻塞和非阻塞。这里的“IO”并不是我们学习 STM32 或者其他单片机的时候所说的“GPIO”(也就是引脚)。这里的 IO 指的是 Input/Output,也就是输入/输出&…

matlab支持向量机使用错误

🏆本文收录于《CSDN问答解答》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&…

使用Qt和mitmproxy开发一个抓取网页短视频的万能工具

目录 实现原理 mitmproxy介绍 功能简介 安装 脚本示例 如何使用 解释 注意事项 QT工具实现 其他资源 实现原理 使用WebView组件造一工具,工具可输入网页地址并显示网页内容及播放视频。把工具的代理设置指向mitmproxy的端口服务。配合使用mitmproxy的MITM技术,监…

MySql性能调优03-[SQL优化]

SQL优化 MySQL优化SQL优化-不要写select *SQL优化-小表驱动大表,而不是大表驱动小表SQL优化-连接查询代替子查询SQL优化-提升group by的效率 MySQL优化 trace工具 set session optimizer_traceenabledon,end_markers_in_json on; -- 开启trace select * From emplo…

指针详解(2)

指针详解(2) 对数组名的理解 在C语言里数组名还表示着数组首元素地址。 int arr[5] {1, 2, 3, 4, 5}; int* p &arr[0]; int* p arr;以上这两种,对指针p进行赋值的操作均是等价的,都将数组首元素的地址赋给指针p。 不妨,我们可以测…

【C++进阶学习】第六弹——set和map——体会用C++来构建二叉搜索树

set和map基础:【C进阶学习】第五弹——二叉搜索树——二叉树进阶及set和map的铺垫-CSDN博客 前言: 在上篇的学习中,我们已经学习了如何使用C语言来实现二叉搜索树,在C中,我们是有现成的封装好的类模板来实现二叉搜索树…

SpringBoot新手快速入门系列教程六:基于MyBatis的一个简单Mysql读写例子

我的教程都是亲自测试可行才发布的,如果有任何问题欢迎留言或者来群里我每天都会解答。 MyBatis和JPA是两种不同的Java持久层框架,各有其优缺点。以下是它们的比较: MyBatis 优点 灵活性高:MyBatis允许手动编写SQL查询&#xf…

AWDAWFAAFAWAWFAWF

创建两张表:部门(dept)和员工(emp) 创建视图v_emp_dept_id_1,查询销售部门的员工姓名和家庭住址 创建视图v_emp_dept,查询销售部门员工姓名和家庭住址及部门名称 创建视图v_dept_emp_count(dept…

Ubuntu: gitee免密

安装git sudo apt-get install git下载 git clone XXX SSH keys 第一步:检查本地是否有 SSH Key存在 ls -al ~/.ssh第二步:配置你注册的邮箱 ssh-keygen -t rsa -C "your_emailexample.com"输入命令后一直回车 第三步:获取公钥…

乐观锁原理

乐观锁是一种并发控制的方法,主要用于多线程环境下,用于保证数据的一致性。其核心思想是:"在多个事务中乐观地读取数据,在提交时再验证是否有冲突,如果没有,则提交;如果有,则回…

使用 Apache DolphinScheduler 构建和部署大数据平台,将任务提交至 AWS 的实践经验

作者介绍 李庆旺 - 软件开发工程师,思科 引言 大家好,我是李庆旺,来自思科的软件开发工程师。我们的团队已经使用Apache DolphinScheduler搭建我们自己的大数据调度平台近三年时间。从最初的2.0.3版本开始至今,我们与社区一同成…

基于FPGA的数字信号处理(15)--定点数的舍入模式(6)向0取整fix

前言 在之前的文章介绍了定点数为什么需要舍入和几种常见的舍入模式。今天我们再来看看另外一种舍入模式:向上取整fix。 10进制数的fix fix:也叫 向0取整。它的舍入方式是数据往0的方向,舍入到最近的整数,比如1.75 fix到2&#xf…

【操作系统】进程管理——管程(个人笔记)

学习日期:2024.7.12 内容摘要:管程的定义和基本特征 管程 管程存在的意义:在上一章节中,我们学习了利用信号量机制解决进程同步互斥问题的方法,信号量机制编写程序较为复杂困难,易出错。为了让程序员写程…

MySQL查询语句(DQL)

文章目录 查询语句(DQL)简单查询查一个字段查多个字段查所有字段查询字段可以进行数学运算查询时字段可起别名 条件查询and (&&)or (||)between...and...is null 和 is not nullin 和 not inlike (模糊查询) 查询语句(DQL) 简单查询 \c可以清空…

JavaScript中的拷贝技术探秘:浅拷贝与深拷贝的奥秘

最新技术资源(建议收藏) https://www.grapecity.com.cn/resources/ 前言 JavaScript中的浅拷贝和深拷贝是非常重要的概念,它们在处理对象和数组时具有不同的作用。在编程中,经常需要复制数据以便进行各种操作,但必须注…

【python】Python报错分析:深入探索`IndexError`及其解决办法

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

GlobalSign证书介绍以及申请流程

在当今高度互联的世界中,网络安全与数据保护的重要性日益凸显,而数字证书作为保障网络通信安全的关键技术,已成为构建数字信任的基石。GlobalSign,作为全球数字证书行业的先驱和领导者,自成立以来便致力于为全球企业和…

unity 手动制作天空盒及使用

提示:文章有错误的地方,还望诸位大神不吝指教! 文章目录 前言一、使用前后左右上下六张图1.准备6张机密结合的图片2.创建Material材质球3.使用天空盒 二、使用HDR贴图制作1.准备HDR贴图2.导入unity 修改Texture Sourpe 属性3.创建材质球4.使用…

Jenkins 离线升级

1. 环境说明 环境 A: jenkins 版本:2.253使用 systemctl 管理的 jenkins 服务 环境 B: 可以上网的机器,装有 docker-compose docker 和 docker-compose 安装,这里都略了。 2. 安装旧版本 2.1 环境 A jenkins 目录打包文件 …

ARM 虚拟机FVP环境搭建

ARM Fixed Virtual Platforms (FVPs) 是由 ARM 提供的一系列虚拟化硬件模拟器,用于在物理硬件可用之前开发和测试软件。FVP 模型非常适用于软件开发、验证和性能分析,涵盖了从裸机到操作系统和复杂 SoC 系统的各种应用。 这里以Cortex-M55为例&#xff0…