新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

news2024/9/20 10:31:03

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台,满足对海量数据的存储和复杂业务的处理需求。

同时在易用性方面持续深耕,降低用户开发和运维成本,让数据处理平民化,助力用户以更便捷、高效的方式去挖掘数据价值。

基于这样的宗旨,星环科技TDH正式发布了9.3版本。

推出了新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求。

避免数据冗余,减少数据流转,提升业务综合性能与时效性。

同时,分布式计算引擎实现了向量化升级,综合性能大幅度提升。

此外,TDH 9.3对多模型统一技术架构进行了迭代升级,全新发布分布式向量数据库Transwarp Hippo。

共支持11种模型数据统一存储管理,用统一查询处理语言完成跨模型数据流转与关联分析,让业务开发更加便捷。

新一代湖仓集一体架构

打破湖仓集边界

传统湖仓集混合架构,需要部署多个平台进行数据存储,造成数据冗余和存储资源浪费。

其次,数据需要跨平台ETL流转,流转开销高,时效性较差。数据跨平台流转中还容易导致不⼀致,影响业务正确性。

此外,多平台的开发标准不一致,存在一定的技术门槛,权限管理复杂。

当需要跨层数据时,严重依赖其他部门的数据⼯程师、数据科学家来加⼯数据,对数据分析师来说,数据分析探索的效率大大降低。

TDH9.3 打破数据湖、数据仓库、数据集市的边界,基于湖仓集一体平台,所有人都可以访问实时的数据、历史的数据、原始的数据、加工过的数据。

如业务分析师可以直接访问最原始的数据,数据工程师可以更高效地建模,数据科学家可以横跨不同的数据源进行数据分析和挖掘。

基于TDH9.3湖仓集一体架构,各种类型的数据通过数据集成工具,通过离线或者实时的方式加载到TDH中,结构化数据统⼀由Holodesk来承载湖仓集的存储。

通过统⼀SQL引擎和统⼀计算引擎,实现湖仓集数据的统⼀处理、查询、加工,支撑多种应⽤场景。

配合统⼀的运维、审计、权限、告警等功能实现平台的统⼀管理,避免重复建设。

一种存储格式,满足湖仓集关系型数据存储需求

TDH 9.3将之前的⾼性能存储格式Holodesk进行了重构,只需一个存储格式即可同时满足湖仓集的数据接入、数仓加工和高性能数据分析。

在全新的存储引擎下,可以将湖仓集的所有数据都放在统一的存储格式里,不需要针对不同的建设去使用不同的存储引擎。

能够同时⽀持离线批量数据和实时数据的接入,同时也支持高性能的模型加工、批处理、在线分析等计算需求。

相比ORC,更多功能、更高性能 相比于之前版本的ORC事务表,TDH9.3的Holodesk具有更多的功能和更高的性能。

  • 无需手工分桶:ORC事务表需要手动分桶,对开发和运维人员是非常大的挑战。TDH9.3 Holodesk不需要手动分桶,存储引擎自动做数据切片和分布式,用户无需关注分桶数,大幅简化了建表流程和成本。
  • 非分桶文件自动合并:Holodesk具有更灵活,更多策略的文件管理系统,自动将任意的非分桶文件按照合适的大小进行合并,避免桶文件过大或过小的情况,减少运维上的投入。
  • 高频实时数据写入:实时场景下,Holodesk支持实时流计算引擎Slipstream的实时数据写入和Batch Insert批量写入,满足数据湖的实时数据接入需求。
  • 性能数倍提升:Holodesk的IO性能是ORC事务表的10倍以上,在TPC-DS 1TB数据集测试中,相⽐于ORC事务表,TDH 9.3 Holodesk的性能提升了3倍。

相比开源湖仓,创新技术降本增效 相比于开源湖仓技术,如Hudi / Iceberg等,TDH湖仓集一体在多项技术方面实现了提升和创新,帮助用户降低开发运维成本,提高开发分析效率,提升数据处理分析性能。

  • 四种事务隔离级别:开源湖仓技术一般是基于快照的事务隔离,而TDH支持完整四种事务隔离级别,特别是在复杂的高并发比数仓业务场景下,用户可以根据业务需求调整事务隔离级别,满足不同事务处理的要求。
  • 小文件灵活、自动合并:开源湖仓技术小文件需要手工合并管理,需要通过代码来调⽤,维护成本较⾼。TDH具备灵活的多策略、独⽴资源来自动合并小文件,维护成本更低,读取性能更好。
  • 实时数据快速读写:开源湖仓技术的实时数据写入基于Merge on Read,虽然写得快,但读起来很慢。TDH9.3优化了实时数据写入的合并逻辑,避免大量文件在读时再合并,实现写快读快,具有更好的分析和加工性能。
  • 无需流转,湖仓集一体化存储:开源湖仓技术在集市分析场景下需要流转到外部分析引擎中,而基于TDH9.3的湖仓集一体架构,实现了湖仓集统一存储格式,数据⼀体化存储不冗余,也无额外数据流转开销,整体系统复杂度更低,综合时效性和性能更强。

向量化计算引擎升级,引入CodeGen技术

TDH9.3在存储升级的同时,向量化计算引擎引入了CodeGen代码生成技术,将复杂的、高开销的算⼦代码⽣成为能更⾼效调⽤GPU指令集的Native Code。生成的Native Code逻辑更简单。

避免了多余的运算和函数调⽤,运⾏更⾼效,同时Native引擎也不会GC(垃圾回收),避免因GC导致性能降低。

综合性能大幅提升,再破TPC性能巅峰

TDH是全球首个通过TPC-DS基准测试并经官方审计的产品,此次存储和计算引擎的双重升级,在TPC标准测试集中,TDH再⼀次突破了TPC-DS、TPC-BB、TPCx-HS 3个测试集的性能。

  • 在TPC-DS 10TB测试集中,TDH⽐当前公开的最好成绩,性能提升了27%。
  • 在TPC-BB 3T测试集中,TDH是当前公开的最好成绩的2倍,同时系统成本降低了67%。
  • 在TPC-HS 3T测试集中,TDH比当前公开的最好成绩,性能提升3%,同时系统成本降低了69%。

此外,经过很多实际业务的验证,通过将CDH业务迁到TDH上,简单的业务加工性能是CDH的1.26倍,复杂业务加工是2.69倍,并发跑批是2倍,业务查询是1.66倍。而在替换开源数据库GP后,TDH在复杂分析上基本上能实现4-9倍的性能提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1482057.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基带信号处理设计原理图:2-基于6U VPX的双TMS320C6678+Xilinx FPGA K7 XC7K420T的图像信号处理板

基于6U VPX的双TMS320C6678Xilinx FPGA K7 XC7K420T的图像信号处理板 综合图像处理硬件平台包括图像信号处理板2块,视频处理板1块,主控板1块,电源板1块,VPX背板1块。 一、板卡概述 图像信号处理板包括2片TI 多核DSP处理…

anaconda简介以及安装(Windows)

介绍 Anaconda是一个开源的Python发行版本,它是一个打包的集合,里面预装了conda、Python、众多packages、科学计算工具等。Anaconda的目的是方便使用Python进行数据科学研究,它涵盖了数据科学领域常见的Python库,并且自带了专门用…

Linux之gcc和makefile的使用详细解析

个人主页:点我进入主页 专栏分类:C语言初阶 C语言进阶 数据结构初阶 Linux C初阶 算法 欢迎大家点赞,评论,收藏。 一起努力,一起奔赴大厂 目录 一.gcc/g安装 二.gcc运行代码 三.gcc是如何完成的 3.1预处…

matlab图像仿射变换

在Matlab中进行图像的仿射变换通常使用imwarp函数。下面是一个简单的示例代码,以及对应的说明: % 读取图像 image imread(lena.png);% 设置仿射变换矩阵 theta 30; % 旋转角度 scale_factor 1.5; % 缩放因子 shear_factor 0.5; % 剪切因子% 构造仿射…

Ps:海绵工具

海绵工具 Sponge Tool可用于调整图像中特定区域的饱和度,常用于增加或减少颜色的饱和度。 快捷键:O 在特别的灰度图像上,则可用于调整对比度,这可以开发出更多的创意技巧。 ◆ ◆ ◆ 常用操作方法与技巧 1、海绵工具主要用于调整…

二百二十五、海豚调度器——用DolphinScheduler调度执行Flume数据采集任务

一、目的 数仓的数据源是Kafka,因此离线数仓需要用Flume采集Kafka中的数据到HDFS中 在实际项目中,不可能一直在Xshell中启动Flume任务,一是项目的Flume任务很多,二是一旦Xshell页面关闭Flume任务就会停止,这样非常不…

【数据结构与算法】动态规划法解题20240302

这里写目录标题 一、198. 打家劫舍1、动态规划五部曲 二、213. 打家劫舍 II 一、198. 打家劫舍 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间…

iOS消息发送流程

Objc的方法调用基于消息发送机制。即Objc中的方法调用,在底层实际都是通过调用objc_msgSend方法向对象消息发送消息来实现的。在iOS中, 实例对象的方法主要存储在类的方法列表中,类方法则是主要存储在原类中。 向对象发送消息,核心…

vscode 引入外部依赖包

背景 我要在vscode中写一些antlr代码生成的cpp代码,但是在引入头文件#include "antlr4-runtime.h"的时候,出现报错,显示没有这个头文件,显然这是我们没有导入相关的包,因此我首先尝试了将antlr4的依赖源码在…

超链接和导航:网页互动的艺术

引言 在上一篇文章中,我们探索了HTML中多媒体的交互体验,本次我们将学习如何通过超链接和导航栏提升网页的用户体验,让用户在网页访问时更高效; 一、介绍 在这个信息爆炸的时代,如何让用户在第一时间找到他们需要的信…

相机格式化了还能恢复照片吗?内存卡数据恢复方法

相机已成为我们记录生活、工作和学习的重要工具。然而当相机意外格式化后,许多珍贵的照片可能会瞬间消失,这无疑给我们的生活和工作带来不小的困扰。那么相机格式化后,我们是否还有机会找回那些丢失的照片呢? 首先我们需要了解相机…

CSS的弹性布局

CSS 的弹性布局 前言 前端中为了实现页面的布局效果,采用的一个技术手段,它在前端开发的技术场景是非常广泛的 实现上述区域的页面相关的布局效果,就可以使用弹性布局来完成 弹性布局(flex布局) flex 是 flexible box 的缩写,…

ChromeDriver全版本下载教程

确定自己的Chrome版本 step1. 打开Chrome浏览器右上角的三个点,再点击设置 step2. 在设置中点击“关于Chrome”,圈起来的红框即为当前Chrome版本,我的版本就是121.0.6167.185 在json中查找自己对应ChromeDriver版本下载链接 一般教程会让你…

3dmax corona渲染器和vray渲染器哪个好?

Corona和Vray这两个渲染器都很不错,每个都有自己的优点和适用的情况,所以很难说哪个更好。 下面我简单给你对比一下: 1、操作界面:Vray的界面比较多,参数设置也复杂一点,初学者可能会觉得有点难上手。但C…

凌特杯,第二届,数字音频传输。simulink matlab

终于比赛进入了尾声,最为指导老师也是非常的激动。接下来进入了论文写作阶段和视频拍摄阶段。 第二届凌特杯规定的硬件是ADI的Pluto,成本在2k以内,能支持MATLAB,它能够流畅的实时播放接收到的音乐数据,并把数据保存成…

解决Unable to load class ‘org.gradle.api.attributes.VerificationType‘

在使用AdnroidStudio开发过程中难免会遇到Unable to load class org.gradle.api.attributes.VerificationType报错,可以尝试清理缓存重启解决 打开 File-》Invalidate Caches... 重启AndroidStudio后,重新加载即可,但也不是百分百解决。

网络安全学习笔记1

1.了解kali及安装 vmware安装,用户名密码均为kali 2.metasploit是什么 3.metasploit攻击windows系统 在kali中打来终端 数据msfconsole 进入metasploit的控制终端界面 msf的使用法则: 1.使用模块 2.配置模块必选项 3.运行模块 三步操作、实现对…

机器学习高手之路:发现TensorFlow学习网站的无限可能!

介绍:TensorFlow是一个由Google团队开发的端到端开源机器学习平台,专为数值计算和机器学习而设计。以下是对TensorFlow的详细介绍: 开发背景与历史:TensorFlow起源于谷歌的神经网络算法库DistBelief。它被设计成一个灵活的深度学习…

c语言经典测试题9

1.题1 #include <stdio.h> int main() { int i 1; sizeof(i); printf("%d\n", i); return 0; } 上述代码运行结果是什么呢&#xff1f; 我们来分析一下&#xff1a;其实这题的难点就是sizeof操作后i的结果是否会改变&#xff0c;首先我们创建了一个整型i&a…

WPF真入门教程31--WPF版房屋租售系统

1、教程回顾 到现在为止&#xff0c;“蒸”入门系列教程已完成了30刺由浅入深地讲解&#xff0c;当然不可能讲到了WPF的所有技能点&#xff0c;但读者看到了wpf的内部各种功能及之间的联系&#xff0c;在此基础上&#xff0c;再提供一个完整有效的综合项目&#xff0c;本项目采…