【星环社区版TDH2024年度大事件】全新版本?全新组件?性能提升10倍?

news2024/10/23 4:40:21

TDH社区版家族迎来新成员

不知不觉社区版已经陪伴大家将近两年的时间了,在这两年里收获到了很多认可,同时也收获到了一些建议与意见,比如资源成本的问题。在去年我们发布了TDH社区开发版,仅需单台服务器即可一键安装部署Inceptor关系型分析引擎以及Hyperbase NoSQL宽表数据库,降低资源成本的同时充分提升了开发效率。

发布后获得了很多用户的关注与喜欢。为了进一步满足用户在多样化数据检索以及使用图模型探索复杂的关联关系等方面的需求,此次社区开发版正式推出Scope搜索引擎以及StellarDB图数据库。

image.png

社区开发版让众多开发爱好者可以0成本、低门槛快速的构建数据开发环境,无论您是想快速地体验企业级产品功能,亦或是想要学习了解相关技术,社区开发版都能很好地满足您的需求。

  • 开箱即用:Scope社区开发版及StellarDB社区开发版同样采用了all-in-one全内置设计的产品包形式,将各类核心服务深度整合于一体,开箱即可用。免去了平台安装的步骤,只需三步即可一键启动。用户无需花费大量时间和精力来进行环境配置、安装部署,平台预先设置了最佳的默认参数配置,确保了用户在部署时能享受到前所未有的简便快捷;
  • 低成本:社区开发版充分降低了用户的使用门槛以及资源成本,单台服务器即可一键部署。自研的统一SQL引擎更是进一步降低了用户的整体学习成本和应用开发门槛;
  • 企业级管理套件:社区开发版同样配备了企业级管理套件,比如对所有组件与服务进行统一管理的平台Manager、全方位监控系统负载与任务运行状况的平台监控软件Aquila Insight、提供身份认证与精细化权限安全管理软件Guardian。通过完备的管理组件,用户得以全面而精确地把握产品环境整体的运行情况,真正做到运维无忧。

以下为相关资源链接:

  • 产品下载地址: 下载官网
  • 产品安装教程: 安装手册(内含视频教程)
  • 产品升级教程: 升级手册(内含视频教程)
  • Scope使用手册: 手册
  • StellarDB使用手册: 手册
  • 【0-1系列】快速了解搜索引擎Scope
  • 使用图数据库进行人物关系探索Demo示例及教程
  • 使用图数据库进行反洗钱之银行转账流水数据分析

版本全线更新,全面解决小文件、数据倾斜等问题

TDH社区开发版以及社区版让众多的开发爱好者可以“0成本”“低门槛”,快速的构建数据开发环境。无论用户是想快速体验企业级产品功能还是想要学习了解相关技术,都能够很好的满足用户的需求。

此次社区版家族还针对版本做了更新。

新版本特性可查看: ReleaseNotes

image.png

image.png

更新点1. 小文件问题救星来了

大数据场景下会产生海量文件,随着每日增量数据的插入以及可能的数据重复插入,HDFS上的文件数与日俱增,达到千万甚至上亿的级别。当小文件过多时,将会导致长GC、OOM、集群不稳定,增加计算资源的开支等一系列问题。因此小文件治理是必要的也是迫切的。

星环产品针对不同表格式均有对应的Compact机制,譬如针对Holodesk表用户可以使用Compact Service(小文件合并专用服务)进行小文件合并任务,该服务在组件级别做了隔离,开启后不会影响到Quark的查询计算性能,合并效果更好。

但是在Inceptor跑批场景下会涉及ORC等非事务表,其不像事务表有文件合并的逻辑。而且,开源产品的方案通常是在任务运行结束后再去起一个Job执行合并任务,但是在这个阶段,表无法对外提供服务,只能读不能写,相关业务会受到影响。

所以星环采用了全新的技术,针对这个场景做了设计了新的算法,在任务运行过程中动态的执行小文件合并操作,能够确保在合并过程中Quark端的业务,包括表的读,写,删除等操作能够不被长时间阻塞,并成功执行不报错。

社区版今年将企业版针对非事务表小文件治理方面的功能Galactus做了引入,社区版用户也可以高效治理自己集群内的小文件,无需担心因为处理不及时或有疏漏影响到业务系统。更多原理解析及使用教程可查看: Text/ORC非事务表合并最佳方式

除了非事务表小文件更新的能力之外,社区版此次也引入了归档分区功能,针对一些较少访问及更改的历史数据及分区信息,用户可以选择跨分区进行合并,从而进一步的去减少存储开销、元数据管理的开销以及处理时的任务调度开销。 归档分区介绍及使用方法

更新点2. 数据倾斜治理好帮手

数据倾斜指的是说在并行处理海量数据的时候,单个task上需要处理大量的数据。一些处理节点会比其他节点需要更长的时间运行才能完成数据计算,这样既限制了并行处理的效率,也造成了空闲处理节点的资源浪费,系统将无法充分利用节点进行并行处理,十分影响性能和效率。

当在计算过程中出现数据倾斜的问题时,通常可以通过采用针对倾斜的key单独处理或MapJoin等方式进行处理。但是比如像MapJoin主要适用于大小表关联的情况。

社区版此次针对大表与大表之间进行关联发布了新的SkewJoin功能,可以在一定程度缓解大表关联场景下的数据倾斜问题。

更多原理解析及使用教程可查看:SkewJoin原理解析及使用介绍

更新点3. 全新Manager

Manager是保障集群稳定运行最高效的方式,它为底层每个核心组件都提供了强大的统一管理及运维能力。所以这次Manager针对UI,监控服务的集成也做了全新的优化升级,解锁新增了各项创新功能之外,也做了系统范围内的性能提升。

比如说开源产品在管理大集群方面一直以来都存在一些挑战,社区版在管理集群的能力上跟企业版保持了一致,所以这次也针对大集群下的集群安装,节点上下线的管理,以及服务的配置,启动等方面做了全方位的性能提升,操作速度更快也更稳定了。即使是数百上千个节点,在生产上也不用担心。

更多Manager新版本特性可查看: ReleaseNotes

TDH社区订阅版迎来最强辅助,TDS开发套件强势来袭

企业在信息化过程中积累了大量的业务系统和数据,TDH社区订阅版的发布,为企业在整合已有的海量多维度、多样化数据、数据统一化等方面的业务需求提供了有力支持。那么在构建数据仓库或数据湖的过程中,除了需要构建统一的计算和存储平台,进行统一的元数据管理之外,利用数据开发套件支持数据汇聚和开发也是企业数据平台建设过程的关键。

星环科技大数据开发工具 Transwarp Data Studio (TDS)为企业提供了一个一站式统一的数据开发平台,各个套件可以支持多个场景的使用需求,如数据开发场景、数据治理场景或者综合性的数据中台场景。针对更加细化的细分场景如任务流调度、血缘分析或数据资产门户等,TDS可以支持任意组件组合的形式,提供产品能力服务。

此次社区订阅版上架的TDS数据开发套件(SQLBook/Workflow/Transporter)提供了数据集成、SQL开发和任务调度的能力,帮助企业将数据归集到数据仓库和数据湖,可以更高效地完成数据统一化。

开发套件能力演示视频

image.png

image.png

有关更多详细的产品能力介绍,感兴趣的读者可访问 TDS平台各功能能力一览 进一步查看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1844435.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

链表OJ

GDUFE 在期末前再刷一次链表题 ~ 203. 移除链表元素 - 力扣(LeetCode) /*** Definition for singly-linked list.* struct ListNode {* int val;* struct ListNode *next;* };*/ struct ListNode* removeElements(struct ListNode* head, int …

互联网应用主流框架整合之Spring Boot基本概念

Spring Boot是用来简化Spring应用程序的搭建、开发、测试和部署过程的,该框架使用了特定的方式进行配置,从而使开发人员不再需要定义样板化的配置,SpringBoot致力于快速应用开发(Rapid Application Development)领域的发展,它通过…

代码随想录训练营Day 63|力扣42. 接雨水、84.柱状图中最大的矩形

1.接雨水 代码随想录 代码&#xff1a;(单调栈) class Solution { public:int trap(vector<int>& height) {int result 0;stack<int> st;st.push(0);for(int i 1; i < height.size(); i){if(height[i] < height[st.top()]){st.push(i);}else if(heigh…

六西格玛目标设定的时候需要考虑哪些因素?

在追求企业卓越绩效的道路上&#xff0c;六西格玛管理方法论以其严谨的数据驱动和持续改进的理念&#xff0c;成为众多企业的首选工具。然而&#xff0c;要想真正发挥六西格玛的潜力&#xff0c;合理而精准的目标设定至关重要。那么&#xff0c;六西格玛目标设定的时候需要考虑…

新火种AI|英伟达市值超越微软!AI技术如何重塑科技股价值?

作者&#xff1a;一号 编辑&#xff1a;美美 AI&#xff0c;正带着美股狂奔。 2024年&#xff0c;英伟达&#xff08;NVIDIA&#xff09;以其在人工智能&#xff08;AI&#xff09;领域的卓越表现&#xff0c;市值首次超越了科技巨头微软&#xff0c;成为全球市值最高的公司…

变压器电机绕组阻值测试

产品概述 武汉凯迪正大变压器直流电阻的测量是变压器制造中半成品、成品出厂试验、安装、交接试验及电力部门预防性试验项目&#xff0c;能有效发现变压器线圈的选材、焊接、连接部位松动、缺股、断线等制造缺陷和运行后存在的隐患。KDZRS-20A直流电阻测试仪是测量变压器、互感…

XGBOOST案例

最近我在Kaggle上找到一个跟XGBOOST相关的代码&#xff0c;这有助于我们去实战性的学习。 这段代码旨在使用XGBoost和TPU进行大规模的分子绑定预测。 比赛项目&#xff1a;NeurIPS 2024 - Predict New Medicines with BELKA | Kaggle 训练样本代码&#xff1a; 上图是我们已…

ElasticSearch学习笔记(二)文档操作、RestHighLevelClient的使用

文章目录 前言3 文档操作3.1 新增文档3.2 查询文档3.3 修改文档3.3.1 全量修改3.3.2 增量修改 3.4 删除文档 4 RestAPI4.1 创建数据库和表4.2 创建项目4.3 mapping映射分析4.4 初始化客户端4.5 创建索引库4.6 判断索引库是否存在4.7 删除索引库 5 RestClient操作文档5.1 准备工…

怎么把答案去掉打印?超详细步骤告诉你!

在数字化教育日益普及的今天&#xff0c;我们时常需要在电子试卷和纸质试卷之间进行转换。然而&#xff0c;许多时候我们并不需要答案部分&#xff0c;这就需要我们掌握一些工具来去除答案&#xff0c;以便打印出纯净的试卷。本文将为您详细介绍如何使用试卷星、拍试卷以及WPS …

Srouce Insight 4出现乱码

今天用SI4打开一个工程文件&#xff0c;一打开发现注释全是乱码。中文全部看不出来&#xff0c;英文和数字可以看得出来。 那是因为中文的编码格式不算特别兼容。所以需要调整编码格式。 于是我在这里调整了编码格式&#xff1a; 找到菜单的Options-Preferences里面的Files 调…

数据集MNIST手写体识别 pyqt5+Pytorch/TensorFlow

GitHub - LINHYYY/Real-time-handwritten-digit-recognition: VGG16和PyQt5的实时手写数字识别/Real-time handwritten digit recognition for VGG16 and PyQt5 pyqt5Pytorch内容已进行开源&#xff0c;链接如上&#xff0c;请遵守开源协议维护开源环境&#xff0c;如果觉得内…

Linux 系统图像化编程GTK入门

环境前期准备 演示环境&#xff1a;Windows 11 Ubuntu 22.04.4 VS Code 前提条件&#xff1a;1、Windows 11 子系统Ubuntu 22.04.4 已经安装图形化界面&#xff0c;如果没有安装请参考文章&#xff1a; windows11子系统Ubuntu 22.04.4子安装图形化界面 2、Ubuntu 22.04.4…

戏剧之家杂志戏剧之家杂志社戏剧之家编辑部2024年第14期目录

文艺评论 南戏瓯剧跨文化传播研究 陈晓东;高阳;许赛梦; 3-7 论互联网时代的戏剧传播与批评——以西法大剧社和南山剧社为例 邬慧敏; 8-10 “左手荒诞&#xff0c;右手温情”——《西西弗神话》在戏剧《第七天》中的接受探究 赵稳稳; 11-13 戏剧研讨《戏剧之家》投稿…

深入浅出Netty:高性能网络应用框架的原理与实践

深入浅出Netty&#xff1a;高性能网络应用框架的原理与实践 1. Netty简介 Netty是一个基于Java的异步事件驱动的网络应用框架&#xff0c;广泛用于构建高性能、高可扩展性的网络服务器和客户端。它提供对多种协议&#xff08;如TCP、UDP、SSL等&#xff09;的支持&#xff0c;…

[SAP ABAP] 数据类型

1.基本数据类型 示例1 默认定义的基本数据类型是CHAR数据类型 输出结果: 示例2 STRING数据类型用于存储任何长度可变的字符串 输出结果: 示例3 DATE数据类型用于存储日期信息&#xff0c;并且可以存储8位数字 输出结果: 提示Tips&#xff1a;日期和时间类型的变量可以直接进…

重量级身份证明来了!政府颁发的这一证书很给力

在近日的一项重要公告中&#xff0c;北京市科学技术委员会、北京市发展和改革委员会、北京市经济和信息化局等五大部门联合公示 2023 年度第二批&#xff08;总第十九批&#xff09;北京市新技术新产品新服务名单。涛思数据旗下高性能、分布式的物联网、工业大数据平台 TDengin…

CFA官网资料说明

进入到资料后台你就会发现&#xff0c;分了三个板块&#xff0c;分别是Study, Prepare和The Exam。 Study板块 主要提供备考重要资料&#xff0c;包括教材下载、自学习系统 Prepare板块 主要帮助考生准备考试&#xff0c;提供了一些小工具、包括机考软件指南 The exam板块…

whiteboard - 笔记

1 drawio draw.io GitHub - jgraph/drawio: draw.io is a JavaScript, client-side editor for general diagramming. 2 demo 可以将XML数据保存到服务器上的data目录。需要在服务器端创建一个接收和处理POST请求的脚本,该脚本将接收到的SVG数据保存到指定的文件中。下面是…

拉依达的嵌入式学习和秋招经验

拉依达的嵌入式学习和秋招经验 你好&#xff0c;我是拉依达。目前我已经结束了自己的学生生涯&#xff0c;开启了人生的下一个阶段。 从研二准备秋招开始&#xff0c;我就逐渐将自己的学习笔记陆续整理并到CSDN上发布。起初只是作为自己学习的备份记录&#xff0c;后续得到了越…

土壤墒情自动监测站的工作原理

TH-GTS10土壤墒情自动监测站是一种现代化的农业监测设备&#xff0c;能够自动、实时地监测土壤的水分含量、温度以及其他相关参数&#xff0c;为农业生产提供科学依据。利用先进的传感器技术和远程通信技术&#xff0c;实现对土壤墒情的实时监测和数据传输。通过监测土壤的水分…