【TDH社区版大事件】图分析、全文检索、小文件治理、数据开发工具通通都有!

news2025/1/10 10:23:39

星环科技大数据基础平台TDH社区版,在保留了商业版核心技术优势的基础上最大程度地降低了用户使用大数据技术的门槛与成本,具有更轻量、更简单、更易用等特性。

此次TDH社区开发版、社区版、社区订阅版均发布了新版本,带来新的产品组件和新的功能,为用户提供更为便利、简单、易用的大数据平台产品。

图片

TDH社区开发版-新产品:单机版搜索引擎和图数据库

TDH社区开发版,仅需单台服务器即可一键安装部署,让众多开发爱好者可以0成本、低门槛快速的构建数据开发环境。此前,社区开发版包含Inceptor关系型分析引擎以及Hyperbase宽表数据库、向量数据库Hippo等组件,满足关系型数据分析、数据仓库、历史数据查询、在线检索等场景。

此次,TDH社区开发版正式推出Scope搜索引擎以及StellarDB图数据库,满足用户在多样化数据检索以及使用图模型探索数据关联关系等方面的需求。

在延续了社区开发版单机部署、简单易用等特性的基础上,新发布的两款产品还具有以下特性:

  • 搜索引擎Scope:支持结构化、半结构化,及图片、音影、互联网数据等非结构化数据存储,提供海量数据的交互式多维检索分析服务,帮助用户快速实现日志收集分析、表单数据处理等场景以及搜索引擎、分析检索等应用开发;

  • 图数据库StellarDB:提供高性能的图存储、计算、分析、查询和展示服务。支持原生图存储,具备 深度链路分析能力,提供丰富的图分析算法和深度图算法,帮助用户快速开发欺诈检测、推荐引擎、社交网络分析、知识图谱等应用。

TDH社区版-新功能:解决小文件、数据倾斜等问题

新功能1:海量小文件问题救星

随着每日增量数据的插入以及可能的数据重复插入,小文件数量与日俱增,导致长GC、OOM、集群不稳定,增加计算资源开支等一系列问题,因此小文件治理是必要的也是迫切的。

星环科技产品针对不同表格式均有对应的Compact机制,例如针对Holodesk表,用户可以使用Compact Service(小文件合并专用服务)进行小文件合并任务,该服务在组件级别做了隔离,开启后不会影响Quark的查询计算性能,合并效果更好。

开源产品普遍使用非事务存储格式,如RCFile、ORC等非事务表,合并小文件需要根据每一张表的数据量和分布手动编写任务进行重写来实现小文件合并,而在这个阶段,表无法对外提供服务,只能读不能写,相关业务受到影响。

星环科技采用了全新的技术,针对这个场景设计了新的算法,在任务运行过程中动态的执行小文件合并操作,能够确保在合并过程中Quark端的业务,包括表的读,写,删除等操作不被长时间阻塞,并成功执行不报错。

TDH社区版引入了企业版针对非事务表小文件治理的能力,社区版用户也可以高效治理集群内的小文件,无需担心因为处理不及时影响业务系统。

此外,社区版还引入了归档分区功能,针对一些较少访问及更改的历史数据及分区信息,用户可以选择跨分区进行合并,进一步减少存储开销、元数据管理开销以及任务调度开销。

新功能2:数据倾斜治理好帮手

数据倾斜是指在并行处理海量数据时,单个task上需要处理大量的数据,某些节点会比其他节点需要更长的时间运行才能完成数据计算,导致并行处理效率受到限制,也造成了空闲节点的资源浪费。通常可以采用针对倾斜的key单独处理或MapJoin等方式进行处理,但像MapJoin主要适用于大小表关联的情况。

社区版此次针对大表与大表之间进行关联场景新增了新的SkewJoin功能,能够智能地处理大表之间的连接操作,有效减少查询响应时间,可在一定程度缓解大表关联场景下的数据倾斜问题。

新功能3:全新Manager

Manager为所有核心组件提供统一的管理和运维能力,保障集群稳定运行。此次,Manager UI全新升级,结合新增的监控工具,提升了系统、节点、服务等的关键指标的易读性和易操作性,使数据洞察一目了然,助力用户快速把握全局态势。同时,针对超大集群下管理节点上下线、服务配置等操作实现了升级,性能提升了近10倍,大幅降低用户配置操作时间。

TDH社区订阅版—新产品:大数据开发工具TDS

在构建大数据平台的过程中,除了大数据基础平台本身,利用大数据开发套件高效实现数据集成和开发也是建设过程的关键。

星环科技大数据开发工具 Transwarp Data Studio (TDS)为企业提供了一站式统一的数据开发平台,各个套件可以支持多个场景的使用需求,如数据开发、数据治理或者综合性的数据中台等场景。针对更加细分的场景如任务流调度、血缘分析或数据资产门户等,TDS可以支持组件的灵活组合,提供更综合的能力服务。

此次TDH社区订阅版上架了TDS系列数据开发套件,提供了数据集成、SQL开发和任务调度等能力,帮助用户将数据归集到数据仓库和数据湖,可以更高效地完成数据统一化。

  • 数据库开发工具Waterdrop:数据库管理工具,可以进行跨平台管理,可作为Inceptor SQL 客户端,还支持并兼容其余多种数据库,帮助用户实现数据库管理、SQL 编辑、SQL 执行和数据操作。

  • 任务调度软件Workflow:帮助用户通过图形化的界面设计完整的业务流程、设置执行时间、定义任务之间的依赖关系,并自动调度所设流程,允许取消超时任务、重试错误任务等来提供任务可靠性,能够支持日均百万级任务的分布式调度系统。

  • 大数据整合工具Transporter:将分散于各个地方、各种平台上的各种格式的数据同步或集成到大数据平台上,通过简洁、统一的可视化 界面快速配置数据流转流程,实现异构平台和数据源之间的数据流转。

  • 数据库在线开发与协同工具SQLBooK:提供了 SQL 的编辑、智能 提示、编译、调试和可视化结果展现等的开发功能,还提供 SQL 审核、版本管理、数据源管理等管理能力,可以帮助开发者即插即用地做数据探索与开发。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1969162.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

我是如何给阿里大神Tree工具类做CodeReview并优化的

首发公众号:赵侠客 引言 前段时间我写了一篇关于树操作的工具类《解密阿里大神写的天书般的Tree工具类,轻松搞定树结构!》,当时主要把精力集中在分析代码的实现层面,没有从设计层面、性能层考虑,然后就被很…

Linux网络之多路转接——老派的select

目录 一、高级IO 1.1 概念 1.2 五种IO模型 1.3 小结 二、多路转接的老派 2.1 select 的作用 2.2 select 的接口 三、select 的编写 3.1 类的预先准备 3.2 类的整体框架 3.3 类的执行 Loop 四、Loop 中的回调函数 4.1 HandlerEvent 4.2 AcceptClient 4.3 Service…

二、4 函数的递归与迭代

1、n 的阶乘 2、斐波那契数列 (1)递归 用递归解决这个问题,由于需要多次重复计算,当 n 较大时,计算效率就非常慢 (2)迭代(速度更快)

C# 下⽀持表达式树的框架类型详解与示例

文章目录 什么是表达式树?表达式树的主要用途包括:表达式树节点类型示例:创建一个简单的加法表达式树示例:使用表达式树进行数据绑定示例:动态生成代码总结 在C#中,表达式树(Expression Tree&am…

首届「中国可观测日」圆满落幕

首届中国可观测日(Observability Day)在上海圆满落幕,为监控观测领域带来了一场技术盛宴。作为技术交流的重要平台,此次活动不仅促进了观测云与亚马逊云科技之间的深化合作,更标志着双方共同推动行业发展的重要里程碑。…

红蓝绿三巨头集体拉胯,NVIDIA新显卡被核显秒了

最近蓝厂 intel 的瓜想必大家都已经吃上了吧?13-14 代中高端 CPU 大面积故障崩溃事件。 后续是 intel 官方回应,系微代码错误,请求电压较高导致的。 intel 目前给出的方案是,出现了问题的 CPU,intel 给予免费换新售后…

微信小程序之单选框

微信小程序中的单选框(Radio)是一个常用的输入组件,用于在多个选项中进行选择。常见的应用场景有性别选择、选项过滤、问卷调查等。本文将介绍小程序中单选框的特点和作用及相应示例。 一、单选框的特点和作用 特点: 单一选择&a…

php yii2 foreach中使用事务,事务中使用了 continue

问题描述:使用yii2,在foreach中使用事务,每个循环一个事务,在事务进行判断,然后直接continue,导致后面的循环数据没有保存成功 如下图: 修改后:如下图

【人工智能学习之商品检测实战】

【人工智能学习之商品检测实战】 1 开发过程2 网络训练效果2.1 分割网络2.2 特征网络 3 跟踪与后处理4 特征库优化5 项目源码解析5.1 yolo训练train_yolo.pygood_net.pydataset.pygood_cls_data.pysave_feature.pyanalyse_good.pyshop_window.pytest.py 6 结语 1 开发过程 拍摄…

Spring boot 整合influxdb2

一.服务安装 docker search influxdb docker pull influxdb docker run -dit --name influxdb --restart always -p 8086:8086 -v /dp/docker/file/influxdb:/var/lib/influxdb influxdb 访问8086 初始化 账号组织和新建bucket 创建密钥 这些豆记录下来 二.项目配置 引入依赖…

什么是物流锁控,RFID物流智能锁对于物流锁控有什么意义

在当今竞争激烈的全球商业环境中,物流行业作为经济发展的重要支撑,其高效、安全的运作至关重要。物流锁控作为保障物流运输过程中货物安全、准确和及时交付的关键环节,正面临着日益复杂的挑战。 一、物流锁控的定义与范畴 物流锁控&#xf…

JavaScript学习笔记(十一):JS Browser BOM

1、JavaScript Window - 浏览器对象模型 浏览器对象模型(Browser Object Model (BOM))允许 JavaScript 与浏览器对话。 1.1 浏览器对象模型(Browser Object Model (BOM)) 不存在浏览器对象模型(BOM)的官方…

【周易哲学】生辰八字入门讲解(一)

😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本文讲解【周易哲学】生辰八字入门讲解,期待与你一同探索、学习、进步,一起卷起来叭! 目录 生辰八字阴阳五行天干地支天干天干天干五合天干…

怎么恢复电脑删除的数据?4种有效的数据恢复方法

在数字时代,数据已成为我们生活与工作的核心要素,它不仅存储着我们工作中的各种重要资料,也记录着个人生活的点点滴滴。无论是精心准备的工作文档或者珍藏的重点照片,在不经意间被误删、因设备故障、中病毒等原因导致丢失&#xf…

AI砸掉了这些人的饭碗

在一般打工人眼里,金融圈往往被认为是高端脑力工作者的聚集地,他们工资高,学历高,能力强,轻易无法被替代。 可最近,偏偏一个“非人类”的物种,要来抢他们的饭碗。相关报道称,华尔街…

因为不懂Redis集群,我被diss了

点赞再看,Java进阶一大半 Redis官方在官网里写着霸气的宣传语:从构建者那里获取世界上最快的内存数据库Get the world’s fastest in-memory database from the ones who built it。南哥相信国内没用Redis的科技公司也屈指可数。 现在Redis已经走向了商业…

C++学习:C++是如何运行的

C 是一种强类型的编程语言,支持面向对象、泛型和低级内存操作。它的工作机制包括从编写源代码到生成可执行文件的一系列步骤。C与文件无关,文件只是容纳运行内容的载体,需要对文件以目标系统的规则编译后,才能在目标系统中运行。 …

红酒与情感:品味中的情感共鸣

在生活的细微之处,情感如涓涓细流,无声无息却又深深地影响着我们。而红酒,这瓶中的液体,仿佛是情感的载体,让我们在品味中感受那些难以言说的情愫。当定制红酒洒派红酒(Bold & Generous)与情…