袋鼠云产品功能更新报告05期|应有尽“优”,数栈一大波功能优化升级!

news2024/11/16 3:24:57

这段时间,我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化,包括对离线平台数据同步功能的更新,数据资产平台血缘问题的优化等,力求满足不同行业用户的更多需求,为用户带来极致的产品使用体验。

以下为袋鼠云产品功能更新报告第五期内容,更多探索,请继续阅读。

离线开发平台

1.支持工作流参数

背景:很多业务场景下一个工作流中需要有一些能生效于整个工作流的参数,统一配置其下所有子节点通用。

新增功能说明:工作流父任务中支持创建工作流层级参数,工作流参数在工作流范围内生效。工作流下子节点支持通过${参数名称}的方式来引用该工作流参数。

file file

2.支持项目级参数

背景:

目前离线已支持的参数类型有以下几种:

• 全局参数-作用于整个数栈平台

• 自定义参数-作用于单个离线任务/工作流子节点

• 任务上下游参数-作用于引入此参数的下游任务

• 工作流参数-作用于单个工作流任务

增加的项目级参数,作用于当前项目之内的所有任务,既不影响别的项目的任务,也可实现项目内某些业务配置批量修改的效果。

新增功能说明:支持在项目的「项目管理->项目参数」中配置项目参数,配置完成后,该项目下的任务都可以进行引用。在任务中可以通过${参数名称}的方式引用项目参数。

file file

3.绑定的项目支持解绑

背景:当前项目绑定为非可逆操作,一个项目一旦和另一个项目产生绑定后无法解绑也不支持删除,但部分已经绑定的项目因业务原因可能需要换目标项目绑定,或者不再使用需要删除。

新增功能说明:可在测试项目的「项目设置-基本信息」中操作解绑生产项目,此操作不可逆。解除生产测试项目绑定后,数据源映射、资源组映射、发布至目标项目功能会受到影响,回退至绑定前状态,可按正常逻辑删除。

file file

4.补数据支持对各类型参数进行一次性赋值

背景:补数据时可能会存在需要对参数值进行临时替换的情况,例如跑历史日期的数据时,补数据的时间参数范围需要变更。

新增功能说明:在「运维中心-周期任务管理-任务补数据」中进行补数据参数重新赋值操作,补数据实际跑任务的参数值会被补数据时重新赋值的参数值替换。

file

5.临时运行可查看运行历史

背景:周期任务、手动任务提交到调度运行时,都会产生实例,记录运行状态和运行日志等信息。但是周期任务、临时查询和手动任务在临时运行时不存在运行记录,用户无法查看历史临时运行的运行状态和运行日志等信息,导致一些重要的操作无法追踪。

新增功能说明:在数据开发页面最左侧功能模块列表中,新增了「运行历史」功能。在「运行历史」中,可查看历史近30天(可自定义)临时运行的 SQL、日志等信息。

file

6.告警接受人支持填写其他参数

背景:部分客户希望一些非数栈用户(比如合作方)也能收到任务的告警信息,而目前平台支持选的告警接收人范围为当前项目下的用户。期望离线侧告警配置时能灵活添加一些自定义值:可以是手机号、邮箱、用户名等信息,客户通过自定义告警通道中上传的 jar 包自定义解析获取值的内容,再通过自己的系统给解析出的联系人发送告警。

新增功能说明:在创建告警规则时,支持填写外部联系人信息,通过英文逗号分割。(自定义告警通道中上传的 jar 需要支持解析)

file

7.数据同步的读写并行度支持分开设置

背景:由于数据同步源端与目标端的数据库存在数据库本身性能等因素的影响,读和写的速率往往是不一致的,例如读的速率是5M/s,写的速率只有2M/s,读和写统一用一个并行度控制实际不能达到同步速率的最大优化,反而可能带来问题。

新增功能说明:在数据同步的通道控制中原“作业并发数”改为“读取并发数”和“写入并发数”,两个参数单独配置互不影响,用户可灵活调整让同步效率最大化,并发数调整范围上限改为100。

file

8.脏数据容忍条数支持按项目设置默认值

新增功能说明

背景:同步任务中的脏数据默认容忍条数原本固定是100,部分客户实际接受的容忍度是0,导致每配置一个同步任务就需要改一下脏数据容忍条数的设置值,使用不便。

新增功能说明:在离线「项目管理->项目设置->操作设置」中,支持设置数据同步任务脏数据默认容忍条数和脏数据默认容忍比例。配置完成后,新建数据同步任务在通道控制模块会展示默认值。

file file file

9.数据同步读取 hive 表时可选择读取多个分区的数据

背景:数据同步读取 hive 表时目前仅支持选择一个分区读取,部分客户场景下需要把多个分区的数据读取出来写入目标表。

新增功能说明:读 hive 表时分区可以用 and 作为连接符筛选多个分区进行数据读取。

file

10.任务运行超时中断

背景:目前所有任务一旦开始运行,无论运行多久平台都不会自动杀死,导致部分异常任务运行时间长,占用大量资源。

新增功能说明:所有任务在调度属性处增加了超时时间的配置项,默认不限制,可选择定义超时时间,运行超时后平台会自动将其杀死。

file

11.表管理的表查看交互优化

背景:点击表管理中某张表的字段、分区等详细信息的区域较小,不方便查看。

新增功能说明:对该区域可手动进行拉高。

file

12.hive 数据同步的分区支持选择范围

当 hive 类数据源作为数据同步的来源时,分区支持识别逻辑运算符“>”“=”“<”“and”,例如“pt>=202211150016 and pt<=202211200016 ”,即代表读取范围在此之间的所有分区。

13.FTP 大文件拆分支持自定义解析文件的拆分

在用户解析方式选择自定义解析方式时,支持用户上传自定义 jar 包对 FTP 中的文件进行切割拆分同步。

file

14.版本对比功能优化

· 历史版本支持查看近50条版本记录

· 版本对比功能交互调整

• 支持历史版本间对比

file file

15.整库同步写 hive 时支持对分区表指定分区名称

当整库同步选中 hive 类的数据同步目标时,可以指定分区字段的名称。

file

16.离线支持配置指标任务作为上游依赖

目前离线已经支持的跨产品任务依赖包括:质量任务(关联)、标签任务,加上指标任务后整个数栈的所有离线任务就可实现相互的依赖了。

file

17.脏数据管理概览图显示具体时间

file

18.通过右键快捷键可查看任务日志

file

19.任务执行进度优化

执行进度前展示等待时长。 file

20.其他优化项

· vertica 支持向导模式数据同步

· 任务下线后,支持查看任务实例

· RDB 任务支持在任务间及工作流里的参数传递

· 数据同步任务在创建发布包时被选中时支持关联到表:数据同步任务目标端一键生成的目标表,支持关联至发布包中

· SQL 语句支持:Desc database、Show database、Create database、Drop database、Show tables、Create table、Desc table、Alter table、Drop table、Creat function

· 表联想功能优化:spark sql、hive sql、gp sql 编写 SQL 代码时,支持表联想功能,联想范围:离线对接和创建 schema 下的表

· 删除任务、资源等内容时,提示内容名称

实时开发平台

1.【数据还原】支持一体化任务

背景:一个任务即可完成存量数据的同步,并无缝衔接增量日志的采集还原,在数据同步领域实现批流一体,常用于需要做实时备份的数据迁移场景。

比如在金融领域,业务库出于稳定性考虑,无法直接面向各种上层应用提供数据查询服务。这时候就可以将业务数据实时迁移至外部数据库,由外部数据库再统一对外提供数据支撑。

新增功能说明:支持存量数据同步+增量日志还原的一体化任务,支持 MySQL—>MySQL/Oracle,在创建实时采集任务时,开启【数据还原】,还原范围选择【全量+增量数据】。

file

2.【数据还原】支持采集 Kafka 数据还原至下游

背景:当用户对 Kafka 数据没有实时加工的需求,只希望能将 kafka 消息还原至下游数据库对外提供数据服务时,可以通过实时采集配置化的方式,批量完整此类采集还原任务,不需要一个个的维护 FlinkSQL 任务。

新增功能说明:支持将 Kafka(OGG格式)数据,采集还原至下游 MySQL/Hyperbase/Kafka 表,在创建实时采集任务时,源表批量选择 Kafka Topic,目标表批量选择 MySQL 表,再完成表映射、字段映射。

file

3.任务热更新

背景:目前对于编辑修改实时任务的场景,操作比较繁琐。需要在【数据开发】页面完成编辑后,先到【任务运维】处停止任务,然后回到【数据开发】页面提交修改后的任务,最后再回到【任务运维】页面向 YARN 提交任务。

新增功能说明:当前更新后,支持修改「环境参数」、「任务设置」后,在数据开发页面提交任务后,任务运维处自动执行「停止-提交-续跑」操作。

4.数据源

新增 ArgoDB、Vastbase、HUAWEI ES作为 FlinkSQL 的维表/结果表,均支持向导模式。

5.【表管理】合并原有的 Hive Catalog 和 Iceberg Catalog

背景:这两类 Catalog,实际都是依赖 Hive Metastore 做元数据存储,Iceberg Catalog 只需要在 Hive Catalog 基础上,开启额外的一些配置项即可,所以将这两类 Catalog 做了合并。

体验优化说明:创建 Hive Catalog,可以选择是否开启 Iceberg 表映射,如果开启了,在这个 Catalog 下创建 Flink Table 时,只支持映射 Iceberg 表。

file

6.【任务运维】优化任务停止时的状态说明

背景:在保存 Savepoint 并停止任务时,因为 Savepoint 文件可能会比较大,保存时间需要比较久,但是状态一直显示「停止中」,用户无法感知停止流程。并且如果保存失败了,任务依然会一直显示「停止中」,任务状态不符合实际情况。

体验优化说明:在保存 Savepoint 并停止任务时,「停止中」状态会显示当前持续时间,以及保存失败的重试次数。当最终保存失败时(代表任务停止失败),此时任务会自动恢复至「运行中」状态。

file

7.【启停策略】创建启停策略时,支持强制停止配置项

背景:目前创建的启停策略,默认都是执行保存 savepoint 的逻辑。但是当保存失败时,任务不允许自动做出选择帮用户丢弃 savepoint 进行强制停止,所以我们将这个的选择权,放给了用户。

体验优化说明:创建启停策略,有个强制停止的开关。

file

8.血缘解析

支持过滤链路节点类型,支持全屏查看,支持搜索,任务节点支持查看状态。

file

9.系统函数

更新内置的系统函数,同步 Flink 官方内容。 file

10.其他优化项

· 数据还原:开启数据还原的实时采集任务,支持生成 Checkpoint 并续跑

· UI5.0:更新 UI5.0 前端样式

数据资产平台

1.【血缘问题】冗余血缘移除

背景:当前现状当存在血缘关系时,会生成两条血缘关系,此问题需要解决,否则全链路会产生非常多的冗余血缘。

体验优化说明:只展示一条血缘。

file

2.【血缘问题】关键字支持

· 当表发生 delete、drop、trancate 数据清空时,表与表之间、表与任务之间的血缘关系删除

· 当任务下线、删除时,表与表之间血缘依旧存在,表与任务之间的血缘关系删除

3.【血缘问题】重合数据源

背景:标签指标对接的是 trino 引擎,离线对接的是 sparkthrift,如果不解决唯一性问题,无法串联全链路血缘。

体验优化说明:不同链路间的血缘不相互影响,但是汇总成同一链路展示。

file

4.【血缘问题】数据源唯一性区分

· 不同的引擎读取同一张控制台的 hive 表(如sparkthrift、trino)

· 数据源中心建立的不同的数据源,其实是同一个数据库

file

5.【全链路血缘】表→指标

数据资产平台已初步实现数栈内部全链路血缘关系的打通,包括表、实时任务、离线任务、API、指标、标签。

表→指标:

• 根据指标平台的【指标的生成】记录【表→指标】之间的血缘关系

• 指标的生成包括【向导模式】、【脚本模式】

• 指标平台如果有变动,比如删除、下线了某个指标,资产平台需要更新血缘视图

• 支持指标的字段血缘解析

file

6.【全链路血缘】表→标签

· 根据标签平台的【标签的生成】记录【表→标签】之间的血缘关系

· 标签通过实体和关系模型创建,实体中需要关联主表和辅表,关系模型中有事实表和维表,并且关系模型可存储为实际的物理表,因此血缘链路包括数据表、标签

· 标签平台如果有变动,比如删除、下线了某个标签,资产平台需要更新血缘视图

· 支持标签的字段血缘解析 file

7.【全链路血缘】实时任务

· 任务类型有两种:实时采集任务和 FlinkSQL 任务,FlinkSQL 任务存在字段血缘关系

file

· 支持 kafka 侧的血缘关系展示

file

8.血缘展示优化

· 右上角筛选项:优化为多选菜单,表、离线任务、实时任务、API、标签、指标(默认选中全部维度,当前进入的维度选中且不可取消)

file

• 字段血缘:不展示右上角的筛选项

• 逆向血缘全局提示:

a.进入血缘关系页面,进行全局提示:“进入血缘每个节点都可右击查看该节点的全链路血缘,存在逆向可展开节点时建议右击查看~”

file b.右击查看当前节点的血缘会更完整

file

9.DatasourceX:【存储】、【表行数】逻辑优化

背景:直接从 metastore 读取是不准确的,之前 flinkx 是支持通过脚本更新存储和表行数,flinkx 升成 datasourcex 之后,相关 analyze 逻辑没有带过来。

体验优化说明:datasourcex 优化了对部分数据源的【存储】、【表行数】的脚本统计,包括 hive1.x、2.x、3.x(cdp/apache)、sparkthrift、impala、inceptor。

10.DatasourceX:【存储大小】【文件数量】更新逻辑优化

背景:数据治理新增了 meta 数据源的文件数量,又因为文件数量这个属性是 datasourcex 支持,普通的数据源也需要新增这个属性。

体验优化说明:datasourcex 对部分数据源的【存储大小】【文件数量】的脚本统计,数据治理结束后,更新【存储大小】【文件数量】逻辑。

11.前端页面升级

体验优化说明

• 资产盘点

file

• 元数据标签页面

file

• 元模型管理

file

• 分区优化

file

指标管理平台

1.【demo封装】demo功能优化

· 数据模型支持 catalog 选择,catalog 默认采用 DT_demo 租户下指标绑定的 trino 数据源对应的 catalog,schema 信息默认为 dt_demo。

file

· 「项目管理」模块展示,支持查看项目配置信息,支持设置 API 数据源,但不支持正常项目中可编辑的其他功能的修改,以保障 demo 项目的正常使用。

file

《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szcsdn

同时,欢迎对大数据开源项目有兴趣的同学加入我们,一起交流最新开源技术信息,号码:30537511,项目地址:https://github.com/DTStack

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/518385.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

边缘计算节点是啥?边缘计算与CDN有什么关系?一文带你了解边缘计算节点BEC(2)

上文已经为大家详细介绍了边缘计算节点 BEC 与 CDN 之间的关系&#xff0c;对于 CDN 而言&#xff0c;边缘计算不仅仅只增加了存储、计算的功能&#xff0c;还有网络、安全等等一系列的基础能力。 如果大家感兴趣&#xff0c;欢迎阅读我们上一篇文章 边缘计算节点是啥&#x…

如何在pythonanywhere上部署Django项目?

PythonAnywhere是一个基于云的Python开发平台&#xff0c;它允许用户在云端运行、开发和部署&#xff0c;该平台提供了Python编程环境、Web框架、数据库和Web服务器等工具&#xff0c;让用户可以轻松地创建和部署Python应用程序。PythonAnywhere还提供了免费和付费的服务&#…

Java设计模式其一(概述、UML图、软件设计模式) | 穷其道者,归处亦同

文章目录 1. 设计模式概述1.1 软件设计模式的概念1.2 学习设计模式的必要性1.3 设计模式分类 2. UML图2.1 类图概述2.2 类图的作用2.3 类图的表示法2.3.1 类的表达方式2.3.2 类与类之间关系的表达方式 3. 软件设计原则3.1 开闭原则3.2 里氏替换原则3.3 依赖倒转原则3.4 接口隔离…

Java【多线程基础6】定时器的使用方式 + 模拟实现Timer

文章目录 前言一、定时器1, 什么是定时器2, 如何使用定时器 二、模拟实现定时器1, 初步实现2, 问题改善 总结 前言 &#x1f4d5;各位读者好, 我是小陈, 这是我的个人主页 &#x1f4d7;小陈还在持续努力学习编程, 努力通过博客输出所学知识 &#x1f4d8;如果本篇对你有帮助, …

6.文本三剑客--sed、awk

文章目录 文本三剑客sed介绍命令介绍打印内容删除替换插入分组 文本三剑客 sed 介绍 sed编辑器 sed是一种流编辑器&#xff0c;流编辑器会在编辑器处理数据之前基于预先提供的一组规则来 编辑数据流。 sed编辑器可以根据命令来处理数据流中的数据&#xff0c;这些命令要么…

高阶python | 堆栈列表:RPN应用(模拟逆波兰式功能实现)

python版本&#xff1a;3.10 在列表中&#xff0c;append和pop方法有一个特殊的用途。可以在列表上使用这两个方法让列表变成一个堆栈使用。 这就是一个栈&#xff0c;它是先进后出&#xff0c;类似单门轿厢电梯一样的设计&#xff0c;出入口共用 堆栈最有用的应用之一就是做逆…

【社区团购】预制菜零售如何打造精准社群?

预制菜作为现代生活的新型“网红”食品&#xff0c;其受欢迎程度日益提高。而在商业竞争日益激烈的当下&#xff0c;如何让你的预制菜零售业务&#xff08;文章编辑ycy6221&#xff09;具有巨大的竞争优势呢&#xff1f;社区团购是一个不错的切入点&#xff0c;这不仅是为了扩大…

5月12号软件资讯更新合集.....

Vue 3.3 “浪客剑心” 发布 Vue 3.3 已正式发布&#xff0c;代号 "Rurouni Kenshin"&#xff08;浪客剑心&#xff09;。 公告写道&#xff0c;此版本专注于改进开发者使用体验 —— 特别是 SFC<script setup> 与 TypeScript 的结合使用。一同发布的还有 Vue…

【C语言】操作符详解(上)

操作符详解&#xff08;上&#xff09; 1.操作符分类2.算数操作符3.移位操作符3.1 右移3.2 左移 4.位操作符4.1位操作符发的应用 5.赋值操作符6.单目操作符7.关系操作符8.逻辑操作符 1.操作符分类 算术操作符移位操作符位操作符赋值操作符单目操作符关系操作符逻辑操作符条件操…

Vue3-黑马(四)

目录&#xff1a; &#xff08;1&#xff09;vue3-基础-axios-获取数据 &#xff08;2&#xff09;vue3-基础-axios-发送数据 &#xff08;3&#xff09;vue3-基础-axios-baseURL &#xff08;1&#xff09;vue3-基础-axios-获取数据 第三方库axios是对xhr的封装&#xff0…

智安网络|网络安全威胁风险分析:识别以及预防黑客和钓鱼攻击

随着网络技术的不断发展和普及&#xff0c;网络安全问题日益严峻。黑客、病毒、恶意软件、钓鱼攻击等威胁不断涌现&#xff0c;给个人、企业、国家的信息安全带来了极大的威胁。如何识别、分析和预防网络安全威胁已成为所有人必须要解决的问题。本篇文章将从黑客攻击和钓鱼攻击…

proc文件系统

proc介绍 (1)proc是虚拟文件系统&#xff0c;虚拟的意思就是proc文件系统里的文件不对应硬盘上任何文件&#xff0c;我们用去查看proc目录下的文件大小都是零,是接受到请求才动态生成的&#xff1b; (2)proc文件系统是开放给上层了解内核运行状态的窗口&#xff0c;通过读取pro…

如何通过品牌矩阵号赋能品牌?

小红书作为年轻人的“消费决策”平台、逐步成为越来越多用户的消费指南&#xff0c;同时也变成众多品牌的营销基地。在小红书运营矩阵账号可以很好的树立品牌形象、增加粉丝粘性、节约广告成本&#xff0c;那么在搭建矩阵的过程中如何管理品牌矩阵号也成为众多品牌必须要思考的…

3.操作系统

文章目录 1.操作系统概述&#xff08;1&#xff09;当前操作系统的主要类型&#xff08;2&#xff09;操作系统的特点&#xff08;3&#xff09;五种主要的功能&#xff08;4&#xff09;考点分布 2.进程&#xff08;1&#xff09;进程的状态&#xff08;2&#xff09;进程的定…

jeecg低代码主从表打印

1.在在线开发菜单栏中选择online表单开发&#xff0c;新建两张表&#xff0c;分别为主表和附表。 2.首页进入报表设计——积木报表设计。 3.进入报表管理——打印设计&#xff0c;选择一个模板或者新建都可以。 4.进入设计页面&#xff0c;点击数据集管理右边的添加数据表&a…

高通开发系列 - 驱动模块Oops后如何找到出错位置

By: fulinux E-mail: fulinux@sina.com Blog: https://blog.csdn.net/fulinus 喜欢的盆友欢迎点赞和订阅! 你的喜欢就是我写作的动力! 目录 问题概述问题现象出错定位问题概述 加载驱动模块时发生:Kernel panic - not syncing: Fatal exception 那么如何找到驱动模块出错的…

抖音AI绘画变成真人软件

抖音AI绘画成人软件的发展可能包括以下几个方面&#xff1a; 算法优化&#xff1a;随着深度学习算法的不断发展&#xff0c;未来该技术可能会通过改进模型架构、优化训练方式等手段&#xff0c;提高生成图像的质量和自然度。 多样化的绘画风格&#xff1a;为了满足用户…

【软考备战·希赛网每日一练】2023年5月12日

文章目录 一、今日成绩二、错题总结第一题第二题第三题第四题 三、知识查缺 题目及解析来源&#xff1a;2023年05月12日软件设计师每日一练 一、今日成绩 二、错题总结 第一题 解析&#xff1a; 一般情况下&#xff0c;一旦Web服务器向浏览器发送了请求数据&#xff0c;它就要…

2021 第十二届蓝桥杯大赛软件赛决赛, 国赛,C/C++ 大学B组题解

2021 第十二届蓝桥杯大赛软件赛决赛, 国赛&#xff0c;C/C 大学B组题解 文章目录 第1题 —— 带宽 &#xff08;5分&#xff09;第2题 —— 纯质数 &#xff08;5分&#xff09;第3题 —— 完全日期 &#xff08;10分&#xff09;第4题 —— 最小权值 &#xff08;10分&#xf…

MySQL之快速查询的秘籍 【B+树索引】

前言 本文章收录在MySQL性能优化原理实战专栏&#xff0c;点击此处查看更多优质内容。 本文摘录自 ▪ 小孩子4919《MySQL是怎样运行的&#xff1a;从根儿上理解MySQL》 &#x1f604;学完前面我们讲解了InnoDB数据页的7个组成部分&#xff0c;知道了各个数据页可以组成一个双…