DataSphere Studio数据应用开发管理集成框架【DSS基础】

news2025/1/2 0:06:19

https://github.com/WeBankFinTech/DataSphereStudio/https://gitee.com/WeBank/DataSphereStudio

基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。

在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。

DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。

借助于 Linkis 计算中间件的连接、复用与简化能力,DSS 天生便具备了金融级高并发、高可用、多租户隔离和资源管控等执行与调度能力。

1 AppConn

  • 应用连接器AppConn,定义了一套统一的前后台接入协议
  • 总共分为三级规范(
    • 一级 SSO 规范
    • 二级组织结构规范
    • 三级开发流程规范)
  • 可以简单快速集成各种上层 Web 系统(让外部数据应用系统快速简单地接入)
  • DSS 通过串联多个 AppConn,编排成一条支持实时执行和定时调度的工作流,用户只需简单拖拽即可完成数据应用的全流程开发。

2 apps组件

2.1 数据开发Scriptis

  • 一款支持在线写SQL、Pyspark、HiveQL等脚本,执行的数据分析Web工具
  • 支持UDF、函数、资源管控和智能诊断等企业级特性

2.2 数据可视化Visualis

  • 支持拖拽式报表定义、图表联动、钻取、全局筛选、多维分析、实时查询等数据开发探索的分析模式
  • 做了水印、数据质量校验等金融级增强

2.3 数据质量管理Qualitis

  • 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台
  • 用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题
  • 数据质量校验工具,提供数据完整性、正确性等数据校验能力
  • 基于Spring Boot,依赖于Linkis进行数据计算

2.4 工作流调度Schedulis

  • 支持常规的 Command Shell 和 Linkis(HadoopMR、 Hive、Spark、Sqoop、 Python)大数据任务;
  • 支持特色的数据检查和工作流之间的依赖任务
  • 支持完善的告警和工作流执行策略
  • 提供多种类型的参数设置,动态全局变量和简单易用的UI

2.5 数据交换工具Exchangis

  • 支持异构数据源之间的结构化和非结构化数据传输同步
  • 抽象了一套统一的数据源和同步作业定义插件,允许用户快速接入新的数据源,并只需在数据库中简单配置即可在页面中使用
  • 基于插件化的框架设计,及计算中间件 Linkis,Exchangis 可快速集成对接 Linkis 已集成的数据同步引擎,将 Exchangis 的同步作业转换成 Linkis 数据同步引擎的数据同步作业
  • 支持对结构化及无结构化的异构数据源之间的数据传输的数据交换平台

2.6 数据Api服务DataApiService

  • DSS目前支持将SQL脚本发布成数据服务API,分享给其他用户使用
  • 业务用户可以在不用写代码和无大数据平台用户的情况下,设置参数,就可以执行数据服务的脚本,并直接浏览或者下载平台数据
  • 数据API服务。可快速将SQL脚本发布为一个 Restful 接口,对外提供 Rest 访问能力

2.7 流式应用开发管理Streamis

  • 基于 DataSphere Studio 的框架化能力,以及底层对接 Linkis 的 Flink 引擎,让用户低成本完成流式应用的开发、调试、发布和生产管理
  • 以 Flink 为底层计算引擎,基于开发中心和生产中心隔离的架构设计模式,完全隔离开发权限与发布权限,隔离开发环境与生产环境,保证业务应用的高稳定性和高安全
  • 流式应用开发管理工具。支持发布 Flink Jar 和 Flink SQL ,提供流式应用的开发调试和生产管理能力,如:启停、状态监控、checkpoint 等

2.8 一站式ML平台Prophecis

  • 集成多种开源机器学习框架
  • 具备机器学习计算集群的多租户管理能力
  • 提供生产环境全栈化容器部署与管理服务

2.9 工作流任务调度平台Apache Dolphin Scheduler

  • 具有强大用户界面的现代数据工作流编排平台
  • 致力于解决数据管道中的复杂任务依赖关系
  • 提供各种类型的现成作业

2.10 数据模型中心——DataModelCenter

2.11 UserGuide

  • 包含帮助文档、新手指引、Dark模式换肤等。

2.12 DataModelCenter

  • 数据模型开发和数据资产管理的能力
  • 数仓规划包含主题域、数仓分层、修饰词等
  • 数据模型开发包含指标、维度、度量、向导式建表等
  • 数据资产打通 Apache Atlas,提供数据血缘能力

2.13.UserManager

  • 自动初始化一个 DSS 新用户所必须的所有用户环境
  • 包含:创建 Linux 用户、各种用户路径、目录授权等

2.14 Apache Airflow

  • 支持将 DSS 工作流发布到 Apache Airflow 进行定时调度。

2.15 SendEmail

  • 提供数据发送能力
  • 所有其他工作流节点的结果集,都可以通过邮件进行发送

2. 16 EventCheck

  • 提供跨业务、跨工程和跨工作流的信号通信能力。

2.17 计算中间件 Apache Linkis

  • 通过提供 REST/WebSocket/JDBC/SDK 等标准接口
  • 上层应用可以方便地连接访问 MySQL/Spark/Hive/Presto/Flink 等底层引擎
  • Linkis 构建了一层计算中间件,方便上层应用与底层数据引擎之间的连接、治理和编排
  • image.png

3 DSS工作流节点

3.1 spark节点

分别支持sql、pyspark、scala三种方式执行spark任务,使用时只需将节点拖拽至工作台后编写代码即可

3.2 hive节点

hive节点支持sql方式执行hive任务,使用时只需将节点拖拽至工作台后编写hivesql代码即可

3.3 PY节点

python节点支持执行python任务,使用时只需将节点拖拽至工作台后编写python代码即可

3.4 shell节点

shell节点支持执行shell命令或者脚本运行,使用时只需将节点拖拽至工作台后编写shell命令即可

3.5 JDBC节点

jdbc节点支持以jdbc方式运行sql命令,使用时只需将节点拖拽至工作台后编写sql即可,注意需要提前在linkis console管理台配置jdbc连接信息

3.6 SendEmail节点等等

SendEmail节点一般作为工作流的最后一个节点,用于将工作流前面的结果信息进行发送,支持发送表格、文本、DashBoard、Display、图片等,用户在使用的时候直接选择想要发送的工作流节点即可

4 ws管理单元

  • DSS以 Workspace 为管理单元,组织和管理各数据应用系统的业务应用
  • 定义了一套跨数据应用系统的工作空间协同开发通用标准,并提供了用户角色管理能力
  • 工作空间是DSS的基本组织结构,通过工作空间,可以将一个部门、一条业务线、一个产品的所有数据应用放入一个工作空间,用来管理相关的参与用户、角色、工程和应用组件等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/71463.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[附源码]Python计算机毕业设计Django中小学课后延时服务管理系统

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

前端_Vue_2.创建一个Vue应用、模板语法

文章目录一、创建一个Vue应用1.1. 应用实例1.2. 根组件1.3. 挂载应用1.3.1. DOM中的根组件模板1.4. 应用配置1.5. 多个应用实例二、模板语法2.1. 文本插值2.2. 原始HTML2.3. Attribute绑定2.3.1. 简写2.3.2. 布尔型 Attribute2.3.3. 动态绑定多个值2.4. 使用JavaScript表达式2.…

记录一次Sql性能优化

场景: 主业务表 contract(合同表),对于不同主体(人员),能查看的合同是不一样的。系统企业业务用到了,系统资源表 PERMISSION_RESOURCE 、员工对于资源关系表:ENTRY_JOIN…

物联卡批发为什么那么火爆?

2022年物联网行业开始爆发,针对于企业设备联网的物联卡就显得格外重要了,而共享单车,移动支付,智慧城市,自动售卖机等企业采购物联卡会面临着各种问题,低价陷阱,流量虚假,管理混乱&a…

[Python图像处理] 合成微缩效果

合成微缩效果前言图像微缩效果原理实现图像微缩效果相关链接前言 图像中的模糊效果可以强烈影响被拍摄场景的感知,模糊在传达所需的尺寸和距离感方面起着重要作用。合成微缩 (miniature faking) 是一个使真实大小物体照片看起来像微缩模型照片的过程,也…

java必背综合知识点总结

一、JDK常用的包 java.lang: 这个是系统的基础类,比如String、Math、Integer、System和Thread,提供常用功能。 java.io: 这里面是所有输入输出有关的类,比如文件操作等 java.net: 这里面是与网络有关的类,比如URL,U…

寻找适配网红很迷茫?最全秘笈来了

根据《2022年全球数字概览》报告显示,全球社交媒体用户超过46.2亿,相当于全球总人口的58.4%。全球用户每天在社交媒体上平均花费近2.5个小时,并且每天以2分钟的速度增长。 社交媒体成为全球网民生活中不可或缺的一部分,而对于跨境…

【深度学习】Yolov5训练意外中断后如何接续训练详解;yolov5中断后继续训练

0. 前言 目标检测是计算机视觉上的一个重要任务,下面这篇文章主要给大家介绍了关于Yolov5训练意外中断后如何接续训练的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下 1. 配置环境 操作系统:Ubuntu20.04 CUDA版本:11.4 Pytorch版本…

Excel - 数据分析师所需的最常用公式。

“先打好基础,再细化细节——克里斯安德森” 这将是我正在撰写的关于必须具备数据分析技能的第 4 个也是最后一个“像你 5 岁一样解释”系列。(请观看其他的——Power BI、Python 和 SQL)。现在,我们将具备所需的所有基本技能,然后可以进入数据分析领域的下一阶段 使用 E…

Java实现大乐透不重复数字随机号码生成方案

大乐透攻略Java实现(仅供参考学习) 购票方式 每期最低购票数:7 张 最低消费:14 元 方案介绍:后区12个数中随机分成6组,且数字不重复。前区35个数随机分成7组,且数字不重复。前区需要7组才能够…

【目标检测】IoU、GIoU、DIoU、CIoU、EIoU 5大评价指标

目录 一、简介 二、IoU(Intersection over Union) 三、GIoU(Generalized IoU) 四、DIoU(Distance-IoU) 五、CIoU(Complete-IoU) 六、EIoU(Efficient-IoU) 七、pytorch代码实现 七、总结 一、简介 在目标检测…

即时通讯开发之如何测试实时语音通话质量

实时语音聊天开发,对于一般的开发者来说比较神秘,很多朋友不太清楚如何全面的评估一个音频引擎。很多朋友还停留在这样的初级阶段:把demo调通,找几个人喂喂喂......凭自己优异的听觉感受一下,整个测试过程就完成了。 但…

【嵌入式硬件芯片开发笔记】EEPROM芯片M24C32配置流程

【嵌入式硬件芯片开发笔记】EEPROM芯片M24C32配置流程 32-Kbit serial IC bus EEPROM - 105C operation 适用于M24C32/M24C32-DRE 读取存储的从机地址为:0x50 读取标识页面的从机地址为:0x58 WC引脚接地,存储可以进行写操作 地址长度为16位 存…

117. 填充每个节点的下一个右侧节点指针 II

文章目录1. 背2. 题目3. 答案1. 背 这道题本来可以很简答,一个队列,存储指针和它的行数就OK了,但是这道题的难点在于不用额外空间复杂度。 横向看一下,这一行是不是就是一个链表呢? 多加一个变量,用来存储第…

C++入门教程||C++ 判断||C++ 日期 时间

判断结构要求程序员指定一个或多个要评估或测试的条件,以及条件为真时要执行的语句(必需的)和条件为假时要执行的语句(可选的)。 下面是大多数编程语言中典型的判断结构的一般形式: 判断语句 C 编程语言提…

three.js实战 -自定义剪切器

1. 前言 这是我在github上看到大佬的一个作品,当时感觉很有意思,决定分享出来,不知道取这个名字是否正确,废话不多说看下面效果。 2.demo效果 3.需要掌握的知识 矩阵的基本运算,能够认是到一些基本变换用到的矩阵(…

晶圆级倒装装备及控制系统

晶圆级倒装装备主要由晶圆盘进料模块、晶圆盘工作台模块、覆晶模块、焊头模块、基板工作台模块、点胶模块、视觉模块和基板进出料模块组成,如图 2-2 所示。 晶圆级倒装装备控制系统结构晶圆级倒装装备的运控系统主要由工控机、运动控制卡、驱动器、反馈装置和直线电…

QA:observable and Subject

概念区别和常见的错误理解辩证: 通俗理解一下 1. Observable 是一条 "水管蓝图" ,每次打开水龙头,水流会按照设计好的路线流向终点。起点和终点一一对应。每次打开水流,都是新的流,水流之间互不影响。一次一管。 2. …

VMWare虚拟机设置CentOS7共享文件夹

1. 目录 系统版本:CentOS 7.9 文章目录1. 目录2. VMWare:虚拟机设置,设置共享文件夹3. 虚拟机设置:手动挂载共享文件夹4. 检查是否挂载成功5. (可选)创建共享文件夹的软链接(快捷方式)6. (可选)定时任务开机自动挂载2. VMWare&am…

博客文章分类导引(持续更新)

摘要:本文提供一篇博客目录,有物联网、安卓编程、硬件设计等若干主题,这些主题一般都是成系统的,可以实现从零开始做出自己的物联网系统。 文章结构如下: 1.物联网专栏 使用arduino编写mqtt客户端连接emqx服务器 VSC…