Flink-DataWorks第一部分:DataWorks(第57天)

news2024/11/16 13:37:14

系列文章目录

1.1 什么是DataWorks
1.2 功能特性
1.2.1 数据集成:全领域数据汇聚
1.2.3 数据建模:智能数据建模
1.2.4 数据分析:即时快速分析
1.2.5 数据质量:全流程的质量监控
1.2.6 数据地图:统一管理,跟踪血缘
1.2.7 数据服务:低成本快速发布API
1.2.8 开放平台:能力全面开放
1.2.9 迁移助手与迁云服务
1.3 各引擎使用说明
1.3.1 什么是MaxCompute
1.3.2 MaxCompute功能特性
1.3.3 DataWorks与MaxCompute的关系

文章目录

  • 系列文章目录
    • 前言
    • 1.1 什么是DataWorks
    • 1.2 功能特性
      • 1.2.1 数据集成:全领域数据汇聚
      • 1.2.3 数据建模:智能数据建模
      • 1.2.4 数据分析:即时快速分析
      • 1.2.5 数据质量:全流程的质量监控
      • 1.2.6 数据地图:统一管理,跟踪血缘
      • 1.2.7 数据服务:低成本快速发布API
      • 1.2.8 开放平台:能力全面开放
      • 1.2.9 迁移助手与迁云服务
    • 1.3 各引擎使用说明
      • 1.3.1 什么是MaxCompute
      • 1.3.2 MaxCompute功能特性
      • 1.3.3 DataWorks与MaxCompute的关系


前言

本文主要详解了DataWorks基本功能,为第一部分:
由于篇幅过长,分章节进行发布。
后续:
 数据集成的使用
 数据开发流程及操作
 运维中心的使用

1.1 什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。
产品架构:
DataWorks十多年沉淀数百项核心能力,通过智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、数据分析服务六大全链路数据治理的能力,帮助企业治理内部不断上涨的“数据悬河”,释放企业的数据生产力。
在这里插入图片描述

发展历史:
从2009年产品立项开始,DataWorks与阿里巴巴业务共同发展,结合MaxCompute、Hologres等大数据计算引擎的能力,跨越多个技术阶段,支撑阿里巴巴数据中台与数据治理建设。目前阿里巴巴集团内DataWorks每天活跃用户数超过5万人,平均每3个人就有1个人使用DataWorks,支持300多个数据应用,服务100多个阿里巴巴集团事业部。
在这里插入图片描述

2015年DataWorks正式上云,将多年沉淀的大数据建设方法论产品化输出,服务阿里云上客户,通过不断迭代的产品能力,DataWorks正在与各行各业的客户与合作伙伴一起,通过全链路数据治理,管得好数据、用得好数据,让数据从低质低效向高质高效流动。
在这里插入图片描述

1.2 功能特性

1.2.1 数据集成:全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。
DataWorks数据集成支持离线同步、实时同步,以及离线和实时一体化的全增量同步。
1.2.2 数据开发与运维中心:数据加工
DataWorks的数据开发(DataStudio)是数据加工的开发平台,运维中心是智能运维平台,基于这两个功能模块,可以在DataWorks上规范、高效地构建和运维数据开发工作流。
开发流程:
在这里插入图片描述

可视化的开发界面:
在这里插入图片描述

支持通过拖拉拽的方式构建任务流程,在统一的界面进行数据开发和调度配置。
任务监控与定位处理:
在这里插入图片描述

1.2.3 数据建模:智能数据建模

智能数据建模是阿里云DataWorks自主研发的智能数据建模产品,沉淀了阿里巴巴十多年来数仓建模方法论的最佳实践,包含数仓规划、数据标准、维度建模及数据指标四大模块,帮助企业在搭建数据中台、数据集市建设过程中提升建模及逆向建模的能力,并通过数据建模快速构建企业数据资产。
功能概述:
智能数据建模产品包含数仓规划、数据标准、维度建模、数据指标四大产品模块。
在这里插入图片描述

 数仓规划:数仓规划支持数仓分层、数据域、数据集市等的规划,支持设置模型设计空间,不同部门可共享一套数据标准和数据模型。
 数据标准:数据标准字段标准、标准代码、度量单位、命名词典的定义,支持标准代码自动生成质量规则,落标检查不再难。
 维度建模:维度建模支持逆向建模,解决现有数仓的建模冷启动难题,支持可视化数仓维度建模,支持通过Excel文件导入模型和通过FML(一种类SQL的DSL)快速构建模型,支持与数据开发DataStudio无缝打通,自动生成ETL代码。
 数据指标:数据指标支持原子指标、派生指标的定义与构建,与维度建模无缝打通,可根据原子指标和不同维度批量创建派生指标。

1.2.4 数据分析:即时快速分析

数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。
在这里插入图片描述

1.2.5 数据质量:全流程的质量监控

DataWorks的全流程数据质量监控功能提供了35种预设表级别、字段级别和自定义的监控模板。
数据质量支持对常见大数据存储(MaxCompute、E-MapReduce Hive、Hologres等)进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度,配置质量监控规则。并可以将质量监控规则与调度节点进行关联,当任务运行完成后便会触发质量规则校验,帮助用户第一时间感知问题数据,按需设置规则的强弱来控制任务是否失败退出,从而避免脏数据影响扩大,有效降低数据恢复处理的时间成本和费用成本。

1.2.6 数据地图:统一管理,跟踪血缘

DataWorks的数据地图功能可以实现对数据的统一管理和血缘的跟踪。
数据地图以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。
在这里插入图片描述

1.2.7 数据服务:低成本快速发布API

DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台,旨在为企业提供全面的数据共享能力,帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。
 数据服务支持通过零代码或自助SQL的双模式,将各类数据源下的数据表生成数据API,同时支持函数计算来辅助加工API的请求参数及返回结果。
 数据服务采用Serverless架构,用户无需关心运行环境等基础设施,即可将API服务一键发布至API网关。
在这里插入图片描述

1.2.8 开放平台:能力全面开放

DataWorks开放平台提供了全面的开放能力,可以实现深度的系统集成、自动化操作、流程定义、业务监控等,欢迎广大用户及合作伙伴,基于DataWorks的开放平台来实现行业化、场景化的数据应用和插件。
DataWorks开放平台提供开放API(OpenAPI)、开放事件(OpenEvent)、扩展程序(Extensions)等能力。
 开放API(OpenAPI)
通过OpenAPI可以实现用户的自有应用与DataWorks的深度集成,例如实现批量创建任务、发布任务、运维任务等,提升大数据处理效率,减少人工操作成本。
 开放事件(OpenEvent)
通过OpenEvent可以允许用户订阅DataWorks中的系统事件,实时获取并响应事件变化,例如订阅表变更事件实现对核心表的实时监控,订阅任务变更事件实现自定义实时任务监控大屏。
 扩展程序(Extensions)
Extensions则是将OpenAPI和OpenEvent有机结合起来的服务级插件,通过Extensions允许用户对DataWorks中的流程控制进行自定义,例如用户可以自定义任务发布管控插件,从而对不符合规范和要求的任务进行拦截。

1.2.9 迁移助手与迁云服务

DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks,支持作业跨云、跨Region、跨账号迁移,实现DataWorks作业快速克隆部署,同时DataWorks团队联合大数据专家服务团队,上线迁云服务,快速实现数据与任务的上云。
迁移助手与迁云服务主要功能包括:
任务上云:实现将开源调度引擎的作业搬迁至DataWorks上。
DataWorks迁移:实现DataWorks体系内的开发成果互相迁移。

1.3 各引擎使用说明

DataWorks支持3种引擎,分别是MaxCompute,EMR,Hologres,其中最常见的是MaxCompute,以下介绍则以DataWorks On MaxCompute来介绍。

1.3.1 什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使用户可以经济并高效地分析处理海量数据。
MaxCompute提供离线和流式数据的接入,支持大规模数据计算及查询加速能力,为用户提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为用户提供完善的数据导入方案以及多种经典的分布式计算模型,用户可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。

1.3.2 MaxCompute功能特性

计算:
MaxCompute向用户提供了多种经典的分布式计算模型,提供TB、PB、EB级数据计算能力,能够更快速的解决用户海量数据计算问题,有效降低企业成本。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

存储:
表是MaxCompute的数据存储单元,MaxCompute中不同类型作业的操作对象(输入、输出)都是表;MaxCompute采用列压缩存储格式,通常情况下具备5倍压缩能力;MaxCompute数据存储格式全面升级为AliORC,具备更高存储性能。
在这里插入图片描述
在这里插入图片描述

1.3.3 DataWorks与MaxCompute的关系

DataWorks和MaxCompute进行了深度融合。
DataWorks为MaxCompute提供任务调度、元数据管理、数据治理、数据安全管控等能力,但任务计算、数据存储仍在MaxCompute中。标准模式工作空间下,DataWorks为不同环境绑定不同的MaxCompute项目,实现DataWorks开发环境与生产环境存储、资源等隔离。
在这里插入图片描述

DataWorks on MaxCompute的基本开发流程如下图:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1984093.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据跨境流动需要注意什么?怎么实现安全合规的跨境传输?

2024年3月22日,《促进和规范数据跨境流动规定》(以下简称《数据跨境规定》)正式公布并施行。数据跨境流通涉及到隐私保护、安全性和法律合规等多个方面的重要考虑因素。 具体来说,需要注意以下几点: 1、隐私保护&…

农场游戏中的时间管理实例

一、准备工作 在Unity中创建承载日期和时间的文本 二、设置游戏的时间戳 using System.Collections; using System.Collections.Generic; using UnityEngine; //标识这个类可以被序列化 [System.Serializable] public class GameTimestamp {// 游戏时间戳的成员变量public in…

【第三版 系统集成项目管理工程师】第10章 启动过程组

持续更新。。。。。。。。。。。。。。。 【第三版】第十章 启动过程组 10.1 制定项目章程10.1.1 主要输入1.立项管理文件-P3562.协议-P35710.1.2 主要输出1.项目章程-P3572.假设日志-P358练习10.2 识别干系人10.2.1 主要输入1.项目管理计划-P3602.项目文件-P36010.2.2 主要工…

49 mysql 子查询 加 group by 产生的奇怪现象

前言 这里要提到的是一个 之前碰到的一个 很令人诧异的查询, 主要是 和 group 查询有关系 查询如下, 按照常规理解, “select id from t_user_02 where name jerry group by age ” 会返回 两条数据, 然后 整个查询 会查询出两条数据 但是 结果很令人差异, 查询出了 四条…

华为云全域Serverless技术创新:全球首创通用Serverless平台被ACM SIGCOMM录用

华为开发者大会2024(HDC 2024)在东莞松山湖圆满结束,期间华为云主办的“全域Serverless时代:技术创新引领,赋能行业实践”专题论坛,向广大开发者传递了Serverless领域的前沿思考和实践,现场座无…

CVE-2023-33440详解

一.访问url http://eci-2zef9bcht3lq36hkwyoh.cloudeci1.ichunqiu.com/ 二.目录扫描 http://eci-2zef9bcht3lq36hkwyoh.cloudeci1.ichunqiu.com/ 三.拼接访问/login.php 四.抓包构造数据包 发给repeter 复制过去这几个位置都有空格,要删除掉,Referer和…

基于单片机的空调红外遥控器设计

【摘要】 本文基于单片机AT89C51、利用红外遥控发射技术设计了一款空调红外遥控器。对其系统结构框架、硬件部分等内容进行介绍,最后通过系统仿真验证设计的正确性和有效性。 【关键词】 遥控技术;单片机;红外 1.引言 远程控制技术指的是对…

DC系列靶场---DC 5靶场的渗透测试

DC-5渗透测试 信息收集 地址探测 使用arp-scan对目标主机进行地址探测 arp-scan -l -I eth0 目标主机IP地址为172.30.1.132 Nmap扫描 使用Nmap对目标主机进行端口扫描 nmap -sS -sV -T4 -p- -O 172.30.1.132//-sS Nmap默认扫描类型,SYS的秘密扫描//-sV 服务…

可用性测试:提升用户体验的关键

目录 前言1. 可用性测试的概念1.1 可用性测试的特点1.2 可用性测试的类型 2. 可用性测试的主要作用2.1 发现用户需求2.2 识别可用性问题2.3 提高用户满意度 3. 可用性测试在整个测试过程中的地位3.1 可用性测试与功能测试的关系3.2 可用性测试与性能测试的关系3.3 可用性测试与…

Java | Leetcode Java题解之第326题3的幂

题目: 题解: class Solution {public boolean isPowerOfThree(int n) {return n > 0 && 1162261467 % n 0;} }

鸿蒙(API 12 Beta2版)NDK开发【HarmonyOS ABI】硬件兼容性

HarmonyOS系统支持丰富的设备形态,支持多种架构指令集,支持多种操作系统内核;为了应用在各种HarmonyOS设备上的兼容性,本文定义了"OHOS" ABI(Application Binary Interface)的基础标准&#xff0…

《Milvus Cloud向量数据库指南》——高可用黄金标准:深入解析与业务策略考量

高可用黄金标准:深入解析与业务策略考量 在信息技术飞速发展的今天,高可用性(High Availability, HA)已成为衡量企业IT系统性能与稳定性的关键指标之一。它不仅仅关乎技术层面的优化与配置,更是企业保障业务连续性、提升客户体验、增强市场竞争力的重要基石。尽管高可用性…

基于Java中的SSM框架实现在线音乐网站系统项目【项目源码+论文说明】

基于Java中的SSM框架实现在线音乐网站系统演示 摘要 本文讲述了使用JSP语言及HTML5语言及MySql数据库技术开发的音乐网站的设计与实现。本文所讲的JSP音乐系统是通过所学的知识创办一个类似于QQ音乐或者酷狗音乐性质的网站平台,使所有对国内外音乐欣赏感兴趣的人都…

未授权访问漏洞合集

今天我们来开一个新的坑,未授权访问漏洞,以后我会慢慢更新,大家可以持续跟进一下,谢谢大家! 未授权访问可以理解为需要安全配置或权限认证的地址、授权页面存在缺陷,导致其他用户可以直接访问,从…

卷积神经网络 - 结构化输出篇

序言 卷积神经网络( CNN \text{CNN} CNN)作为深度学习领域的重要分支,凭借其强大的特征提取与学习能力,在图像和视频处理领域取得了显著成就。其结构化输出的特性,更是为复杂任务的解决提供了有力支持。本文旨在简要概…

高德地图API-批量获取位置信息的经纬度

我们会遇到一些需要批量把地址数据转换成坐标的问题,一个个查的话通常会比较麻烦,那有没有比较方便的方法呢,我们可以利用高德的地理编码/逆地理编码 API功能, 通过 HTTP/HTTPS 协议访问远程服务的接口,提供结构化地址…

渗透课程练习

第一步进入网站软件,启动Apache和Mysql,这里出了点小插曲,电脑自身的mysl如果没有停止运行就无法启动mysql,找到“服务”后进入寻找mysql停止运行。 第一关 get传参浏览器中输入?id1 创建价格表 修改php的文件后重新输…

MySQL 5.7使用 GTID 和 Binlog高可用方案

文章目录 介绍GTID和Binlog的关系GTID(Global Transaction ID)Binlog(二进制日志) MySQL5.7基于yum搭建安装 MySQL初始化并设置远程登录密码 配置基于GTID的复制模式第一台主服务器配置主服务器配置启动从服务 第二台主服务器配置…

【Linux学习】文件系统 - 第三篇

🍑个人主页:Jupiter. 🚀 所属专栏:Linux从入门到进阶 欢迎大家点赞收藏评论😊 目录 🦅重定向原理以及实现🐱dup2系统调用实现重定向。🎈dup2 系统调用🍑在自定义shell中实…

MM 10 -采购- 标准采购订单

思维导图 说明 采购订单页面介绍 抬头 支付、开票: 付款条件 文本: 机构数据: 其余sheet不常用 行项目 物料 数量 交货日期 价格 :信息记录带出来 工厂 行项目明细 物料 供应商物料号 供应商子范围: 批次&a…