全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力

news2024/11/26 4:53:07

简介: 阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。

阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。

解决方案已支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。

在这里插入图片描述

重点能力升级

增强数据入湖能力

DataWorks 数据集成支持 MySQL 整库实时入湖 OSS(HUDI)、Kafka 实时入湖 OSS(HUDI)、MySQL 到 Hive 整库周期同步能力。

在 DataWorks 管控台选择进入数据集成

在这里插入图片描述

在页面直接点击“创建我的数据同步”

在这里插入图片描述

选择来源和去向类型就可以看到对应入湖能力

MySQL 整库实时入湖 OSS(Hudi)

支持元数据自动注册到阿里云DLF,方便用户进行湖管理;

支持 MySQL 实例级别的同步,即源端 MySQL 可以同时选择多个库;

支持按照正则表达式选定来源 MySQL 库和表;

支持自动加库加表,即 MySQL 侧增加库或表后,可以自动同步至 OSS,无需手工干预和操作。

在这里插入图片描述

Kafka 实时入湖 OSS(Hudi)

支持 Kafka json 数据增量实时入湖,秒级延迟

支持在同步链路中对数据处理,包括数据过滤、脱敏、字符串替换、字段级别赋值等操作

支持根据 kafka json 数据 schema 变化,动态增加字段

支持对接阿里云DLF,入湖元数据自动注册,实时可查可管理

支持自定义 OSS 湖端存储路径

在这里插入图片描述

MySQL 整库离线同步至 Hive

MySQL 整实例级别离线同步至 Hive,支持配置周期调度,也可以在 DataStudio 中依赖此同步调度节点为上游,支持历史全量同步和离线增量同步

在这里插入图片描述

增强作业开发调度能力

支持 spark on ACK 集群调度

DataWorks 支持调度 spark-submit, spark-sql 类型作业到 EMR Spark 集群(on ACK), 用户可以利用 ACK 的弹性能力按需调整集群资源,实现和应用程序混部,使用同一套运维方案的同时,最大程度利用资源。对于原先在新版数据湖 DataLake 集群和自定义集群中运行的 Spark 任务,支持一键迁移到 ACK 集群,无需修改代码。

开发能力升级

支持空间内各模块设置 yarn 队列

随着越来越多的客户开始使用数据湖处理数据、分析数据,计算资源优先保障重要ETL任务产出成为了普遍诉求。DataWorks 支持为不同模块设置任务的 yarn 队列,包括数据分析、数据开发、运维等,保障不同场景的计算资源隔离需求。

支持工作空间级别 Spark Conf 设置

很多用户发现为每个 spark 作业设置 conf 是一件比较繁琐的事情。而集群往往多部门共享,在集群级别做 default 设置会影响到其他用户。DataWorks 在支持单任务设置 conf 的同时,提供工作空间级别设置 spark conf 的能力, 作用于空间下的所有 spark 任务。

支持数据分析下载最多500万条记录

支持管理员设置最大下载量,通过数据分析模块,最多支持500万行数据下载到本地。

增强数据治理能力

数据治理中心能力升级

支持基于数据湖架构的数据健康分评估

Dataworks 数据治理中心提供覆盖事前问题检测、事中问题拦截、事后问题发现的主动式数据治理能力。新增对 Dataworks 数据开发+DLF元数据管理用户,进行多维度数据健康分评估。

在这里插入图片描述

支持基于研发/存储维度的数据治理问题识别

面向 E-MapReduce 用户可支持数据规范治理场景,内置研发、存储、安全维度的十余类内置治理项及知识库,可面向 Dataworks EMR 研发过程中的数据任务及存储问题,进行基于治理项规则的自动问题发现,推动负责人进行问题的及时治理。

在这里插入图片描述

数据治理中心支持基于 EMR Hive/Spark SQL 任务的事前主动治理

Dataworks 数据治理中心新增10种内置数据检查项,可针对 Dataworks 数据研发侧的 Hive SQL 及 Spark SQL 任务,针对提交、发布环节,进行数据问题的检查和自动拦截,进行事前问题预防。

在这里插入图片描述

在这里插入图片描述

钉钉扫码入群,体验dataworks on emr 数据湖治理并获得首月开通优惠大礼包

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/912515.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++继承-补充

本期对继承的知识进行一些补充&#xff0c;还没看过之前对继承讲解的建议先看之前的 C继承_KLZUQ的博客-CSDN博客 本期补充知识为菱形继承以及菱形虚拟继承相关知识 class A { public:virtual void func1(){cout << "A::func1" << endl;} public:int _…

平板用的触控笔什么牌子好?开学必买电容笔清单

开学季马上就要到来了&#xff0c;自从iPad的Pencil火了之后&#xff0c;国内又陆续推出了一些新的产品&#xff0c;比如平替之类的&#xff0c;有的质量非常好&#xff0c;有的价格非常实惠&#xff0c;还能被大多数人所接受。不过&#xff0c;这里面有不少的产品&#xff0c;…

手把手教你在云环境炼丹:Stable Diffusion LoRA 模型保姆级炼制教程

很多同学都想要自己的专属AI模型&#xff0c;但是大模型的训练比较费时费力&#xff0c;不太适合普通用户玩。AI开发者们也意识到了这个问题&#xff0c;所以就产生了微调模型&#xff0c;LoRA就是其中的一种。在AI绘画领域&#xff0c;只需要少量的一些图片&#xff0c;就可以…

七夕情侣飞行棋游戏限定版本源码/解锁版

七夕情侣飞行棋限定版本源码已经发布&#xff01;这是一款专为情侣打造的桌游&#xff0c;让您与您的另一半一起感受浪漫的体验。 更为重要的是&#xff0c;这个版本已经移除了路由器限制&#xff0c;解锁了全部功能&#xff0c;而且没有任何加密措施&#xff0c;您只需将源码…

将ChatGPT集成整合到业务中时,3个要做和3个不要做的事项

​关于ChatGPT的讨论甚多&#xff0c;毫无疑问的是&#xff0c;几乎每个人都应该使用它&#xff0c;无论用于个人生活问题的解答还是工作中简化日常任务。越来越多的行业也正在探索这项技术的应用场景&#xff0c;从优化客户服务体验、简化旅行计划到便捷的内容创作等&#xff…

day 35 | ● 343. 整数拆分 ● 96.不同的二叉搜索树

343. 整数拆分 他是有三个数进行比较&#xff0c;原来的dp[i]、dp[j] * (i - j)、j*(i - j)。为什么第二个不包含第三个呢&#xff0c;因为我们设定的dp为至少两个数的乘积&#xff0c;所以dp[j]不包含j本身。 func integerBreak(n int) int {dp : make([]int, n 1)dp[1] 0d…

python 画二部图

1. 特色二部图 修改节点与边颜色、大小等 import networkx as nx import matplotlib.pyplot as plt plt.figure(设备-用户关系图, figsize(4, 6)) # 设置画布大小list_fid [1, 2, 3, 4] # 添加设备节点 list_uid ["a", "b", "c"] # 添加用…

【HCIP】14.BGP反射器

反射器规则 非非不反 如果路由反射器从自己的非客户机学习到的一条IBGP路由&#xff0c;则它将该路由反射给所有客户如果RR从自己的客户机学习到一条IBGP路由&#xff0c;则反射给所有非客户&#xff0c;以及除了该客户之外的所有客户如果RR学习到的EBGP路由&#xff0c;则反…

【高级IO】- 多路转接之 poll | epoll

目录 I/O多路转接 - poll poll 函数 poll 服务器 poll 服务器 poll 的优点 poll 的缺点 I/O 多路转接 - epoll epoll 的相关系统调用 epoll_create 函数 epoll_ctl 函数 epoll_wait 函数 epoll 工作原理 epoll 服务器 ​编辑 epoll 的优点&#xff08;与 sele…

vr游乐场项目投资方案VR主题游乐馆互动体验

VR文旅景区沉浸互动体验项目是指利用虚拟现实技术在文旅景区中创建沉浸式的互动体验项目。通过虚拟现实技术&#xff0c;游客可以身临其境地体验景区的风景和文化&#xff0c;与虚拟场景中的元素进行互动。 普乐蛙VR设备 普乐蛙VR设备案例分享 这种项目可以为游客带来全新的旅游…

2023年中秋月饼市场趋势分析(月饼京东销售数据分析)

中秋将至&#xff0c;月饼作为节令食品将再次掀起消费热潮。今年月饼市场的需求如何呢&#xff0c;是更受欢迎还是热度有所降低&#xff0c;结合数据我们一起来看今年月饼市场的销售表现。 在这里&#xff0c;我们分别选取了2022年第31周-32周和2023年第31周-32周&#xff08;…

抖音推出AI机器人,竟被鸡兔同笼难倒

自从Chatgpt横空出世爆火后&#xff0c;咱国内也掀起了一波AI的风潮&#xff0c;前几期有评测过百度的“文心一言”&#xff0c;总的来说体验还不错&#xff0c;但是距离Chatgpt还是有上升的空间&#xff0c;因为它的上下文理解还是不够智能。 百度有文心一言&#xff0c;阿里…

基于CentOS搭建私有仓库harbor

环境&#xff1a; 操作系统&#xff1a;CentOS Linux 7 (Core) 内核&#xff1a; Linux 3.10.0-1160.el7.x86_64 目录 安装搭建harbor &#xff08;1&#xff09;安装docker编排工具docker compose &#xff08;2&#xff09;下载Harbor 安装包 &#xff08;3&…

【操作系统】寄存器

概念 寄存器是CPU内部用来存放数据的一些小型存储区域&#xff0c;用来暂时存放参与运算的数据和运算结果。其实寄存器就是一种常用的时序逻辑电路&#xff0c;但这种时序逻辑电路只包含存储电路。寄存器的存储电路是由锁存器或触发器构成的&#xff0c;因为一个锁存器或触发器…

docker与docker-compose搭建redis1主2从3哨兵

docker安装redis docker pull redis:latest创建目录结构 用于挂载数据卷配置文件等 运行redis容器 主redis配置 下面这种方式挂载的配置文件不生效。 docker run -d \--name master_redis_6379 \-p 6379:6379 \--restart unless-stopped \-v /mydata/master_redis/data:/da…

IDEA中导入多module的Maven项目无法识别module的解决办法

首先举个栗子 这是正常的多module工程&#xff08;spring cloud项目&#xff09; 正常工程.png 这是导入出现问题的多module工程 导入出现问题的工程.png 原因&#xff1a; 出现该问题&#xff0c;是由于打开工程的时候IDEA只编译了最外层的pom.xml文件&#xff0c;而内部的…

在线成绩查询

在如今快节奏的社会中&#xff0c;家长们越来越重视孩子的学习情况。为了满足家长们对孩子学习情况的关注&#xff0c;老师们需要一个方便、快速、及时的学生成绩在线查询系统。 今天&#xff0c;我将向大家推荐一个教师必备的工具——易查分&#xff01;相比传统的自行开发的成…

前端下载文件方式(Blob)

以下以下载图标svg文件为例&#xff0c;实现点击按钮下载文件&#xff0c;其中icon结构如下&#xff1a; const DownloadSvg (props) > {function download(downfile) {const tmpLink document.createElement("a");const objectUrl URL.createObjectURL(downfi…

恒驰喜讯 | 荣获2023超聚变合作伙伴大会“聚心同力销售支撑奖”

“创价值、同信念、共成长”&#xff0c;8月18日&#xff0c;2023超聚变合作伙伴大会在北京举行。来自全国各地超过1500家行业、商业、服务生态伙伴&#xff0c;共同探讨算力产业发展。聚菁英&#xff0c;共赢算力未来。作为超聚变的核心合作伙伴&#xff0c;上海恒驰信息系统有…