Flink-DataWorks第三部分:数据集成(第59天)

news2024/9/21 0:25:07

系列文章目录

2.4 任务配置方式
2.4.1 DataStudio侧离线同步
2.4.1.1 开发流程概览
2.4.1.2 步骤一:新建离线同步节点
2.4.1.3 步骤二:配置同步网络链接
2.4.1.4 步骤三:配置数据来源与去向
2.4.1.5 步骤四:配置字段映射关系
2.4.1.7 步骤六:配置调度属性
2.4.1.8 步骤七:提交并发布任务

文章目录

  • 系列文章目录
  • 前言
    • 2.4 任务配置方式
      • 2.4.1 DataStudio侧离线同步
        • 2.4.1.1 开发流程概览
        • 2.4.1.2 步骤一:新建离线同步节点
        • 2.4.1.3 步骤二:配置同步网络链接
        • 2.4.1.4 步骤三:配置数据来源与去向
        • 2.4.1.5 步骤四:配置字段映射关系
        • 2.4.1.7 步骤六:配置调度属性
        • 2.4.1.8 步骤七:提交并发布任务


前言

本文主要详解了DataWorks的数据开发流程及操作,为第三部分:
由于篇幅过长,分章节进行发布。
后续:
 运维中心的使用

2.4 任务配置方式

2.4.1 DataStudio侧离线同步

数据集成的离线同步功能为用户提供数据读取(Reader)和写入插件(Writer),方便用户通过定义来源与去向数据源,并结合DataWorks调度参数使用,将源端数据库中全量或增量数据的同步至目标数据库中。
可以通过向导模式和脚本模式两种方式类配置离线同步任务。基于易用性考虑,下面介绍第一种方式。

2.4.1.1 开发流程概览

步骤一:新建离线同步节点
步骤二:配置同步网络链接
步骤三:配置数据来源与去向
步骤四:配置字段映射关系
步骤五:配置通道
步骤六:配置调度属性
步骤七:提交并发布任务

2.4.1.2 步骤一:新建离线同步节点

1)登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发。
2)创建业务流程。在业务流程处右键,点击新建业务流程。
在这里插入图片描述

在对话框中填写业务名称为 test。
3)创建离线同步节点。
可以通过以下两种方式创建离线同步节点:
方式一:展开业务流程,右键单击数据集成 > 新建节点 > 离线同步。
方式二:双击业务流程名称,将数据集成目录下的离线同步节点直接拖拽至右侧业务流程编辑面板。
填写节点名称为batch_data_integration

2.4.1.3 步骤二:配置同步网络链接

选择离线同步任务的数据来源和数据去向,以及用于执行同步任务的资源组,并测试连通性。其中数据来源选择MySQL,数据源名称选择rdsmysql;数据集成选择hmcx;数据去向选择MaxCompute,数据源名称选择odps_first。连通性没问题后点击下一步。
在这里插入图片描述

 还支持同步源端分库分表数据至目标单表,详情请参见:场景:配置分库分表离线同步任务。
 若数据源与资源组网络不通,请参考界面提示或文档进行网络连通配置。详情请参见:配置资源组与网络连通。

2.4.1.4 步骤三:配置数据来源与去向

1)在MySQL中建表并导入数据
create database if not exists test default character set = utf8 collate = utf8_general_ci;

create table test.student_list
(
s_id varchar(20),
s_name varchar(20) not null default ‘’,
s_birth varchar(20) not null default ‘’,
s_sex varchar(10) not null default ‘’,
primary key (s_id)
);

– 插入测试数据
insert into test.student_list values (‘01’, ‘赵雷’, ‘1990-01-01’, ‘男’);
insert into test.student_list values (‘02’, ‘钱电’, ‘1990-12-21’, ‘男’);
insert into test.student_list values (‘03’, ‘孙风’, ‘1990-05-20’, ‘男’);
insert into test.student_list values (‘04’, ‘李云’, ‘1990-08-06’, ‘男’);
insert into test.student_list values (‘05’, ‘周梅’, ‘1991-12-01’, ‘女’);
insert into test.student_list values (‘06’, ‘吴兰’, ‘1992-03-01’, ‘女’);
insert into test.student_list values (‘07’, ‘郑竹’, ‘1989-07-01’, ‘女’);
insert into test.student_list values (‘08’, ‘王菊’, ‘1990-01-20’, ‘女’);
2)在DataStudio中点击临时查询,新建ODPS SQL
在这里插入图片描述

路径为临时查询,名称为test
在test中执行odps建表语句
create table student_list
(
s_id string,
s_name string,
s_birth string,
s_sex string
)
3)返回数据集成任务,根据提示,配置数据来源和去向,如果有不清楚的,可以点击配置文档进行查询。
在这里插入图片描述

数据来源,表选择student_list【如果没有则刷新页面再试一下】
数据集过滤中可以填写一些条件,将不需要的数据过滤掉
切分键可以将源数据表中某一列作为切分键,建议使用主键或有索引的列作为切分键
数据去向,表选择student_list
写入模式有两种,insert into:直接向表或静态分区中插入数据,insert overwrite:先清空表中的原有数据,再向表或静态分区中插入数据。这里选择insert overwrite。
空字符串转为Null写入:源头数据是空字符串,在向目标MaxCompute列写入时是否转为Null值写入。这里选择否。

2.4.1.5 步骤四:配置字段映射关系

选择数据来源和数据去向后,需要指定读取端和写入端列的映射关系,配置字段映射关系后,任务将根据字段映射关系,将源端字段写入目标端对应类型的字段中。
支持同名映射、同行映射。在使用过程中,还可以:
 为目标字段赋值:通过添加一行的方式,为目标表添加常量、变量。例如,‘123’,’${变量名}’。
注意:在此处定义的变量,当单击下一步,配置调度时,可以为变量赋值。
 编辑源端字段:可以通过单击类型右侧的编辑图标实现如下功能:
 使用源端数据库支持的函数,对字段进行函数处理,例如,通过Max(id)控制仅同步最大值。
 在字段映射未拉取全部字段的情况下,手动编辑源端字段。
注意:MaxCompute Reader暂不支持使用函数。
2.4.1.6 步骤五:配置通道
通过通道配置,控制数据同步过程相关属性。
1)任务期望最大并发数:用于定义当前任务从源端并行读取或并行写入目标端的最大线程数。
2)同步速率:限流——可以通过限流控制同步速率,以保护读取端数据库,避免抽取速度过大,给源库造成太大的压力。限速最小配置为1MB/S。
不限流——在不限流的情况下,任务将在所配置的并发数的限制基础上,提供现有硬件环境下最大的传输性能。
3)错误记录数控制(脏数据控制):用于定义脏数据阈值,及对任务的影响。这里选择不容忍脏数据。
• 不配置时默认允许脏数据,即任务产生脏数据时不影响任务执行。
• 配置为0,表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。
• 允许脏数据并设置其阈值时:
o 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。
o 若产生的脏数据超出阈值范围,同步任务将失败退出。
4)分布式处理能力:用于控制是否开启分布式模式来执行当前任务。
 开启:分布式执行模式可以将用户的任务切片分散到多台执行节点上并发执行,进而做到同步速度随执行集群规模做水平扩展,突破单机执行瓶颈。
 未开启:配置的并发数据仅仅是单机上的进程并发,无法利用多机联合计算。
注意:
 如果对于同步性能有比较高的诉求可以使用分布式模式。 另外分布式模式也可以使用机器的碎片资源,对资源利用率友好。
 如果独享资源组只有1台机器,不建议使用分布式,因为无法利用多机资源能力。
 如果单机已经满足速度需要,建议优选单机模式,简化任务执行模式。
 并发数大于等于8个才能开启分布式处理能力。

2.4.1.7 步骤六:配置调度属性

周期性调度的离线同步任务需要配置任务自动调度时的相关属性。单击右侧的调度配置,分别配置以下几项。
(1)配置节点调度属性:用于为任务配置阶段使用的变量赋值调度参数,用户在上述配置中定义的变量均可以在此处进行赋值,支持赋值常量与变量。

关于参数配置:
调度参数通常会被用于指代某些动态时间的场景,此场景下,可基于业务日期和定时时间进行调度参数的取值设置。概念区分如下:
在这里插入图片描述

调度参数支持的格式如下:
在这里插入图片描述

注意事项:
… 参 数 相 关 。 取 N 年 前 、 N 月 前 的 时 间 数 据 需 使 用 {…}参数相关。 取N年前、N月前的时间数据需使用 NN使{…}参数。
… 参 数 只 能 精 确 到 年 月 日 , 因 此 {…}参数只能精确到年月日,因此 {…}参数不支持KaTeX parse error: Unexpected character: '' at position 22: …mm-dd-1/24}用法。 ̲ 如需对年份、月份进行计算,建…{…}参数。例如, y y y y − N 、 {yyyy-N}、 yyyyN{mm-N}。
KaTeX parse error: Unexpected character: '' at position 10: […]参数相关。 ̲ 取N小时前、N分钟前的时间数…[…]参数。
[ … ] 参 数 基 于 时 分 秒 进 行 替 换 , 无 法 根 据 […]参数基于时分秒进行替换,无法根据 [][yyyy-N]、 [ m m − N ] 时 间 格 式 获 取 多 少 年 前 、 多 少 月 前 的 时 间 数 据 。 单 独 取 年 份 、 月 份 , 请 使 用 [mm-N]时间格式获取多少年前、多少月前的时间数据。单独取年份、月份,请使用 [mmN]使{…}参数。
 如需获取精确到秒的时间数据时,建议使用 [ … ] 参 数 。 例 如 , […]参数。例如, [][yyyy-mm-dd-1-1/24]。
 $[…]调度参数替换值不随实例实际运行时间改变。
$[…]根据实例定时时间取值,调度参数替换值在实例生成时已确定,因此调度参数的替换值不会随着实例实际运行时间而改变。

(2)配置时间属性:用于定义任务在生产环境的周期调度方式。用户可以在调度配置的时间属性区域,配置任务生成周期实例的方式、调度类型、调度周期等属性。
配置如下:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

1)实例生成方式
在这里插入图片描述

2)调度类型
DataWorks支持的调度类型如下表所示。
在这里插入图片描述

在这里插入图片描述

空跑表现如下:
 系统直接返回运行成功,即执行时长为0秒。
 不会真正执行任务,即执行日志为空。
 不会阻塞依赖当前节点的下游节点执行,即下游节点正常执行。
 不会占用资源。

3)调度日历
用于定义任务的调度日期与调度方式,DataWorks支持如下两种日历:
 默认日历:平台提供,适用于通用场景。
 自定义调度日历:用户自定义,适用于有灵活调度日期需求的行业及场景(例如,金融行业)。可根据需要配置日历所应用的工作空间、日历的有效期、指定日期任务的调度方式等规则,详情请参见配置调度日历。
4)调度周期
调度周期即任务在调度场景下自动执行的周期数,用于定义在生产环境调度系统中,多久会真实执行一次节点中的代码逻辑。调度任务会根据调度类型及周期数生成相应的周期实例(例如,小时调度任务每天会根据周期数产生相应数量的小时实例),通过周期实例的方式自动调度运行周期任务。DataWorks支持的调度类型如下:
在这里插入图片描述
在这里插入图片描述

注意:
①任务调度频率与上游任务周期无关
任务多久调度一次与任务本身定义的调度周期有关,与上游任务调度周期无关。
②DataWorks支持不同调度周期的任务互相依赖
DataWorks中,调度任务会根据调度类型及周期数生成相应的周期实例(例如,小时调度任务每天会根据周期数产生相应数量的小时实例),通过实例的方式运行任务。周期任务设置的依赖关系,其本质是任务间所生成实例的依赖。上下游任务的调度类型不同,其生成的周期实例数及实例的依赖情况不同。
③非调度时间任务会空跑
DataWorks上非每天调度的任务(例如周、月调度的任务)在非调度时间内会空跑,当到达任务定义的调度时间后立即返回成功状态。若下游存在日调度任务,会调起该下游日调度任务正常执行。即上游空跑,下游调度任务正常根据节点定义的调度时间执行。
④任务执行时间说明
此处仅设置任务预期调度时间,任务的实际执行时间受多因素影响。例如,上游定时时间、任务执行资源情况、任务实际运行条件等。
5)超时定义
设置超时时间后,如果任务运行时长超过超时时间,任务将自动终止运行。其配置说明如下:
 超时时间对周期实例、补数据实例、测试实例均生效。
 超时时间默认值为3~7天,系统根据实际负载情况动态调整默认的任务超时时间,范围为3~7天不等。
 手动设定超时时间时,最大值可设置为168小时(7天)。
6)重跑说明
可在时间属性中配置节点在特定情况下重跑,以及指定重跑时间及次数。
注意:使用重跑属性时,应尽量保证任务的幂等性(特殊任务除外),避免在任务出错重跑后,出现大量数据质量问题。例如,在ODPS SQL的开发过程中,使用insert overwrite语句来替代insert into语句。
①重跑属性
重跑属性不能为空,其支持的类型及应用场景如下表所示。
在这里插入图片描述

②出错自动重跑
在这里插入图片描述

注意:
 当重跑属性设置为运行成功或失败后皆不可重跑时,则不会显示出错自动重跑属性,即任务出错不会自动重跑。
 任务执行时,超过了超时时间导致的节点失败,自动重跑配置将不生效。
7)生效日期
调度节点在有效日期内生效并自动调度,超过有效期的任务将不会自动调度。此类任务为过期任务,用户可在运维大屏查看过期任务数量,并根据情况对其做下线等处理。

(3)配置资源属性:用于定义调度场景下,将当前任务下发至数据集成任务执行资源时所使用的调度资源组,用户可以在调度配置的资源属性区域,选择任务调度运行时需要使用的资源组。
(4)配置调度依赖
DataWorks上任务的调度依赖是指调度场景下节点间的上下游依赖关系。在DataWorks中,上游节点任务运行完成且运行成功,下游节点任务才会开始运行。配置调度依赖后,可保障调度任务在运行时能获取到正确的数据(即当前节点依赖的上游节点成功运行后,DataWorks通过节点的运行状态识别到上游表的最新数据已产生,下游节点再去取数),避免下游节点取数据时,上游表数据还未正常产出,导致下游节点取数出现问题。
注意:任务实际运行时间除了取决于任务本身的定时时间(即任务在调度场景下的预期执行时间)外,还取决于上游任务的完成时间(即下游任务实际执行时间还取决于上游任务的定时时间)。若上游任务未完成运行,即便下游任务的定时时间早于上游任务,下游任务也不会运行。
因为这个是一个数据同步任务,所以不存在数据血缘,直接依赖流程的起始节点或者根节点即可。这里勾选使用工作空间根节点。
在这里插入图片描述

2.4.1.8 步骤七:提交并发布任务

若任务需要进行周期性调度运行,则需要将任务发布至生产环境。这里先进行保存即可。
然后进行测试。
在这里插入图片描述

运行成功后,可以查询一下数据。
在这里插入图片描述

在test节点,进行查询。
select * from student_list;
可见数据已经成功从mysql导入到了maxcompute。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1990749.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C:野指针介绍(定义、危害、规避)以及野指针与空指针的区分

目录 1、野指针 1.1 野指针的成因 1.指针未初始化 2.指针越界访问 3.指针指向的空间释放 1.2 野指针的危害 1.3 如何规避野指针 1. 指针初始化 2. 小心指针越界 3.指针变量不使用就及时赋上NULL 4. 指针使用前检查是否是空指针 5. 避免返回局部变量的地址 1.4 区…

微信小程序【五】摇骰子

摇骰子 一、dice.js二、dice.json三、dice.wxml四、dice.wxss 效果简述:点击设置“骰子个数”,喝一杯前,先摇一摇。 骰子图片命名示例: 1.png、2.png 一、dice.js Page({data: {numDice: 1, // 初始化骰子数diceImages: [],dic…

【iOS多线程(二)】GCD其他方法详解

GCD其他方法 dispatch_semaphore (信号量)什么是dispatch_semaphore(信号量)?dispatch_semaphore主要的三个方法dispatch_semaphore主要作用线程安全线程同步 dispatch_afterdispatch_time_t 两种形式 GCD 一次性代码(只执行一次&#xff09…

电脑维修店的主题源码 简洁wordpress企业主题模版下载

简洁wordpress企业主题,一个简洁的电脑维修店的主题 源码下载:https://download.csdn.net/download/m0_66047725/89612932 更多资源下载:关注我。

【深度学习】TTS,CosyVoice,推理部署的代码原理讲解分享

文章目录 demo代码加载配置文件speech_tokenizer_v1.onnx(只在zero_shot的时候使用)campplus.onnx(只为了提取说话人音色embedding)`campplus_model` 的作用代码解析具体过程解析总结示意图CosyVoiceFrontEndCosyVoiceModel推理过程总体推理过程推理速度很慢: https://git…

OpenNebula-6.9.80使用介绍

目录 准备:给宿主机添加一块网卡 1. 创建群组 2. 创建用户 3. 创建集群 4. 创建主机 5. 安全组 6. 网络模板 7. 虚拟网络 8. 导入镜像 9. 创建虚拟机模板 10. 实例化虚拟机 11. 卸载磁盘 12. 再次实例化 13. 添加新节点 14. 虚拟机迁移 准备&…

面壁的智能开源 MiniCPM-V 2.6 边缘人工智能多模态功能与 GPT-4V 不相上下

"MiniCPM-V2.6 "是一个边缘多模态人工智能模型,仅拥有 80 亿个参数,却在单图像、多图像和视频理解任务中取得了低于 200 亿个参数的三项 SOTA(艺术境界)成绩,显著增强了边缘多模态能力,并与 GPT-…

python.tkinter设计标记语言(转译2-html)

TOC 前言 本文只作为笔记记录。 前文我们已经通过TinText渲染器部分和TinML获得了test.tin解释后的标记内容列表。本文,我们将根据这个解释结果将Tin标记转为html文件。 转为html的好处 第一,Tin标记语言作为一个小小小小小项目,光把编写…

34-《球兰》

球兰 球兰(学名:Hoya carnosa(L.f.)R. Br),又名:马骝解、狗舌藤、铁脚板等,马利筋亚科球兰属多年生植物 。攀援灌木,附生于树上或石上,茎节上生气根。分布于云…

单链表-数据结构

一、单链表 1.结构定义 typedef struct LNode {int data;struct LNode* next; }LNode, * LinkList; 2.功能实现 ①创造结点 //创造结点 LNode* NewNode(int x) {struct LNode* ret (LNode*)malloc(sizeof(LNode));ret->data x;ret->next NULL;return ret; } ②插…

TypeError: (0 , _xxx.default) is not a function

1.首先从控制台报错信息看很让人疑惑,好像并没有这个函数,我这里是引入了address.js这个这个文件里面的函数导致的 2. 直接说原因:导入的函数不是default,但使用的时候没有使用"{}" import xxx from yyy 3.直接加上&q…

Golang | Leetcode Golang题解之第330题按要求补齐数组

题目&#xff1a; 题解&#xff1a; func minPatches(nums []int, n int) (patches int) {for i, x : 0, 1; x < n; {if i < len(nums) && nums[i] < x {x nums[i]i} else {x * 2patches}}return }

【vulnhub】Matrix:1靶机

靶机安装 下载地址&#xff1a;https://download.vulnhub.com/matrix/Machine_Matrix.zip 运行环境&#xff1a;VirtualBox 信息收集 靶机扫描 netdiscover -i eth0 -r 192.168.7.0/24 端口扫描&#xff0c;开放端口22、80、31337 nmap -A 192.168.7.203 -p- 目录扫描 d…

「C++系列」引用

文章目录 一、引用及定义引用的基本用法注意事项 二、引用与指针1. 定义和初始化2. 语法糖3. 空值4. 数组和函数5. 性能6. 用途 三、引用作为参数/返回值1. 把引用作为函数参数2. 把引用作为函数返回值 四、相关链接 一、引用及定义 在C中&#xff0c;引用&#xff08;Referen…

2025深圳国际户外用品暨跨境电商工厂选品展览会

2025深圳国际户外用品暨跨境电商工厂选品展览会 2025 Shenzhen International Outdoor Products and Cross border E-commerce Factory Selection Exhibition 时间&#xff1a;2025年02月27-3月01日 地点&#xff1a;深圳会展中心&#xff08;福田馆&#xff09; 详询主办方…

地接侠小程序(Taro)兼容IOS系统Bug解决(redux持久化不成功、整个页面会拖动)

在写地接侠小程序的时候就是有考虑过兼容问题的&#xff0c;但是在写的过程中并没有用苹果手机进行调式&#xff0c;一直都是用的自己的安卓手机&#xff0c;一直都是没有问题的&#xff0c;但是毕竟项目需要上线&#xff0c;于是在上线前用苹果手机测试果然出现了预想中的问题…

Leetcode JAVA刷刷站(3)无重复字符的最长子串

一、题目概述 二、思路方向 为了找出给定字符串中不含有重复字符的最长子串的长度&#xff0c;我们可以使用滑动窗口的方法。这种方法通过维护一个窗口&#xff08;或称为子串&#xff09;&#xff0c;并动态地调整窗口的左右边界来找到最长的无重复字符子串。 三、代码实现 …

利用自然语言处理(NLP)技术挖掘旅游评论数据

目录 简单了解 延伸 如何使用自然语言处理技术提高旅游评论情感倾向的准确性&#xff1f; 旅游评论数据中多模态信息融合的最佳实践是什么&#xff1f; 在旅游评论数据预处理和清洗过程中&#xff0c;哪些方法最有效&#xff1f; 使用Python网络爬虫技术进行旅游评论数据的…

便携式气象监测设备:精准掌握自然气象变化

在探索自然、指导农业生产、保障户外活动安全以及进行科学研究等多个领域&#xff0c;便携式气象监测设备正逐渐成为重要的工具。这些小巧而强大的设备&#xff0c;以其便携性、实时性和高精度&#xff0c;让我们能够轻松掌握周围环境的微妙变化。 便携式气象监测设备集成了多种…

35 搜索插入位置

解题思路&#xff1a; \qquad 时间复杂度要求为O(Log N)&#xff0c;可知此题用二分查找解决。 \qquad 二分基本思路是&#xff0c;通过锚定一个中间值mid&#xff0c;把搜索区间一分为二&#xff0c;根据mid与目标值的比较结果&#xff0c;更新下一次搜索区间&#xff08;左…