1.1dataphin是什么?
Dataphin是由阿里研发的智能大数据建设平台,提供一站式数据中台(大数据平台)建设服务。Dataphin通过沙箱(项目)实现业务及作业资源隔离,运行更快,且数据同步到Dataphin后,会统一将敏感数据脱敏后放入脱敏层,增强安全性并提高了效率。
Dataphin支持选择不同计算引擎进行数据处理,包括:MaxCompute、HadoopHive、AnalyticDB PostgreSQL、Flink,产品使用大致分成几个部分:数仓规划、数据研发、资产管理和资产服务。其服务模式包括:
1)公共云在线服务:Dataphin 支持按月订购的预付费模式,开通即可使用;
2)线下独立部署:提供一次购买软件并每年订购维保的买断式服务。
1.2页面展示
1.3核心模块
研发:报表开发及数据查询
资产:快速查询当前Dataphin有哪些数据资产
规划及管理中心:一般大数据运维及产品开发人员使用
2.dataphin使用示例
2.1准备数据源
2.1.1已有数据源
申请权限资产—>搜索相关表—>申请权限—>选择项目及对应字段
2.1.2创建MySQL数据源
通过创建MySQL数据源能够实现Dataphin读取MySQL的业务数据或向MySQL写入数据。本文为您介绍如何创建MySQL数据源。
背景信息
MySQL是一种关系型数据库。 常用于网站、应用程序和商业产品,是一种常见的主要关系数据存储系统。更多详情请参见MySQL官网。
使用限制
-
Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。
-
仅支持创建5.1.43、5.6/5.7、8.0版本的MySQL数据源。
操作步骤
-
在Dataphin首页,单击顶部菜单栏 管理中心 。
-
按照下图指引,进入 新建数据源 对话框
-
在 新建数据源 对话框的 关系型数据库 区域,选择 MySQL 。
如果您最近使用过MySQL,也可以在 最近使用 区域选择MySQL。同时,您也可以在搜索框中,输入MySQL的关键词,快速筛选。
-
在 新建MySQL数据源 对话框中,配置连接数据源参数。
-
配置数据源的基本信息。
参数 描述 数据源名称 命名规则如下: * 只能包含中文、字母、数字、下划线(_)或中划线(-)。 * 长度不能超过64字符。 数据源编码 配置数据源编码后,您可以在Flink_SQL任务中通过 数据源编码.表名称
或数据源编码.schema.表名称
的格式引用数据源中的表;如果需要根据所处环境自动访问对应环境的数据源,请通过${数据源编码}.table
或${数据源编码}.schema.table
的变量格式访问。更多信息,请参见Dataphin数据源表开发方式。 重要 * 目前仅支持 MySQL 、 Hologres 、 MaxCompute 数据源。 * 数据源编码配置成功后不支持修改。版本 支持选择5.1.43、5.6/5.7和8.0版本。 数据源描述 对MySQL数据源的简单描述。不得超过128个字符。 数据源配置 基于业务数据源是否区分生产数据源和开发数据源: * 如果业务数据源区分生产数据源和开发数据源,则选择 生产+开发数据源 。 * 如果业务数据源不区分生产数据源和开发数据源,则选择 生产数据源 。 标签 您可根据标签给数据源进行分类打标,如何创建标签,请参见数据源管理标签。 -
配置数据源与Dataphin的连接参数。
若您的数据源配置选择 生产+开发数据源 ,则需配置 生产+开发数据源 的连接信息。如果您的数据源配置为 生产数据源 ,仅需配置 生产数据源 的连接信息。说明
通常情况下,生产数据源和开发数据源需配置非同一个数据源,以使开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。
参数 描述 JDBC URL 链接地址的格式为 jdbc:mysql://host:port/dbname
。 说明 MySQL数据源的默认端口为3306。用户名 、 密码 数据库的 用户名 和 密码 。 SSL加密 开启后,需上传Truststore证书并填写Truststore证书密码。 -
配置数据源的高级设置。
参数 描述 connectTimeout 数据库的connectTimeout时长(单位ms),默认900000毫秒(15分钟)。 说明 * 若您在JDBC URL中带有connectTimeout配置,则connectTimeout为JDBC URL中配置的超时时间。 * Dataphin V3.11版本之前的创建数据源,connectTimeout默认为 -1
,表示无超时限制。socketTimeout 数据库的socketTimeout时长(单位ms),默认1800000毫秒(30分钟)。 说明 * 若您在JDBC URL中带有socketTimeout配置,则socketTimeout为JDBC URL中配置的超时时间。 * Dataphin V3.11版本之前的创建数据源,socketTimeout默认为 -1
,表示无超时限制。连接重试次数 数据库连接超时,将自动重试连接直到完成设定的重试次数。若达最大重试次数仍未连接成功,则连接失败。 说明 * 默认重试次数为 1次 ,支持配置 0~10 之间参数。 * 连接重试次数将默认应用于 离线集成任务 与 全域质量 (需开通资产质量功能模块),离线集成任务中支持单独配置任务级别的重试次数
-
-
单击 测试连接 ,测试数据源是否可以和Dataphin进行正常的连通。
-
测试成功后,单击 确定 ,完成MySQL数据源的创建。
2.2 数据查询
步骤:选择沙箱—>创建文件夹及页面—>写SQL脚本保存并执行
2.3创建离线管道(抽取数据)
(多数据源同步到一个或多个目标数据源)
步骤一:创建离线单条管道
-
进行数据集成页面。
-
在数据集成页面,按照下图操作指引,进入 创建管道开发脚本 对话框。
-
在 创建管道开发脚本 对话框中,配置管道相关参数。
参数 描述 管道名称 填写管道名称。 命名规则:支持最长64个字符,不支持以下特殊字符:` 调度类型 选择管道的调度类型。 调度类型 包括: * 周期性节点 : 指需定期执行的任务。 * 手动节点 : 指没有依赖关系,需手动触发的任务。 描述 填写对离线单条管道的简单描述。 选择目录 默认选择为离线管道。同时您也可以在离开管道页面创建目标文件夹后,选择该目标文件夹为离线管道任务的目录。 -
单击 确定 。
步骤二:开发离线管道脚本
离线单条管道采用可视化组件的开发方式,您可通过单击画布侧边栏 组件库 ,选择所需组件类型后拖拽组件到管道开发画布中,开发管道脚本。如下图所示:
-
组件类型: 组件库分为5种组件类型,包括 输入 、 转换 、 流程 、 输出 、 自定义 。各组件类型使用场景各不相同,您可根据业务需求选择所需组件类型进行开发。
-
组件: 开发管道脚本的功能模块,各组件对应不同的功能。
步骤三:管道调度配置
-
单击开发画布菜单栏按钮,进行调度配置。
-
在调度配置页面,配置集成管道的 基本信息 、 调度配置 、 调度依赖 、 调度参数、运行配置 。各配置说明如下:
-
基本信息 :通过集成管道基本信息,您可配置集成管道任务开发负责人、运维负责人及描述。
-
调度配置 :对于 周期性节点 ,调度配置用于定义集成管道任务在生产环境的调度方式。您可以通过调度属性,配置集成管道任务的调度类型、调度周期、调度逻辑与执行等。
-
调度依赖 :对于 周期性节点, 调度依赖用于定义集成管道任务在调度任务中的依赖节点。Dataphin通过各个节点的调度依赖的配置结果,有序的运行业务流程中各个节点,保障业务数据有效、适时地产出。
-
运行配置: 您可根据业务场景为该集成管道任务配置任务级的运行超时时间和任务运行失败时的重跑策略,杜绝因计算任务长时间资源占用造成资源浪费的同时提高计算任务运行的可靠性。
-
资源配置 :您可为当前离线集成任务配置所属资源组,该离线集成任务将使用该资源组资源进行任务调度。
-
步骤四:保存并提交离线集成任务
-
单击画布上方的图标,保存管道任务。
-
单击画布上方的图标,在 提交备注 对话框,填写备注信息后,单击 确定并提交 。
说明
确认并提交离线集成任务后,系统将自动检查提交的离线集成任务,检查项包括配置检查、权限检查、 表重复性检查。
-
配置检查: 包括管道检查和组件检查,检查配置项完整性。
-
权限检查: 包括检查数据源、表、及字段的权限;密钥使用权限;质量规则发布权限。
-
表重复性检查: 包括检查管道中的来源表是否在已提交或已发布的任务中已作为来源表,以及管道中的目标表是否在已提交或已发布的任务中已作为来目标表。
若提交的集成任务中,存在以上检查项的告警或错误信息。建议您根据提示信息解决告警或错误后,在进行提交。
-