byzer笔记本使用

news2024/9/23 17:23:03

byzer笔记本使用

数据源的定义

对于etl,起始的第一步往往是定义一个数据来源。

设置数据源

通过设置 -> 外部数据源 -> 新增可以新增jdbc类型的数据源。

在这里插入图片描述

命令指定数据源

notebook中可以使用connect命令进行jdbc数据源的指定:

> SET user="root";
-- 密码可加密
> SET password="root";
> SET jdbc_url="jdbc:mysql://127.0.0.1:3306/byzer_demo?characterEncoding=utf8&zeroDateTimeBehavior=convertToNull&tinyInt1isBit=false&useSSL=false";
> CONNECT jdbc WHERE
 url="${jdbc_url}"
 and driver="com.mysql.jdbc.Driver"
 and user="${user}"
 and password="${password}"
 AS mysql_instance;

新增jdbc数据源类型

jdbc数据源类型新增的方法即是上传对应的驱动包到${BYZER_HOME}/libs目录下,并重启应用即可。

目前已经验证过支持的jdbc数据源有:

  1. kyligence

  2. impala

  3. clickhouse

  4. mysql

  5. oracle

目前已经覆盖本部门批量(impala)+实时(clickhouse)的数据来源场景。

也可以在OLTP类型的源数据库(oracle)进行实时分析,预测OceanBase同样也是可以支持的。

创建笔记本,进行ETL

笔记本可以认为是一个增强的SQL脚本,可以使用markdown,python,kylin,byzer-lang等语法进行编写。个人使用markdown编写整体思路,在单个byzer-lang call中使用--来增加单行注释。

加载数据

使用load命令加载数据,可以是外部的jdbc数据源,也可以是处理好放在hdfs、hive、deltalake中的数据。
在这里插入图片描述

另外,对于csv,excel,json类型的数据,byzer也支持上传并分析,如此一来,对于业务人员提供的excel,或是其他系统调用返回的json报文,都能够快速的加载到byzer平台中进行查询分析。

查询、转换数据

使用sql语句即可进行数据的查询、转换,即使数据来源于两个异构的数据源,也可以在byzer中无缝衔接。另外,byzer的语法中支持模板语言来增加sql的可编程性,降低编码量。例如如下的SQL:

select 
SUM( case when features is null or features='' then 1 else 0 end ) as features,
SUM( case when label is null or label='' then 1 else 0 end ) as label,
1 as a from mockData as output;

features字段与label字段处理逻辑完全相同,可以简写为如下的SQL:

select 
#set($colums=["features","label"])
#foreach( $column in $colums )
    SUM( case when `$column` is null or `$column`='' then 1 else 0 end ) as $column,
#end
 1 as a from mockData as output;

增强SQL

sql语法在byzer中得到了很大的增强,上述的模板语言为一例子。byzer增强sql的方式有多种,包括但不限于以下几种:

  1. 代码引入 include

    通过代码引入,可以抽取公共的方法,提高SQL可读性。也使得历史上已经编写的python脚本得到复用。

-- 1. 引入自定义函数
include local.`libCore.udf.hello`;
-- 使用函数
select hello() as name as output;


-- 2. 引入其他byzer脚本
include project.`src/algs/b.byzer`;
-- 3. 引入python脚本
!pyInclude project 'src/algs/xgboost.py' named rawXgboost;
  1. 宏函数

    宏函数主要是为了复用 Byzer-lang 代码。

set loadExcel = '''
load excel.`{0}` 
where header="true" 
as {1}
''';
-- 传入两个参数进行excel的加载
!loadExcel ./example-data/excel/hello_world.xlsx helloTable;

写入数据

最终步骤,将查询、转换过的数据写入存储,写入的介质基本与读取的相同,支持hdfshivedeltalakejdbcexcelcsv等。使用的是save命令。

-- 以覆盖的方式写入文件系统/tmp/jack中
save overwrite table1 as json.`/tmp/jack`;

-- 以追加的方式写入jdbc数据源db_1的crawler_table表中
save append tmp_article_table as jdbc.`db_1.crawler_table`;

性能

这里主要观察的是byzer任务在cdh中执行的性能,耗时。cdh的3个节点的配置为64c/128g

  1. byzer的执行引擎是常驻的yarn集群中的,提交任务避免反复启动的过程,简单的SQL在执行上耗时在秒级(load+select 耗时在1秒多)。

  2. 百万级的数据抽取,在impala中抽取95万行数据,且在kyligence中抽取105万行数据耗时47秒,抽取速率高。

扩展

即使byzer内置了较多的函数,例如http请求等等,必然也是无法覆盖全部需求的,byzer提供了 UDF (User-Defined Function)(用户定义函数)的扩展方式,支持以python,scala,java等语言进行扩展,以python为例:

-- 注册一个自定义UDF echoFun
> REGISTER ScriptUDF.`` AS echoFun WHERE
and lang="python"
and dataType="map(string,string)"
and code='''
def apply(self,m):
    return m
 ''';

-- 使用echoFun
> SELECT echoFun(map("a","b")) AS res;
{ "a": "b" }

实际使用时,可以将注册UDF封装为一个byzer脚本,在流程使用时,按需使用include引入。

工作流编辑生成笔记本

工作流目前的作用主要是辅助对sql语法不大了解的分析师,通过界面配置化的形式生成sql,实际执行仍需以另存为笔记本的形式,保存为一个笔记本后,在笔记本中执行。

配置节点

从左侧节点库中拖入节点,并配置其必须的参数,并可实时预览其生成的sql。

在这里插入图片描述

另存为笔记本

在左上角点击另存为笔记本,能够保存在笔记本格式。

在这里插入图片描述

调度

byzer目前调度对接的为Apache DolphinScheduler 调度平台。其版本为V1.3.9(发版于 2021-10-22),当前官网最新版本已为V3.1.3。其社区成熟,产品功能丰富,足够作为byzer自我调度使用。

若需接入内部的调度平台,byzer 在byzer-notebook工程中,io.kyligence.notebook.console.controller.SchedulerController类定义了调度所需的相关接口,二次开发接入难度低。

问题

笔记本

  1. 笔记本的形式仅顺序执行

    举个例子,一个流程中,需要将结果写入到两个介质,当前仅支持顺序写入,会降低一定的时效性。

    需要对notebook进行二次开发,分析依赖性,最终以并行任务的形式提交到spark集群中。

  2. 对于数据源连接报错时,byzer并没有直接报错并停止任务,需要改进。

工作流

  1. 工作流中只能校验基本的语法,不做执行,实际执行仍可能报错,仍然需要在笔记本中修改。

优化项

工作流

  1. 工作流每个节点仅显示不同类型的图表,并不能设置节点名称,添加节点描述。这对一个较长的工作流来说,后续的维护难度会较高。需要二次开发支持。

数据目录

  1. jdbc数据源的数据目录

    当前jdbc数据源仅在设置中配置其实例,没有图形化界面可以看到数据库下的表、列信息,会在编写sql时造成一定的不便。

设置

  1. 重启后,jdbc数据源并不会立马恢复连接,导致笔记本中使用该jdbc数据源会失效。应尽快完成重连使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/171404.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Elasticsearch(四)--一文弄懂ES的映射操作

一、前言 上一章学习了ES的索引相关操作,那么这一章就轮到映射,了解映射操作最重要的点就是去学习ES的数据类型。那么本章我们会了解到映射的创建、查看和修改操作,然后详细介绍ES中的基本数据类型和复杂的数据类型,并且会对常用…

解决ElementUI导航栏重复点菜单报错问题

在使用ElementUI中的导航时,默认情况下如果重复点击某选项,会报错。 element-ui.common.js?b705:3354 Error: Avoided redundant navigation to current location: “/home/home1”. at createRouterError (vue-router.esm.js?8c4f:2060) at createNa…

Java IO流 - 打印流详细使用介绍

文章目录打印流打印流基本使用输出语句重定向打印流 打印流基本使用 打印流: 作用:打印流可以实现更方便、更高效的打印数据到文件中去。打印流一般是指:PrintStream,PrintWriter两个类。 可以实现打印什么数据就是什么数据,例如…

【GD32F427开发板试用】06-硬件I2C软件I2C驱动0.91OLED

本篇文章来自极术社区与兆易创新组织的GD32F427开发板评测活动,更多开发板试用活动请关注极术社区网站。作者:Stark_GS I2C 简介及特点 并行总线至 I2C 总线协议的转换及接口;同一接口既可实现主机功能又可实现从机功能;主从机之…

在线教育-谷粒学院学习笔记(四)

文章目录1 内容介绍2 阿里云存储OSS3 Java代码操作阿里云oss4 搭建阿里云oss项目环境5 上传头像后端实现6 Nginx使用7 上传头像前端实现8 课程分类管理介绍9 EasyExcel工具10 课程分类添加功能1 内容介绍 添加讲师实现头像上传功能 阿里云oss存储服务 添加课程分类功能 使用Ea…

欧拉的“她力量”,如何为品牌注入新能量?

文|智能相对论作者| Kinki近日,百度营销联合CBNData推出的《2022新能源汽车趋势洞察》正式发布,报告显示,随着新能源汽车的普及,新中产女性已成为了“消费新势力”。女性更偏爱新能源汽车已不是新鲜观点,调研显示&…

物理主机telenet登录ensp虚拟网络设备并显示配置python脚本

一、物理主机telnet登录ensp虚拟网络设备 1、物理主机配置 1.1、物理主机环回口虚拟网卡配置 见本人博客:Ensp用windows回环口连接cloud配置_ensp环回口配置_林锋Space的博客-CSDN博客https://liulinfeng.blog.csdn.net/article/details/128098737 1.2、物理主机telnet开启 …

大数据的整体见解

如何建设高效的数据模型体系,使数据易用,避免重复建设和数据不一致性,保证数据的规范性;如何提供高效易用的数据开发工具;如何做好数据质量保障;如何有效管理和控制日益增长的存储和计算消耗;如…

文件下载 response响应ContentType与a标签download属性

参考资料 MediaType介绍了解HTML/HTML5中的download属性header中Content-Disposition的作用 目录一. ContentType二. a标签download属性2.1 下载同源静态资源文件2.2 后台可省略Content-Disposition一. ContentType 我们在进行文件下载的时候,后端往往需要通过如下…

CSRF(跨站请求伪造)

一、csrf是什么CSRF(Cross Site Request Forgery,跨站请求伪造)。是一种对网站的恶意利用,通过伪装来自受信任用户的请求来利用受信任的网站。原理是攻击者构造网站后台某个功能接口的请求地址,诱导用户去点击或者用特…

uni-app 中实现文件和图片的上传-H5

之前写过一篇上传的文章📕,但是那篇文章仅仅只能实现上传图片的功能,而且代码写的比较乱,看起来很繁杂,最近有幸又遇到了上传图片和文件的需求,在完成这个功能后,整理一下,希望能给需…

第十四届蓝桥杯单片机组学习笔记(2):按键

第十四届蓝桥杯单片机组学习笔记(2):按键前言区分高低电平驱动按键消抖软件消抖触发处理的方式矩阵键盘最简单常用的人机交互手段——按键 前言 实现按键检测需要解决的问题: 按键是低电平按下还是高电平按下;按键消…

(1分钟速览)KBM-SLAM 论文阅读笔记

编辑切换为居中添加图片注释,不超过 140 字(可选)这篇博客记录了上面这篇论文的学习笔记。编辑切换为居中添加图片注释,不超过 140 字(可选)这个是本文的摘要,一眼开过去就是单目slam当今所遇到…

机器学习(一):人工智能概述

文章目录 人工智能概述 一、人工智能应用场景 二、人工智能小案例 三、人工智能发展必备三要素 四、人工智能、机器学习和深度学习 人工智能概述 一、人工智能应用场景 二、人工智能小案例 案例一 学习链接:https://quickdraw.withgoogle.com 案例二 学习链…

老杨说运维 | 2023,浅谈智能运维趋势(三)

文末附有视频回顾 前言: 在回顾(一)中,老杨提到的智能运维发展趋势中,面对国际化形势不确定的情况,信创部分的比例要求正在递增。作为国家经济发展的新动能,信创发展已步入深水区,智…

cv2.imread()、cv2.putText、cv2.imwrite()、cv2.waitKey()

cv2cv2.imread()cv2.putText()cv2.imwrite()cv2.waitKey()cv2.imread() 用于读取图像数据案例演示: import cv2# ouput img properties img_pathC:/Users/WHY/Pictures/Saved Pictures/OIP-C (1).jfif def funOutput…

安卓手机使用Linux Deploy安装CentOS

目录 前言 准备工作 实践 busybox安装 安装并配置Linux Deploy 局域网使用ssh连接服务器 公网使用ssh连接服务器 环境安装 写在最后 前言 最近沉迷于服务器搭建,书接上文,在安卓高版本中成功安装了服务器,但是安卓低版本的却一言难尽…

2023CUPT第七题 法拉第波 思路和解法

本文未完原题A droplet of less viscous liquid floating in a bath of a more viscous liquid develops surprising wave- like patterns when the entire system is set into vertical oscillation. Investigate this phenomenon and the parameters relevant to the product…

Webpack学习笔记

Webpack学习笔记1.引言2.Webpack相关的基础性问题3.Webpack的使用4.Webpack与代码规范和兼容性5.优化Html入口文件的处理6.实现webpack热更新7.生产模式与开发模式分析8.优化css配置,避免闪频现象9.代码压缩1.引言 最近想来自己对于前端的学习还是有很多的不足&…

毕业论文查重

每当毕业季论文编写都是一件大事,论文查重又是最让人头痛的事情,这里总结一些简单论文查重方法,希望对你有帮助。 首先通过一下系统查询重复比例,之后对照重复比例进行修改,如下图通过PaperPass论文检测进行查询生成的…