一百八十七、大数据离线数仓完整流程——步骤六、在ClickHouse的ADS层建表并用Kettle同步Hive中DWS层的结果数据

news2024/11/20 21:22:20

一、目的

经过6个月的奋斗,项目的离线数仓部分终于可以上线了,因此整理一下离线数仓的整个流程,既是大家提供一个案例经验,也是对自己近半年的工作进行一个总结。

二、数仓实施步骤

(六)步骤六、在ClickHouse的ADS层建表并用Kettle同步Hive中DWS层的结果数据

1、ClickHouse的ADS层建库建表语句

--如果不存在则创建hurys_dc_ads数据库
create database if not exists hurys_dc_ads;
--使用hurys_dc_ads数据库
use hurys_dc_ads;


--1.1转向比数据表——5分钟周期
create  table  if not exists hurys_dc_ads.ads_turnratio_volume_5min(
    device_no        String                comment '设备编号',
    create_time      DateTime              comment '创建时间',
    start_time       DateTime              comment '开始时间',
    name             Nullable(String)      comment '场景',
    direction        Nullable(String)      comment '雷达朝向',
    volume_sum       Nullable(int)         comment '指定时间段内通过路口的车辆总数',
    volume_left      Nullable(int)         comment '指定时间段内通过路口的左转车辆总数',
    volume_straight  Nullable(int)         comment '指定时间段内通过路口的直行车辆总数',
    volume_right     Nullable(int)         comment '指定时间段内通过路口的右转车辆总数',
    volume_turn      Nullable(int)         comment '指定时间段内通过路口的掉头车辆总数',
    day              Date                  comment '日期'
)
ENGINE = MergeTree
PARTITION BY (day)
PRIMARY KEY day
order by day
TTL day + toIntervalMonth(12)
SETTINGS index_granularity = 8192;

2、海豚执行ADS层建表语句工作流

对于刚部署的服务器,由于Hive没有建库建表、而且手动建表效率低,因此通过海豚调度器直接执行建库建表的.sql文件

(1)海豚的资源中心加建库建表的SQL文件

(2)海豚配置DWS层建表语句的工作流(不需要定时,一次就行

#! /bin/bash
source /etc/profile

clickhouse-client --user default --password hurys@123 -d default --multiquery <ads.sql

注意:default是clickhouse创建时自带的数据库

3、Kettle转换任务配置

注意:从Hive到ClickHouse,每次是增量导入,而不是全量导入

4、海豚调度器调度kettle转换任务

(1)海豚配置ADS层每日执行Kettle任务的工作流(需要定时,每日一次

#!/bin/bash
source /etc/profile

/usr/local/hurys/dc_env/kettle/data-integration/pan.sh -rep=hurys_linux_kettle_repository -user=admin -pass=admin -dir=/hive_to_clickhouse/ -trans=02_Hive_to_ClickHouse_dws_evaluation_1hour level=Basic >>/home/log/kettle/02_Hive_to_ClickHouse_dws_evaluation_1hour_`date +%Y%m%d`.log 

(2)工作流定时任务设置(注意与其他工作流的时间间隔

(3)注意点
3.3.1 由于每次kettle任务是增量导入数据,因此在脚本里添加kettle运行的日志

level=Basic >>/home/log/kettle/02_Hive_to_ClickHouse_dws_evaluation_1hour_`date +%Y%m%d`.log 

可以查看一下kettle运行的日志文件

离线数仓从Kafka到ClickHouse的全流程大致就是如此,当然很多细节需要优化完善!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1038989.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端关于对象中套用对象传参的小问题

在js的对象是引用类型的&#xff0c;他如果里面还套用对象的话那么通过axios传参给后端就会出现一个问题&#xff0c;就是【object&#xff0c;object】这种包装形式 那么如何来解决这个问题呢&#xff1f; 其实这就是要对数据传输中json格式要有一定的了解才可以解决这个问题…

windows 安装 MySQL 绿色版

windows 安装 MySQL 绿色版 下载 官网&#xff1a; MySQL下载页面&#xff1a; MySQL直接下载链接&#xff1a;https://cdn.mysql.com//Downloads/MySQL-8.0/mysql-8.0.34-winx64.zip 安装 将下载的mysql.zip文件解压缩到指定目录 搜索 cmd 并以管理员身份运行 切换到…

详解MySQL索引+面试题

前言: 📕作者简介:热爱编程的小七,致力于C、Java、Python等多编程语言,热爱编程和长板的运动少年! 📘相关专栏Java基础语法,JavaEE初阶,数据库,数据结构和算法系列等,大家有兴趣的可以看一看。 😇😇😇有兴趣的话关注博主一起学习,一起进步吧! 一、索引概述…

iMovie for Mac v10.3.9(视频剪辑)

iMovie是一款视频剪辑软件&#xff0c;广泛应用于Mac和iOS设备。以下是关于iMovie软件的一些推荐信息&#xff1a; 简单易用。iMovie的设计简洁&#xff0c;操作简单&#xff0c;即使是没有剪辑经验的新手也可以轻松上手。软件内置了丰富的视觉效果、滤镜、绿幕抠图、分屏和画…

算法基础之差分和前缀和

差分 差分介绍 结论&#xff1a;差分是前缀和的逆运算 举例 一维差分 //一维前缀和 a[i]部分就是一维差分数组 s[i] s[i-1]a[i]; //一维差分 a[i] s[i]-s[i-1];二维差分 //二维前缀和 a[i][j]部分就是一维差分数组 s[i][j] s[i-1][j]s[i][j-1]-s[i-1][j-1]a[i][j]; //二…

优思学院|如何解读Minitab中测量系统分析(MSA GRR)的结果?

在现代制造和质量控制过程中&#xff0c;精确的测量是至关重要的。为了确保我们的测量工具可靠&#xff0c;我们需要评估其重复性与再现性。这就是测量系统分析&#xff08;Measurement System Analysis&#xff0c;简称MSA&#xff09;的关键目标之一。以下将介绍如何使用Mini…

SPEOS—光学产品设计及仿真工具

SPEOS是ANSYS公司功能强大的光学仿真软件&#xff0c;用于光学设计、环境与视觉模拟、成像仿真等&#xff0c;强大的解决方案提供了可视化光学系统和直观的人机交互平台&#xff0c;其仿真技术已广泛用于汽车、电子电器、精密仪器、照明设备等领域。SPEOS软件内嵌ISO和CIE国际标…

漏洞挖掘篇(基础)

文章目录 方法概述 漏洞挖掘方法分类 静态分析技术动态分析技术 符号执行 符号执行的基本原理符号执行的应用漏洞挖掘-检测是否数组越界 污点分析 基本思想污点分析核心要素优缺点 词法分析 基本概念漏洞挖掘实战 实践一&#xff1a;基于词法分析和逆向分析的可执行代码静态检…

有关MySQL性能的分析,你知道哪些?

前言: 📕作者简介:热爱编程的小七,致力于C、Java、Python等多编程语言,热爱编程和长板的运动少年! 📘相关专栏Java基础语法,JavaEE初阶,数据库,数据结构和算法系列等,大家有兴趣的可以看一看。 😇😇😇有兴趣的话关注博主一起学习,一起进步吧! 一、SQL性能…

PyTorch深度学习实战——交通标志识别

PyTorch深度学习实战——交通标记识别 0. 前言1. 交通标志识别1.1 数据集介绍1.2 数据增强和批归一化 3. 交通标志检测相关链接 0. 前言 在道路交通场景中&#xff0c;交通标志识别作为驾驶辅助系统与无人驾驶车辆中不可缺少的技术&#xff0c;为车辆行驶中提供了安全保障。在…

【操作系统】24王道考研笔记——第五章 IO管理

第五章 IO管理 一、IO设备 1.1 基本概念与分类 1.2 IO控制器 电子部件 IO控制器组成 值得注意的小细节&#xff1a;①一个I/O控制器可能会对应多个设备&#xff1b; ②数据寄存器、控制寄存器、状态寄存器可能有多个&#xff08;如&#xff1a;每个控制/状态寄存器对应一个…

RK3566 linux添加rgb13h

一、DTS根节点增加节点 在根节点/{}下增加flash_rgb13h节点&#xff0c;节点内容如下&#xff1a; flash_rgb13h: flash-rgb13h {status "okay";compatible "led,rgb13h";label "gpio-flash";pinctrl-names "default";pinctrl-0 …

如何在JoySSL上申请免费的SSL证书

1&#xff0c;前往 JoySSL 的官方网站注册页面&#xff0c;创建一个账号并登录您的 JoySSL 账户。 扫码注册账号申请免费证书https://www.joyssl.com/certificate/select/free.html?nid52&#xff0c;找到并选择你需要的 SSL 证书相关的功能或选项。 3&#xff0c;提供您的域…

三周过PMP经验分享,用最少的时间拿3A!

今天分享一个大神的PMP备考经验&#xff0c;大佬就是大佬&#xff0c;三周过PMP还拿了3A&#xff0c;正在备考PMP的小伙伴&#xff0c;咱们共勉&#xff01; 第一周、阅读教材 之前是第六版教材&#xff0c;花了很长时间阅读和梳理框架。现在是第七版教材&#xff0c;内容少了…

快速发布服务到生产环境(手动操作)

背景介绍 虽然现在大部分项目都是用Jenkins搭建环境&#xff0c;自动化部署。但仍然存在一些小客户&#xff0c;只会单独上线一些关键服务&#xff0c;此时就需要手动去服务器里面部署了。此处用一个外业服务做例子&#xff0c;下面开始介绍。 进入服务器 一般需要申请服务器权…

使用BaGet 实现NuGet包私有化部署

本文主要介绍使用IIS部署 1.下载Baget&#xff0c;github下载&#xff0c;本文下载版本v0.4.0-preview2 2.解压&#xff0c;参考使用说明 3.安装环境&#xff0c;.NET Core Runtime&#xff0c;此处说明&#xff0c;.net7安装包是集成了 ASP.NET Core IIS Module的&#xff…

数据结构之时间复杂度空间复杂度的计算

数据结构&#xff1a;计算机如何存储数据的问题。DS关心的是如何高效的进行数据的读写。 算法&#xff1a;在特定的数据集上&#xff08;不关心怎么进行具体数据的读写&#xff09;&#xff0c;如何利用数据完成特定的功能。算法本质上就是一系列运算的先后集合。 那么&#…

电工-国产二极管型号、三极管型号的命名方式

根据半导体器件型号命名方法&#xff08;GB249-74&#xff09;规定&#xff0c;国产半导体由5共部分组成&#xff0c;二极管、三极管的型号命名方式也有5个部分&#xff0c;第一部分是标明晶体管数目&#xff08;二极管或是三极管&#xff09;。第二部分是三极管的材质标识&…

【ZLM】花屏现象记录

目录 事后小结 现象 tcpdump看下包的情况 移了两个摄像头到10.60.100.196 事后小结 花屏的现象&#xff0c;主要看链路时延的稳定性。 如果 ping -s 2000 ip , > 2ms已经带宽 2000*8*2/0.002s16Mbps&#xff0c;说明带宽不够&#xff0c;应该接近100Mbps左右。你可…

C#中使用Newtonsoft.Charp实现Json对象序列化与反序列化

场景 C#中使用Newtonsoft.Json实现对Json字符串的解析&#xff1a; C#中使用Newtonsoft.Json实现对Json字符串的解析_霸道流氓气质的博客-CSDN博客 上面讲的对JSON字符串进行解析&#xff0c;实际就是JSON对象的反序列化。 在与第三方进行交互时常需要封装对象&#xff0c;…