【数仓】FLink+CK

news2024/11/21 1:38:06

1.项目分层

  • ODS:原始数据,包含日志和业务数据
  • DWD:根据数据对象为单位进行分流。比如订单、页面访问等。
  • DIM:维度数据
  • DWM:对于部分数据对象进行进一步加工,比如独立访问、跳出行为,也可以和维度进行关联,形成宽表,依旧是明细数据
  • DWS:根据某个维度将多个实时数据轻度聚合,形成主题宽表
  • ADS:把ClickHouse中的数据根据可视化需求进行筛选聚合

(1).DWD

行为数据(kafka)。
1.过滤脏数据 --> 侧输出流 统计脏数据率
2.新老用户校验 -->前台校验不准,后台在进行逻辑分析
3.分流 --> 侧输出流 页面、启动、曝光、动作、错误
4.写入kafka

(2).DWD->DIM

1.过滤脏数据 -->删除数据的处理

2.读取配置表创建广播流

3.连接主流和广播流并处理
1).广播流数据:
a.解析数据
b.Phoenix建表
c.写入广播状态
2).主流数据:
a.读取字段
b.过滤字段
c.分流(添加SinkTable字段)

4.提取Kafka和Hbase流分别对应的位置

5.Hbase流:自定义Sink

6.Kafka流:自定义序列化方式

2.离线数仓架构

在这里插入图片描述
Sqoop导入数据的方式:

  • 全量 where 1=1
  • 增量 where 创建时间=当天
  • 新增及变化 where 创建时间=当天 OR 操作时间=当天
  • 特殊:只导入一次

FLUME:

  • TailDirSource:
    • 优点:断点续传、多目录多文件,实时监控;
    • 缺点:文件更名后重新同步导致数据重复
    • 注意:要使用不更名的日志打印框架(logback);修改源码,让TailDirSource只监视iNode值
  • KafkaChanal:
    • 优点:将数据写入kafka整了一层sink;
    • 用法:
      • Source+KafkaChanal+Sink
      • Source+KafkaChanal
      • KafkaChanal+Sink

3.实时数仓架构

在这里插入图片描述

4.CDC类型

在这里插入图片描述
canal、maxwell、flinkcdc对比:

canalmaxwellflinkcdc
一条insert/update/delete处理多条数据放在一起展示(不方便)分开展示分开展示
初始化有(单表)有(多库多表同时做)
断点续传本地磁盘MySQLCK
封装格式JSON(C/S支持自定义)JSON自定义
高可用集群(ZK)运行集群高可用

5.flinkcdc

官网:
https://github.com/ververica/flink-cdc-connectors

FlinkCDC同flink的版本关联:
https://ververica.github.io/flink-cdc-connectors/master/content/about.html#supported-connectors

6.业务数据采集

FlinkCDC:

  • DataStream:
    • 优点:多库多表
    • 缺点 :需要自定义反序列化器(灵活)
  • FlinkSQL
    • 优点:不需要自定义反序列化器
    • 缺点 :单表

7.实现动态分流

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/159151.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

谷粒商城项目笔记之高级篇(三)

目录1.9.22 提交订单的问题1)、订单号显示、应付金额回显2)、提交订单消息回显3)、为了确保锁库存失败后,订单和订单项也能回滚,需要抛出异常1.9.23 创建库存上锁、解锁 业务交换机&队列1)、流程梳理2)、解锁库存实…

Vsftpd服务的部署及优化详解(图文)

目录 前言 实验环境 一、vsftpd的安装及启用 1、具体步骤 2、开启匿名用户访问功能并测试 二、vsftpd基本信息 三、匿名用户访问控制 四、本地用户访问控制 五、虚拟用户访问 1、建立虚拟用户访问 2、虚拟用户家目录的独立设定 3、用户配置独立 前言 vsftpd是“…

TapTap 算法平台的 Serverless 探索之路

分享人:陈欣昊,TapTap/IEM/AI平台负责人 摘要:本文主要介绍心动网络算法平台在Serverless上的实践。 《TapTap算法平台的 Serverless 探索之路》 Serverless 在构建应用上为我们节省了大量的运维与开发人力,在基本没投入基建人力…

(02)Cartographer源码无死角解析-(49) 2D点云扫描匹配→相关性暴力匹配1:SearchParameters

讲解关于slam一系列文章汇总链接:史上最全slam从零开始,针对于本栏目讲解(02)Cartographer源码无死角解析-链接如下: (02)Cartographer源码无死角解析- (00)目录_最新无死角讲解:https://blog.csdn.net/weixin_43013761/article/details/127350885 文末…

LeetCode分类刷题----链表篇

链表链表1.移除链表元素203.移除链表元素707.设计链表2.反转链表206.反转链表3.两两交换链表中的节点24.两两交换链表中的节点4.删除链表中的倒数第N个节点19.删除链表的倒数第N个节点5.链表相交07.链表相交6.环形链表141.环形链表142.环形链表II链表 1.移除链表元素 203.移除…

成功解决VMware安装操作系统出现分辨率的问题

文章目录问题重现问题原因问题解决方法一:拓展:1. 电脑分辨率:2. xrandr命令3. 查询后如果没有合适的分辨率解决方案参考资料问题重现 如下图: 在VMware16上安装ubuntu操作系统的时候,出现分辨率问题, 导致…

如何录屏有声音?如何录制带声音的视频

平常我们会通过录屏的方式录制电脑画面,然后再保存下来。那您是不是遇到过这种情况:录制的录屏文件只有画面没有声音。没有声音的视频还能修复吗?如何录屏有声音?怎样才能录制带声音的视频?今天小编教大家如何在录屏的…

前端基础(十三)_定时器(间歇定时器、延迟定时器)

定时器 定时器共两种,setInterval及setTimeout: 1、setInterval:重复执行或者叫间歇执行,即隔某个时间就执行一次 2、setTimeout:延迟执行,延迟某个特定的时间开始执行,只执行一次 语法&#x…

代码随想录算法训练营第10天 232.用栈实现队列、225. 用队列实现栈

代码随想录算法训练营第10天 232.用栈实现队列、225. 用队列实现栈 用栈实现队列 力扣题目链接(opens new window) 使用栈实现队列的下列操作: push(x) – 将一个元素放入队列的尾部。 pop() – 从队列首部移除元素。 peek() – 返回队列首部的元素。 empty() –…

十分好用的跨浏览器测试工具,建议收藏!!!

跨浏览器测试是确保web应用程序的功能在不同浏览器、浏览器版本和操作系统直接保持功能和质量一致的过程,可以为用户提供更好的用户体验,帮助企业通过更易访问的网站获得满意客户,可以使web应用程序在不同平台上兼容。在跨浏览器测试过程中&a…

Vulnhub靶机:DIGITALWORLD.LOCAL_ DEVELOPMENT

目录介绍信息收集主机发现主机信息探测网站探测SSH登录lshell绕过sudo提权介绍 系列:digitalworld.local(此系列共9台) 发布日期:2018 年 12 月 28 日 难度:中级 运行环境:Virtualbox运行失败,…

写作的“收益”超乎想象

十余年写作经验倾囊相授,全面提升你的技术写作能力! 前言 技术从业人员普遍比较务实,也就是用心做好分配给自己的任务,努力担负起自己应尽的责任,因为大家都相信,付出必有回报,金字总会闪光。 …

【干货】普通单双面板的生产工艺流程(二)

衔接上文,继续为朋友们分享普通单双面板的生产工艺流程。 如图,第二道主流程为钻孔。 钻孔的目的为: 对PCB进行钻孔,便于后续识别、定位、插件及导通。 目前,行业内主流的PCB钻孔方式为:机械钻孔、激光钻…

引蜘蛛软件哪款有效果?多少钱怎么购买?

引蜘蛛软件哪款有效果?多少钱怎么购买?怎教你查看一个IP地址是不是搜索引擎官方蜘蛛的参考方法#IP地址#官方蜘蛛#搜索引擎官 大家好,今天给大家分享的是关于怎么查看一个 ip 地址是不是搜索引擎官方蜘蛛的参考方法。 很多做网站的小伙伴们肯定会用到这个方式。 有…

用 Python 制作空间数据可视化

大数据时代到来,随着智能设备与物联网技术的普及,人在社会生产活动中会产生大量的数据。在我们的日常活动中,手机会记录下我们到访过的地点;在使用城市公交IC卡、共享单车等服务时,服务供应商会知道这些出行需求产生的…

gdb相关知识

cdir和cwd 当我们用gdb的命令show dir的时候,显示源码搜寻目录: cdir: 代表编译路径,可以打个断点,然后用info source命令查看。 cwd: 代表当下调试的目录,直接用pwd就可以。 添加新的搜索路径 dir /opt/nmt搜索路…

Gemini撕DCG诉感情被骗,灰度百亿大饼持仓却不会爆雷?

插播:《刘教链比特币原理》音频课正在连载中。今天次条是第一章第2节“1-2 比特币的特点和使用”,推荐每一位读者学习。点击此处查看付费合集详情[链接]以及上一课“1-1 五分钟告诉你什么是比特币和区块链”[链接]。* * *比特币今晨突然急速上涨&#xf…

Qt OpenGL(09)在着色器中实现旋转的彩色正方体

文章目录在着色器中实现旋转的彩色正方体旋转矩阵沿x轴旋转:沿y轴旋转:沿z轴旋转:在顶点着色器中实现顶一个vec3的变量 theta计算余弦和正弦值定义3个旋转矩阵最终代码在着色器中实现旋转的彩色正方体 一直觉得用OpenGL 画一个立方体或者彩色…

黑马学ElasticSearch(八)

目录: (1)黑马旅游案例-搜素-分页 (2)黑马旅游案例-条件过滤 (3)黑马旅游案例-我附近的酒店 (4)黑马旅游案例-广告置顶 (1)黑马旅游案例-搜素…

C语言 自定义类型 之 【结构体】

文章目录前言结构体类型的声明结构的自引用结构体变量的定义和初始化定义初始化结构体内存对齐结构体传参结构体实现位段什么是位段?位段的内存分配位段的跨平台问题位段的应用写在最后前言 C语言中结构体是一种用户自定义的数据类型,它相当于一个小型的…