助力工业物联网,工业大数据之ODS层及DWD层建表语法【七】

news2024/11/29 8:41:19

文章目录

  • ODS层及DWD层构建
    • 01:课程回顾
    • 02:课程目标
    • 03:数仓分层回顾
    • 04:Hive建表语法
    • 05:Avro建表语法

ODS层及DWD层构建

01:课程回顾

  1. 一站制造项目的数仓设计为几层以及每一层的功能是什么?

    • ODS:原始数据层:存放从Oracle中同步采集的所有原始数据
    • DW:数据仓库层
      • DWD:明细数据层:存储ODS层进行ETL以后的数据
      • DWB:轻度汇总层:对DWD层的数据进行轻度聚合:关联和聚合
        • 基于每个主题构建主题事务事实表
      • DWS:维度数据层:对DWD层的数据进行维度抽取
        • 基于每个主题的维度需求抽取所有维度表
    • ST:数据应用层
      • 基于DWB和DWS的结果进行维度的聚合
    • DM:数据集市层
      • 用于归档存储公司所有部门需要的shuju
  2. 一站制造项目的数据来源是什么,核心的数据表有哪些?

    • 数据来源:业务系统
    • ERP:公司资产管理系统、财务数据
      • 工程师信息、零部件仓储信息
    • CISS:客户服务管理系统
      • 工单信息、站点信息、客户信息
    • 呼叫中心系统
      • 来电受理信息、回访信息
  3. 一站制造项目中在数据采集时遇到了什么问题,以及如何解决这个问题?

    • 技术选型:Sqoop
    • 问题:发现采集以后生成在HDFS上文件的行数与实际Oracle表中的数据行数不一样,多了
    • 原因:Sqoop默认将数据写入HDFS以普通文本格式存储,一旦遇到数据中如果包含了特殊字符\n,将一行的数据解析为多行
    • 解决
      • 方案一:Sqoop删除特殊字段、替换特殊字符【一般不用】
      • 方案二:更换其他数据文件存储类型:AVRO
        • 数据存储:Hive
        • 数据计算:SparkSQL
  4. 什么是Avro格式,有什么特点?

    • 二进制文本:读写性能更快
    • 独立的Schema:生成文件每一行所有列的信息
      • 对列的扩展非常友好
    • Spark与Hive都支持的类型
  5. 如何实现对多张表自动采集到HDFS?

    • 需求

      • 读取表名
      • 执行Sqoop命令
    • 效果:将所有增量和全量表的数据采集到HDFS上

      • 全量表路径:维度表:数据量、很少发生变化

        /data/dw/ods/one_make/   full_imp   /表名/分区/数据
        
      • 增量表路径:事实表:数据量不断新增,整体相对较大

        /data/dw/ods/one_make/    incr_imp  /表名/分区/数据
        
      • Schema文件的存储目录

        /data/dw/ods/one_make/avsc
        
    • Shell:业务简单,Linux命令支持

    • Python:业务复杂,是否Python开发接口

      • 调用了LinuxShell来运行
  6. Python面向对象的基本应用

    • 语法

      • 定义类

        class 类名:
        	# 属性:变量
        	# 方法:函数
        
      • 定义变量

        key = value
        
      • 定义方法

        def funName(参数):
        	方法逻辑
        	return
        
    • 面向对象:将所有事物以对象的形式进行编程,万物皆对象

      • 对象:是类的实例
    • 对象类:专门用于构造对象的,一般称为Bean,代表某一种实体Entity

      • 类的组成

        class 类名:
        	# 属性:变量
        	# 方法:函数
        
      • 业务:实现人购买商品

        • class Person:
          	# 属性
          	id = 1
          	name = zhangsan
          	age = 18
          	gender = 1
          	……
          	
          	# 方法
          	def eat(self,something):
          		print(f"{self.name} eating {something}")
                  
              def buy(self,something)
              	print(f"{self.name} buy {something}")
          
          • 每个人都是一个Person类的对象
        • 商品

          class Product:
          	# 属性
          	id = 001
          	price = 1000.00
          	size = middle
          	color = blue
          	……
          	
          	# 方法
          	def changePrice(self,newPrice):
          		self.price = newPirce
          
    • 工具类:专门用于封装一些工具方法的,utils,代表某种操作的集合

      • 类的组成:一般只有方法

        class 类名:
        	# 方法:函数
        
      • 字符串处理工具类:拼接、裁剪、反转、长度、转大写、转小写、替换、查找

        class StringUtils:
            
        	def concat(split,args*):
        		split.join(args)
                
        	def reverse(sourceString)
            	return reverse(sourceString)
            
        	……
        
      • 日期处理工具类:计算、转换

        class TimeUitls:
        		
        	def computeTime(time1,time2):
        		return time1-time2
        		
        	def transTimestamp(timestamp):
        		return newDateyyyy-MM-dd HH:mm:ss)
        		
        	def tranfData(date)
        		return timestamp
        
    • 常量类:专门用于定义一些不会发生改变的变量的类

      • 类的组成:一般只有属性

        class 类名:
        	# 属性:不发生变化的属性
        
      • 定义一个常量类

        class Common:
        	ODS_DB_NAME = "one_make_ods"
        	……
        
        • file1.py:创建数据库

          create database if not exists Common.ODS_DB_NAME;
          
          • file2.py:创建表

            ```
            create table if not exists Common.ODS_DB_NAME.tbname
            ```
            
            • file3.py:插入数据到表中

              insert into table  Common.ODS_DB_NAME.tbname
              
            • 问题1:容易写错

            • 问题2:不好修改

02:课程目标

  • 目标:自动化的ODS层与DWD层构建
  • 实现
    • 掌握Hive以及Spark中建表的语法规则
    • 实现项目开发环境的构建
    • 自己要实现所有代码注释
    • ODS层与DWD层整体运行测试成功

03:数仓分层回顾

  • 目标:回顾一站制造项目分层设计

  • 实施

    image-20210821102418366

    • ODS层 :原始数据层

      • 来自于Oracle中数据的采集

      • 数据存储格式:AVRO

      • ODS区分全量和增量

      • 实现

        • 数据已经采集完成

          /data/dw/ods/one_make/full_imp
          /data/dw/ods/one_make/incr_imp
          
        • step1:创建ODS层数据库:one_make_ods

        • step2:根据表在HDFS上的数据目录来创建分区表

        • step3:申明分区

    • DWD层

      • 来自于ODS层数据
      • 数据存储格式:ORC
      • 不区分全量和增量的
      • 实现
        • step1:创建DWD层数据库:one_make_dwd
        • step2:创建DWD层的每一张表
        • step3:从ODS层抽取每一张表的数据写入DWD层对应的表中
  • 小结

    • 回顾一站制造项目分层设计

04:Hive建表语法

  • 目标:掌握Hive建表语法

  • 实施

    CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
    (
        col1Name col1Type [COMMENT col_comment],
        co21Name col2Type [COMMENT col_comment],
        co31Name col3Type [COMMENT col_comment],
        co41Name col4Type [COMMENT col_comment],
        co51Name col5Type [COMMENT col_comment],
        ……
        coN1Name colNType [COMMENT col_comment]
    
    )
    [PARTITIONED BY (col_name data_type ...)]
    [CLUSTERED BY (col_name...) [SORTED BY (col_name ...)] INTO N BUCKETS]
    [ROW FORMAT row_format]
    	row format delimited fields terminated by 
    	lines terminated by
    [STORED AS file_format]
    [LOCATION hdfs_path]
    TBLPROPERTIES
    
    • EXTERNAL:外部表类型(删除表的时候,不会删除hdfs中数据)
      • 内部表、外部表、临时表
    • PARTITIONED BY:分区表结构
      • 普通表、分区表、分桶表
    • CLUSTERED BY:分桶表结构
    • ROW FORMAT:指定分隔符
      • 列的分隔符:\001
      • 行的分隔符:\n
    • STORED AS:指定文件存储类型
      • ODS:avro
      • DWD:orc
    • LOCATION:指定表对应的HDFS上的地址
      • 默认:/user/hive/warehouse/dbdir/tbdir
    • TBLPROPERTIES:指定一些表的额外的一些特殊配置属性
  • 小结

    • 掌握Hive建表语法

05:Avro建表语法

  • 目标:掌握Hive中Avro建表方式及语法

  • 路径

    • step1:指定文件类型
    • step2:指定Schema
    • step3:建表方式
  • 实施

    • Hive官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTable

    • DataBrics官网:https://docs.databricks.com/spark/2.x/spark-sql/language-manual/create-table.html

    • Avro用法:https://cwiki.apache.org/confluence/display/Hive/AvroSerDe

    • 指定文件类型

      • 方式一:指定类型

        stored as avro
        
      • 方式二:指定解析类

        --解析表的文件的时候,用哪个类来解析
        ROW FORMAT SERDE
          'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
        --读取这张表的数据用哪个类来读取
        STORED AS INPUTFORMAT
          'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
        --写入这张表的数据用哪个类来写入
        OUTPUTFORMAT
          'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
        
    • 指定Schema

      • 方式一:手动定义Schema

        CREATE TABLE embedded
        COMMENT "这是表的注释"
        ROW FORMAT SERDE
          'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
        STORED AS INPUTFORMAT
          'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
        OUTPUTFORMAT
          'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
        TBLPROPERTIES (
          'avro.schema.literal'='{
            "namespace": "com.howdy",
            "name": "some_schema",
            "type": "record",
            "fields": [ { "name":"string1","type":"string"}]
          }'
        );      	
        
      • 方式二:加载Schema文件

        CREATE TABLE embedded
        COMMENT "这是表的注释"
        ROW FORMAT SERDE
          'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
        STORED as INPUTFORMAT
          'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
        OUTPUTFORMAT
          'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
        TBLPROPERTIES (
         'avro.schema.url'='file:///path/to/the/schema/embedded.avsc'
        );
        
    • 建表语法

      • 方式一:指定类型和加载Schema文件

        create external table one_make_ods_test.ciss_base_areas
        comment '行政地理区域表'
        PARTITIONED BY (dt string)
        stored as avro
        location '/data/dw/ods/one_make/full_imp/ciss4.ciss_base_areas'
        TBLPROPERTIES ('avro.schema.url'='/data/dw/ods/one_make/avsc/CISS4_CISS_BASE_AREAS.avsc');
        
      • 方式二:指定解析类和加载Schema文件

        create external table one_make_ods_test.ciss_base_areas
        comment '行政地理区域表'
        PARTITIONED BY (dt string)
        ROW FORMAT SERDE
          'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
        STORED AS INPUTFORMAT
          'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
        OUTPUTFORMAT
          'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
        location '/data/dw/ods/one_make/full_imp/ciss4.ciss_base_areas'
        TBLPROPERTIES ('avro.schema.url'='/data/dw/ods/one_make/avsc/CISS4_CISS_BASE_AREAS.avsc');
        
        create external table 数据库名称.表名
        comment '表的注释'
        partitioned by
        ROW FORMAT SERDE
          'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
        STORED AS INPUTFORMAT
          'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
        OUTPUTFORMAT
          'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
        location '这张表在HDFS上的路径'
        TBLPROPERTIES ('这张表的Schema文件在HDFS上的路径')
        

  • 小结

    • 掌握Hive中Avro建表方式及语法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/422965.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Pytorch-gpu的安装

1.先安装cuda和cudnn 推荐安装cuda11.3和cuda10.2,因为这两个版本用的多。 安装教程可以看我的另一篇文章: cuda和cudnn安装教程 2.安装对应版本的Pytorch Pytorch的版本需要和cuda的版本相对应。具体对应关系可以去官网查看。这里先附上一张对应关系…

openpnp - 顶部相机 - 辅助光(环形灯)的电路原理图

文章目录openpnp - 顶部相机 - 辅助光(环形灯)的电路原理图概述ENDopenpnp - 顶部相机 - 辅助光(环形灯)的电路原理图 概述 同学帮我做的简易灯板设计不太合理, 发热量极大. 想看看商用的环形灯电路啥样的, 如果有可能, 自己做块灯板, 塞进商用环形灯外壳中. 拆解了一个环形灯…

数据库备份

数据库备份,恢复实操 策略一:(文件系统备份工具 cp)(适合小型数据库,是最可靠的) 1、停止MySQL服务器。 2、直接复制整个数据库目录。注意:使用这种方法最好还原到相同版本服务器中&…

【图像分类】【深度学习】ViT算法Pytorch代码讲解

【图像分类】【深度学习】ViT算法Pytorch代码讲解 文章目录【图像分类】【深度学习】ViT算法Pytorch代码讲解前言ViT(Vision Transformer)讲解patch embeddingpositional embeddingTransformer EncoderEncoder BlockMulti-head attentionMLP Head完整代码总结前言 ViT是由谷歌…

Spring Boot+Vue实现Socket通知推送

目录 Spring Boot端 第一步,引入依赖 第二步,创建WebSocket配置类 第三步,创建WebSocket服务 第四步,创建Controller进行发送测试 Vue端 第一步,创建连接工具类 第二步,建立连接 ​编辑 第三步&a…

xxl-job-2.3.1 本地编译jar包并部署

参考网上其他文章,总结步骤 一、官网地址 分布式任务调度平台XXL-JOB 二、源码地址 github: GitHub - xuxueli/xxl-job: A distributed task scheduling framework.(分布式任务调度平台XXL-JOB) gitee: xxl-job: 一个分布…

k8s v1.26.2 安装部署步骤

准备 开通端口 master需要开通的端口: TCP: 6443 2379 2380 10250 10259 10257 ,10250 30000~30010(应用) node需要开通的端口: TCP: 10250 30000~30010(应用) master加端口 firewall-cmd --permanent --add-port6443/tcp firewall-cmd --permanent --add-port2379/tcp fir…

数据库学习笔记 概念数据库的设计(2)

回顾上节课的内容 数据库的设计:概念设计:抽取实体和联系 逻辑设计:设计模式 设计模式 物理设计:设计数据库的内模式 和存储和存取相关的配置 sql创建索引可以做分表 将所有学生存入一张表或者每个学院一个表 根据某种条件进行分表 CSstudent 实体联系模型 叫ER图 实体(矩形)和…

城乡供水信息化平台建设-构建智慧美丽乡村

建设方案 城乡供水信息化系统是运用云计算、大数据等信息化手段,借助在线监测设备,并依托“城乡供水信息化平台”,实时感知供水系统的运行状态,实现对农村供水工程远程监控、在线监测、实时预警、智慧监管。 系统功能 水源地监测&…

springboot+vue职称评审管理系统(源码+文档)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的职称评审管理系统。项目源码请联系风歌,文末附上联系信息 。 目前有各类成品java毕设,需要请看文末联系方式 …

OSPF出口设计

1.合理规划OSPF区域,使得办公网络发生变化时服务器区域(R7)路由表不会发生变化,写出两种方案,请详细描述该方案? OSPF区域规划如下: 核心路由器和汇聚路由器之间所有链路工作在区域0骨干区域,而办公网络接入路由器和汇聚路由器之间链路工作在区域10;服务器网络接入路由…

Java集合类源码阅读(一)

文章目录一. Iterator(迭代器)1. Iterator源码2. ListIterator源码二. Collection三. List四. Vector在阅读源码之前,我们首先需要知道,java集合的一个继承关系图,如下所示然后按照个集合关系图,逐步阅读源…

onnxruntime 运行过程报错“onnxruntime::Model::Model Unknown model file format version“

背景 这几天在玩一下yolov6,使用的是paddle框架训练的yolov6,然后使用paddl 转成onnx,再用onnxruntime来去预测模型。由于是在linux服务器上转出来 的onnx模型,并在本地的windows电脑上去使用,大概就是这样的一个情…

C语言中的小知识点(程序环境和预处理篇(1))

系列文章目录 文章目录系列文章目录[TOC](文章目录)前言一、编译链接是什么?(一)、翻译环境二、预处理的讲解1.预定义符号2.#define定义标识符总结前言 在ANSI C的任何一种实现中,存在两个不同的环境 第一种是翻译环境&#xff0c…

JavaWeb开发 —— HTML

目录 一、什么是HTML、CSS 二、内容介绍 三、基本标签 & 样式 1. 实现标题 1.1 标题排版 1.2 标题样式 1.3 超链接 2. 实现正文 2.1 正文排版 2.2 页面布局 四、表格标签 五、表单标签 1. 表单标签 2. 表单项标签 一、什么是HTML、CSS HTML ( HyperTex…

MAC 删除自带 ABC 输入法的方法

背景: 在使用 ​​mac​​​ 时相信很多都习惯使用第三方输入法,而 ​​mac​​​ 规定必须保留一个自带的 ​​ABC​​​ 输入法,这样导致平时在打字的时候,老是莫名其妙的自己切换成了自带的 ​​ABC​​​ 输入法,…

【java】JDK动态代理原理

文章目录1. 示例2. 原理3. 为什么必须要基于接口?1. 示例 首先,定义一个接口: public interface Staff {void work(); }然后,新增一个类并实现上面的接口: public class Coder implements Staff {Overridepublic vo…

Rancher v2.5 使用 Ingress Controller 限制集群外部 ip 访问集群服务

使用 Ingress Controller 限制集群外部 ip 访问集群服务 Rancher 部署工作负载,通过 NodePort 将 Service 服务映射后,无法通过防火墙策略对集群外客户端访问进行限制,在公司研发环境内存在风险,易被扫描到。 经过查找资料&#x…

HNU-操作系统OS-2023期中考试

今天考了OS期中考试,特别傻地最后改错了一道10分的题目,很难受。应该是考差了。 回忆一下今天考试的题目,为可能需要的后继者提供帮助(往年期中考题极难获得) 我这里先给出题目,有时间我再补充答案&#…

FVM链的Themis Pro(0x,f4) 5日IDO超百万美元,领Filecoin重回高点

交易一直是 DeFi 乃至web3领域最经久不衰的话题,也因此催生了众多优秀的去中心化协议,如 Uniswap 和 Curve。这些协议逐渐成为了整个系统的基石。 在永续合约方面,DYDX 的出现将 WEB2 时代的订单簿带回了web3。其链下交易的设计,仿…