助力工业物联网,工业大数据之ODS层构建:申明分区代码及测试【十】

news2024/11/23 4:19:37

文章目录

    • 知识点13:ODS层构建:申明分区代码及测试
    • 知识点14:ODS层与DWD层区别
    • 知识点15:DWD层构建:需求分析
    • 知识点16:DWD层构建:建库实现测试
    • 知识点17:DWD层构建:建表实现测试

知识点13:ODS层构建:申明分区代码及测试

  • 目标:阅读ODS申明分区的代码及实现测试

  • 路径

    • step1:代码讲解
    • step2:代码测试
  • 实施

    • 代码讲解

      • step1:为什么要申明分区?

        • 表的分区数据由Sqoop采集到HDFS生成AVRO文件

          /data/dw/ods/one_make/full_imp/ciss4.ciss_base_areas/20210101/part-m-00000.avro
          
        • HiveSQL基于表的目录实现了分区表的创建

          create external table if not exists one_make_ods.ciss_base_areas 
          partitioned by (dt string) 
          ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
          STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
          OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
          tblproperties ('avro.schema.url'='hdfs:///data/dw/ods/one_make/avsc/CISS4_CISS_BASE_AREAS.avsc')
          location '/data/dw/ods/one_make/full_imp/ciss4.ciss_base_areas'
          
        • 但是Hive中没有对应分区的元数据,无法查询到数据

      • step2:怎么申明分区?

        • Alter Table

          alter table 表名 add if not exists partition (dt='值')
          location 'HDFS上的分区路径'
          
        • 例如

          alter table one_make_ods.ciss_base_areas add if not exists partition (dt='20210101')
          location '/data/dw/ods/one_make/full_imp/ciss4.ciss_base_areas/20210101'
          
      • step3:如何自动化实现每个表的分区的申明?

        • 获取分区工具类实例
        • 调用申明分区的方法
          • 对所有全量表调用申明分区的方法:数据库名称、表名、全量标记、分区值
          • 对所有增量表调用申明分区的方法:数据库名称、表名、增量标记、分区值
        • 拼接SQL
        • 执行SQL
    • 代码测试

      • 注释掉第5 ~ 第6阶段的内容
    • 运行代码,查看结果

  • 小结

    • 阅读ODS申明分区的代码及实现测试

知识点14:ODS层与DWD层区别

  • 目标:理解ODS层与DWD层的区别

  • 路径

    • step1:内容区别
    • step2:设计区别
    • step3:实现区别
  • 实施

    • 内容区别

      • ODS:原始数据
      • DWD:对ODS层ETL以后的数据
      • 本次数据来源于Oracle数据库,没有具体的ETL的需求,可以直接将ODS层的数据写入DWD层
    • 设计区别

      • ODS层:Avro格式分区数据表
      • DWD层:Orc格式分区数据表
    • 实现区别

      • ODS层建表:基于avsc文件指定Schema建表

        create external table if not exists one_make_ods.ciss_base_areas 
        partitioned by (dt string) 
        ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
        STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
        OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
        tblproperties ('avro.schema.url'='hdfs:///data/dw/ods/one_make/avsc/CISS4_CISS_BASE_AREAS.avsc')
        location '/data/dw/ods/one_make/full_imp/ciss4.ciss_base_areas'
        
      • DWD层建表:自己指定每个字段的Schema建表

        create external table if not exists one_make_dwd.ciss_base_areas(
        	ID string,
        	AREANAME string,
        	PARENTID string,
        	SHORTNAME string,
        	LNG string,
        	LAT string,
        	RANK bigint,
        	POSITION string,
        	SORT bigint
        ) partitioned by (dt string) 
        stored as orc
        location '/data/dw/dwd/one_make/ciss_base_areas';
        
  • 小结

    • 理解ODS层与DWD层的区别

知识点15:DWD层构建:需求分析

  • 目标掌握DWD层的构建需求

  • 路径

    • step1:整体需求
    • step2:建库需求
    • step3:建表需求
  • 实施

    • 整体需求:将ODS层的数据表直接加载到DWD层

      insert into  dwd partition (dt = '20210101')
      select
      	*
      from ods
      where dt=20210101
      
    • 建库需求:创建DWD层数据库one_make_dwd

    • 建表需求:将ODS层中的每一张表创建一张对应的DWD层的表

      • 问题1:建表的语法是什么?

        create external table dwd.tbname(
        	字段名 字段类型 字段注释
        )
        partitioned by (dt string)
        location '/data/dw/dwd/one_make/ciss_base_areas';
        
      • 问题2:表的名称名是什么,怎么获取?

        • 不分全量和增量
        • 所有表的名称都在列表中
      • 问题3:表的注释怎么来?

        • Oracle元数据中有
      • 问题4:表的字段怎么获取?

        • Oracle元数据中有
      • 问题5:Oracle中的字段类型如果与Hive中的类型不一致怎么办?

        • 将Oracle中Hive没有类型转换为Hive的类型
  • 小结

    • 掌握DWD层的构建需求

知识点16:DWD层构建:建库实现测试

  • 目标阅读DWD建库代码及实现测试

  • 路径

    • step1:代码讲解
    • step2:代码测试
  • 实施

    • 代码讲解

      • step1:DWD层的数据库名称是什么,建库的语法是什么?

        create database if not exists one_make_dwd;
        
      • step2:如何实现DWD层数据库的构建?

        cHiveTableFromOracleTable.executeCreateDbHQL(CreateMetaCommon.DWD_NAME)
        
    • 代码测试

      • 注释掉第5.2 ~ 第6阶段的内容

      • 运行代码,查看结果

        image-20211009165536267

  • 小结

    • 阅读DWD建库代码及实现测试

知识点17:DWD层构建:建表实现测试

  • 目标阅读DWD建表代码及实现测试

  • 路径

    • step1:代码讲解
    • step2:代码测试
  • 实施

    • 代码讲解

      • step1:如何获取所有表名?

        allTableName = [i for j in tableNameList for i in j]
        
        • 列表推导式
      • step2:建表的语句是什么,哪些是动态变化的?

        create external table if not exists one_make_dwd.ciss_base_areas(
        	ID string comment '字段的注释',
        	AREANAME string comment '字段的注释',
        	PARENTID string comment '字段的注释',
        	SHORTNAME string comment '字段的注释',
        	LNG string comment '字段的注释',
        	LAT string comment '字段的注释',
        	RANK bigint comment '字段的注释',
        	POSITION string comment '字段的注释',
        	SORT bigint comment '字段的注释'
        ) 
        comment '表的注释'
        partitioned by (dt string) stored as orc
        location '/data/dw/dwd/one_make/ciss_base_areas';
        
        • 动态变化的信息如下:
          • 表名,表的注释
          • 字段
          • 路径
      • step3:怎么获取字段信息?

      • step4:Oracle字段类型与Hive/SparkSQL字段类型不一致怎么办?

        • timestamp => long
        • number => bigint | dicimal
        • other => String
      • step4:HDFS上的路径是什么?

        /data/dw/dwd/one_make/tableName
        
      • step5:如何实现自动化

        • 遍历表名,对每张表调用自动化建表的方法:数据库名称、表的名称、None【不分全量或者增量】
        • 从Oracle中获取字段名,并实现类型转换
        • 添加表的注释、分区信息
        • 添加表的存储格式
        • 指定表的存储路径
        • 执行SQL语句
    • 代码测试

      • 注释掉 第6阶段的内容

      • 运行代码,查看结果

        image-20211009171202408

  • 小结

    • 阅读DWD建表代码及实现测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/489222.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Packet Tracer – 研究 VLAN 实施

Packet Tracer – 研究 VLAN 实施 地址分配表 设备 接口 IP 地址 子网掩码 默认网关 S1 VLAN 99 172.17.99.31 255.255.255.0 不适用 S2 VLAN 99 172.17.99.32 255.255.255.0 不适用 S3 VLAN 99 172.17.99.33 255.255.255.0 不适用 PC1 NIC 172.17.10.2…

Linux部署Gitlab/上传项目

一、提前准备 1.1安装依赖工具 yum install -y curl policycoreutils-python openssh-serversystemctl start sshd systemctl enable sshd 1.2安装Postfix邮件服务器 #安装 postfix yum install -y postfix#启动 postfix 并设置为开机启动 systemctl enable postfix systemctl …

HashCode与String大家庭

当金钱站起来说话时,所有的真理都保持了沉默;金钱一旦作响,坏话随之戛然而止。 Hashcode的作用 java的集合有两类,一类是List,还有一类是Set 前者有序可重复,后者无序不重复。当我们在set中插入的时候怎…

Vue传参${id}变成$%7Bid%7D

发生缘由 外卖项目在Linux服务器上面运行发送请求乱码 运行环境 电脑系统:win10jdk版本:jdk-8SpringBoot版本:v2.4.5MP版本:3.4.2Vue版本:Vue.js v2.6.12Linux版本:Centos7 报错信息 // 修改页面反查详…

MES系统中的BOM为何如此重要?先进的BOM体系怎么构建?

其实不管有没有数字化,BOM都是制造企业的灵魂纽带,对于产品繁多、流程冗长的工业企业来说,如果BOM管理不规范,必然对生产效率和产品质量带来巨大的隐患,因此在工业企业的数字化转型之路中,建立科学规范的BO…

Blender 建模练习-锁链

目录 1.1.1 贝塞尔圆1.2 阵列修改器1.3 阵列修改器 物体偏移1.4 添加贝塞尔曲线1.5 曲线修改器 1. 本次练习主要使用到阵列修改器、贝塞尔曲线、空物体 1.1 贝塞尔圆 把贝塞尔圆进行缩放,然后在物体数据属性|几何数据|倒角|设置倒角深度为0.05 1.2 阵列修改器 …

【数据结构】二叉树(详细)

二叉树 1.树1.1定义1.2基本术语1.3树形结构和线性结构1.4树的存储结构1.4.1双亲表示法1.4.2孩子兄弟表示法 2.二叉树2.1定义2.2特殊二叉树2.3性质2.4存储结构2.4.1顺序存储2.4.2链式存储结构 3.二叉树的基本操作3.1前序遍历(先序遍历)3.2中序遍历3.3后序…

开放原子训练营(第三季)inBuilder低代码开发实验室---报销单录入系统

作为一名低代码初学者,我使用inBuilder系统设计了一款报销单录入系统,实现了报销单录入与显示报销单列表的功能(如图1与图2所示),并获得了很多开发心得。从inBuilder系统的优点、缺点以及开发过程三方面出发&#xff0…

go继承nacos配置中心并读取配置信息

配置中心 为什么需要配置中心 平时我们写一个demo的时候,或者说一个单体的应用,都会有一个配置文件,不管是 json文件或者yaml文件,里面包含了redis,mysql,es等信息,如果我们修改了配置文件,往往我们需要重…

和Ai一起学习CMake(一)

和Ai一起学习CMake 现在人工智能爆火,ChatGPT、new bing等层出不穷。我们借助Ai来学习一下CMake。下面是我与Ai的问答,这个学习主要是通过Ai来学习,但是防止Ai乱说话,我会结合自身的知识和实际操作给出相应的补充。 我的环境如下…

玄子Share - Tomcat 9 安装配置教程(含安装包)

玄子Share - Tomcat 9 安装配置教程(含安装包) 下载 下载链接 官网 https://tomcat.apache.org/ 下载教程 进入 Tomcat 官网,点击左侧导航栏,选择需要的版本下载。这里按照课程要求选择tomcat 9的版本 Mirrors:选…

为什么越来越多的企业开始选择云计算?

一、前言 随着数字化时代的到来,企业对于数据的需求越来越大,而传统的数据存储方式已经无法满足企业的需求。云计算作为一种新兴的技术,可以为企业提供更加灵活、高效、安全的数据存储和处理方式,因此越来越多的企业开始选择云计算…

element ui el-calendar日历组件使用总结

el-calendar日历组件使用总结 1. 需求说明2. 基础实现3. 只展示当月数据4. 动态切换日历里的数据实现5. 顺便把快捷方式隐藏了,不让用户选择上一个月下一个月 1. 需求说明 按月显示,每次只显示一个月的日期,其余隐藏 日历组件的显示时间随着…

数值分析-牛顿插值公式

目录 一、引言 二、牛顿插值公式的基本概念 1.插值问题 2.插值多项式 3.牛顿插值公式 三、牛顿插值公式的推导过程 四、牛顿插值公式的应用 1.图像处理 2.信号处理 五、牛顿插值公式的优缺点 1. 优点 2. 缺点 六、总结 一、引言 在数值分析中,插值是一…

干掉复杂的Java工具类,Hutool 工具库确实香~

Hutool 大家已经比较熟悉了,这是一个超全的 Java 工具库,深受国内开发者的喜爱。 我之前其实是不太喜欢使用这种功能太多的工具类的,也比较担心稳定性和安全性,后面慢慢接受了就感觉其实也还好。而且,我们还可以按需只…

如何优雅地停掉线程?

很久很久以前,在一个名为“Springboot”的村庄中,住着一群热爱编程的程序员。他们喜欢探索新技术、优化自己的代码,为了打造更好的软件而不断努力着。 在这个村庄中,有一个名叫小明的程序员,他是村庄中最优秀的程序员…

等概率随机函数设计技巧

文章目录 1. 关于Math.random()函数2. 用1 ~ 5的随机函数加工出1 ~ 7的随机函数3. LeetCode 470. 用 Rand7() 实现 Rand10()4. 把不等概率随机函数变成等概率随机函数5. 用a ~ b的随机函数加工出c ~ d的随机函数 1. 关于Math.random()函数 Java 中 Math.random() 函数是等概率…

微服务和领域驱动

一、微服务 1.1 什么是微服务 微服务就是一些协同工作的小而自治的服务。 关键词: 小而自治 -- 小 “小”这个概念,一方面体现在微服务的内聚性上。 内聚性也可以称之为单一职责原则:“把因相同原因而变化的东西聚合到一起,…

python能成为编程届的网红么?

Python本身就是编程语言届的网红,Python,年龄可能比很多读者都要大,但是它在更新快速的编程界却一直表现出色,甚至有人把它比作是编程界的《葵花宝典》,只是Python的速成之法相较《葵花宝典》有过之而无不及。 但是能…

短视频矩阵系统.代码实时分享

短视频矩阵系统核心技术研发是为满足现代社交网络时代用户对视频分享和观看的需求而推出的一项技术。它旨在提供高质量的视频传输、智能推荐算法、实时互动等功能。短视频矩阵系统设计上考虑了多个关键技术,包括多媒体编解码技术、网络通讯技术、机器学习算法等。通…