Hive基础3

news2024/12/28 5:24:19

一、表的分区

大数据开发数据量较大,在进行数据查询计算时,需要对数据进行拆分,提升的查询速度

1-1 单个分区

单个分区是创建单个目录

-- 创建表指定分区,对原始数据进行分区保存
create table new_tb_user(
    id int,
    name string,
    age  int,
    gender int,
    create_time date
)partitioned by (gender_p int)
row format delimited fields terminated by ',';
​
select * from new_tb_user;
​
-- 将原始数据表的数据写入新的分区表中
-- 静态写入分区数据 需要手动自己指定分区数值
-- insert into new_tb_user partition(gender_p=0) select * from tb_user where gender=0
-- 动态写入分区数据
-- 可以指定一个字段数据,根据字段数据内容进行分区
set hive.exec.dynamic.partition.mode=nonstrict;
​
insert into new_tb_user partition(gender_p) select id,name,age,gender,create_time,gender from tb_user;
​
desc new_tb_user;
desc tb_user;

1-2 多个分区

多个分区可以将数据拆分多个目录存储

create table new2_tb_user(
    id int,
    name string,
    age  int,
    gender int,
    create_time date
)partitioned by (y string,m string,d string)
row format delimited fields terminated by ',';
​
select * from new2_tb_user;
insert into new2_tb_user partition(y,m,d) select id,name,age,gender,create_time,year(create_time),month(create_time),day(create_time) from tb_user  limit 10;
​

注意点

1-分组字段不能和表中字段重名

2-动态分区数据写入时,select中字段顺序要和分区表中字段顺序一致

3-分区字段是在最后,所以select中的分区数据指定也放在最后

1-3 分区的增删改查

-- 创建一个分区表
create table tb_student(
    id int,
    name string,
    gender string,
    age int,
    cls string
)partitioned by (cls_p string)
row format delimited fields terminated by ',';
​
-- show查看分区表的分区信息
show partitions tb_student;
​
-- 生成分区数据信息
-- 方式1 通过insert数据导入,生成对应的分区数据
-- 方式2 通过add方法直接指定分区,指定后会在对应表目录下生成分区目录
alter table tb_student add partition(cls_p='CS');
show partitions tb_student;
select * from tb_student;
​
-- 修改分区名
ALTER TABLE tb_student PARTITION(cls_p='CS') RENAME TO PARTITION(cls_p='CS2');
​
-- 删除分区
alter table tb_student drop partition(cls_p='CS')
​

二、表的分桶

分区 将数据拆分不同目录下存储

分桶 将数据拆分成不同文件进行存储

无论是分区,还是分桶,本质都是对数据的拆分存储,作用是为了提升查询的效率

2-1 分桶创建

使用分桶时,一般都是已经存在了一个原始数据表,为了提升原始数据速度,将原始数据在重新写入一个分桶表

create table tb_user_buckets(
      id int,
    name string,
    age  int,
    gender int,
    create_time date
)   -- clustered by 指定按照哪个字段的数据进行数据的拆分  into 2 buckets  指定拆分的数量
    clustered by(gender) into 2 buckets
row format delimited fields terminated by ',';
​
-- 将原始数据表的数据写入到分桶表
insert into tb_user_buckets select * from tb_user limit 100;
​
​
create table tb_user_buckets_new(
      id int,
    name string,
    age  int,
    gender int,
    create_time date
)   -- clustered by 指定按照哪个字段的数据进行数据的拆分  into 2 buckets  指定拆分的数量
    clustered by(gender) into 3 buckets
row format delimited fields terminated by ',';
​
insert into tb_user_buckets_new select * from tb_user limit 100;

2-2 分桶原理说明

数据按照hash取余的方式进行拆分,写入到不同的文件中

hash(分桶字段)%分桶数=余数

2-3 分桶主要使用场景

多表关联,为了提升多表关联的查询效率,可以将关联的表数据按照相同的关联字段,进行分桶,保持分桶个数一致,或是倍数关系,可以将系统数据放在同一个余数文件中,提升了关联效率


分桶还可以进行随机采样

可以通过随机采样减少计算量

三、数据的文件的读取和写入

hive在对hdfs上的文件数据进行读取和写入数据时,会调用的mapreudce的方法有两类

该方法叫做序列化器方法

 

如果使用delimited: 表示底层默认使用的Serde类:LazySimpleSerDe类来处理数据。

如果使用serde:表示指定其他的Serde类来处理数据,支持用户自定义SerDe类。

3-1 默认序列化器 delimited

在进行表定义时指定row format delimited

指定处理不同数据的方法

fields terminated by 字段的处理方法 指定如何分割字段
collection items terminated by  指定字段中数组的分割分割方式
map keys terminated by  指定map的数据分割方式

这几个方法主要对文件数据读取时,方便区分不同数据内容

I-array类型数据

对读取的数据中符合数组拆分数据转为数组

1,张三,篮球-足球,20
2,李四,羽毛球-乒乓球,20
-- 创建一个用户表
create table tb_user_new(
    id int,
    name string,
    hobby string,
    age int
)row format delimited
fields terminated by ',';
​
select * from tb_user_new;
-- 将兴趣字段 转为数组格式保存 [篮球,足球]
create table tb_user_new_array(
    id int,
    name string,
    hobby array<string>,
    age int
)row format delimited
fields terminated by ','-- 指定字段的分割符
collection items terminated by '-'; -- 指定字段中数组数据分割符
​
select * from tb_user_new_array;
II-struct类型数据
1,张三#20#男

1-先按照逗号拆分数据

2-在将张三#20#男 按照数组拆分 [张三,20,男]

3-在对数组中的数据转为map形式 {'name':张三,'age':20,'gender':男}

create table tb_user_new_struct(
    id int,
    `user` struct<name:string,age:int,gender:string>
)row format delimited
fields terminated by ','
collection items terminated by '#'; -- [张三,20,男]
​
select * from tb_user_new_struct;

 

III-map类型数据
1,孙悟空,53,西部大镖客:288-大圣娶亲:888-全息碎片:0-至尊宝:888-地狱火:1688
2,鲁班七号,54,木偶奇遇记:288-福禄兄弟:288-黑桃队长:60-电玩小子:2288-星空梦想:0
3,后裔,53,精灵王:288-阿尔法小队:588-辉光之辰:888-黄金射手座:1688-如梦令:1314
4,铠,52,龙域领主:288-曙光守护者:1776
5,韩信,52,飞衡:1788-逐梦之影:888-白龙吟:1188-教廷特使:0-街头霸王:888

1-按照field进行字段分割 分隔符是,

2-按照数组进行字段分割 分隔符是 - ['西部大镖客:288','大圣娶亲:888',全息碎片:0,至尊宝:888,地狱火:1688]

3-在将数组的key:value结构数据转为map {'西部大镖客':288,'大圣娶亲':888}

idnamebloodskin
1孙悟空53{'西部大镖客':288,'大圣娶亲':888}

3-2 自定义序列化器

可以使用自定义序列化器中提供jar包完成对json数据的处理

可以将json文件中的数据key最为字段,将value值解析为对应的行数据

{"movie":"1293","rate":"5","timeStamp":"978298261","uid":"2"}
-- {"movie":"1293","rate":"5","timeStamp":"978298261","uid":"2"}
create table tb_movie(
    movie string,
    rate string,
    `timeStamp` string,
    uid string
)row format serde 'org.apache.hive.hcatalog.data.JsonSerDe'; -- 指定三方的序列化器 解析json文件
select * from tb_movie;

四、内置函数

是hive提供的函数方法,方便对不同类型的字段数据进行操作

4-1 字符串操作函数

  • 计算字符串长度

    • length(字段)

  • 字符串拼接

    • concat

    • concat_ws

  • 字符串切割

    • split(字段,'切割的字符')

  • 字符串截取

    • substr(create_time,起始的字符位置数,截取的字符个数)

  • 字符串替换

    • regexp_replace(字段,'原始字符','替换的新字符')

select * from tb_stu;
-- 计算字符串长度  统计字符个数
select name,length(name) from tb_stu;
-- 拼接多个字符换 没有拼接字符
select name,gender,concat(name,gender) from tb_stu;
select name,gender,concat_ws(':',name,gender) from tb_stu;
-- 切割 切割后的数据是数组
select create_time,split(create_time,'-') from tb_stu;
-- 数组取值
select create_time,split(create_time,'-')[0] from tb_stu;
-- 截取 取字符串中指定长度的字符数据
-- substr(create_time,起始的字符位置数,截取的字符个数)
select create_time,substr(create_time,1,4) from tb_stu;
-- 替换
select create_time,regexp_replace(create_time,'-','/') from tb_stu;
-- 方法嵌套使用
-- trim 去除字符串的前后空格   '  张三  '
select create_time,substr(trim(name),1,4) from tb_stu

4-2 数值操作函数

select 1+1;
select 1-1;
select 1*10;
​
select 2%5;
select round(3.12);
select round(3.1214,2);
select round(3.1294,2);
-- 向上取整数
select ceil(3.14);
-- 向下取整数
select floor(3.14);
-- 次方计算
select pow(2,3);

4-3 条件判断函数

-- if判断
-- if(判断条件,成立返回的结果,不成立返回的结果)  单个条件判断
select gender,if(gender=0,'男','女') from tb_user;
-- 多个分类条件判断 case when
-- 10-18 少年  18-40 青年  40-65 中年  大于 65 老年
select age,
       case
        when age <=18 then '少年'
        when age >18 and age <=40 then '青年'
        when age >40 and age <=65 then '中年'
        when age >65  then '老年'
        end as age_new
from tb_user;
-- 查看方法的使用形式
desc function extended nullif;
​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1611232.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通过实例学C#之序列化与反序列化XmlSerializer类

简介 可以将类序列化成xml文件&#xff0c;或者将xml文件反序列化成类对象&#xff0c;一般用于保存或加载项目参数。 构造函数 XmlSerializer() 不使用函数创建一个xmlSerializer对象。 XmlSerializer(Type type) 使用type对象创建一个xmlSerializer对象&#xff0c;注意&…

[阅读笔记23][JAM]JOINTLY TRAINING LARGE AUTOREGRESSIVE MULTIMODAL MODELS

这篇论文是24年1月发表的&#xff0c;然后是基于的RA-CM3和CM3Leon这两篇论文。它所提出的JAM结构系统地融合了现有的文本模型和图像生成模型。 主要有两点贡献&#xff0c;第一点是提出了融合两个模型的方法&#xff0c;第二点是为混合模型精心设计的指令微调策略。 下图是一个…

【Java笔记】第4章:深入学习循环结构

前言1. 循环的理解2. while循环3. do...while循环4. for循环5. 循环的控制语句6. 循环的嵌套结语 ↓ 上期回顾: 【Java笔记】第3章&#xff1a;深入学习分支结构 个人主页&#xff1a;C_GUIQU 归属专栏&#xff1a;【Java学习】 ↑ 前言 各位小伙伴大家好&#xff01;上期小编…

C语言读取数据检索存档《C语言程序设计》·第6章·用数组处理批量数据

C数组使用 添加链接描述 C语言读取数据检索存档 1 添加链接描述 2 添加链接描述 3 添加链接描述 4 添加链接描述 5 添加链接描述 6 添加链接描述 7 matlab转C 添加链接描述

19.表单输入绑定

表单输入绑定 在前端处理表单时&#xff0c;我们常常需要将表单输入框的内容同步给 JavaScript 中相应的变量。手动连接值绑定和更改事件监听器可能会很麻烦,v-model 指令帮我们简化了这一步骤 <template><input type"text" v-model"message">…

Sylar C++高性能服务器学习记录02 【日志管理-代码分析篇】

早在19年5月就在某站上看到sylar的视频了&#xff0c;一直认为这是一个非常不错的视频&#xff0c;还有幸加了sylar本人的wx&#xff0c;由于本人一直是自学编程&#xff0c;基础不扎实&#xff0c;也没有任何人的督促&#xff0c;没能坚持下去&#xff0c;每每想起倍感惋惜。恰…

部署轻量级Gitea替代GitLab进行版本控制(一)

Gitea 是一款使用 Golang 编写的可自运营的代码管理工具。 Gitea Official Website gitea: Gitea的首要目标是创建一个极易安装&#xff0c;运行非常快速&#xff0c;安装和使用体验良好的自建 Git 服务。我们采用Go作为后端语言&#xff0c;这使我们只要生成一个可执行程序即…

【EtherCAT】FMMU和SM简介

目录 一、简介 1、 FMMU 2、SM (1) 缓冲模式 (2)邮箱模式 3、FMMU将物理存储器映射到逻辑过程数据映射的配置原理 二、FMMU和SM在EtherCAT从站控制器的存储空间分配 三、FMMU和SM部分寄存器描述(LAN9253) 1、FMMU 2、SM 四、FMMU和SM的数据结构&#xff08;soem主站&…

修复vite中使用react提示Fast refresh only works when a file only exports components.

前言 我通过 vite 构建了一个 react 应用并使用 react.lazy 来懒加载组件&#xff0c;但是在使用过程中 一直提示 Fast refresh only works when a file only exports components. Move your component(s) to a separate file.eslint(react-refresh/only-export-components)。…

x-cmd ai | x openai - 用于发送 openai API 请求,以及与 ChatGPT 对话

介绍 Openai 模块是 Openai 大模型 Chatgpt 3 和 ChatGPT 4 命令行实现。x-cmd 提供了多个不同平台间多种 AI 大模型的调用能力。无论是本地模型还是 Web 服务上的模型&#xff0c;用户都可以在不同的 AI 大模型间直接无缝切换&#xff0c;并能把之前的聊天记录发送给新的大模…

第64天:服务攻防-框架安全CVE复现Apache ShiroApache Solr

目录 思维导图 案例一&#xff1a;Apache Shiro-组件框架安全 shiro反序列化 cve_2016_4437 CVE-2020-17523 CVE-2020-1957 案例二&#xff1a;Apache Solr-组件框架安全 远程命令执行 RCE&#xff08;CVE-2017-12629&#xff09; 任意文件读取 AND 命令执行&#xff08…

C++ 速成

C 概述 c 融合了3中不同的编程方式&#xff1a; C语言代表的过程性语言C 在C语言基础上添加的类代表的面向对象语言C 模板支持的泛型编程 C 标准 一种描述C 的一些语法规则的代码准则 C11 C 应用 游戏 C 效率是一个很重要的原因&#xff0c;绝大部分游戏殷勤都是C写的 网…

【刷题】 二分查找进阶

送给大家一句话&#xff1a; 你向神求助是因为相信神&#xff0c;神没有回应你是因为神相信你 ε≡٩(๑>₃<)۶ &#xfeff;ε≡٩(๑>₃<)۶ &#xfeff;ε≡٩(๑>₃<)۶ 一心向学 二分查找进阶 1 前言Leetcode 852. 山脉数组的峰顶索引题目描述算法思…

Unity类银河恶魔城学习记录13-5,6 p146 Delete save file,p147 Encryption of saved data源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释&#xff0c;可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili FileDataHandler.cs using System; using System.IO; using UnityEngine; p…

Git TortoiseGit 安装使用详细教程

前言 Git 是一个免费的开源分布式版本控制系统&#xff0c;是用来保存工程源代码历史状态的命令行工具&#xff0c;旨在处理从小型到非常大型的项目&#xff0c;速度快、效率高。《请查阅Git详细说明》。TortoiseGit 是 Git 的 Windows Shell 界面工具&#xff0c;基于 Tortoi…

pg内核之日志管理器(五)WAL日志

概念 WAL日志 数据库运行过程中&#xff0c;数据一般是会保存在内存和磁盘中&#xff0c;为保证数据的安全性&#xff0c;防止数据库崩溃时数据不丢失&#xff0c;一般都是要保证数据实时落盘的&#xff0c;但是又由于磁盘随机IO读写速率与内存相比慢很多&#xff0c;如果每个…

Python爬虫爬取中药材价格数据

&#x1f388; 博主&#xff1a;一只程序猿子 &#x1f388; 博客主页&#xff1a;一只程序猿子 博客主页 &#x1f388; 个人介绍&#xff1a;爱好(bushi)编程&#xff01; &#x1f388; 创作不易&#xff1a;喜欢的话麻烦您点个&#x1f44d;和⭐&#xff01; &#x1f388;…

【Ubuntu20.04+Noetic】UR5e+Gazebo+Moveit

环境准备 创建工作空间 mkdir -p ur5e_ws/src cd ur5e_ws/srcUR机械臂软件包 UR官方没更新最新的noetic的分支,因此安装melodic,并需要改动相关文件。 安装UR的模型配置包,包里面有UR模型文件,moveit配置等: cd ~/ur5e_ws/src git clone -b melodic-devel https://git…

llama-factory SFT 系列教程 (四),lora sft 微调后,使用vllm加速推理

文章目录 文章列表&#xff1a;背景简介llama-factory vllm API 部署融合 lora 模型权重 vllm API 部署HuggingFace API 部署推理API 部署总结 vllm 不使用 API 部署&#xff0c;直接推理数据集 tenplatevllm 代码部署 文章列表&#xff1a; llama-factory SFT系列教程 (一)&a…

【Django】调用django的pbkdf2_sha256加密算法测试

基于django搭建的系统中&#xff0c;用到pbkdf2_sha256&#xff08;&#xff08;Password-Based Key Derivation Function 2&#xff09;&#xff09;加密算法&#xff0c;这里做些代码测试、总结。 PBKDF2简介 PBKDF2是一种基于密码的密钥派生函数&#xff0c;用于从用户提供的…