Hive学习——分桶抽样、侧视图与炸裂函数搭配、hive实现WordCount

news2024/11/27 0:21:14

目录

一、分桶抽样

1.抽取表中10%的数据

2.抽取表中30%的数据

3.取第一行

4.取第10行

5.数据块抽样

6.tablesample详解

二、UDTF——表生成函数

1.explode()——炸裂函数

2.posexpolde()——只能对array进行炸裂

3.inline()——炸裂结构体数组

三、UDTF与侧视图的搭配使用

案例一:

1.炸裂likes列: 注意别名不要使用关键词

2.对employee表进行炸裂:

案例二:

案例三:hive实现WordCount


一、分桶抽样

-- 创建分桶表
create table employee_id_buckets
(
    name         string,
    employee_id  int,
    work_place   array<string>,
    gender_age   struct<gender:string,age:int>,
    skills_score map<string,int>,
    depart_title map<string,array<string>>
)
    clustered by (employee_id) into 2 buckets
    row format delimited fields terminated by '|'
        collection items terminated by ','
        map keys terminated by ':'
        lines terminated by '\n';


-- 设置task任务数量为2,桶的数量与tasks任务不同
set map.reduce.tasks=2;

-- 开启分桶设置
set hive.enforce.bucketing=true;

-- 加载数据
insert overwrite table employee_id_buckets select * from employee_id;

-- 查询分桶表
select * from employee_id_buckets;


[root@lxm147 data]# vim ./employee_id.txt 

Michael|100|Montreal,Toronto|Male,30|DB:80|Product:Developer:Lead
Will|101|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Steven|102|New York|Female,27|Python:80|Test:Lead,COE:Architect
Lucy|103|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Mike|104|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Shelley|105|New York|Female,27|Python:80|Test:Lead,COE:Architect
Luly|106|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Lily|107|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Shell|108|New York|Female,27|Python:80|Test:Lead,COE:Architect
Mich|109|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Dayong|110|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Sara|111|New York|Female,27|Python:80|Test:Lead,COE:Architect
Roman|112|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Christine|113|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Eman|114|New York|Female,27|Python:80|Test:Lead,COE:Architect
Alex|115|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Alan|116|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Andy|117|New York|Female,27|Python:80|Test:Lead,COE:Architect
Ryan|118|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Rome|119|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Lym|120|New York|Female,27|Python:80|Test:Lead,COE:Architect
Linm|121|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Dach|122|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Ilon|123|New York|Female,27|Python:80|Test:Lead,COE:Architect
Elaine|124|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead

1.抽取表中10%的数据

-- 每次提取的数据一样
select * from employee_id_buckets tablesample (10 percent) s;-- 25条数据抽取10%的数据

2.抽取表中30%的数据

select * from employee_id_buckets tablesample (30 percent); -- 25条数据抽取30%的数据

3.取第一行

select * from employee_id_buckets tablesample (1 rows);-- 取第1行

4.取第10行

select * from employee_id_buckets tablesample (10 rows) s;-- 取前10行

5.数据块抽样

select * from employee_id_buckets tablesample (bucket 1 out of 2);

建表时设置的桶的数量是2,将2个桶分成两份,2/2=1,一个桶一份,取第一个桶。

select *
from employee_id_buckets tablesample (bucket 1 out of 2 on rand());

将数据随机分到2个桶,抽取第一个桶的数据。

select * from employee_id_buckets tablesample (bucket 1 out of 4 on rand());

将数据随机分到4个桶,抽取第一个桶的数据。

因此,如果一个表分成了8个桶,想要抽到第3个桶里面1/4的数据,那么of后面就是(8/(1/4))=32,bucket后面就是3(代表第几个桶)。

select * from employee_id_buckets tablesample (bucket 3 out of 32 on rand());

6.tablesample详解

抽样语句,语法:TABLESAMPLE(BUCKET x OUT OF y)

        1.y必须是tablebucket数的倍数或者因子。 hive根据y的大小,决定抽样的比例。 例如,table总共分了64份,当y=32时,抽取(64/32=)2个bucket的数据,当y=128时,抽取(64/128=)1/2个bucket的数据。

        2.x表示从哪个bucket开始抽取。 例如,table总bucket数为32,tablesample(bucket 3 out of 16),表示总共抽取(32/16=)2个bucket的数据,分别为第3个bucket和第(3+16=)19个bucket的数据。

二、UDTF——表生成函数

接收一行数据,输出一行或多行数据。

1.explode()——炸裂函数

-- 对array进行炸裂

select explode(`array`(1,5,77));

-- 对map进行炸裂

select explode(`map`('name','zs','age',13)) as(key,value);

2.posexpolde()——只能对array进行炸裂

-- 炸裂时可以输出下标

select posexplode(`array`(1,5,77)) as (pose,arr);

3.inline()——炸裂结构体数组

-- 对结构体数组进行炸裂

select inline(`array`(named_struct('id', 1, 'name', 'zs'),
                      named_struct('id', 2, 'name', 'ls'),
                      named_struct('id', 3, 'name', 'ww'))) as (id, name);

三、UDTF与侧视图的搭配使用

        Lateral View通常与UDTF配合使用。Lateral View可以将UDTF应用到源表的每行数据,将每行数据转换为一行或多行,并将源表中每行的输出结果与该行连接起来,形成一个虚拟表。

        语法:Lateral View写在from的表的后面,紧接着是炸裂函数,炸裂函数后面是炸裂出来的表的别名,as 后面是炸裂出来的表的字段名。

案例一:

有一个employee表:

1.炸裂likes列: 注意别名不要使用关键词

-- 炸裂likes
select id, name, ll
from student2 lateral view explode(likes) lk as ll;

2.对employee表进行炸裂:

select name,
       wps,
       gender_age.gender,-- gender_age.gender 结构块炸裂
       gender_age.age,
       skill,
       score,
       depart,
       title
from employee
         lateral view explode(workplace) place as wps
         lateral view explode(skills_score) skd as skill, score -- map炸成两列显示
         lateral view explode(depart_title) dt as depart, title;

案例二:

-- 建表
create table movie_info
(
    movie    string, --电影名称
    category string  --电影分类
)
    row format delimited fields terminated by "\t";


-- 加载数据
insert overwrite table movie_info
values ("《疑犯追踪》", "悬疑,动作,科幻,剧情"),
       ("《Lie to me》", "悬疑,警匪,动作,心理,剧情"),
       ("《战狼2》", "战争,动作,灾难");

select explode(split(category, ',')) category
from movie_info;

-- 第一种炸裂写法
select t.category, count(1) num
from (select explode(split(category, ',')) category
      from movie_info) t
group by t.category;


-- 炸裂函数搭配侧视图写法
select cates,
       count(1) num
from (select split(category, ',') as cate
      from movie_info) t
         lateral view explode(t.cate) tmp as cates
group by cates;

案例三:hive实现WordCount

hive实现WordCount的方法与案例二的第一种解法类似

-- 新建一个表
create table if not exists words(
    line string
);

-- 加载数据
load data local inpath '/opt/atguigu/wordcount.txt' overwrite into table words;

select * from words;

 

-- 先将每一行数据划分为数组
select split(line, '\t') word from words;

-- 将数组拆分
select explode(split(line, '\t')) word from words;

-- 拆分后就是一个表,分组计数排序
select t.word,
       count(1) num
from (
         select explode(split(line, '\t')) word
         from words) t
group by t.word
order by num desc;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/364781.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【持续学习】清华最新持续学习综述

为了应对现实世界的动态变化&#xff0c;智能体需要在其生命周期中增量地获取、更新、积累和利用知识。这种能力被称为持续学习&#xff0c;为人工智能系统自适应发展提供了基础。本文来自于https://arxiv.org/abs/2302.00487在一般意义上&#xff0c;持续学习明显受到灾难性遗…

DO-254 和 DO-178B的区别(文末有易灵思核心板及配套下载线)

DO-178B介绍 DO-178B&#xff0c;机载系统和设备认证中的软件考虑&#xff0c;在电子硬件被要求符合 DO-254 之前多年就已发布和采纳。DO-178B 的先行一步对电子硬件开发带来两个特别的后果。首先&#xff0c;使得硬件制造商有了一种倾向&#xff0c;为了避免 DO-178B 对软件开…

OSI模型和网络协议简介

文章目录一、OSI七层模型1.1什么是OSI七层模型&#xff1f;1.2这个网络模型究竟是干什么呢&#xff1f;二、TCP/IP协议三、常见协议四、物联网通信协议以及MQTT4.1 物联网七大通信协议4.2 MQTT特性一、OSI七层模型 1.1什么是OSI七层模型&#xff1f; 我们需要了解互联网的本质…

unity实现2D小游戏FlappyBird-2D

unity实现2D小游戏FlappyBird-2D 一、游戏介绍&#xff08;unity工程文件资源包链接&#xff09; https://download.csdn.net/download/weixin_48388330/87483337 实现预加载动画&#xff0c;UI界面展示&#xff0c;空格键或鼠标左键可控制Bird的高度&#xff0c;从而通过障…

关于医疗场所电源配置及变配电系统设计与应用分析

摘要&#xff1a;针对不同医疗场所&#xff0c;结合医疗负荷分级&#xff0c;从维持供电时间和恢复供电时间的角度分析相应的电源配置和配电措施&#xff0c;以构建适合医疗场所的可靠供配电系统。 关键词&#xff1a;医疗场所&#xff1b;电源配置&#xff1b;安全电源&#…

vue+echarts:圆形柱状图设置角度和最大值

第020个点击查看专栏目录本示例是显示圆形的柱状图&#xff0c;angleAxis设置一个max&#xff0c; angleAxis上startAngle&#xff1a;90 &#xff0c; 将0点设置为最顶点。 文章目录示例效果示例源代码&#xff08;共100行&#xff09;相关资料参考专栏介绍示例效果 示例源代码…

【免费教程】地下水模拟及环评之水文地质基础与建模流程、数据要求专题

地下水地下水&#xff08;ground water&#xff09;&#xff0c;是指赋存于地面以下岩石空隙中的水&#xff0c;狭义上是指地下水面以下饱和含水层中的水。在国家标准《水文地质术语》&#xff08;GB/T 14157-93&#xff09;中&#xff0c;地下水是指埋藏在地表以下各种形式的重…

HTTP协议知识体系核心重点梳理

HTTP协议知识体系核心重点梳理TCP/IP协议1.四层模型2.通信过程3.tcp三次握手和四次挥手4.tcp安全传输4. 一次HTTP通信流程HTTP协议HTTP/1.1CookieHttp报文格式内容编码分块传输编码HTTP状态码重定向状态码常用的通用首部cache-controlExpiresConnectionTransfer-Encoding常用的…

Sprng依赖注入(二):setter注入是如何工作的?

文章示例环境配置信息jdk版本:1.8开发工具&#xff1a;Intellij iDEA 2020.1springboot:2.3.9.RELEASE前言在Spring依赖注入&#xff08;一&#xff09;&#xff1a;字段注入的方式是如何工作的&#xff1f;中主要分享了Spring bean依赖注入方式中的字段注入方式及其工作过程&a…

数据结构与算法之最长公共子序列动态规划

目录&#xff1a;一.题目及其示例二.动态规划的基本思想三.思路动态规划五部曲1.确定dp数组&#xff08;dp table&#xff09;以及下标的含义2.确定递推公式3.dp数组如何初始化4.确定遍历顺序5.举例推导dp数组一.题目及其示例给定两个字符串 text1 和 text2&#xff0c;返回这两…

Docker----------day5---安装redis集群

1.哈希取余分区 2亿条记录就是2亿个k,v&#xff0c;我们单机不行必须要分布式多机&#xff0c;假设有3台机器构成一个集群&#xff0c;用户每次读写操作都是根据公式&#xff1a; hash(key) % N个机器台数&#xff0c;计算出哈希值&#xff0c;用来决定数据映射到哪一个节点上。…

华为机试题:HJ81 字符串字符匹配(python)

文章目录&#xff08;1&#xff09;题目描述&#xff08;2&#xff09;Python3实现&#xff08;3&#xff09;知识点详解1、input()&#xff1a;获取控制台&#xff08;任意形式&#xff09;的输入。输出均为字符串类型。1.1、input() 与 list(input()) 的区别、及其相互转换方…

VO,BO,PO,DO,DTO,AO的区别

DTO&#xff08;Data Transfer Object&#xff09;数据传输对象 这个传输通常指的前后端之间的传输 1.在前端的时候&#xff1a; 存在形式通常是js里面的对象&#xff08;也可以简单理解成json&#xff09;&#xff0c;也就是通过ajax请求的那个数据体 2.在后端的时候&…

深入浅出C++ ——map类深度剖析

文章目录一、map类介绍二、map的使用三、multimap一、map类介绍 map是 C STL 中提供的容器&#xff0c;map是数学上的映射&#xff0c;其具有唯一性&#xff0c;即每个pair(key,value)只出现一次&#xff0c;而 multimap 则是可重复映射&#xff0c;两者的内部实现是一棵红黑树…

[Datawhale][CS224W]图机器学习(五)

这里写目录标题一、Deepwalk1.1 预备知识1.2 Deepwalk介绍1.3 Embedding1.4 word2Vec 词向量&#xff0c;词嵌入1.5 random Walk随机游走1.6 DeepWalk 核心代码Random WalkWord2vecDeepWalk应用1.7 DeepWalk优缺点二、Node2Vec2.1 图嵌入2.2 Node2Vec优化目标顶点序列采样策略2…

固态继电器控制电路

固态继电器控制电路 固态继电器&#xff08;SSR&#xff09;的种类和型号很多&#xff0c;因此其输入控制方法和控制电路也相应众多。固态继电器&#xff08;SSR&#xff09;的共同特点在于驱动电流或驱动电压小&#xff0c;即只需输入一个小信号即可控制SSR的开关。 如果需要…

瞎更新,container_cpu_usage_seconds_total{job=“cadvisor“} 怎么没有啦

一、 基本介绍 1.1 概论 1.1.1 故事背景 今天在同步其他团队的 grafana 监控大盘时&#xff0c;Prometheus 服务报告说不能找到名为 container_cpu_usage_seconds_total{job“cadvisor”} 的指标&#xff0c;一般来说可能有几个原因。 可能是 Prometheus 服务没开启prometh…

leaflet 实现极地标线地图,加载tileLayer.wms数据(088)

第088个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+leaflet中实现极地标线地图,加载tileLayer.wms数据。 直接复制下面的 vue+openlayers源代码,操作2分钟即可运行实现效果. 文章目录 示例效果配置方式示例源代码(共93行)安装插件专栏目标相关API参考:示例效果…

什么是API?(详细解说)

编程资料时经常会看到API这个名词&#xff0c;网上各种高大上的解释估计放倒了一批初学者。初学者看到下面这一段话可能就有点头痛了。 API&#xff08;Application Programming Interface,应用程序编程接口&#xff09;是一些预先定义的函数&#xff0c;目的是提供应用程序与开…

超详细的阿里java岗社招知识点整理,常考知识点全在这里了

常考知识点 1、java的基本数据类型与包装类&#xff1b; 2、final修饰变量类方法&#xff1b; 3、String为什么是不可变的&#xff0c;以及new String(“abc”)创建了几个对象&#xff1b; 4、String、StringBuffer、以及StringBuilder的区别&#xff1b; 5、static修饰变…