基于Hive的数据应用实践总结

news2024/11/27 6:27:15

百分位数(percentile)计算

百分位数含义:统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。能够表达p%的数据都是小于这个百分位数。

实现百分位数当前有很多种算法,下面使用一种比较容易理解的方法进行例子说明。

例子:
有下面几个学生分数数据。
Arr = [20,30,50,50,60,10]

将数据按从小到大排序后
Arr = [10,20,30,50,50,60]

percentile(50%) =下标为 3的值,即50。 【(Arr.size()-1)*0.5 = 2.5 四舍五入为 3】,
percentile(100%) = 下标为 5的值,即60。 【(Arr.size()-1)*1 = 5】,显然这个时候是等于Arr的最大值。
percentile(0%) = 下标为 0的值,即10。 【(Arr.size()-1)*0 = 0】,显然这个时候是等于Arr的最小值。

简单的python 代码实现的逻辑如下。

import numpy as np  
  
def percentile(data, p):  
    sorted_data = np.sort(data)  
    k = round((len(data)-1) * p)  
    return sorted_data[k]

SQL实现如下:

--percentile(50%) 
SELECT percentile(num, 0.5) as P50 FROM arr;

数据去重

已有表数据:
在这里插入图片描述
让ID不重复。

select id,gmt_create
from(
select id,gmt_create,row_number() over(partition by id order by gmt_create desc) tag
from table) t1
where tag=1;

以上SQL中row_number()为开窗函数,根据ID来分区,分区内部按时间来排序,然后再给分区里面的数据进行打标。
在这里插入图片描述

滚动指标计算

已有表数据:
在这里插入图片描述
以上是每天的天气温度数据,如果需要输出一个趋势图,横坐表示日期,纵坐标表示当前日期的前7天温度的平均数,则怎么实现呢。

select  gmt_create,SUM(num) num   OVER(PARTITION BY gmt_create ORDER BY gmt_create ROWS BETWEEN 7 PRECEDING AND -1 FOLLOWING) 
num from table;

累计指标计算

已有表数据。
在这里插入图片描述
当天的日期的数据为之前所有日期累计的总和,如1月2日为1+3=4,1月3日为1+3+2=6,以此类推。

select gmt_create,SUM(num) num OVER(PARTITION BY gmt_create ORDER BY gmt_create) AS num from table;

等同于

select  gmt_create,SUM(num) num   OVER(PARTITION BY gmt_create ORDER BY gmt_create ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) num from table;

在这里插入图片描述

多维度聚合分析

有这种的场景,现需分析用户画像,需要统计3个不同维度的聚合,如地理IP、设备,性别。
需要分析不同地理IP、设备、性别分别多少人。
需要分析不同地理IP、设备分别多少人。
需要分析不同地理IP分别多少人。
需要总共有多少人。

传统的分析方法如下实现:

SELECT ip_city, device, sex, COUNT(*)
FROM users GROUP BY ip_city, device, sex
UNION ALL
SELECT ip_city, device, 'ALL'  as sex, COUNT(*)
FROM users GROUP BY ip_city, device
UNION ALL
SELECT ip_city,  'ALL'  as device, 'ALL'  as sex, COUNT(*)
FROM users GROUP BY ip_city
UNION ALL
SELECT 'ALL' as ip_city,  'ALL'  as device, 'ALL'  as sex, COUNT(*)
FROM users 

是不是代码很冗余?

如果使用Hive的多维度聚合分析函数grouping sets,则如下实现。

SELECT ip_city, device, sex ,COUNT(*)
FROM users 
GROUP BY ip_city, device, sex GROUPING SETS((ip_city, device, sex), (ip_city, device), (ip_city),());

上面还是很要写很多字段信息,有没有更简单的?有的。

SELECT ip_city, device, sex ,COUNT(*)
FROM users 
GROUP BY CUBE( ip_city, device, sex);

GROUP BY CUBE( ip_city, device, sex) 等价于
GROUPING SETS((ip_city,device,sex),(ip_city,device),(ip_city,sex),(device,sex),(ip_city),(device),(sex),())

一看起来比之前的需求多算了一些逻辑,因此计算量会更大,所以如果要做优化还是建议采用GROUPING SETS进行剪枝优化。

待续更新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/615749.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何实现Java类隔离加载

一 什么是类隔离技术 只要你 Java 代码写的足够多,就一定会出现这种情况:系统新引入了一个中间件的 jar 包,编译的时候一切正常,一运行就报错:java.lang.NoSuchMethodError,然后就哼哧哼哧的开始找解决方法…

弹性盒子中的flex

flex属性是flex-grow&#xff0c;flex-shrink和flex-basis的缩写 flex是用在盒子中的子组件的&#xff0c;充分体现了弹性盒子的弹性二字。 例如现在的情况是&#xff1a; <div class"container"><div class"item1">Item1</div><d…

微信小程序码生成,扫码携带参数进入指定页面

一、准备工作 &#xff08;1&#xff09;微信小程序后台获取小程序的appId和secret 小程序后台管理&#xff08;开发管理➡开发设置&#xff09; &#xff08;2&#xff09;扫码跳转的页面在app.json中已经注册 注册的路径与传过去的路径一致 &#xff08;3&#xff09;小程序…

同步模式之犹豫模式Balking

tip: 作为程序员一定学习编程之道&#xff0c;一定要对代码的编写有追求&#xff0c;不能实现就完事了。我们应该让自己写的代码更加优雅&#xff0c;即使这会费时费力。 文章目录 一、同步模式之犹豫模式Balking二、代码样例三、优缺点 一、同步模式之犹豫模式Balking 同步模…

挤出泡沫、脱虚向实,AI大模型正在回归价值投资?

商品推荐、交通管理、生成文章、代码编程、电影特效制作……自ChatGPT横空出世以来&#xff0c;AIGC浪潮席卷全球&#xff0c;上下游产业链也因此大放异彩。 市场行情的高景气直观反映在股价上&#xff0c;无论AI公司是否盈利&#xff0c;其股价多呈上升趋势。一些与AI概念有所…

测试:用例篇

上一章讲述的是测试的基本概念。在我们开始做了一段时间基础测试&#xff0c;熟悉了业务之后&#xff0c;往往会 分配来写测试用例&#xff0c;并且在日常测试中&#xff0c;有时也需要补充测试用例到现有的案例库中 在开始之前先讲讲测试中经典的测试方法&#xff1a;黑盒测试…

【dc-dc】DC-DC恒流电源 车灯方案的应用

1,信息来源&#xff1a;深圳市世微半导体有限公司 Augus 2,产品描述 AP5103 是一款效率高&#xff0c;稳定可靠的 LED 灯恒流驱动控制芯片&#xff0c;内置高精度比较器&#xff0c;固定关断时间控制电路&#xff0c;恒流驱动电路等&#xff0c;特别适合大功率 LED 恒流驱动。…

[Kotlin] 玩Android代码学习之-模块化+Retrofit+协程+viewModel的数据层封装

文章目录 1:前言玩Android APP 源码本贴的目的参考贴 2: kotlin下的模块化(捎带一嘴)3:Retrofit协程viewModel3.1基础网络层搭建lib_home:Bannerlib_common: BaseResp lib_common:RetrofitManagerlib_home: HomeApi 3.2基础网络层接口测试3.3 基础网络层优化-koin依赖注入框架…

观澜最快的旧改项目之一,鸿荣源观城项目一期。

项目&#xff1a;观湖街道观城第一期城市更新单元位置&#xff1a;4号地铁观澜地铁站0距离 规模&#xff1a;拆除范围用地面积706094㎡ 面积&#xff1a;私信咨询价格&#xff1a;3.x万/平 开发商&#xff1a;鸿荣源 合同方案&#xff1a;直接开发商签合同 目前进度&#…

Scrapy 入门教程

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯&#xff0c;信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求&#xff0c;并按照一定的方式进行整理排列&#xff0c;入队&#xff0c;当引擎需要时&#xff0c;…

【CANN训练营机器狗系列】安装ROS环境及初体验

环境 操作系统&#xff1a;Ubuntu 20.04 CPU&#xff1a;Intel Xeon Gold 6278C CPU 2.60GHz 内存&#xff1a;16GB 准备环境 Ubuntu与ROS版本对应关系 UbuntuROS 1.0ROS2.016.04 LTSKinetic LTSArdent18.04 LTSMelodic LTSDashing LTS120.04 LTSNoetic LTSFoxy LTS 安装…

linorobot机器人-自动生成-不可用

好像还是比较混乱。 具体信息参考其官网。 https://linorobot.org/ Linorobot是一套开源的ROS兼容机器人&#xff0c;旨在为学生、开发者和研究人员提供一个低成本的平台&#xff0c;以便在ROS&#xff08;机器人操作系统&#xff09;的基础上创建新的激动人心的应用。Linor…

VMware(Ubuntu)共享文件夹设置

VMware共享文件夹设置 安装完成ubuntu虚拟机后&#xff0c;需要建立共享文件夹来方便在Host主机和虚拟机ubuntu之间分享文件。 在虚拟机设置中&#xff0c;在 选项 卡中找到 共享文件夹 项&#xff0c;在右侧添加共享文件夹。 在虚拟机中&#xff0c;在ubuntu终端中使用指令…

Three.js camera初探——转场动画实现

背景 首先简单介绍一下three.js&#xff0c;three.js是用javascript写的基于webGL的第三方3D库&#xff0c;通过它可以在网页中进行3D建模&#xff0c;结合上TweenMax.js动画库&#xff0c;在网页中实现3D动画效果就变得很简单了。 这是three.js建模的简单流程图例&#xff1…

基于B/S架构springboot框架开发的中小学智慧校园平台源码

一、智慧校园技术框架&#xff1a; 1、使用springboot框架Javavue2 B/S架构 2、JAVA语言数据库MySQL5.7 3、移动端小程序使用小程序原生语言开发 4、电子班牌固件安卓7.1&#xff1b;使用Java Android原生 5、elmentui &#xff0c;Quartz&#xff0c;jpa&#xff0c;jwt …

实现 Linux 视频会议(源码,支持信创环境,银河麒麟,统信UOS)

信创是现阶段国家发展的重要战略之一&#xff0c;面对这一趋势&#xff0c;所有的软件应用只有支持信创国产化的基础软硬件设施&#xff0c;在未来才不会被淘汰。那么&#xff0c;可以使用C#来实现支持信创环境的视频会议系统吗&#xff1f;答案是肯定的。 本文讲述如何使用C#来…

django 快速入门

快速开始 安装Django 首先安装Django包&#xff0c;现在Django已经到了2.0版本&#xff0c;如果还在使用1.11请尽快升级。旧版本以后只修复bug&#xff0c;不会添加新功能。 pip install django 复制 创建项目 Django安装好之后&#xff0c;会附带一个命令行工具django-a…

uCOSii_任务栈检测和任务栈清除

1、任务栈检测和任务栈清除 在创建任务时&#xff0c;也需要设置OSTaskCreateExt()传入opt参数。 当opt (INT16U)(OS_TASK_OPT_STK_CLR | OS_TASK_OPT_STK_CHK)&#xff0c;可以使用OSTaskStkChk()检查的任务栈的剩余空间&#xff0c;也可以使用OS_TaskStkClr()清除任务栈。 …

使用Graalvm+Swing搓了个原生桌面应用的轮子:文件差异对比工具,附轮子源码

文章目录 1、DFDiff介绍2、软件架构3、安装教程3.1、编译为jar包运行3.2、编译为原生应用运行 4、运行效果图5、项目源码地址 1、DFDiff介绍 当前已实现的功能比较两个文件夹内的文件差异&#xff0c;已支持文件差异对比。 2、软件架构 软件架构说明 开发环境是在OpenJDK17&…

docker 安装gitlab jenkins git maven

jenkins 配置git提示 问题1、Error performing git command: /usr/local/git ls-remote -h 问题2、stdout: stderr: Host key verification failed. fatal: Could not read from remote repository. Please make sure you have the correct access rights and the repositor…