【Hive SQL 每日一题】找出各个商品销售额的中位数

news2024/9/22 9:35:15

文章目录

    • 测试数据
    • 需求说明
    • 需求实现
      • 方法1 —— 升序计算法
      • 方法2 —— 正反排序法
    • 补充

测试数据

-- 创建 orders 表
DROP TABLE IF EXISTS orders;
CREATE TABLE orders (
    order_id INT,
    product_id INT,
    order_date STRING,
    amount DOUBLE
);

-- 插入 orders 数据
INSERT INTO orders VALUES
(1, 1, '2024-01-01', 100.0),
(2, 1, '2024-01-02', 150.0),
(3, 2, '2024-01-03', 200.0),
(4, 3, '2024-01-04', 50.0),
(5, 4, '2024-01-05', 300.0),
(6, 5, '2024-01-06', 250.0),
(7, 1, '2024-01-07', 80.0),
(8, 2, '2024-01-08', 220.0),
(9, 3, '2024-01-09', 60.0),
(10, 4, '2024-01-10', 310.0),
(11, 5, '2024-01-11', 230.0),
(12, 1, '2024-01-12', 90.0),
(13, 2, '2024-01-13', 210.0),
(14, 3, '2024-01-14', 70.0),
(15, 4, '2024-01-15', 320.0),
(16, 5, '2024-01-16', 240.0),
(17, 1, '2024-01-17', 110.0),
(18, 2, '2024-01-18', 190.0),
(19, 3, '2024-01-19', 80.0),
(20, 4, '2024-01-20', 330.0),
(21, 5, '2024-01-21', 260.0),
(22, 1, '2024-01-22', 120.0),
(23, 2, '2024-01-23', 230.0),
(24, 3, '2024-01-24', 90.0),
(25, 4, '2024-01-25', 340.0),
(26, 5, '2024-01-26', 270.0),
(27, 1, '2024-01-27', 130.0),
(28, 2, '2024-01-28', 180.0),
(29, 3, '2024-01-29', 100.0),
(30, 4, '2024-01-30', 350.0);

需求说明

求出每个商品的订单金额中位数。

结果示例:

product_idmedian
1110.0
2200.0
2210.0

结果按 product_id median 升序排列。

其中:

  • product_id 表示商品 ID;
  • median 表示该商品的中位数值。

需求实现

需求实现之前,我们需要明确中位数的概念,在日常生活中,我们是如何计算中位数的?

这里给定一个列表 [4,5,6,7,8],请你计算该列表的中位数,那么该如何进行呢?

首先,求中位数需要将数值按照从小到大的顺序排列,然后根据中位数列表的长度 n 不同有两种结果:

  • 如果列表长度 n 为偶数,那么中位数就有两个,为第 n/2 个和第 n/2+1 个;

  • 如果列表长度 n 为奇数,那么中位数就只有一个,为第 (n+1)/2 个。

这里给定的示例列表长度为 5,是一个奇数,故它的中位数为第 (5+1)/2 个,所以这个列表的中位数为 6

那么,学会了如何计算中位数,下面就说说如何在 SQL 中实现。

方法1 —— 升序计算法

select
    product_id,
    amount median
from
    (select
        product_id,
        amount,
        row_number() over(partition by product_id order by amount) rn,
        count(1) over(partition by product_id) cnt
    from
        orders)t1
where
    rn in (cnt/2,cnt/2+1,(cnt+1)/2)
order by
    product_id,median;

输出结果如下所示:

在这里插入图片描述

这个方法就是上面提到的中位数计算逻辑:

  • 分组按从小到大进行排名;

  • 分组统计总个数;

  • 判断排名是否处于中位数的结果中。

方法2 —— 正反排序法

select
    product_id,
    amount median
from
    (select
        product_id,
        amount,
        row_number() over(partition by product_id order by amount) rn_asc,
        row_number() over(partition by product_id order by amount desc) rn_desc,
        count(1) over(partition by product_id) cnt
    from
        orders)t1
where
    rn_asc >= cnt/2
    and
    rn_desc >= cnt/2
order by
    product_id,median;

输出结果如下:

在这里插入图片描述

这个方法的计算逻辑有所不同:

  • 分组按从小到大进行排名;

  • 分组按从大到小进行排名;

  • 分组统计总个数 cnt

  • 判断正反排名是否都满足 cnt/2

那么为什么这种方法可以取到中位数呢?我们一起来看看子查询 t1 的结果:

在这里插入图片描述

t1 子查询中可以看到,如果总个数为奇数时,那么该组中的中位数有且仅有一个,因为它无论时正序还是逆序排列,中位数的排名都不会发生改变,这种情况时,那么是不是满足条件 rn_asc = rn_desc 我们就能够找出长度为奇数组中的中位数。

如果总个数为偶数时,根据中位数的特性,该组的中位数一定是两个,那么如何设置条件呢?其实我们可以从正反序的排名中入手,同组中,当满足 rn_asc >= cnt/2rn_desc >= cnt/2 条件时,它就能够找出长度为偶数中的中位数。

将奇偶条件结合,可以省略直接写成 rn_asc >= cnt/2 and rn_desc >= cnt/2

补充

在 Hive 中有两个内置的聚合函数可以用于求近似中位数,分别是:

  • percentile(col,0.5)

  • percentile_approx(col,0.5)

其中第一个参数 col 为我们要求中位数的列,第二个参数固定为 0.5

它们的区别是,percentile 中指定的列必须是整型,不能是浮点型。如果是浮点型数据,则使用 percentile_approx 函数,它们在用法上并没有差别。

注意: 这两个函数无法严格的计算出中位数,它们计算的只是一个近似值,意味着和真正的中位数是存在一定差异的,特别是在数据量较少或数据分布不均的情况下。

如果不需要拿到准确的中位数值,只需要获取到这组数据中相对的中位数,那么则可以使用这两个内置函数,主要看业务指标口径是否需要达到精准。

使用示例

DROP TABLE IF EXISTS orders;
CREATE TABLE orders (
    order_id INT,
    product_id INT,
    amount DOUBLE
);

INSERT INTO orders (order_id, product_id, amount) VALUES
(1, 1, 100.0),
(2, 1, 150.0),
(3, 1, 666.6),
(4, 3, 180.0),
(5, 3, 250.0),
(6, 3, 320.0);

select
    product_id,
    percentile_approx(amount,0.5) median
from
    orders
group by
    product_id;

输出结果如下:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1935444.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】Linux环境设置环境变量操作步骤

Linux环境设置环境变量操作步骤 在一些开发过程中本地调试经常需要依赖环境变量的参数,但是怎么设置对小白来说有点困难,今天就介绍下具体的操作步骤,跟着实战去学习,更好的检验自己的技术水平,做技术还是那句话&…

HTML+JS+CSS计算练习

可填 题目数量 数字范围 计算符号 题目做完后会弹窗提示正确率、用时 效果图 源代码在图片后面 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevic…

读AI新生:破解人机共存密码笔记18读后总结与感想兼导读

1. 基本信息 读AI新生&#xff1a;破解人机共存密码 斯图尔特罗素 著 中信出版社,2020年8月出版 1.1. 读薄率 书籍总字数301千字&#xff0c;笔记总字数44614字。 读薄率44614301000≈14.8% 1.2. 读厚方向 千脑智能 脑机穿越 未来呼啸而来 虚拟人 AI3.0 新机器人 …

月亮和Pandas -- 开源项目的挑战与机遇

毛姆的《月亮和六便士》讲述了这样一个故事&#xff0c;一个富有的英国股票经纪人&#xff0c;思特里克兰德&#xff0c;为了追求艺术和美&#xff0c;放弃自己的生活和家庭&#xff0c;来到巴黎&#xff0c;以艺术家的身份过着贫穷却目中无人的充足的生活&#xff0c;最终留下…

芯科科技第五届物联网开发者大会走进世界各地,巡回开启注册

中国&#xff0c;北京 – 2024年7月18日 – 致力于以安全、智能无线连接技术&#xff0c;建立更互联世界的全球领导厂商Silicon Labs&#xff08;亦称“芯科科技”&#xff0c;NASDAQ&#xff1a;SLAB&#xff09;今日宣布&#xff0c;其2024年Works With开发者大会现正开放注册…

一文带你摸清SaaS服务与开源知识库的区别

在当今数字化转型的浪潮中&#xff0c;SaaS服务与开源知识库作为推动行业进步的两股重要力量&#xff0c;在多个方面展现出显著的区别。SaaS以其即用即付的便捷性、持续更新维护的优势&#xff0c;成为现代企业提升效率的首选&#xff1b;而开源知识库则凭借开放共享、自由定制…

SpringMVC注解全解析:构建高效Web应用的终极指南 (上)

SpringMVC 是一个强大的 Web 框架&#xff0c;广泛应用于 Java Web 开发中。它通过注解简化了配置&#xff0c;增强了代码的可读性。本文将全面解析 SpringMVC 中常用的注解及其用法&#xff0c;帮助你构建高效的 Web 应用。 一. MVC介绍 MVC 是 Model View Controller 的缩写…

项目实用linux 操作详解-轻松玩转linux

我之前写过完整的linux系统详解介绍&#xff1a; LInux操作详解一&#xff1a;vmware安装linux系统以及网络配置 LInux操作详解二&#xff1a;linux的目录结构 LInux操作详解三&#xff1a;linux实际操作及远程登录 LInux操作详解四&#xff1a;linux的vi和vim编辑器 LInux操作…

LeetCode 3112.访问消失节点的最少时间:单源最短路的Dijkstra算法

【LetMeFly】3112.访问消失节点的最少时间&#xff1a;单源最短路的Dijkstra算法 力扣题目链接&#xff1a;https://leetcode.cn/problems/minimum-time-to-visit-disappearing-nodes/ 给你一个二维数组 edges 表示一个 n 个点的无向图&#xff0c;其中 edges[i] [ui, vi, l…

【JavaEE】CAS原理实现 + 常见应用

本文基于jdk8 参考&#xff1a; 黑马程序员深入学习Java并发编程&#xff0c;JUC并发编程全套教程_哔哩哔哩_bilibili CAS原理 CAS&#xff1a;比较和交换(设置) Compare And Swap(Set)。当A的值为5的时候&#xff0c;给A设置值为10。这里涉及到的比较和设置值的操作是原子的…

SAP代理商哲讯智能携手合肥企业,共塑SAP系统开发新篇章

在数字化转型的浪潮中&#xff0c;SAP开发作为企业信息化建设的重要一环&#xff0c;对于提升企业的运营效率和市场竞争力具有至关重要的作用。合肥&#xff0c;作为中国东部地区的重要城市之一&#xff0c;拥有众多企业正积极探索SAP开发的可能性。哲讯智能科技有限公司&#…

【昇思25天学习打卡营第25天 | 基于MindSpore通过GPT实现情感分类】

学习心得&#xff1a;基于MindSpore通过GPT实现情感分类 摘要 本文通过一个具体的实验案例&#xff0c;详细阐述了如何使用华为的MindSpore框架结合GPT模型来实现情感分类任务。从环境配置到模型训练&#xff0c;再到评估和测试&#xff0c;整个流程清晰、系统&#xff0c;为…

第三篇 Vue项目目录结构介绍

1、最外层目录结构 passagerFrontPage ├── .vscode //vscode配置&#xff0c;不用理会 ├── node_modules //项目依赖&#xff0c;npm install命令执行后自动生成 ├── public //公共资源存放 ├── src //源码 ├── tests //选装&#xff1a;测试模块 ├── .git…

华为云安全事件深度剖析与防范策略

华为云安全事件深度剖析与防范策略 引言 随着云计算技术的飞速发展&#xff0c;企业越来越依赖云服务来提升业务效率和创新能力。然而&#xff0c;云服务在带来便利的同时&#xff0c;也伴随着一系列复杂的安全挑战。华为云作为国内领先的云服务提供商&#xff0c;其安全性直接…

Linux网络——TcpServer

一、UDP 与 TCP 在现实生活中&#xff0c;Udp 类似于发传单&#xff0c;Tcp 类似于邮局的挂号信服务。 1.1 UDP&#xff08;用户数据报协议&#xff09; 无连接&#xff1a;发放传单时&#xff0c;你不需要提前和接受传单的人建立联系&#xff0c;直接把传单发出去。不可靠&…

Ubantu 使用 docker 配置 + 远程部署 + 远程开发

大家好我是苏麟 , Ubantu 一些配置 . 视频 : 服务器很贵&#xff1f;搞台虚拟机玩玩&#xff01;保姆级 Linux 远程开发教程_哔哩哔哩_bilibili Docker安装及配置 安装命令 : sudo apt install docker.io 查看版本号 : docker -v 查看虚拟机地址命令 : ifconfig 虚拟机地址 或…

服务器数据恢复—RAID5阵列重建重建导致数据丢失的数据恢复案例

服务器数据恢复环境&故障&#xff1a; 一台服务器&#xff0c;有一组由5块硬盘组建的raid5磁盘阵列。 服务器在运行过程中一块有磁盘掉线&#xff0c;由于raid5阵列支持一块磁盘掉线的特性&#xff0c;服务器还在正常工作。不久之后服务器出现故障&#xff0c;管理员在不了…

记一下blender的烘焙贴图的UV特殊用法

就拿这个BOX来说好了 如果使用light map展开是这样的 如果你手动展好的话是这样的 为什么提到这个东西呢 如果有一个物体&#xff0c;你在blender渲染其实使用了程序化方案&#xff0c;且没展UV就做好了颜色&#xff0c;那如果你想要直接拿到他&#xff0c;直接用这个light …

LLM大模型实战项目--基于Stable Diffusion的电商平台虚拟试衣

本文详细讲解LLM大模型实战项目&#xff0c;基于Stable Diffusion的电商平台虚拟试衣 一、项目介绍 二、阿里PAI平台介绍 三、阿里云注册及开通PAI 四、PAI_DSW环境搭建 五、SDLORA模型微调 一、项目介绍 AI虚拟试衣是一种创新的技术&#xff0c;利用人工智能和计算机视觉技…

【C语言】深入解析选择排序

文章目录 什么是选择排序&#xff1f;选择排序的基本实现代码解释选择排序的优化选择排序的性能分析选择排序的实际应用结论 在C语言编程中&#xff0c;选择排序是一种简单且直观的排序算法。尽管它在处理大型数据集时效率不高&#xff0c;但由于其实现简单&#xff0c;常常用于…