Hive PERCENTILE_APPROX 函数详解

Hive PERCENTILE_APPROX 函数详解

news2026/2/14 1:08:18

Hive PERCENTILE_APPROX 函数详解

PERCENTILE_APPROX 是 Hive 中一个重要的函数，用于近似计算数据的百分位数。本文介绍 PERCENTILE_APPROX 的原理、参数以及核心概念 B 值等信息。

函数语法

PERCENTILE_APPROX(expression, percentage [, B])

expression: 输入的数值列，通常是需要计算百分位数的字段。
percentage: 百分位数，取值范围为 0 到 1，例如：0.5 表示中位数。
B: （可选）样本精度参数，控制采样点数量，默认为 10,000。

B 值是什么？

在 PERCENTILE_APPROX 中，B 值是样本精度参数，用于控制近似百分位计算时使用的样本大小。它代表在计算过程中保存的 数据压缩点数量。

B 值的作用

控制样本大小：
- 数据集通常可能很大，直接对整个数据集计算百分位会消耗巨大的资源。
- B 值决定了采样时保存的数据点数量：
  - B 越大，样本越多，结果越精确。
  - B 越小，样本越少，结果的近似误差会增加。
平衡内存和精度：
- 高 B 值：需要更多内存，但结果更精确。
- 低 B 值：节省内存，但可能导致误差增加。

原理及影响

算法原理

PERCENTILE_APPROX 使用了一种类似于 TDigest 压缩算法 的方法：

数据经过分组和排序后，压缩为少量数据点（称为压缩点）。
这些压缩点用来估算数据分布，从而计算近似的百分位数。
B 值决定了压缩点的数量，更多压缩点能够更准确地捕捉数据分布。

B 值的效果

B 值	结果偏差	内存占用	计算速度	适用场景
1,000	±2%	低	快	资源受限、快速估算时使用
10,000	±0.5%	中等	中等	默认值，适合大多数场景
50,000	±0.1%	高	慢	需要高精度时使用

示例

使用默认 B 值（10,000）

SELECT PERCENTILE_APPROX(value, 0.5) AS median
FROM your_table;

自定义 B 值（5,000）

SELECT PERCENTILE_APPROX(value, 0.5, 5000) AS median
FROM your_table;

更高精度（50,000）

SELECT PERCENTILE_APPROX(value, 0.5, 50000) AS median
FROM your_table;

如何选择合适的 B 值？

数据规模：
- 小规模数据集（<1,000,000 行）：使用高 B 值（如 20,000 或更高）。
- 大规模数据集（>10,000,000 行）：选择默认值 10,000，或根据资源调整。
性能需求：
- 快速估算：选择低 B 值（1,000 - 5,000）。
- 高精度需求：选择高 B 值（>10,000）。
内存资源：
- 内存足够：选择较大的 B 值以提高精度。
- 内存受限：选择较小的 B 值避免计算内存溢出。

总结

B 值是控制样本数量的参数，直接影响采样精度。
默认值（10,000）适合大多数场景，能够很好地平衡计算精度和性能。
根据具体的数据规模、性能需求和内存资源，可以调整 B 值来优化结果。

通过合理设置 PERCENTILE_APPROX 的参数，您可以高效计算大数据集的百分位数，既能节省资源，又能保证计算结果的精度。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2279768.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

鸿蒙中选择地区

鸿蒙中选择地区

1.首页ui import { CustomDialogExampleSelectRegion } from ./selectRegion/SelectRegionDialog;Entry Component struct Index {State selectedRegion: string 选择地区// 地区dialogControllerSelectRegion: CustomDialogController | null new CustomDialogController({b…

阅读更多...

【HarmonyOS NAPI 深度探索12】创建你的第一个 HarmonyOS NAPI 模块

【HarmonyOS NAPI 深度探索12】创建你的第一个 HarmonyOS NAPI 模块

【HarmonyOS NAPI 深度探索12】创建你的第一个 HarmonyOS NAPI 模块在本篇文章中，我们将一步步走过如何创建一个简单的 HarmonyOS NAPI 模块。通过这个模块，你将能够更好地理解 NAPI 的工作原理，并在你的应用中开始使用 C 与 JavaScript 的…

阅读更多...

excel实用工具

excel实用工具

持续更新… 文章目录 1. 快捷键1.1 求和 2. 命令2.1 查找 vloopup 1. 快捷键 1.1 求和 windows: alt mac : command shift T 2. 命令 2.1 查找 vloopup vlookup 四个入参数要查找的内容 （A2 6xx1）查找的备选集 （C2:C19）…

阅读更多...

Linux中的基本指令（一）

Linux中的基本指令（一）

一、Linux中指令的存在意义 Linux中，通过输入指令来让操作系统执行，以此达到控制操作系统的目的，类似于Windows中的双击，右键新建文件，新建文件夹等 1.补：关于屏幕的几个操作指令 ①清屏指令 clear 回…

阅读更多...

深入解析 C++17 中的 u8 字符字面量：提升 Unicode 处理能力

深入解析 C++17 中的 u8 字符字面量：提升 Unicode 处理能力

在现代软件开发中，处理多语言文本是一个常见需求，特别是在全球化的应用场景下。C17 标准引入的 u8 字符字面量为开发者提供了一个强大的工具，以更有效地处理和表示 UTF-8 编码的字符串。本文将详细探讨 u8 字符字面量的技术细节、实际应用&am…

阅读更多...

2025年国产化推进.NET跨平台应用框架推荐

2025年国产化推进.NET跨平台应用框架推荐

2025年国产化推进.NET跨平台应用框架推荐 1. .NET MAUI NET MAUI是一个开源、免费（MIT License）的跨平台框架（支持Android、iOS、macOS 和 Windows多平台运行），是 Xamarin.Forms 的进化版，从移动场景扩展到…

阅读更多...

C++和OpenGL实现3D游戏编程【连载21】——父物体和子物体模式实现

C++和OpenGL实现3D游戏编程【连载21】——父物体和子物体模式实现

欢迎来到zhooyu的专栏。 🔥C和OpenGL实现3D游戏编程【专题总览】 1、本节要实现的内容上节课我们已经创建了一个基础Object类，以后所有的游戏元素都可以从这个基类中派生出来。同时为了操作方便，我们可以为任意两个Object类（及其…

阅读更多...

unity插件Excel转换Proto插件-ExcelToProtobufferTool

unity插件Excel转换Proto插件-ExcelToProtobufferTool

unity插件Excel转换Proto插件-ExcelToProtobufferTool **ExcelToProtobufTool 插件文档****1. 插件概述****2. 默认配置类：DefaultIProtoPathConfig****属性说明** **3. 自定义配置类****定义规则****示例代码** **4. 使用方式****4.1 默认路径****4.2 自定义路径**…

阅读更多...

【数据结构篇】顺序表超详细！

【数据结构篇】顺序表超详细！

目录一.顺序表的定义 1.顺序表的概念及结构 1.1线性表 2.顺序表的分类 2.1静态顺序表 2.2动态顺序表二.动态顺序表的实现 1.准备工作和注意事项 2.顺序表的基本接口： 2.0 创建一个顺序表 2.1 顺序表的初始化 2.2 顺序表的销毁 2.3 顺序表的打印 3.顺序…

阅读更多...

vulnhub靶场【IA系列】之Tornado

vulnhub靶场【IA系列】之Tornado

前言靶机：IA-Tornado，IP地址为192.168.10.11 攻击：kali，IP地址为192.168.10.2 都采用虚拟机，网卡为桥接模式本文所用靶场、kali镜像以及相关工具，我放置在网盘中，可以复制后面链接查看 htt…

阅读更多...

云上贵州多彩宝荣获仓颉社区先锋应用奖 | 助力数字政务新突破

云上贵州多彩宝荣获仓颉社区先锋应用奖 | 助力数字政务新突破

在信息技术应用创新的浪潮中，仓颉社区吸引了众多企业和开发者的积极参与，已有多个应用成功落地，展现出蓬勃的创新活力。仓颉编程语言精心遴选了在社区建设、应用创新、开源共建、技术布道等方面做出突出贡献的优秀项目应用，并颁发…

阅读更多...

第十二章：算法与程序设计

第十二章：算法与程序设计

文章目录： 一：基本概念 1.算法与程序 1.1 算法 1.2 程序 2.编译预处理 3.面向对象技术 4.程序设计方法 5.SOP标志作业流程 6.工具 6.1 自然语言 6.2 流程图 6.3 N/S图 6.4 伪代码 6.5 计算机语言二：程序设计基础 1.常数 …

阅读更多...

2025 最新flutter面试总结

2025 最新flutter面试总结

目录 1.Dart是值传递还是引用传递？ 2.Flutter 是单引擎还是双引擎 3. StatelessWidget 和 StatefulWidget 在 Flutter 中有什么区别？ 4.简述Dart语音特性 5. Navigator 是什么？在 Flutter 中 Routes 是什么？ 6、Dart 是不是…

阅读更多...

BUUCTF_Web([GYCTF2020]Ezsqli)

1.输入1 ，正常回显。 2.输入1 ，报错false，为字符型注入，单引号闭合。原因： https://mp.csdn.net/mp_blog/creation/editor/145170456 3.尝试查询字段，回显位置，数据库，都是这个。…

阅读更多...

HTML学习笔记（4）

HTML学习笔记（4）

目录一、背景相关样式二、定位position 三、javascript 1、变量的定义 2、数据类型 3、绑定事件一、背景相关样式 background-image: url(); // 背景图片 background-repeat: repeat; // 背景图片是否平铺 no-repeat background-size: 200px; // 背景图片尺寸 cover把…

阅读更多...

亲测有效！如何快速实现 PostgreSQL 数据迁移到时序数据库TDengine

亲测有效！如何快速实现 PostgreSQL 数据迁移到时序数据库TDengine

小T导读：本篇文章是“2024，我想和 TDengine 谈谈”征文活动的优秀投稿之一，作者从数据库运维的角度出发，分享了利用 TDengine Cloud 提供的迁移工具，从 PostgreSQL 数据库到 TDengine 进行数据迁移的完整实践过程。文章…

阅读更多...

Excel 技巧11 - 如何使用Excel作成简单的排班表(★★），weekday 函数，TEXT函数

Excel 技巧11 - 如何使用Excel作成简单的排班表(★★），weekday 函数，TEXT函数

本文讲了如何在Excel中制作简单的排班表。 1，排班表Layout效果 - B2 单元格找那个输入日期 - C3 - AG3 输入日，就是该月份的几号，比如1月5号，就输入5 如果是周六周日，背景色显示为绿色 - B4 ~ 输入员工名称当 B2…

阅读更多...

mac m1下载maven安装并配置环境变量

mac m1下载maven安装并配置环境变量

下载地址：Download Apache Maven – Maven 解压到一个没有中文和空格的文件夹输入pwd查看安装路径输入cd返回根目录再输入 code .zshrc 若显示 command not found: code你可以通过以下步骤来安装和配置 code 命令： 1. 确保你已经安装了 Visual Studio…

阅读更多...

w-form-select.vue（自定义下拉框组件）

w-form-select.vue（自定义下拉框组件）

文章目录 1、w-form-select.vue 组件中每个属性的含义2、实例3、源代码 1、w-form-select.vue 组件中每个属性的含义好的，我们来详细解释 w-form-select.vue 组件中每个属性的含义，并用表格列出它们是否与后端字段直接相关： 属性解释表格&…

阅读更多...

Flutter项目和鸿蒙平台的通信

Flutter项目和鸿蒙平台的通信

Flutter项目和鸿蒙平台的通信前言Flutter和Harmonyos通信MethodChannelBasicMessageChannelEventChannel 前言大家在使用Flutter开发项目的时候， Flutter提供了Platfrom Channel API来和个个平台进行交互。 Flutter官方目前提供了一下三种方式来和个个平台交互&…

阅读更多...

推荐文章

最新文章