Group By是Orange3中一个非常有用的组件,它允许用户对数据集进行聚合操作,类似于SQL中的GROUP BY语句或Pandas库中的`groupby`方法。以下是Group By组件的一些核心功能介绍:
1. Mean (平均数): 数据值的总和除以数据项的数量,显示数据的中心值。
2. Median (中位数): 数据集从小到大排序后位于中间位置的值。若数据项数量为偶数,则为中间两项的平均值。
3. Q1 (第一四分位数): 排序后位于25%位置的值,表示数据分布的下四分位。
4. Q3 (第三四分位数): 排序后位于75%位置的值,表示数据分布的上四分位。
5. Min. value (最小值): 数据集中的最小值。
6. Max. value (最大值): 数据集中的最大值。
7. Mode (众数): 数据集中出现频率最高的值。对于分类数据,众数指示最常见的类别。
8. Standard deviation (标准差): 表示数据值相对于平均数的分散程度。标准差越大,数据的波动性越高。
9. Variance (方差): 标准差的平方,同样衡量数据的分散度。
10. Sum (总和): 数据值的总和。
11. Concatenate (拼接): 将数据值拼接成一个字符串。常用于文本数据或分类数据。
12. Span (范围): 数据集中最大值与最小值之间的差值。
13. First value (首个值): 数据集中的第一个值。
14. Last value (最后一个值): 数据集中的最后一个值。
15. Random value (随机值): 从数据集中随机选择的一个值。
16. Count defined (已定义计数): 非空(非缺失)数据值的数量。
17. Count (计数): 数据值的总数量,包括空值。
18. Proportion defined (定义的比例): 非空(非缺失)数据值占总数据值的比例。
这些聚合类型提供了从不同角度理解和分析数据集的能力。通过使用它们,可以揭示数据集的关键特性,并帮助我们进行更准确的数据解读和决策。
视频教程:关注我抖音号:Orange3dev
https://www.douyin.com/user/MS4wLjABAAAAicBGZTE2kX2EVHJPe8Ugk3_nlJk9Nha8OZh4Bo_nTu8
1-Orange3安装
2-Orange3汉化DIY
3-Orange3创建快方式
4-数据导入(文件&数据表格组件)
5-数据导入(Python组件)
6-Python库安装(SQL表组件)
7-数据导入(Mysql)
8-数据导入(数据绘画和公式组件)
9-数据修改(域编辑和保存组件)
10-数据可视化(调色板&数据信息组件)
11-数据可视化(特征统计组件)
12-数据预处理(行选择组件)
13-特征选择(Rank组件)
14-数据转换(数据采样组件)
15-数据预处理(列选择组件)
16-数据预处理(转置组件)
17-数据预处理(合并数据组件)
18-数据预处理(连接组件)无主表且列数不同
19-数据预处理(连接组件)主附表
20-数据预处理(索引选择器组件)
21-数据预处理(唯一组件)
22-数据预处理(列聚合组件)
23-数据预处理(分组组件)
24-数据预处理(透视图表组件)
25-数据预处理(转换器组件)-表格互为模板
26-数据预处理(转换器组件)-转换示例
27-数据预处理(预处理器组件)-基本信息
28-数据预处理(预处理器组件)-特征选择
29-数据预处理(预处理器组件)-填充缺失值并标准化特征
30-数据预处理(预处理器组件)-离散化连续变量
31-数据预处理(预处理器组件)-连续化离散变量
32-数据预处理(预处理器组件)-主成分分析PCA与CUR分解
33-数据预处理(缺失值处理组件)
34-数据预处理(连续化组件)
35-数据预处理(离散化组件)
36-数据预处理(随机化组件)
37-数据预处理(清理特征组件)-清理未使用特征值及常量特征
38-数据预处理(宽转窄组件)
39-数据预处理(公式组件)
40-数据预处理(分类器组件)
41-数据预处理(创建实例)
42-数据预处理(Python代码组件)