一、总概
聚集查询(Aggregation)提供了针对多条文档的统计运算功能,它不是针对文档本身内容的检索,而是要将它们聚合到一起运算某些方面的特征值。
聚集查询与 SQL 语言中的聚集函数非常像,聚集函数在 Elasticsearch 中相当于是聚集查询的一种聚集类型。 比如在 SQL 中的 avg 函数用于求字段平均值,而在 Elasticsearch 中要实现相同的功能可以使用 avg 聚集类型。
聚集查询也是通过_search 接口执行,只是在执行聚集查询时使用的参数是
aggregations 或 aggs。所以_search 接口可以执行两种类型的查询,1 种是通过query 参数执行 DSL,另一种则是通过 aggregations 执行聚集查询。
这两种查询方式还可以放在一起使用, 执行逻辑是先通过 DSL 检索满足查
询条件的文档,然后再使用聚集查询对 DSL 检索结果做聚集运算这一规则适用于本章列举的所有聚集查询。聚集查询有着比较规整的请求结构,具体格式如下:
"aggregations/aggs": {
"<聚集名称>": {
"<聚集类型>": {
<聚集体>
}………[,
"aggregations/aggs": ([<子聚集>]+)]
}[,
"<聚集名称>”: (...) ]*
}
aggregations 和 aggs 都是_search 的参数,其中 aggs 是 agregations 的简写。每一个聚集查询都需要定义一个聚集名称,并归属于种聚集类型。聚集名称是用户自定义的, 而聚集类型则是由 Elasticsearch 预先定义好。
聚集名称会在返回结果中标识聚集结果,而聚集类型则决定了聚集将如何运
算。比如前面提到的 avg 就是一种聚集类型。 这里要特别强调的是,聚集中可以再包含子聚集。子聚集位于父聚集的名称中,与聚集类型同级,所以子聚集的运算都是在父聚集的环境中运算。Eaticsarch 对子聚集的深度没有限制,所以理论上说可以包含无限深度的子聚集。
聚集类型总体上被分为四种大类型,即指标聚集(Metrics Aggregation)、 桶
型( Bucket Aggregation)、管道聚集( Pipeline Aggregation) 和矩阵聚集( Matrix Aggregation)。
指标聚集是根据文档字段所包含的值运算某些统计特征值,如平均值、总和
等,它们的结果一般都包含一个或多个数值,前面提到的 avg 聚集就是指标聚集的 1 种。桶型聚集根据一定的分组标准将文档归到不同的组中,这些分组在Elasticsearch 中被称为桶( Bucken),桶型聚集与 SQL 中 group by 的作用类似,一般会与指标聚集嵌套使用。管道聚集可以理解为聚集结果的再聚集,它一般以另一个聚集结果作为输人,然后在此基础上再做聚集。矩阵聚集是 Elasticsearch 中的新功能,由于是针对多字段做多种运算,所以形成的结果类似于矩阵。
二、 指标聚集
指标聚集是根据文档中某一字段做聚集运算,比如计算所有产品销量总和、
平均值等等。指标聚集的结果可能是单个值,这种指标聚集称为单值指标聚集;也可能是多个值,称为多值指标聚集。
2.1 平均值聚集
平均值聚集是根据文档中数值类型字段计算平均值的聚集查询,包括 avg 聚集和 weighted_avg 聚集两种类型。avg 聚集直接取字段值后计算平均值,而weighted _avg 聚集则会在计算平均值时添加不同的权重。
avg 聚集
avg 聚集计算平均值,例如在示例中计算航班的平均延误时间:
POST indexname/_search?filter_path=aggregations{
"aggs": {
"delay_avg": {
"avg": {
"field": "FlightDelayMin"
}
}
}
}
请求参数 fiter _path 将返回结果的其他字段过滤掉了,否则查询的结果中将包含 kibana_sample_data_flights 索引中的文档。加了filter_path 之后返果为:
在返回结果中,aggregations 是关键字,代表这是聚集查询的结果。其中的delay_avg 则是在聚集查询中定义的聚集名称,value 是聚集运算的结果。
上述运算航班延误时间时会将所有文档都包含进来做计算,如果只想其
中一部分文档参与运算则可以使用 query 参数以 DSL 的形式定义查询条件。
例如在示例中就是只计算了飞往中国的航班平均延误时间:
POST indexname/_search?filter_path=aggregations{
"query": {
"match": {
"DestCountry": "CN"
}
},
"aggs": {
"delay_avg": {
"avg": {
"field": "FlightDelayMin"
}
}
}
}
请求_search 接口时,同时使用了 query 与 aggs 参数。在执行检索时会先通过 query 条件过滤文档,然后再在符合条件的文档中运算平均值聚集。
2.2 计数聚集与极值聚集
计数聚集用于统计字段值的数量,而极值聚集则是查找字段的极大值和极小
值。
计数聚集
value_count 聚集和 cardinality 聚集可以归入计数聚集中,前者用于统计从
字段中取值的总数,而后者则用于统计不重复数值的总数。例如:
POST indexname/_search?filter_path=aggregations{
"aggs": {
"country_code": {
"cardinality": {
"field": "DestCountry"
}
},
"total_country": {
"value_count": {
"field": "DestCountry"
}
}
}
}
在示例中,cardinality 聚集统计了 DestCountry 字段非重复值的数量,类似
于 SQL 中的 distinct。value_count 聚集则统计了 DestCountry 字段所有返回值的数量,类似于 SQL 中的 count。
需要注意的是,cardinality 聚集的算法使用极小内存实现统计结果的基本准
确。所以 cardinality 在数据量极大的情况下是不能保证完全准确的。
极值聚集
极值聚集是在文档中提取某一字段最大值或最小值的聚集,包括 max 聚集
和 min 聚集。
POST indexname/_search?filter_path=aggregations{
"aggs": {
"max_price": {
"max": {
"field": "AvgTicketPrice"
}
},
"min_price": {
"min": {
"field": "AvgTicketPrice"
}
}
}
}
上面例子聚集有 max_price 和 min_price 两个,它们分别计算了机票价格的最大的最小值。
三、统计聚集
统计聚集是一个多值指标聚集,也就是返回结果中会包含多个值,都是一些
与统计相生的数据。统计聚集包含 stats 聚集和 extended_stats 聚集两种,前者返回的统计数据是一些比较基本的数值,而后者则包含一些比较专业的统计数值。
stats 聚集
stats 聚集返回结果中包括字段的最小值(min)、 最大值(max)、总和(sum)、数业(coun) 及平均值(avg) 五项内容。
POST indexname/_search?filter_path=aggregations{
"aggs": {
"price_stats": {
"stats": {
"field": "AvgTicketPrice"
}
}
}
}
在示例中,stats 聚集使用 field 参数指定参与统计运算的字段为
AvgTicketPrice。
extended_stats 聚集
extended_stats 聚集增加了几项统计数据,这包括平方和、方差、标准方差和标准方差偏移量。从使用的角度来看,extended_stats 聚集与 stats 聚集完全相同,只是聚集类型不同。
四、百分位聚集
百分位聚集根据文档字段值统计字段值按百分比的分布情况,包括pecrentiles 聚集和 percentile_ranks 两种。前者统计的是百分比与值的对应关系,而后者正好相反统计值与百分比的对应关系。
POST indexname/_search?filter_path=aggregations{
"aggs": {
"price_percentile": {
"percentiles": {
"field": "AvgTicketPrice",
"percents": [25,
50,
75,
100]
}
},
"price_percentile_rank": {
"percentile_ranks": {
"field": "AvgTicketPrice",
"values": [600,
1200]
}
}
}
}
pecrentiles 聚集通过 pecrents 参数设置组百分比,然后按值由小到大的顺序划分不同区间,每个区间对应一个百分比。percentile_ranks 聚集则通过 value 参数设置组值, 然后根据这些值分别计算落在不同值区间的百分比。
以示例返回的结果为例:
在 pecrentiles 返回结果 price_percentile 中,““25.0”:410.0127977258341" 代表的含义是 25%的机票价格都小于 410.0127977258341,其他以此类推。在percentile_ranks 返回结果 price_percentile_rank 中, 600.0": 45. 39892372745635"代表的含义是 600.0 以下的机票占总机票价格的百分比为45.39892372745635%。