一、DSL查询文档
1.DSL查询分类
①查询所有:match_all
②全文检索:利用分词器对用户输入的内容分词,倒排索引去匹配
match_query
multi_match_query
③精确查询:根据精确词条查找数据,查找的是keyword,数值,日期,boolean类型字段
ids,range,term
④地理geo查询:根据经纬度查询
geo_distance
geo_bounding_box
⑤复合查询:将各种条件组合起来,合并查询条件
bool
function_score
总结:查询DSL的基本语法是什么?
GET /索引库名/_search
{ "query": { "查询类型": { "FIELD": "TEXT"}}}
2.全文检索
全文检索查询,会对用户输入内容进行分词。用于搜索框搜索
①match查询:对用户输入的内容分词,然后倒排索引库查询。一个字段
查询三钻的酒店
GET /hotel/_search
{
"query": {
"match": {
"starName": "三钻"
}
}
}
②multi_match:多个字段查询。参与的字段越多,查询性能越差。
查询品牌,酒店名,商业圈有“外滩如家”
GET /hotel/_search
{
"query": {
"multi_match": {
"query": "外滩如家",
"fields": ["brand","name","business"]
}
}
}
3.精确查询
查询的keyword,不进行分词的字段
①term:根据词条准确值查询
②range:范围查询(价格)
①term:
查询品牌是“7天酒店”
GET /hotel/_search
{
"query": {
"term": {
"brand": {
"value": "7天酒店"
}
}
}
}
②range:
查询200-250酒店
GET /hotel/_search
{
"query": {
"range": {
"price": {
"gte": 200,
"lte": 250
}
}
}
}
总结:精确查询常见的有哪些?
- term查询:根据词条精确匹配,一般搜索keyword类型、数值类型、布尔类型、日期类型字段
- range查询:根据数值范围查询,可以是数值、日期的范围
4.地理查询
场景:
查询附近的酒店,附近的人,打车附近的出租车
①矩形范围内:geo_bounding_box
②以指定中心点为半径:
查询这个点15公里范围内的酒店
GET /hotel/_search
{
"query": {
"geo_distance":{
"distance":"15km",
"location":"31.282444,121.479385"
}
}
}
5.相关性算分:竞价排名
①fuction score:算分函数查询,可以控制文档相关性算分,控制文档排名
②词条频率越高,得分越高,排名越靠前
③elasticsearch中的相关性打分算法是什么?
- TF-IDF:在elasticsearch5.0之前,会随着词频增加而越来越大
- BM25:在elasticsearch5.0之后,会随着词频增加而增大,但增长曲线会趋于水平
6.修改相关性算分:竞价排名
使用 function score query,可以修改文档的相关性算分(query score),根据新得到的算分排序。
①原始条件查询,搜索文档并根据相关性打分(query score)
②过滤条件:符合条件的文档才重新算分
③算分函数:
算分函数,算分函数的结果称为function score ,将来会与query score运算,得到新算分,常见的算分函数有:
- weight:给一个常量值,作为函数结果(function score)
- field_value_factor:用文档中的某个字段值作为函数结果
- random_score:随机生成一个值,作为函数结果
- script_score:自定义计算公式,公式结果作为函数结果
④加权模式,定义function score与query score的运算方式,包括:
- multiply:两者相乘。默认就是这个
- replace:用function score 替换 query score
- 其它:sum、avg、max、min
案例:搜索外滩的酒店,“如家”品牌给公司充钱了,让他的排名靠前一些。
分析:
①文档为品牌是“如家”的
②算分函数是weight
③加权模式是求和sum
GET /hotel/_search
{
"query": {
"function_score": {
"query": {
"match": {
"all": "外滩"
}
},
"functions": [
{
"filter": {
"term": {
"brand": "如家"
}
},
"weight": 2
}
],
"boost_mode": "sum"
}
}
}
7.复合查询Boolean Query
布尔查询是一个或多个查询子句的组合。子句组合方式:
must:”与”,必须匹配每个子查询
should:“或”选择性匹配子查询
must_not:必须不匹配,不参与算分,类似“非”
filter:必须匹配,不算分。
案例1:查询上海的酒店,品牌是皇冠假日或华美达。价格不低于500,评分是大于45分的
案例2:搜索名字包含“如家”,价格不高于400,在坐标31.21,121.5周围10km范围内的酒店。
GET /hotel/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"name": "如家"
}
}
],
"must_not": [
{
"range": {
"price": {
"gte": 400
}
}
}
],
"filter": [
{
"geo_distance": {
"distance": "10km",
"location": {
"lat": 31.21,
"lon": 121.5
}
}
}
]
}
}
}
二、搜索结果处理
1.排序
es支持对搜索结果排序,默认是根据相关度算分(_score)排序。可以排序的字段:keyword类型,数值类型,地理坐标类型,日期类型。
排序语法
地理坐标排序语法
案例1:对酒店数据按照用户评价降序排序,评价相同的按照价格升序排序
GET /hotel/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"score":"desc"
},
{
"price": "asc"
}
]
}
案例2:实现对酒店数据按照到你的位置坐标的距离升序排序
获取经纬度的方式:https://lbs.amap.com/demo/jsapi-v2/example/map/click-to-get-lnglat/
GET /hotel/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"_geo_distance": {
"location": {
"lat": 31.220393,
"lon": 121.544427
},
"order": "asc",
"unit": "km"
}
}
]
}
2.分页
es的搜索结果默认是top10条。
es通过修改from,size参数控制返回的分页结果
深度分页问题
ES是分布式的,所以会面临深度分页问题。例如按price排序后,获取from = 990,size =10的数据:
①首先在每个数据分片上都排序并查询前1000条文档。
②然后将所有节点的结果聚合,在内存中重新排序选出前1000条文档
③最后从这1000条中,选取从990开始的10条文档
如果搜索页数过深,或者结果集(from + size)越大,对内存和CPU的消耗也越高。因此ES设定结果集查询的上限是10000
总结
from + size:
- 优点:支持随机翻页
- 缺点:深度分页问题,默认查询上限(from + size)是10000
- 场景:百度、京东、谷歌、淘宝这样的随机翻页搜索
after search:
- 优点:没有查询上限(单次查询的size不超过10000)
- 缺点:只能向后逐页查询,不支持随机翻页
- 场景:没有随机翻页需求的搜索,例如手机向下滚动翻页
3.高亮
搜索关键字突出显示。
原理:
①搜索关键字标记出来
②页面加css样式
案例:如家酒店高亮
三、RestClient查询文档
1.快速入门
①请求DSL的组织
RestAPI中其中构建DSL是通过HighLevelRestClient中的resource()来实现的,其中包含了查询、排序、分页、高亮等所有功能
RestAPI中其中构建查询条件的核心部分是由一个名为QueryBuilders的工具类提供的,其中包含了各种查询方法
②解析结果response
③查询全部酒店的完整代码
@Test
void testMatchAll() throws IOException {
// 1.准备查询请求,参数是索引库名
SearchRequest request = new SearchRequest("hotel");
// 2.组织DSL参数
request.source().query(QueryBuilders.matchAllQuery());
// 3.发送请求,得到响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
// 4.解析结果
SearchHits searchHits = response.getHits();
// 4.1 获取查询的条数
long total = searchHits.getTotalHits().value;
// 4.2 获取查询的集合
SearchHit[] hits = searchHits.getHits();
// 4.3 遍历
List<HotelDoc>hotelDocList = new ArrayList<>();
for (SearchHit hit : hits) {
// 转换为Json
String json = hit.getSourceAsString();
// 转换为java对象
HotelDoc hotelDoc = JSONObject.parseObject(json, HotelDoc.class);
// 保存在集合中
hotelDocList.add(hotelDoc);
}
System.out.println(hotelDocList);
}
查询的基本步骤是:
- 创建SearchRequest对象
- 准备Request.source(),也就是DSL。
- QueryBuilders来构建查询条件
- 传入Request.source() 的 query() 方法
- 发送请求,得到结果
- 解析结果(参考JSON结果,从外到内,逐层解析)
2.构建查询条件,只要记住一个类:QueryBuilders
①全文检索查询(分词,模糊查询)
单字段:QueryBuilders.matchQuery(字段名,值)
多字段:QueryBuilders.multiMatchQuery(值, 字段1,字段2);
演示:酒店名字带有“如家“的有哪些?
request.source().query(QueryBuilders.termQuery("name","如家"));
②精确查询,不分词
精确查询常见的有term查询和range查询
③复合查询boolean query
查询品牌为如家,价格在200元内的酒店
// 创建bool查询
BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
// 添加must条件
boolQuery.must(QueryBuilders.termQuery("brand","如家"));
// 添加filter条件
boolQuery.filter(QueryBuilders.rangeQuery("price").lte(200));
request.source().query(boolQuery);
3.分页和排序
演示:查询名为“如家“的酒店,查询结果进行价格降序,每页显示3条
// 页码
int page = 1,size=3;
// 2.组织DSL
// 2.1 查询
request.source().query(QueryBuilders.termQuery("name","如家"));
// 2.2 分页 从from序号数size个
request.source().from((page-1)*size).size(size);
// 2.3 价格排序
request.source().sort("price", SortOrder.DESC);
4.高亮
根据name搜索高亮
代码
@Test
void testHight() throws IOException{
// 1.请求request
SearchRequest request = new SearchRequest("hotel");
// 2. 组织DSL
request.source().query(QueryBuilders.matchQuery("all","如家"));
request.source().highlighter(new HighlightBuilder().field("name").requireFieldMatch(false));
// 3.发送请求,得到响应
SearchResponse response = client.search(request, RequestOptions.DEFAULT);
// 4.分析结果
SearchHits searchHits = response.getHits();
// 5.解析
SearchHit[] hitss = searchHits.getHits();
// 6.遍历
for (SearchHit hit : hitss) {
// 转换为json
String json = hit.getSourceAsString();
// 得到对象
HotelDoc hotelDoc = JSONObject.parseObject(json, HotelDoc.class);
// 获取高亮结果
Map<String, HighlightField> highlightFields = hit.getHighlightFields();
// 根据字段获取
HighlightField highlightField = highlightFields.get("name");
// 获取高亮值
String name = highlightField.getFragments()[0].string();
// 覆盖结果
hotelDoc.setName(name);
System.out.println(name);
}
}