elasticsearch的高亮查询三种模式查询及可能存在的问题

news2024/9/29 3:35:24

目录

高亮查询使用介绍

高亮参数

三种分析器

可能存在的查询问题

fvh查询时出现StringIndexOutOfBoundsException越界

检索高亮不正确

参考文档


高亮查询使用介绍

Elasticsearch 的高亮(highlight)可以从搜索结果中的一个或多个字段中获取突出显示的摘要,以便向用户显示查询匹配的位置。

一个最基础的请求实例:

GET /my_index/_search
{
  "query": {
    "match": {
      "content": "Elasticsearch"
    }
  },
  "highlight": {
    "fields": {
      "content": {}
    }
  }
}

基于这一请求返回的高亮片段会默认使用<em></em> 高亮标识

高亮参数

高亮查询能使用的参数很多,包含如下:

参数说明
boundary_chars包含每个边界字符的字符串。默认为,! ?\ \ n。
boundary_max_scan扫描边界字符的距离。默认为20。
boundary_scanner指定如何分割突出显示的片段,支持chars、sentence、word三种方式。
boundary_scanner_locale用来设置搜索和确定单词边界的本地化设置,此参数使用语言标记的形式(“en-US”, “fr-FR”, “ja-JP”)
encoder表示代码段应该是HTML编码的:默认(无编码)还是HTML (HTML-转义代码段文本,然后插入高亮标记)
fields指定检索高亮显示的字段。可以使用通配符来指定字段。例如,可以指定comment*来获取以comment开头的所有文本和关键字字段的高亮显示。
force_source根据源高亮显示。默认值为false。
fragmenter指定文本应如何在突出显示片段中拆分:支持参数simple或者span。
fragment_offset控制要开始突出显示的空白。仅在使用fvh highlighter时有效。
fragment_size字符中突出显示的片段的大小。默认为100。
highlight_query突出显示搜索查询之外的其他查询的匹配项。这在使用重打分查询时特别有用,因为默认情况下高亮显示不会考虑这些问题。
matched_fields组合多个匹配结果以突出显示单个字段,对于使用不同方式分析同一字符串的多字段。所有的matched_fields必须将term_vector设置为with_positions_offsets,但是只有将匹配项组合到的字段才会被加载,因此只有将store设置为yes才能使该字段受益。只适用于fvh highlighter。
no_match_size如果没有要突出显示的匹配片段,则希望从字段开头返回的文本量。默认为0(不返回任何内容)。
number_of_fragments返回的片段的最大数量。如果片段的数量设置为0,则不会返回任何片段。相反,突出显示并返回整个字段内容。当需要突出显示短文本(如标题或地址),但不需要分段时,使用此配置非常方便。如果number_of_fragments为0,则忽略fragment_size。默认为5。
order设置为score时,按分数对突出显示的片段进行排序。默认情况下,片段将按照它们在字段中出现的顺序输出(order:none)。将此选项设置为score将首先输出最相关的片段。每个高亮应用自己的逻辑来计算相关性得分。
phrase_limit控制文档中所考虑的匹配短语的数量。防止fvh highlighter分析太多的短语和消耗太多的内存。提高限制会增加查询时间并消耗更多内存。默认为256。
pre_tags与post_tags一起使用,定义用于突出显示文本的HTML标记。默认情况下,突出显示的文本被包装在和标记中。指定为字符串数组。
post_tags与pre_tags一起使用,定义用于突出显示文本的HTML标记。默认情况下,突出显示的文本被包装在和标记中。指定为字符串数组。
require_field_match默认情况下,只突出显示包含查询匹配的字段。将require_field_match设置为false以突出显示所有字段。默认值为true。
tags_schema设置为使用内置标记模式的样式。
type使用的高亮模式,可选项为unifiedplainfvh。默认为unified

三种分析器

在es的官方文档中提到,es提供了三种高亮分析器,分别是默认的unified、plain、fvh。这三种模式都是基于更底层的Lucene进行的实现,unified使用Lucene Unified Highlighter,plain使用standard Lucene highlighter,fvh使用Lucene Fast Vector highlighter。

三种高亮器各有优缺点

默认的 unified highlighter 是最基本的高亮器。unified highlighter 高亮器是个实时分析处理高亮器,即用户在查询的时候,搜索引擎查询到了目标数据docid后,将需要高亮的字段数据提取到内存,再调用该字段的分析器进行处理,分析器对文本进行分析处理,分析完成后采用相似度算法计算得分最高的前n组并高亮段返回数据。实现高亮功能需要对 _source 中保存的原始文档进行二次分析,其速度在三种高亮器里最慢,优点是不需要额外的存储空间。

unified的这种实时分析机制会让ES占用较少的IO资源同时也占用较少的存储空间(词库较全的话相比fvh方式能节省一半的存储空间),其实时计算高亮是采用cpu资源来缓解io压力,在高亮字段较短(比如高亮文章的标题)时候速度较快,同时因io访问的次数少,io压力较小,有利于提高系统吞吐量。

为解决 highlighter 高亮器质大文本字段上高亮速度跟不上的问题,lucene高亮模块提供了基于向量的高亮方式 fast-vector-highlighter(也称为fvh)。fast-vector-highlighter 高亮器利用建索引时候保存好的词向量来直接计算高亮段落,在高亮过程中比plain高亮方式少了实时分析过程,取而代之的是直接从磁盘中将分词结果直接读取到内存中进行计算,故需要在字段的映射中设置 term_vector 参数的取值为 with_positions_offsets,即保存关键词的位置和偏移信息,占用的存储空间最大,但实现高亮功能速度最快,是典型的空间换时间的做法。例如,配置 comment 字段使用 fast-vector-highlighter 高亮器,映射如下:

PUT /example
{
  "mappings": {
    "doc": {
      "properties": {
        "comment": {
          "type": "text",
          "term_vector": "with_positions_offsets"
        }
      }
    }
  }
}

fvh在高亮时候的逻辑如下:

  1. 分析高亮查询语法,提取表达式中的高亮词集合

  2. 从磁盘上读取该文档字段下的词向量集合

  3. 遍历词向量集合,提取自表达式中出现的词向量

  4. 根据提取到目标词向量读取词频信息,根据词频获取每个位置信息、偏移量

  5. 通过相似度算法获取得分较高的前n组高亮信息

  6. 读取字段内容(多字段用空格隔开),根据提取的词向量直接定位截取高亮字段

由此可见,fvh 省去了实时分析过程,但是多了词条向量信息存储和读取,在词库丰富的系统中,存储词向量往往要比不存储词向量多占用一倍的空间,同时在高亮时候会比plain高亮多出至少一倍的io操作次数,读取的字节大小也多出至少一倍,大量的io请求会让搜索引擎并发能力降低。

与plain方式相比,fvh高亮在文档字段内容较大的情况下具有较大优势,特别是在使用ssd的情况下

postings-highlighter 高亮器实现高亮功能不需要二次分析,高亮方式与fvh相似,采用词量向量的方式进行高亮,与fvh高亮不同的是postings高亮只存储了词向量的位置信息,并未存储词向量的偏移量,故中大字段存储中,postings其比fvh节省约20-30%的存储空间,速度与fvh基本相当。需要在字段的映射中设置 index_options 参数的取值为 offsets,即保存关键词的偏移量,速度快于默认的 highlighter 高亮器。例如,配置 comment 字段使用 postings-highlighter 高亮器,映射如下:

PUT /example
{
  "mappings": {
    "doc": {
      "properties": {
        "comment": {
          "type": "text",
          "index_options": "offsets"
        }
      }
    }
  }
}

在实际使用中,postings高亮的优点和缺点都不突出,故建议开发者在做高亮需求时候,可对小字段采用highlighter高亮方式,大字段采用fast-vector-highlighter即可满足需求。

可能存在的查询问题

fvh查询时出现StringIndexOutOfBoundsException越界

在某些场景可能会发现使用fvh查询会报错,es返回数组越界,通过查询es github的issue发现,这是更底层的Lucene的Lucene Fast Vector highlighter一直存在的bug,只能规避使用fvh才能解决

检索高亮不正确

这大概是es高亮器最常见的问题,在实际使用过程中,发现不管是unified、plain还是fvh,都会在某些case下冒出高亮不正确的毛病,例如plain模式高亮不精准,换成unified就好了,反过来的案例也存在。

研究后发现这是Lucene原本实现方式导致的固有毛病,可能只有自己实现一套检索高亮功能才是最合适的。

参考文档

[In some cases FVH returns StringIndexOutOfBoundsException · Issue #22997 · elastic/elasticsearch · GitHub] In some cases FVH returns StringIndexOutOfBoundsException · Issue #22997 · elastic/elasticsearch · GitHub

[Highlighting | Elasticsearch Guide [8.15] | Elastic] Highlighting | Elasticsearch Guide [8.15] | Elastic

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2052306.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python:霍夫变换检测直线

霍夫变换检测直线 在Python中&#xff0c;可以使用OpenCV库来实现霍夫变换进行直线检测。 一、原理 1、霍夫变换(Hough Transform) 霍夫变换是图像处理中从图像中识别几何形状的基本方法之一&#xff0c;应用很广泛&#xff0c;也有很多改进算法。主要用来从图像中分离出具有…

Linux中的锁

user2正在进行抢票: 4 user3正在进行抢票: 3 user1正在进行抢票: 2 user4正在进行抢票: 1 user2正在进行抢票: 0 user3正在进行抢票: -1 user1正在进行抢票: -2 int tickets10000; void* getTicket(void* args) {string usernamestatic_cast<const char*>(args);while(…

【C++篇】迈入新世界的大门——初识C++(上篇)

文章目录 C发展历史C起源C版本更新C23小故事 C在工作领域的应用C参考网站及文档书籍编程语言排行榜C难度参考文档书籍参考文档参考书籍 C第一个程序命名空间为什么要使用namespacenamespace定义及规则命名空间使用 C输入&输出名字含义 缺省参数函数重载 C发展历史 C起源 …

新手小白零基础,该怎样学习编程呢?零基础入门到精通,收藏这一篇就够了

零基础编程入门先学什么&#xff1f;编程语言有几百种&#xff0c;我们应该怎么选择。想学习编程&#xff0c;加入互联网行业&#xff0c;哪一个更有前途&#xff1f;在小白学习编程会有各种各样的问题&#xff0c;今天小编我就来为你解答。 一、怎么选择编程语言 编程语言有很…

geomagic怎么删除平面?geomagic怎么修模

在现代三维建模和3D打印技术的发展中&#xff0c;Geomagic作为一款专业的软件工具&#xff0c;广泛应用于逆向工程、产品设计和质量检测等领域。本文将详细介绍geomagic怎么删除平面&#xff1f;geomagic怎么修模&#xff0c;并探讨Geomagic的主要应用领域。通过这些内容&#…

SAP_ABAP模块-批量导入货源清单

一、业务背景 有个朋友做ECC 6.0的项目&#xff0c;期初上线时&#xff0c;有一个需求是批量导入货源清单&#xff0c;我问了好几个朋友&#xff0c;加上自己以前的积累&#xff0c;硬是没有找到一个完全能用的程序&#xff0c;下面我来说一下我遇到的问题&#xff1b; 对货源清…

【软件造价咨询】软件造价之全国各省市功能点单价分析

在软件工程领域&#xff0c;功能点是衡量软件规模的一种单位&#xff0c;功能点分析是一种广泛使用的方法&#xff0c;用于估算软件项目的规模和成本。其中功能点单价是指每功能点的软件开发费用&#xff08;单位&#xff1a;元/功能点&#xff09;。 本篇文章通过调研了20多份…

运维开发——局域网SSH访问服务器与应用

摘要 本博文主要介绍局域网SSH访问登陆虚拟机和及其应用相关配置操作。 1. 局域网SSH访问登陆虚拟机 目标&#xff1a;在局域网内A电脑使用SSH登陆B电脑上虚拟机的服务器。 前提条件:B电脑为宿主机&#xff0c;可以正常使用ssh访问虚拟机服务器&#xff0c;虚拟机网络连接方…

【面试题】文本左右对齐

文本左右对齐 学习 一、题目 这个问题是一个典型的文本排版问题。 二、解题思路 初始化&#xff1a;创建一个结果列表result来存储每一行的文本&#xff0c;以及一个临时列表current_line来存储当前正在构建的行的单词。 贪心算法填充&#xff1a;遍历words数组&#xff0c;…

Linux:开发工具(2)

一、Linux编译器-gcc/g使用 1.1 为什么我们可以用C/C做开发呢&#xff1f; 无论是在windows、还是Linux中&#xff0c;C的开发环境不仅仅指的是vs、gcc、g&#xff0c;更重要的是语言本身的头文件&#xff08;函数的声明&#xff09;和库文件&#xff08;函数的实现&#xff0…

WPF动画

补间动画&#xff1a;动画本质就是在一个时间段内对象尺寸、位移、旋转角度、缩放、颜色、透明度等属性值的连续变化。也包括图形变形的属性。时间、变化的对象、变化的值 工业应用场景&#xff1a;蚂蚁线、旋转、高度变化、指针偏移、小车 WPF动画与分类 特定对象处理动画过…

本地项目上传github

一、先在github&#xff08;GitHub: Let’s build from here GitHub&#xff09;上创建仓库 1&#xff0c;登录github后&#xff0c;点击右上角头像&#xff0c;点击 Your repositories 2&#xff0c;点击new 3&#xff0c;填写仓库名&#xff0c;假设命名 testhub&#xff0…

【机器学习】全景指南:从基础概念到实战流程的全面解析

文章目录 1.引言1.1机器学习的重要性1.2机器学习的应用范围1.3本文的内容结构 2. 机器学习的基本概念与分类2.1 机器学习的定义2.2 机器学习的分类 4. 强化学习&#xff08;Reinforcement Learning&#xff09; 3. 机器学习的工作流程3.1 数据收集与准备1. 数据源与类型2. 数据…

win10怎么查看CPU多核占用率

想要看自己有几个CPU处理器&#xff0c;可以在设备管理器里查看&#xff1a; 查看多核占用率&#xff0c;搜索任务管理器&#xff0c;然后打开&#xff0c;任务管理器——性能——CPU 右下角就可以看到我的是1个CPU&#xff0c;6个内核&#xff0c;12线程 想要看每个CPU占用…

Unity3D 自定义窗口

Unity3D 自定义窗口的实现。 自定义窗口 Unity3D 可以通过编写代码&#xff0c;扩展编辑器的菜单栏和窗口。 简单的功能可以直接一个菜单按钮实现&#xff0c;复杂的功能就需要绘制一个窗口展示更多的信息。 编辑器扩展的脚本&#xff0c;需要放在 Editor 文件夹中。 菜单栏…

用Python爬取高德地图路径规划数据——01. 指定起终点爬取-Python程序及详解

这个Python程序旨在从高德地图API获取路径规划数据&#xff0c;解析这些数据&#xff0c;并最终将其保存到JSON和CSV文件中。下面&#xff0c;我将详细讲解每个部分的功能和实现方式。 1. 导入所需的模块 import requests import json import time import csvrequests: 用于发…

spring boot自动配置

Spring自动配置是Spring框架的一个核心特性&#xff0c;它允许开发者通过在类路径下的配置类发现bean&#xff0c;而无需在应用程序中显式地进行bean的声明。Spring Boot利用这一特性&#xff0c;通过starter依赖的机制和EnableAutoConfiguration注解&#xff0c;帮助开发者快速…

Adobe After Effects AE V2023-23.6.6.2 解锁版下载安装教程 (视频合成和特效制作)

前言 Adobe After Effects&#xff08;简称AE&#xff09;是一款专业的图形视频处理软件&#xff0c;数字影视特效合成软件&#xff0c;视频后期特效制作软件。主要用来创建动态图形和视觉特效&#xff0c;支持2D以及3D&#xff0c;是基于非线性编辑的软件&#xff0c;透过图层…

原生js用Export2Excel导出excel单级表头和多级表头数据方式实现

原生js用Export2Excel导出excel单级表头和多级表头数据方式实现 原生js用Export2Excel导出excel单级表头和多级表头数据方式实现HTML文件导入需要的文件HTML文件中实现导出函数HTML总代码实现汇总&#xff08;直接复制代码&#xff0c;注意js引入路径&#xff09; 原生js用Expo…

小区社区超市商城停车场管理系统-计算机毕设Java|springboot实战项目

&#x1f34a;作者&#xff1a;计算机毕设匠心工作室 &#x1f34a;简介&#xff1a;毕业后就一直专业从事计算机软件程序开发&#xff0c;至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长&#xff1a;按照需求定制化开发项目…