Elasticsearch7.8.0版本进阶——文档分析 分析器

news2024/10/2 12:31:15

目录

    • 一、文档分析过程
    • 二、分析器
    • 三、内置分析器
      • 3.1、标准分析器
      • 3.2、简单分析器
      • 3.3、空格分析器
      • 3.4、语言分析器
    • 四、分析器使用场景
    • 五、分析器的测试示例

一、文档分析过程

  • 将一块文本分成适合于倒排索引的独立的词条
  • 将这些词条统一化为标准格式以提高它们的“可搜索性”,或者 recall分析器执行上面的工作。

二、分析器

分析器实际上是将三个功能封装到了一个包里

  • 字符过滤器
    首先,字符串按顺序通过每个 字符过滤器 。他们的任务是在分词前整理字符串。一个
    字符过滤器可以用来去掉 HTML,或者将 & 转化成 and。
  • 分词器
    其次,字符串被 分词器 分为单个的词条。一个简单的分词器遇到空格和标点的时候,
    可能会将文本拆分成词条。
  • Token 过滤器
    最后,词条按顺序通过每个 token 过滤器 。这个过程可能会改变词条(例如,小写化
    Quick ),删除词条(例如, 像 a, and, the 等无用词),或者增加词条(例如,像 jump
    和 leap 这种同义词)。

三、内置分析器

Elasticsearch 还附带了可以直接使用的预包装的分析器。接下来我们会列出最重要的分
析器。为了证明它们的差异,我们看看每个分析器会从下面的字符串得到哪些词条:

"Set the shape to semi-transparent by calling set_trans(5)"

3.1、标准分析器

  • 标准分析器是 Elasticsearch 默认使用的分析器。它是分析各种语言文本最常用的选择。它根据 Unicode 联盟 定义的 单词边界 划分文本。删除绝大部分标点。最后,将词条小写。它会产生:

    set, the, shape, to, semi, transparent, by, calling, set_trans, 5
    

3.2、简单分析器

  • 简单分析器在任何不是字母的地方分隔文本,将词条小写。它会产生:

    set, the, shape, to, semi, transparent, by, calling, set, trans
    

3.3、空格分析器

  • 空格分析器在空格的地方划分文本。它会产生:

    Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
    

3.4、语言分析器

  • 特定语言分析器可用于 很多语言。它们可以考虑指定语言的特点。例如:英语分析器附带了一组英语无用词(常用单词,例如 and 或者 the ,它们对相关性没有多少影响),它们会被删除。英语 分词器会产生下面的词条:

    set, shape, semi, transpar, call, set_tran, 5
    

    注意:transparent、 calling 和 set_trans 已经变为词根格式。

四、分析器使用场景

当我们 索引 一个文档,它的全文域被分析成词条以用来创建倒排索引。 但是,当我们在全文域 搜索 的时候,我们需要将查询字符串通过 相同的分析过程 ,以保证我们搜索的词条格式与索引中的词条格式一致。

全文查询,理解每个域是如何定义的,因此它们可以做正确的事:

  • 当你查询一个 全文 域时, 会对查询字符串应用相同的分析器,以产生正确的搜索词条列表。
  • 当你查询一个 精确值 域时,不会分析查询字符串,而是搜索你指定的精确值。

五、分析器的测试示例

  • 启动es服务,在消息体里,指定分析器和要分析的文本

    GET http://localhost:9200/_analyze
    {
    "analyzer": "standard",
    "text": "Text to analyze"
    }
    

    在这里插入图片描述

  • 输出结果如下:每个元素代表一个单独的词条。
    在这里插入图片描述

  • 输出结果的解释

    输出结果key输出结果key的解释
    token实际存储到索引中的词条
    start_offset字符在原始字符串中的开始位置
    end_offset字符在原始字符串中的结束位置
    position词条在原始文本中出现的位置

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/369832.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RFID在产线上的作用

RFID在产线上的作用RFID技术应用于产线监控,可以实现产线的自动控制和检测。RFID读写器每识别一个产品标签,就可以将数据传输到电脑程序中,记录每1件产品的原料和来源、生产线位置、生产过程和库存状况等信息,为企业更好地管理生产…

实现基于国密SM3的密钥派生(KDF)功能

实现基于国密SM3的密钥派生(KDF)前言KDF 标准基于SM3的kdf实现前言 密钥派生函数(KDF):密钥派生函数是指从一个共享的秘密比特串中派生密钥数据,在密钥协商过程中,密钥派生函数作用在密钥交换所…

davis2016评估教程

DAVIS 2016是VOS任务中的一个经典的benchmark,但是一些VOT的算法有时候也可以预测mask,所以也会在上面测一测性能,本次就随手记录一下自己评测的过程,有需要的小伙伴可以往下看。 DAVIS 2016数据集官方项目网站:https:…

【微信小程序】-- 常用的基础内容组件介绍 -- text rich-text progress icon(七)

💌 所属专栏:【微信小程序开发教程】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! &#…

获取Windows11开发环境及VirtualBox配置指南

今天我们来讲一讲Windows11开发环境的快速搭建,主要是通过Virtualbox虚拟机安装微软官方预先配置好的Windows11环境包,配置简单,开箱即用。 获取虚拟机打包镜像 微软官方提供了多个系统平台的Windows11虚拟机镜打包镜像,只需要导…

维格云社区版APItable

目录 ✨ 快速开始 🔥 功能特性 💥 应用场景 💞 面向 API 💝 嵌入友好 安装 🧑‍💻 贡献 开发环境 Git 工作流基础 工作约定

[零刻] SER5 Pro 迷你主机:从开箱到安装ESXi+虚拟机

开箱先上图: SER5Pro这个小主机采用了AMD580H的处理器,性能相当强悍,用来做All in one主机非常合适,特别是独有的背面散热系统,可以同时给内存和硬盘散热,在长期运行下散热完全不用担心稳定性,放…

揭穿数据分析的六大谎言

目前许多企业在决策时仍沿用以往的个人经验,没有用数据说话,这在实际决策运行时会出现很多问题。在数据分析行业发展成熟的国家,90%的市场决策和经营决策都是通过数据分析研究确定的。用数据说话,重视定量分析,也逐渐成…

十年测试大佬教你如何从零到一落地接口自动化测试?

目录 为什么要做接口测试 理解接口和接口测试 如何落地接口自动化测试 总结 重点:配套学习资料和视频教学 为什么要做接口测试 测试理念的演变 早些时候,软件研发交付流程大多遵循V型或W型的瀑布模式,这种模式下只有开发编码完成才会提测…

学生白嫖阿里服务器

测试答案,直接CtrlF查找即可 WEB2.0时代黑客攻击的主要目标集中在(A) A. 互联网应用 B. 穿透防火墙 C. 破坏操作系统 D. 计算机硬件 以下常见的通讯协议中,不属于应用层协议的有(B) A. FTP B. TCP/IP C. HT…

腾讯云服务器部署onnxruntime-gpu经验总结

前言 有项目需要用onnxruntime-gpu进行推理,原以为像windows一样在已经有cuda的情况下直接安装onnxruntime-gpu即可,却没想到这么麻烦,故分享此文帮助后来者。 环境 gpu计算型英伟达v100云服务器。 在选择安装系统时已经选择了最高版本如下…

嵌入式 STM32 实现STemwin移植+修改其配置文件,驱动LCD显示文本 (含源码,建议收藏)

目录 一、STemwin 简介 二、源码下载 1、在移植STemwin源码之前,需要一个已经具备LCD读写,填充指定颜色等函数功能的一个工程; 2、STemwin 3、源码下载 三、STemwin移植 1、解压源码路径 2、STemwin文件介绍 四、修改配置文件&…

【PyTorch】教程:DCGAN

DCGAN 本教程将通过一个示例来介绍 DCGAN。 我将训练一个生成对抗网络 (GAN) ,在向其展示许多真实名人的照片后生成新的名人。这里大部分代码来自于 pytorch/examples 。本文档针对这些实现进行全面解释,并阐述该模型的工作方式和…

在windows搭建Redis集群并整合入Springboot项目

搭建集群配置规划Redis集群编写bat来启动每个redis服务安装Ruby安装Redis的Ruby驱动出现错误镜像过期SSL证书过期安装集群脚本redis-trib启动每个节点并执行集群构建脚本测试搭建是否成功配置springboot项目中配置规划Redis集群 我们搭建三个节点的集群,每个节点有…

骨传导耳机推荐哪款好,列举几款是市面上热销的骨传导耳机

​骨传导耳机是一种新型的耳机类型,通过震动和声音将振动传到了耳道外,对耳道不会产生损伤,能够保护听力。相比于传统耳机的优势有很多,比如运动时佩戴更加稳固,也可以在听歌时与人交谈。但在市面上的骨传导耳机款式可…

无重叠区间-力扣435-java贪心策略

一、题目描述给定一个区间的集合 intervals ,其中 intervals[i] [starti, endi] 。返回 需要移除区间的最小数量,使剩余区间互不重叠 。示例 1:输入: intervals [[1,2],[2,3],[3,4],[1,3]]输出: 1解释: 移除 [1,3] 后,剩下的区间没有重叠。…

Spring MVC 源码- HandlerAdapter 组件(四)之 HandlerMethodReturnValueHandler

HandlerAdapter 组件HandlerAdapter 组件,处理器的适配器。因为处理器 handler 的类型是 Object 类型,需要有一个调用者来实现 handler 是怎么被执行。Spring 中的处理器的实现多变,比如用户的处理器可以实现 Controller 接口或者 HttpReques…

服务器部署—XShell连接阿里云服务器,linux系统里面数据库访问乱码怎么办?

我是用的xshell连接的云服务器,今天想在服务器上面部署一个项目,但是当我在数据库里面安装mysql之后,通过select的sql语句查询数据,在表里面的中文出现乱码,给我直接干懵了,这个怎么办?而且还有…

【项目精选】jsp网上招标系统(视频+源码+论文)

点击下载源码 威客理论的起源 威客理论的提出基于其创始人刘锋发现的三个基石:发现电子公告牌功能分离现象;确认互联网知识价值化时代的到来、互联网是人类大脑的联网而不是仅仅为机器的联网。 1、电子公告牌功能分离现象的发现  2005年6月威客&#xf…

好上好信息 API 微服务集群在 KubeSphere 的部署实践

作者:徐鹏、深圳好上好信息(001298)、技术副总监、负责云服务器团队的架构设计及业务开发,拥抱云原生,乐于分享,终生学习。 公司简介 好上好信息(001298)是中国大陆一家致力于为中国智造提供全面支持的综合…