Elasticsearch中倒排索引、分词器、DSL语法使用介绍

news2024/11/26 12:44:21

🍓 简介:java系列技术分享(👉持续更新中…🔥)
🍓 初衷:一起学习、一起进步、坚持不懈
🍓 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正🙏
🍓 希望这篇文章对你有所帮助,欢迎点赞 👍 收藏 ⭐留言 📝

🍓 更多文章请点击
在这里插入图片描述在这里插入图片描述

简介及安装请查看这篇:Elasticsearch简介及安装

文章目录

  • 一、 正向索引
  • 二、 倒排索引
  • 三、 正向索引和倒排索引的区别
  • 三、与Mysql的概念对比
  • 四、分词器(粗细力度拆分)
    • 4.1 原始分词器
    • 4.2 IK分词器
    • 4.3 安装IK分词器
      • 4.3.1 在线安装`较慢`
      • 4.3.2 离线安装ik插件`推荐`
    • 4.4 ik分词器测试
    • 4.5 IK分词器--拓展词库
  • 五、mapping属性介绍
  • 六、 索引库操作(类似表操作)
    • 6.1 创建索引库
    • 6.2 查询
    • 6.3 删除
    • 6.4 修改
  • 七、 文档操作(类似表中每条数据操作)
    • 7.1 添加
    • 7.2 查询
    • 7.3 删除
    • 7.4 修改

是

一、 正向索引

基于文档id创建索引,查询时先找文档,然后判断是否包含词条

正向索引(也称为“文档索引”或“内容索引”)是将文档ID与文档内容、单词相关联的关系。这意味着可以通过文档ID获取文档的内容。在构建索引时,它的结构相对简单,建立方便且易于维护。然而,在查询时需要对所有文档进行扫描,以确保没有遗漏,这会使得检索时间大大延长,检索效率低下。

数据库Mysql采用正向索引,例如:给表中的id建立索引,如下图所示
在这里插入图片描述

二、 倒排索引

对文档内容分词,对词条创建索引,并记录词条所在文档信息,查询时先根据词条查询文档id,然后获取文档

倒排索引是单词到文档ID的关联关系。也就是说,通过单词可以搜索到对应的文档ID。倒排索引是搜索引擎的核心,因为它们允许我们根据关键字快速找到相关的文档。倒排索引主要由两个部分组成:单词词典(Trem Dictionary)和倒排列表(Posting List)。单词词典记录了所有的文档分词后的结果,而倒排列表则记录了单词对应文档的集合。此外,倒排索引还包含位置(Position)和偏移(Offset)信息,用于词语搜索和高亮显示。

名词介绍:

  • 文档(document): 每条数据就是一个文档
  • 词条(term): 文档按照语义分成的词语

在这里插入图片描述

三、 正向索引和倒排索引的区别

正向索引:

  • 优点:

    • 可以给多个字段创建索引
    • 根据索引字段搜索,排序速度非常快
  • 缺点:

    • 根据非所以呢字段,或者索引字段中的部分词条查找时,只能全表扫描。

倒排索引

  • 优点:

    • 根据词条搜索,模糊搜索时速度非常快
  • 缺点:

    • 只能给词条创建索引,而不是字段
    • 无法根据字段做排序

三、与Mysql的概念对比

Mysql: 擅长事务类型操作,可以确保数据的安全性和一致性
Elasticsearch:擅长海量数据的搜索,分析,计算
在这里插入图片描述

四、分词器(粗细力度拆分)

4.1 原始分词器

Elasticsearch

  • 创建倒排索引时需要对文档分词;`
  • 在搜索时,需要对用户输入内容分词`
  • 但是默认的分词规则 对中文处理并不好。 (如下)
    我们希望按照词分
    在这里插入图片描述

4.2 IK分词器

处理中文分词,一般会使用IK分词器GitHub地址:https://github.com/medcl/elasticsearch-analysis-ik

在这里插入图片描述
ik_smart :最少切分,粗粒度
ik_max_word :最细切分,细粒度在这里插入图片描述

4.3 安装IK分词器

4.3.1 在线安装较慢

	# 进入容器内部
	docker exec -it es /bin/bash
	
	# 在线下载并安装
	./bin/elasticsearch-plugin  install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip
	
	#退出
	exit
	#重启容器
	docker restart es
	# 查看es日志
	docker logs -f es

4.3.2 离线安装ik插件推荐

因为根据上篇Elasticsearch简介及安装中我们知道,我们的插件数据卷为:es-plugins

  1. 因此,通过下面命令查看:查看数据卷目录
    docker volume inspect es-plugins
    
  2. 目录被挂载到了:/var/lib/docker/volumes/es-plugins/_data 这个目录中。
  3. 将下载的ik分词器文件(GItHub地址中下载或者到我的主页中的资源进行下载)放到该目录下
  4. 重启容器
    # 重启容器
    docker restart es
    # 查看es日志
    docker logs -f es
    

4.4 ik分词器测试

ik_smart 分词器最少切分,粗粒度
在这里插入图片描述ik_max_word 分词器最细切分,细粒度
在这里插入图片描述

4.5 IK分词器–拓展词库

比如我想实现让上图中的text字段的空间文化分成一个词语

首先我们来看下ik分词器的词库如何配置

  1. 和上文中一样先查看ik分词器安装的位置

    docker volume inspect es-plugins
    
  2. 打开IK分词器config目录:
    在这里插入图片描述

  3. 只需要修改一个ik分词器目录中的config目录中的ilAnalyzer.cfg.xml文件即可
    在这里插入图片描述`

  4. 拓展词典和停止词典在当前配置文件的所在目录 在ext.dic文件中(没有新建即可),添加想要的拓展词语即可;

    停止词典同理一样
    在这里插入图片描述

    1. 最后重启es
    docker restart es
    
    # 查看 日志
    docker logs -f es
    
    1. 测试发现成功
      在这里插入图片描述

五、mapping属性介绍

Mapping(映射)是索引文档的约束,例如:字段数据类型约束,等等
文档地址:https://www.elastic.co/guide/en/elasticsearch/reference/7.17/getting-started.html

在这里插入图片描述
在这里插入图片描述

六、 索引库操作(类似表操作)

6.1 创建索引库

上述有介绍其含义,例如:type为text可分词,keyword精确值也就是不可分词

put /student
{
  "mappings": {
    "properties": {
      "info": {
        "type": "text",
        "analyzer": "ik_smart"
      },
      "email": {
        "type": "keyword",
        "index": false
      },
      "name": {
        "properties": {
          "firstName": {
            "type": "keyword"
          },
          "lastName": {
            "type": "keyword"
          }
        }
      }
    }
  }
}

创建成功
在这里插入图片描述

6.2 查询

GET /索引库名
在这里插入图片描述

6.3 删除

DELETE /索引库名
在这里插入图片描述

6.4 修改

以后字段类型不可修改,只能新增字段
在这里插入图片描述再次查看成功添加
在这里插入图片描述

七、 文档操作(类似表中每条数据操作)

7.1 添加

post /student/_doc/1
{
  "info": "我爱学习",
  "email": "asfdasfdd.@163.com",
  "name": {
    "firstName": "关",
    "lastName": "羽"
  }
}

在这里插入图片描述

7.2 查询

在这里插入图片描述

7.3 删除

在这里插入图片描述
发现删除成功了
在这里插入图片描述

7.4 修改

方式一:全量修改,会删除旧文档,添加新文档

那么存在为修改,不存在时为新增
在这里插入图片描述
在这里插入图片描述

方式二:增量修改,修改指定字段

在这里插入图片描述

在这里插入图片描述在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/938786.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

研磨设计模式day14模板方法模式

目录 场景 原有逻辑 有何问题 解决方案 解决思路 代码实现 重写示例 模板方法的优缺点 模板方法的本质 何时选用 场景 现在模拟一个场景,两个人要登录一个系统,一个是管理员一个是用户,这两个不同身份的登录是由后端对应的两个接…

Metasploit“MSF”连接postgresql时因排序规则版本不匹配导致无法连接

一、问题 更新Kali之后使用Metasploit时出现一个问题,连接postgresql时因排序规则版本不匹配导致无法连接 警告: database "msf" has a collation version mismatch DETAIL: The database was created using collation version 2.36, but the operati…

SpringBoot使用Druid连接池 + 配置监控页面(自定义版 + starter版)

目录 1. Druid连接池的功能2. 自定义版2.1 pom.xml添加依赖2.2 MyDataSourceConfig实现2.3 application.properties配置编写Controller进行测试2.4 druid监控页面查看 3. starter版3.1 pom.xml添加依赖3.2 自动配置分析3.3 使用application.properties对druid进行配置3.4 druid…

Git分支机制

一、分支机制简述 要想真正理解Git的分支机制,我们要首先回过头来看一下Git是如何存储数据的。 Git并没有采用多个变更集( changeset )或是差异的方式存储数据,而是采用一系列快照的方式。当你发起提交时,Git存储的是提交对象( commi…

无涯教程-机器学习 - 箱形图函数

Box和Whisker图(也简称为boxplots)是另一种有用的技术,可用于检查每个属性的分布情况。以下是此技术的特点- 它本质上是单变量的,总结了每个属性的分布。它为中间值(即中位数)画一条线。它将在25%和75%周围绘制一个框。它还会绘制…

ant-vue1.78版a-auto-complete表单自动搜索返回列表中的关键字标红

a-auto-complete表单自动搜索返回列表中的关键字标红 通常在做关键字标红的场景,都是后端返回html结构,前端直接渲染实现,但是如果需要前端处理的话,实现也是很简单的,接下来我直接上应用场景吧 应用场景就是通过关键…

mysql 存储引擎系列 (一) 基础知识

当前支持存储引擎 show engines; 显示默认存储引擎 select default_storage_engine; show variables like ‘%storage%’; 修改默认引擎 set default_storage_enginexxx 或 set default_storage_enginexxx; my.ini 或者 my.cnf ,需要重启 服务才能生效 systemctl …

什么事synchronized的升级

今天我们继续学习synchronized的升级过程,目前只剩下最后一步了:轻量级锁->重量级锁。 通过今天的内容,希望能帮助大家解答synchronized都问啥?中除锁粗化,锁消除以及Java 8对synchronized的优化外全部的问题。 获…

校招算法题实在不会做,有没有关系?

文章目录 前言一、校招二、时间复杂度1、单层循环2、双层循环 三、空间复杂度四、数据结构五、校招算法题实在不会做,有没有关系?六、英雄算法集训 前言 英雄算法联盟八月集训 已经接近尾声,九月算法集训将于 09月01日 正式开始,目…

【uniapp】this有时为啥打印的是undefined?(箭头函数修改this)

😉博主:初映CY的前说(前端领域) ,📒本文核心:uniapp中this指向问题 前言:this大家知道是我们当前项目的实例,我们可以在这个this上面拿到我们原型上的全部数据。这个常用在我们在方法中调用其他方法使用。 …

java-什么是 CAS( 比较并交换-乐观锁机制-锁自旋)

1.什么是 CAS( 比较并交换-乐观锁机制-锁自旋) 1.1. 概念及特性 CAS(Compare And Swap/Set)比较并交换,CAS 算法的过程是这样:它包含 3 个参数CAS(V,E,N)。V 表示要更新的变量(内存值),E 表示…

el-date-picker限制选择的时间范围

<el-date-pickersize="mini"v-model="dateTime"value-format="yyyy-MM-dd HH:mm:ss"type="datetimerange"range-separator="~"start-placeholder="开始日期"end-placeholder="结束日期":picker-opti…

零信任体系化能力建设(5):数据安全与控制跟踪

在数字化世界中&#xff0c;一切皆源于数据。无论任何时候、任何地方和任何环境&#xff0c;组织都需要保护数据免受未经授权的访问和泄露&#xff0c;确保核心资产和业务的连续性&#xff0c;并获得客户的信任和忠诚度。 然而&#xff0c;这些跨领域、相互交叉的数据来自于不…

探索昏暗光线下人脸检测,基于YOLOv5[n/s/m/l/x]全系列模型开发构建人脸检测系统,对比分析精度效果

昏暗光线下的目标检测是一个比较小众的场景&#xff0c;之前也有读过一些相关的论文&#xff0c;专门有论文基于这个场景去开发算法模型&#xff0c;目的就是基于这种特定的场景实现性能的提升&#xff0c;那么原生的模型在这种程度的数据下能有什么样的表现效果呢&#xff1f;…

ssm彩妆小样售卖商城源码和论文

ssm彩妆小样售卖商城源码和论文073 开发工具&#xff1a;idea 数据库mysql5.7 数据库链接工具&#xff1a;navcat,小海豚等 技术&#xff1a;ssm 摘 要 随着科学技术的飞速发展&#xff0c;各行各业都在努力与现代先进技术接轨&#xff0c;通过科技手段提高自身的优势&…

Studio One 6.2.0(音乐制作)

Studio One 6 是一款音乐制作软件&#xff0c;具有以下特色&#xff1a; 直观的用户界面&#xff1a;Studio One 6采用了现代化的设计&#xff0c;使得用户可以轻松地浏览和操作软件。它拥有直观的工作流程和易于使用的功能&#xff0c;适合初学者和专业人士。 多轨道录音和混…

从RocketMQ通信模块聊聊EpollEventLoopGroup和NioEventLoopGroup

这里是weihubeats,觉得文章不错可以关注公众号小奏技术&#xff0c;文章首发。拒绝营销号&#xff0c;拒绝标题党 背景 最近在排查RocketMQ一个网络问题的时候&#xff0c;排查到了Netty相关的处理&#xff0c;然后看到了RocketMQ在构建workGroup的时候&#xff0c;发现了有如…

Java中word转Pdf工具类

背景&#xff1a; 最近做的一个项目中&#xff0c;对于word转Pdf用的地方很多&#xff0c;特此记录 搭建总图&#xff1a; 代码部分&#xff1a; 1.需要的jar包&#xff1a; aspose-words-15.8.0-jdk16.jar 注&#xff1a;下载好这个jar包后&#xff0c;在项目的根目录新建一…

css3英文文字换行,超过两行...展示

需求&#xff1a;超过两行...展示 开发的过程中发现div内容中文可以换行英文不换行&#xff0c;导致长度会溢出。 是英文全英文的话浏览器会解析成一个单词&#xff0c; 加上这句就好了 word-break:break-all; 一开始不知道是会解析成一个单词&#xff0c;用字符串拼接处理…

在云原生时代,构建高效的大数据存储与分析平台

文章目录 1. **选择适当的数据存储技术&#xff1a;**2. **采用分布式架构&#xff1a;**3. **数据分区和索引&#xff1a;**4. **采用列式存储&#xff1a;**5. **数据压缩和编码&#xff1a;**6. **使用缓存技术&#xff1a;**7. **数据分片和复制&#xff1a;**8. **自动化运…