ES基本概念和关键原理

news2024/11/24 3:44:13

ES基本概念和关键原理

官方文档:

https://www.elastic.co/guide/en/elasticsearch/reference/7.17/rest-apis.html

核心概念

相关概念

关系型数据库

ElasticSearch

数据库

Databases

Indices

Tables

Types

行记录

Rows

Documents

字段

Columns

fields

ES集群中可以包含多个索引, 每个索引可以包含多个类型(目前已经弱化类型概念, 一个索引只允许一个类型,默认为_doc类型),每个类型可以存放多个文档,文档中包含多个字段

索引

indices  ES集群以索引为管理单元,按索引进行分片保存,每个分片在集群的服务器上可以进行迁移。

集群节点中保存了索引的主分片和副本(复制分片)。

类型

类型是文档的逻辑定义。 对字段的定义成为映射(mapping),等同于文档在关系型数据库中的Schemal定义。 文档的无模式的概念是指在类型映射中可以不预先定义字段的类型映射, 而ES在接收到文档中包含的新字段时会进行自动映射, 比如对于数字,可能映射为整形。ES的自动映射可能带来准确性的问题, 建议同关系型数据库的使用一样,对于新增的字段,预先进行类型映射。

文档

文档是ES检索的最小单元,ES查询就是对文档进行评分排序和过滤。文档有以下属性:

  1. 文档同时包含字段和值。
  2. 文档可以是层次性的, 文档可以包含自文档
  3. 文档结构灵活,无需预先定义。

关键原理

倒排索引

ES使用倒排索引对所有文档进行分析提供快速检索能力。

倒排索引又称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”

传统索引通过索引确定记录所在行位置,在从记录中获取属性值。而倒排索引则相反,通过记录属性值和有该属性值的记录的地址,通过属性值来确认记录位置。

图1 博客倒排索引示意

分词器

从倒排索引的概念得知,文档最终建立在属性值中关键字的倒排索引上。因此对于相同的一个文档属性值,划分为不同的词直接影响着ES的查询结果。

英文的分词由与空格的存在有自然的分词效果, 而中文则复杂的多, 比如 我爱学习,如果每一个字都划分为词,则失去了学习这个词的语义, 因此中文需要使用专门的分词器来进行分析。

IK分词器是一个中文分词器, 提供了ik_smart和ik_max_word两种分词算法, ik_smart是最少切分, ik_max_word是最细粒度切分。

分词器的安装:
  1. 下载对应版本的ik分词器的包,Github地址:

GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary.

  1. 将下载文件解压到ES根目录的plugins目录中。
  2. 重启ES服务。
  3. 通过elasticsearch-plugin list命令可以看到安装的ik插件。

分词器的测试

对于ik_smart模式“中国共产党”被分析为一个词, 而ik_max_word模式则将所有可能的词都进行了切分。

自定义词库

可以添加自定义词库帮助ik分词器进行分词。新建分词文件:xx.dic,在文件中输入自定义的词组,后将文件放置于elasticsearch/plugins/ik/config 目录下, 并修改在ik/config目录下的IKAnalyzer.cfg.xml文件。

<properties>

<comment>IK Analyzer 扩展配置</comment>

<!-- 用户可以在这里配置自己的扩展字典 -->

<entry key="ext_dict">my.dic</entry>

<!-- 用户可以在这里配置自己的扩展停止词字典 -->

<entry key="ext_stopwords"></entry>

</properties>

ES Rest操作方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1190192.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LinuxMySql

结构化查询语言 DDL&#xff08;数据定义语言&#xff09; 删除数据库drop database DbName; 创建数据库create database DbName; 使用数据库use DbName; 查看创建数据库语句以及字符编码show create database 43th; 修改数据库属性&#xff08;字符编码改为gbk&#xff09;…

MySQL -- 用户管理

MySQL – 用户管理 文章目录 MySQL -- 用户管理一、用户1.用户信息2.创建用户3.删除用户4.远端登录MySQL5.修改用户密码6.数据库的权限 一、用户 1.用户信息 MySQL中的用户&#xff0c;都存储在系统数据库mysql的user表中&#xff1a; host&#xff1a; 表示这个用户可以从…

代码随想录 Day41 动态规划09 LeetCode T121 买卖股票的最佳时机 T122 买卖股票的最佳时机II

前言 这两题看起来是不是有点眼熟,其实我们在贪心章节就已经写过了这两道题,当时我们用的是将利润分解,使得我们始终得到的是最大利润 假如第 0 天买入&#xff0c;第 3 天卖出&#xff0c;那么利润为&#xff1a;prices[3] - prices[0]。 相当于(prices[3] - prices[2]) (pri…

【ONE·C++ || 网络基础(二)】

总言 主要内容&#xff1a;演示socke套接字编程&#xff08;TCP模式&#xff09;&#xff0c;介绍序列化和反序列化&#xff0c;并进行演示&#xff08;json版本达成协议编写、守护进程介绍&#xff09;。 文章目录 总言4、基于套接字的TCP网络程序4.0、log.hpp4.1、version1.…

硝烟后的茶歇 | 中睿天下谈攻防演练之邮件攻击溯源实战分享

近日&#xff0c;由中国信息协会信息安全专业委员会、深圳市CIO协会、PCSA安全能力者联盟主办的《硝烟后的茶歇广东站》主题故事会在深圳成功召开。活动已连续举办四年四期&#xff0c;共性智慧逐步形成《年度红蓝攻防系列全景图》、《三化六防“挂图作战”》等共性研究重要成果…

Flutter案例日程安排首页效果 Lottie动画与Shimmer实现的微光效果

案例效果&#xff1a; Flutter使用的版本 3.13.8&#xff0c;使用fvm管理版本。 加载动态地图示例&#xff0c;使用的是 lottie。 Container buildMapWidget() {return Container(height: 360,padding: const EdgeInsets.only(top: 100, right: 40, left: 40, bottom: 50),de…

字体设计软件 Glyphs 2 mac中文版软件特点

Glyphs 2 mac是一款专业的字体设计软件&#xff0c;主要用于创建和编辑各种字体。它提供了丰富的功能&#xff0c;使用户能够设计高质量的字形和字体。 Glyphs 2 mac软件特点 直观的用户界面&#xff0c;易于上手 结合了矢量绘图和字体制作工具&#xff0c;方便用户进行创作 …

ubuntu18-recvfrom接收不到广播报文异常分析

目录 前言 一、UDP广播接收程序 二、异常原因分析 总结 前言 在ubuntu18.04系统中&#xff0c;编写udp接收程序发现接收不到广播报文&#xff0c;使用抓包工具tcpdump可以抓取到广播报文&#xff0c;在此对该现象分析解析如下文所示。 一、UDP广播接收程序 UDP广播接收程序如…

Qt工程打包工具 windeployqt 的用法

1.复制工程下的“Debug”或者“Release”文件夹到你喜欢的路径&#xff0c;例如&#xff1a;D:\QT_out\ 2.在操作系统“开始”选项找到“Qt”文件夹&#xff0c;打开“Qt 5.15.2&#xff08;MSVC 2019 64-bit&#xff09;” 重点&#xff1a; 这里要注意的是&#xff0c;一定…

osg之黑夜背景地月系显示

目录 效果 代码 效果 代码 /** * Lights test. This application is for testing the LightSource support in osgEarth. * 灯光测试。此应用程序用于测试osgEarth中的光源支持。 */ #include "stdafx.h" #include <osgViewer/Viewer> #include <osgEarth/N…

基于pytorch使用特征图输出进行特征图可视化

使用特征图输出进行特征图可视化 文章目录 前言效果展示获取某一层特征图输出原图方法一&#xff1a;使用IntermediateLayerGetter类方法二&#xff1a;使用hook机制&#xff08;推荐&#xff09; 总结 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 例…

Redis系列之实现分布式自增主键

软件环境 JDK 1.8 SpringBoot 2.2.1 Maven 3.2 Mysql 8.0.26 redis 6.2.14 Mybatis Plus 3.4.3.4 开发工具 IntelliJ IDEA smartGit 一、实现原理 使用Redis来实现分布式的主键自增主要是依赖于Redis的INCR命令&#xff0c;调用INCR命令的对应key&#xff0c;其数值…

nginx图片资源管理转发

目标: 服务器上面 /home/images 里面作为文件资源管理器 代码: server {listen 80;server_name hello.world.cn;#apple-app和接口的关联文件location ~.*(images/miniapp)*\.(gif|jpg|jpeg|png)$ {root /home/;try_files $uri $uri/ 404;add_header Cache-Control &q…

垂直领域大模型落地思考

相比能做很多事&#xff0c;但每件事都马马虎虎的通用大模型&#xff1b;只能做一两件事&#xff0c;但这一两件事都能做好&#xff0c;可被信赖的垂直大模型会更有价值。这样的垂直大模型能帮助我们真正解决问题&#xff0c;提高生产效率。 本文将系统介绍如何做一个垂直领域…

某银行软件测试笔试题,满分一百你能得多少分?

&#xff08;时间90分钟&#xff0c;满分100分&#xff09; 考试要求&#xff1a;计算机相关专业试题 一、填空题&#xff08;每空1分&#xff0c;共10分&#xff09; 1. ______验证___是保证软件正确实现特定功能的一系列活动和过程。 2. 按开发阶段分&#xff0c;软件测试可…

暖通空调系统使用Modbus转Profinet网关应用配置案例

PLC通过兴达易控Modbus转Profinet网关&#xff08;XD-MDPN100)控制暖通空调的温度、湿度。作为控PLC可以通过Modbus传输到Profinet网关&#xff0c;与空调系统的压缩机进行通信&#xff0c;从而准确控制单元的加热、加湿、冷却和减湿。PLC可以实时监控和调整空调系统的运行状态…

java版本转换小工具

工作之余写了一个转换小工具&#xff0c;具有以下功能&#xff1a; 时间戳转换Base64编码/解码URL编码/解码JSON格式化 时间戳转换 package org.binbin.container.panel;import javax.swing.*; import java.awt.*; import java.text.DateFormat; import java.text.SimpleDat…

C语言 预处理详解

目录 1.预定义符号 2.#define 2.1#define 定义标识符 2.2#define 定义宏 2.3#define 替换规则 2.4#和## 2.4.1# 的作用 2.4.2## 的作用 2.5 带有副作用的宏参数 2.6宏和函数的对比 对比 **2.7内联函数 2.8命名约定 3.#undef **4.命令行定义 5.条件编译 常…

李开复创业公司零一万物开源迄今为止最长上下文大模型:Yi-6B和Yi-34B,支持200K超长上下文

本文来自DataLearnerAI官方网站&#xff1a;李开复创业公司零一万物开源迄今为止最长上下文大模型&#xff1a;Yi-6B和Yi-34B&#xff0c;支持200K超长上下文 | 数据学习者官方网站(Datalearner)https://www.datalearner.com/blog/1051699285770532 零一万物&#xff08;01.AI…

C语言 每日一题 11.9 day15

数组元素循环右移问题 一个数组A中存有N&#xff08; > 0&#xff09;个整数&#xff0c;在不允许使用另外数组的前提下&#xff0c;将每个整数循环向右移M&#xff08;≥0&#xff09;个位置&#xff0c;即将A中的数据由&#xff08;A0​A1⋯AN−1&#xff09;变换为&…