Elasticsearch(ES)概述

news2024/9/30 9:23:59

文章目录

  • 一.什么是Elasticsearch?
    • 1.正向索引和倒排索引
    • 2.Mysql和ES的概念对比
    • 3.安装elasticsearch、kibana
  • 二.IK分词器
  • 三.索引库操作
  • 四.文档操作
  • 五.RestClient操作索引库
    • 1.初始化RestClient
    • 2.创建索引库
    • 3.删除索引库
    • 4.判断索引库是否存在
  • 六.RestClient操作文档
    • 1.新增文档
    • 2.查询数据
    • 3.修改数据
    • 4.删除数据
    • 5.批量插入数据


一.什么是Elasticsearch?

Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。

Elasticsearch是一款非常强大的开源搜索引擎,可以帮助我们从海量数据中快速找到需要的内容。

Elasticsearch结合kibana、Logstash、Beats,也就是elastic stack(ELK)。被广泛应用在日志数据分析、实时监控等领域。

Elasticsearch是elastic stack的核心(不可替换),负责存储、搜索、分析数据。

在这里插入图片描述


1.正向索引和倒排索引

文档(document):每条数据就是一个文档

词条(term):文档按照语义分成的词语


正向索引(Forward Index):
定义: 正向索引是根据文档-词项对的方式建立的索引。每个文档都有一个记录,其中包含了文档中的所有词项及其位置信息。

例如Mysql就是使用的正向索引,根据id检索一个文档非常快,但是根据文档中某个字段检索文档只能逐条检索


倒排索引(Inverted Index):
定义: 倒排索引是根据词项-文档对的方式建立的索引。每个词项都有一个记录,其中包含了包含该词项的所有文档及其位置信息。即对文档内容分词,对词条创建索引,并记录词条所在文档的信息。查询时先根据词条查询到文档id,而后获取到文档

Elasticsearch就使用了倒排索引,将文档按照语义分成词条,根据词条建立词条表,这样就形成了词条-文档的结构,导致检索字段时非常快

倒排索引中包含两部分内容:

  • 词条词典(Term Dictionary):记录所有词条,以及词条与倒排列表(Posting List)之间的关系,会给词条创建索引,提高查询和插入效率

  • 倒排列表(Posting List):记录词条所在的文档id、词条出现频率 、词条在文档中的位置等信息

    • 文档id:用于快速获取文档

    • 词条频率(TF):文档在词条出现的次数,用于评分

在这里插入图片描述

文档:

elasticsearch是面向文档存储的,可以是数据库中的一条商品数据,一个订单信息。
文档数据会被序列化为json格式后存储在elasticsearch中。

索引:

相同类型的文档的集合

映射

索引中文档的字段约束信息,类似表的结构约束

在这里插入图片描述


2.Mysql和ES的概念对比

在这里插入图片描述

Mysql:擅长事务类型(ACID特性)操作,可以确保数据的安全和一致性

Elasticsearch:擅长海量数据的搜索、分析、计算

总而言之:

  • 正向索引适合于文档级别的查询,因为它直接提供了文档中的词项信息。

  • 倒排索引适合于词项级别的查询,因为它直接提供了包含某个词项的文档信息。

3.安装elasticsearch、kibana

通过Dokcer拉取镜像安装即可

二.IK分词器

ES在创建倒排索引时需要对文档分词;在搜索时,需要对用户输入内容分词。但默认的分词规则对中文处理并不友好。故需要更好的分词策略:IK分词器

安装(安装到es-plugins/_data即可):IK分词器官方地址,重启es后IK分词器生效

ik分词器包含两种模式:

  • ik_smart:最少切分,粗粒度
  • ik_max_word:最细切分,细粒度

IK分词器-拓展词库

IK分词器虽然说按照字典查找词语进行组合,但是随着网络文化发展和新词的逐渐产生,IK分词器不可能马上更新这些词汇,这时候就需要进行拓展词汇库和增加禁用词汇

要拓展ik分词器的词库,只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfg.xml文件:
在这里插入图片描述

在ext.dic文件中添加拓展词汇

在这里插入图片描述

在stopword.dic文件下添加禁用词汇

在这里插入图片描述

三.索引库操作

mapping属性

mapping是对索引库中文档的约束,常见的mapping属性包括:

  • type:字段数据类型,常见的简单类型有:

    • 字符串:text(可分词的文本)、keyword(精确值,例如:品牌、国家、ip地址)

    • 数值:long、integer、short、byte、double、float

    • 布尔:boolean

    • 日期:date

    • 对象:object

  • index:是否创建索引,默认为true

  • analyzer:使用哪种分词器

  • properties:该字段的子字段


创建索引库

PUT /索引库名称
{
  "mappings": {
    "properties": {
      "字段名":{
        "type": "text",
        "analyzer": "ik_smart"
      },
      "字段名2":{
        "type": "keyword",
        "index": "false"
      },
      "字段名3":{
        "properties": {
          "子字段": {
            "type": "keyword"
          }
        }
      },
      // ...略
    }
  }
}

查看索引库语法:

GET /索引库名 

删除索引库的语法:

DELETE /索引库名 

修改索引库

索引库和mapping一旦创建无法修改,但是可以添加新的字段,语法如下:

PUT /索引库名/_mapping
{
  "properties": {
    "新字段名":{
      "type": "integer"
    }
  }
}

四.文档操作

添加文档

POST /索引库名/_doc/文档id
{
    "字段1": "值1",
    "字段2": "值2",
    "字段3": {
        "子属性1": "值3",
        "子属性2": "值4"
    },
    // ...
}

查看文档语法:

GET /索引库名/_doc/文档id 

删除索引库的语法:

DELETE /索引库名/_doc/文档id 

修改文档

方式一:全量修改,会删除旧文档,添加新文档

PUT /索引库名/_doc/文档id
{
    "字段1": "值1",
    "字段2": "值2",
    // ... 略
}

方式二:增量修改,修改指定字段值

POST /索引库名/_update/文档id
{
    "doc": {
         "字段名": "新的值",
    }
}

文档操作-动态映射

当我们向ES中插入文档时,如果文档中字段没有对应的mapping,ES会帮助我们字段设置mapping,规则如下:

在这里插入图片描述

五.RestClient操作索引库

什么是RestClient
ES官方提供了各种不同语言的客户端,用来操作ES。这些客户端的本质就是组装DSL语句,通过http请求发送给ES。

使用:

1.初始化RestClient

1.引入es的RestHighLevelClient依赖:

		<dependency>
            <groupId>org.elasticsearch.client</groupId>
            <artifactId>elasticsearch-rest-high-level-client</artifactId>
        </dependency>

2.可以发现客户端的版本号,引入的依赖版本必须和客户端一致(不一致则需修改)

在这里插入图片描述

修改版本号

	<properties>
        <java.version>1.8</java.version>
        <elasticsearch.version>客户端版本号</elasticsearch.version>
    </properties>

3.初始化RestHighLevelClient:

	private RestHighLevelClient client;

    //测试类中使用@BeforeEach注解来标记一个方法,该方法将在每个测试方法执行之前执行(@AfterEach同理)
    @BeforeEach
    void setUp(){
        this.client=new RestHighLevelClient(RestClient.builder(
                HttpHost.create("自己的Linux局域网ip地址:9200")
        ));
    }
    @AfterEach
    void tearDown() throws IOException {
        this.client.close();
    }

2.创建索引库

	@Test
    void testCreateHotelIndex() throws IOException {
        CreateIndexRequest request = new CreateIndexRequest("索引库名");

        request.source("DSL语句", XContentType.JSON);

        client.indices().create(request, RequestOptions.DEFAULT);
    }

其中:indices()包含了所有操作索引库的API

3.删除索引库

	@Test
	void testDeleteHotelIndex() throws IOException {   
		// 1.创建Request对象
		DeleteIndexRequest request = new DeleteIndexRequest("索引库名");
		// 2.发起请求
		client.indices().delete(request, RequestOptions.DEFAULT);
}

4.判断索引库是否存在

	@Test
	void testExistsHotelIndex() throws IOException {    
		// 1.创建Request对象    
		GetIndexRequest request = new GetIndexRequest("索引库名");    
		// 2.发起请求     
		boolean exists = client.indices().exists(request, RequestOptions.DEFAULT);    
		// 3.输出    
		System.out.println(exists);
}

六.RestClient操作文档

1.新增文档

IndexRequest request = new IndexRequest("索引库名").id(设置id);

request.source(JSON文档, XContentType.JSON);

client.index(request, RequestOptions.DEFAULT);

2.查询数据

GetRequest request = new GetRequest(索引库名, id);    

GetResponse response = client.get(request, RequestOptions.DEFAULT);   

String json = response.getSourceAsString();

3.修改数据

UpdateRequest request = new UpdateRequest(索引库名,id);

request.doc("键1","值1","键2","值2"...);

client.update(request, RequestOptions.DEFAULT);

4.删除数据

DeleteRequest request = new DeleteRequest(索引库名,id);

client.delete(request, RequestOptions.DEFAULT);

5.批量插入数据

request.add(new IndexRequest(索引库名).id(id1).source(JSON文档1, XContentType.JSON));
request.add(new IndexRequest(索引库名).id(id2).source(JSON文档2, XContentType.JSON));
request.add(new IndexRequest(索引库名).id(id3).source(JSON文档3, XContentType.JSON));
//request可以添加多个IndexRequest
client.bulk(request, RequestOptions.DEFAULT);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1261685.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于springboot实现的学生宿舍管理系统

一、系统架构 前端&#xff1a;html | jquery | bootstrap 后端&#xff1a;springboot | spring-data 环境&#xff1a;jdk1.8 | maven | mysql 二、代码及数据库 三、功能介绍 01. 登录页 02. 管理员-首页 03. 管理员-学生管理 04. 管理员-楼宇管理 05. 管理员-宿舍管理 06.…

好用的样式动画库集合(css、js)

文章目录 前言一、Animate.css二、Anime.js三、CSShake四、Hover.css五、AniJS六、Animista七、Tachyons-animate八、Sequence.js九、Infinite十、OBNOXIOUS.CSS十一、MOTION UI十二、Keyframes.app十三、AnimXYZ十四、Whirl十五、Hamburgers十六、Vivify十七、Magic Animation…

【Vue】Linux 运行 npm run serve 报错 vue-cli-service: Permission denied

问题描述 在Linux系统上运行npm run serve命令时&#xff0c;控制台报错&#xff1a; sudo npm run serve project50.1.0 serve vue-cli-service serve sh: 1: vue-cli-service: Permission denied错误截图如下&#xff1a; 原因分析 该错误是由于vue-cli-service文件权限不…

Web前端开发技术:图像与多媒体文件

在现代的Web开发中&#xff0c;图像和多媒体文件在各种网站和应用程序中扮演着至关重要的角色。它们不仅能提供更丰富的内容&#xff0c;还能大大提高应用程序的吸引力和用户体验。本文将深入介绍一些关键的Web前端开发技术&#xff0c;这些技术将有助于开发者在处理图像和多媒…

任意多个磁盘时的kickstart配置方法

最近工作遇到一个需求&#xff1a;当机器中存在任意多个磁盘时&#xff0c;kickstart配置文件应该如何编写&#xff1f; 我查询了一些资料&#xff0c;得到的结果大多是针对特定数量的磁盘的配置&#xff08;比如&#xff0c;2个&#xff0c;3个&#xff09;。 那么假如因为某些…

HarmonyOS 数据持久化 Preferences 如何在页面中对数据进行读写

背景介绍 最近在了解并跟着官方文档尝试做一个鸿蒙app 小demo的过程中对在app中保存数据遇到些问题 特此记录下来 这里的数据持久化以 Preferences为例子展开 废话不多说 这里直接上节目(官方提供的文档示例:) 以Stage模型为例 1.明确preferences的类型 import data_prefer…

类 —— 友元、常/静态成员函数

类 类的大小 和结构体大小求法一致。但需注意&#xff0c;普通空类也会占用 1 字节大小&#xff0c;因为普通空类可以实例化对象。 而 抽象空类占 4 字节&#xff08;32 位机中&#xff09;&#xff0c;因为抽象空类中含有虚指针&#xff08;含有虚函数的非抽象空类同理&am…

云原生实战课大纲<2>

我们pod的数据挂载文件可以使用 pv-pvc的方式 1. 创建pv池 2. 在pv池中创建pv&#xff0c;并且设置pv的模式 3. 编写pod 写对应的pvc 申请书 就可以了这就是我们k8s中的pv和pvc 基于pv池创建pv的时候会有容量限制呢么关于配置呢&#xff0c;我们以前会有这种场景 比如说在dock…

试题与研究编辑部试题与研究杂志社试题与研究杂志2023年第36期目录

试题与研究编辑部试题与研究杂志社试题与研究杂志2023年第36期目录 教海纵横 高中生物教学中启发式教学方法的应用 买玲; 1-3 初中文言文教学传承传统文化精神的策略探索 张志静; 4-6《试题与研究》投稿&#xff1a;cn7kantougao163.com 信息化背景下初中地理高效…

Unity中Shader的BRDF解析(一)

文章目录 前言现在我们主要来看Standard的 漫反射 和 镜面反射一、PBS的核心计算BRDF二、Standard的镜面高光颜色三、具体的BRDF计算对于BRDF的具体计算&#xff0c;在下篇文章中&#xff0c;继续解析 四、最终代码.cginc文件Shader文件 前言 在上篇文章中&#xff0c;我们解析…

OpenGL之Mesa3D编译for Ubuntu20.04(三十六)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只有行动才是治疗恐惧和懒惰的唯一良药. 更多原创,欢迎关注:Android…

入金牌投资平台,学先进炒股技术,掌未来宝贵财富

钱是个好东西&#xff0c;它能让人享受到世间的甜&#xff0c;它能让人感受到万众瞩目的荣耀&#xff0c;它能让人得到一切该有的尊敬。可以这么说&#xff0c;没有人不爱钱。可是&#xff0c;君子爱财取之有道。对于正常的人而言&#xff0c;都只希望通过正规的渠道赚到尽可能…

SSL证书是选免费的还是付费的好?

在当今的数字化时代&#xff0c;网络安全已经成为了每个网站和应用程序的重要组成部分。为了保护用户的数据安全&#xff0c;许多网站和应用程序都选择了使用SSL证书。然而&#xff0c;面对市场上的各种SSL证书&#xff0c;用户往往会面临一个问题&#xff1a;SSL证书是选免费的…

抽象类-Java

抽象类 一、父类方法的不确定性二、抽象类介绍三、抽象类细节四、练习题 一、父类方法的不确定性 引入&#xff1a;对于一个动物&#xff0c;不知道它吃什么&#xff0c;比如猫吃鱼&#xff0c;兔子吃萝卜。动物类中的 eat 方法往往由它的子类去具体实现。 class Animal {pub…

前端开发学习 (三) 列表功能

一、列表功能 1、列表功能 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equiv"X-UA-Compa…

Buzz库python代码示例

Buzz库来编写一个下载器程序。 php <?php require_once vendor/autoload.php; // 引入Buzz库 use Buzz\Browser; use Buzz\Message\Response; $browser new Browser(); // 设置 $browser->setHttpClient(new HttpClientProxy([ host > , port > , ])…

c++容器详解Vector、deque、list、set、multiset、map、multimap、queue、stcak、Array

容器 数据结构描述实现头文件向量(vector)连续存储的元素<vector>列表(list)由节点组成的双向链表,每个结点包含着一个元素<list>双向队列(deque)连续存储的指向不同元素的指针所组成的数组<deque>集合(set)由节点组成的红黑树,每个节点都包含着一个元素,…

chatglm3 vllm部署推理;api访问使用

用fastchat部署暂时有各种问题,参考:https://github.com/lm-sys/FastChat/pull/2622 本篇用vllm运行测试可以使用 1、vllm运行 python -m vllm.entrypoints.api_server --model /***/chatglm/chatglm3-6b/

景联文科技加入中国人工智能产业联盟(AIIA)数据委员会

近日&#xff0c;景联文科技加入中国人工智能产业联盟&#xff08;AIIA&#xff09;数据委员会&#xff0c;成为委员会成员单位。 中国人工智能产业发展联盟&#xff08;简称AIIA&#xff09;是在国家发改委、科技部、工信部、网信办指导下&#xff0c;由中国信息通信研究院等单…