一、初始elasticsearch

1、概述

简介

发展

2、倒排索引

3、基本概念

文档

索引

Mysql和es的区别

4、分词器

初始分词器

Ik分词器-扩展词库

二、索引库操作

1、mapper属性

2、创建索引库

3、查询、删除索引库

三、文档操作

1、新增文档

2、查询、删除文档

3、修改文档

四、RestClient

1、什么是RestClient

2、JavaRestClient

建立mapping映射

初始化JavaRestClient

创建索引库

操作索引库

操作文档

五、DSL查询文档

1、DSL查询语法

查询所有

全文检索查询

精确查询

地理查询

复合查询

2、搜索结果处理

排序

分页

高亮

3、RestClient

一、初始elasticsearch

1、概述

简介

es是一款强大的开源搜索引擎，开源帮助我们从海量数据中快速找到需要的内容

elasticsearch是elastic stack（ELK）包含Kibana、Logstash、Beats

发展

Lucene

Lucene是java语言的搜索引擎类库，apache公司顶级项目,1999年研发

优点易扩展，高性能（基于倒排索引），缺点只限于java语言，学习曲线陡峭，不支持水平扩展

Compass

2004是由shay banon基于Lucene开发的

elasticsearch

2010年Shay banon重写了Compass并取名为elasticsearch

比lucene的优点：支持分布式，可水平扩展。提供restful，可被任何语言调用

2、倒排索引

传统的正向索引：例如下面的图，会去从1开始一条条模糊匹配任何匹配的放到结果集返回了，如果有1000万条数据，就要扫描1000万次

倒排索引：

文档（document）：每个商品就是文档，

词条（term）：文档按照语义分成的词语

就是把词语先分词提前存好，每个词语对应的id，当我们要搜索的时候就通过词语拿到所有匹配的id来返回，这种方式的效率就比原本正向的高很多。

适用场景：更适合基于文档去搜索内容，比如搜索异常信息和局部的单词搜索等等。

3、基本概念

文档

es是面向文档存储的，可以是数据库中的一条商品数据，一个订单信息

文档数据会被序列化为json格式后存储在es中

索引

相同类型的文档的集合

映射mapping：索引中文档的字段约束信息，类似表的结构约束

Mysql和es的区别

mysql擅长事务类型操作，可以保证数据安全和一致

es擅长海量数据的搜索、分析、计算

4、分词器

初始分词器

es在创建倒排索引时需要对文档分词，在搜索时，需要对用户输入内容分词，但默认分词规则对中文处理不好，中文会被分成一个个的字

处理中文分词，一般用IK分词器

安装IK分词器：找到数据局目录，然后把安装好的ik分词器，解压分词器安装包，放到es容器的插件数据卷中，重启容器。

ik_smart：粗力度划分，分的词语不够多但是占用内存小

ik_max_word：细粒度划分，分的词语多匹配更加多，但是内存大

Ik分词器-扩展词库

我们发现很多词语是没有的，不会自动分词，比如一些新的网络词汇，要扩展ik分词器，只需要修改ik分词器目录中config目录中的ikAnalyzer.cfg.xml文件，然后在里面写上文件

不仅仅可以扩展，还可以禁止一些词语，比如分的时候“的”字就是没有意义还占用内存，还有紧张搜索的敏感词汇也可以禁止了

二、索引库操作

1、mapper属性

mapping是对索引库中文档的约束，常见的mapping属性包括：

type：字段数据类型，常见的简单类型有：

字符串：text（可分词的文本）、keyword（精确值，最小不能拆分的：国家、品牌、IP地址）
数值：long、integer、short、byte、double、float
布尔：boolean
日期：date
对象：Object

（在es里面是没有数组这个概念的，可以有很多个同类型的数值）

index：是否创建索引，默认为true，如果true就会创建倒排索引，将来就能搜索了，实际上并不是所有字段都需要参与搜索的，所以要手动把一些设置成false

analyzer：使用那种分词器，结合字符串的text来使用的

properties：该字段的子字段（可以指定对象的子属性）

2、创建索引库

ES中通过restful请求操作索引库、文档。请求内容用DSL语句来表示，创建索引库和mapping的DSL语句如下：

3、查询、删除索引库

查询用get，删除用delete，修改用put（es没有办法修改的其实，因为每次修改要查询维护倒排索引库非常麻烦，所以修改其实是在原本的索引库里面添加新字段）

三、文档操作

1、新增文档

新增文档的DSL语法

2、查询、删除文档

3、修改文档

全量修改，请求方式是put，既能做修改，也能做新增，当id没有的时候就代表新增了，他是先删除逐个id然后再新增的，如果id没有就直接增了

指定修改，就是修改指定的值，请求方式是post，中间的路径得改成_update

四、RestClient

1、什么是RestClient

ES官方提供了各种语言的客户端，用来操作es，这些客户端用来组装DSL语句，通过HTTP请求发送给ES

2、JavaRestClient

建立mapping映射

先根据数据库的表建立对应es的mapping

在es里面经纬度比较特殊，要用geo_point

需求：现在想要根据多个字段来搜索，但是多个搜索没有根据一个来搜性能好？怎么办？

es提供了组合查询，类似联合索引的概念，可以单独提出一个字段叫all，把想加进去的属性加上copy_to：all

提示:字段拷贝可以使用copy_to属性将当前字段拷贝到指定字段

初始化JavaRestClient

@BeforeEach是在测试方法@Test前执行，@AfterEach是在测试方法后执行，都是junit的注解

创建索引库

常量里面直接写json对象就行

操作索引库

索引库操作的基本步骤:

初始化RestHighLevelClient
创建XxxlndexRequest。XXX是CREATE、Get、Delete
准备DSL (CREATE时需要)
发送请求。调用RestHighLevelClient#indices().xxx()方法,xxx是create、exists、delete

操作文档

新增

要用过fastJson工具类把对象序列化为json对象存到es

查询

修改

删除

批量导入

文档操作的基本步骤

初始化RestHighLevelClient
创建XxxRequest。XXX是Index、Get、Update、Delete
准备参数 (index和Update时需要)
发送请求。调用RestHighLevelClient#xxx0方法，xxx是
index、get、update、delete
解析结果(Get时需要)

五、DSL查询文档

1、DSL查询语法

DSL是基于restful风格的查询语句，用来查询es的

查询语句分类：

查询所有:查询出所有数据，一般测试用。例如:match all
全文检索 (fulltext)查询: 利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如:
- match query
- multi_match query
精确查询:根据精确词条值查找数据，一般是查找keyword、数值、日期、boolean等类型字段。例如:
- ids
- range
- term
地理(geo)查询: 根据经纬度查询。例如:
- geo distance
- geo_bounding_box
复合(compound)查询:复合查询可以将上述各种查询条件组合起来，合并查询条件。例如
- bool
- function_score