【搜索引擎】elastic search核心概念

news2024/9/22 21:23:54

前言

本文不涉及ES的具体安装下载、操作、集群的内容,这部分内容会放在后面一篇文章中。本文只包含ES的核心理论,看完本文再去学ES的细节会事半功倍。

目录

1.由日志存储引出的问题

2.什么是ES?

3.ES的数据结构

4.ES的核心原理

5.联系作者


1.由日志存储引出的问题

本文或者说本系列的来源:

前面我们聊过了分布式链路追踪系统,在基于日志实现的分布式链路追踪的方式seluth+zipkin中为了防止数据丢失,需要将数据持久化。我们给出的是持久化进mysql中的示例。

【JAVA】分布式链路追踪技术概论-CSDN博客

【分布式链路追踪技术】sleuth+zipkin-CSDN博客

这里就需要关注一个问题了:

用mysql来存储日志真的合适吗?或者说用什么方式来存储日志合适喃?

从两个场景来具体切入:

  • 聚合

  • 搜索

聚合:

我们收集到日志后,需要对内容进行一些统计,比如请求报错的比列,就要去统计error的数量。

搜索:

我们收集到日志后需要进行一些搜索,比如在进行问题排查的时候搜索一些具体的报错信息。

以上两个操作MySQL支持吗?很明显是支持的,用聚合函数和like函数可以轻松实现。但是性能喃?

日志是文本类的数据,是非结构化的,不是结构化的。要存储到mysql中也是将日志内容存到一个字段上,对这个字段内的内容进行模糊查询根本没办法用到索引,一旦数据量大了以后,会迎来性能上的灾难。除此之外我们再仔细思考一下,内容存在单字段内,似乎聚合也不是很好做。

所以我们说,关系型的数据交给关系型数据库来做,非关系型的数据还是交给非关系型的数据来做才合适。

这里复习一下什么是关系型和非关系型最核心的区别:

关系型,数据之间(表之间)可以通过主键、外键之间建立起很强的关系。

非关系型,数据之间相对独立,没有建立起很强关联关系的方式。

2.什么是ES?

前面我们聊过了对于文本内容来说,关系型数据库是很难满足业务要求的。这时候就需要用到专业的做文本搜索的组件。Elasticsearch(简称ES) 是为全文搜索而设计的,可以快速且高效地搜索大量文本数据。它支持复杂的查询,包括全文、模糊、通配符、范围和正则表达式查询等。

ES的架构其实可以类比数据库来理解:

ESdatabase
索引
类型
文档
字段

目前新版本的ES中是没有type这一层级的,这是因为ES使用了倒排索引,层级过多会影响性能,而且随着在实际应用中的铺开,大家发现对于文档来说,类型其实是多余的,如果非要使用类型的概念,索引层面已经可以实现了,把不同分类的数据放到不同的索引中就行了。于是在之前的三个大版本的迭代中,ES围绕淡化和去除type做了一些工作:

  • 5.X及其以前,一个index下允许存在多个type。

  • 6.X一个index下只允许存在一个type。

  • 7.X即其以后,取消了type这个概念。

3.ES的数据结构

ES是用Json的方式来组织数据的,下面来演示一下一篇文章在ES中是怎样存储的。

随便打开百度上今天的一条热搜新闻:

建立好索引并声明好各个字段的配置:

ES是采用rest api的方式通过http method+参数的方式来进行操作的,创建index是put方法跟上index的名字和index的详细描述。

PUT /my_article_index

{
  "settings": {
    "number_of_shards": 3,  // 设置分片数量
    "number_of_replicas": 1  // 设置副本数量
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",  // 文本类型,用于全文搜索
        "fields": {
          "keyword": {
            "type": "keyword",  // 关键字类型,用于精确匹配
            "ignore_above": 256  // 忽略较长的文本
          }
        }
      },
      "content": {
        "type": "text",  // 文本类型,用于全文搜索
        "analyzer": "standard"  // 使用标准分析器
      },
      "author": {
        "type": "keyword"  // 关键字类型,用于精确匹配
      },
      "publish_date": {
        "type": "date",  // 日期类型
        "format": "yyyy-MM-dd HH:mm:ss||epoch_millis"  // 支持的日期格式
      }
    }
  }
}

将文章存进建立好的索引中:

ES是采用rest api的方式通过http method+参数的方式来进行操作的,向index中添加数据是post方法+index名字+_doc+id,id可以不指定自动生成,也可以指定。

POST /my_article_index/_doc/1

{
  "title": "天南地北迎新年 喜庆欢乐庆元旦",
  "content": "央视网消息(新闻联播):辞旧迎新,欢度元旦。天南地北的人们在丰富多彩的节庆活动中迎接2024年的到来。跨年夜,神州大地一派欢乐。在北京,新年倒计时主场活动在首钢园举行,精彩纷呈的光影秀、灯光雕塑、文艺表演等,将园区变成了欢乐的海洋。在江西南昌,充满科技与未来感的灯光秀,在城市楼宇间变幻出一幅幅美丽的画卷。在海南海口、安徽芜湖,数百架无人机摆出各种欢度节日的字样和图案,喜迎新年的到来。在重庆解放碑中央广场,众多市民和游客共同聆听新年钟声,许下美好的新年愿望。在福建平潭综合实验区、在太湖边的苏州湾、在北国江城吉林市,寓意着幸福安康、欢乐祥和的烟花秀在夜空绽放,为人们送上新年祝福。在河南郑州、山西忻州,打铁花、创意灯展等表演吸引了众多市民游客。在山东泰山脚下,民俗非遗夜游专场,让游客亲身体验民间习俗。在黑龙江鸡西,晶莹剔透的冰雕、栩栩如生的雪雕与五彩斑斓的花灯交相辉映,营造出浓浓的节日气氛。喜迎新年,尽享欢乐。今天(1月1日),广州白云国际机场、广州南站、广州白云站响起《我爱你中国》等歌曲,大家用快闪歌舞为祖国送上祝福。在内蒙古鄂尔多斯东胜区,堆雪人、亲子拉力赛,人们在冰雪那达慕活动中欢乐跨年。在浙江绍兴丰惠古城、在湖南益阳百年书院,糖画、扇绘、竹编等充满年味的古风集市处处洋溢着节日的喜庆。在贵州乌江寨,地方传统戏剧、杂技轮番上演,人们喝茶看戏,好不惬意。在广西富川瑶族村落,村民穿上节日盛装唱瑶歌,展示传统习俗,祝福新年五谷丰登、国泰民安。",
  "author": "央视网",
  "publish_date": "2024-01-01 20:07:27"
}

4.ES的核心原理

Elasticsearch中采用倒排索引来支持对文档进行高效的全局搜索。倒排索引是类比正排索引的一个概念。比如在文档中搜索关键字,正排索引的做法是指通过索引找到数据,再在数据中搜索关键字,比如通过id找到content,再在content中寻找关键字。

idcontent
1001my name is zhang san
1002my name is li si

倒排索引的做法是指的是通过数据找到索引,再通过索引找到文档,会有个地方专门记录每个字段和索引的对应关系。

keywordid
name1001,1002
zhang1001
............

Elasticsearch 采用倒排索引的方式,将每个词汇与其在文档中的位置建立索引。这样的设计使得它更适合文本搜索,尤其是全文搜索。字段和索引的对应关系是在建立倒排索引的时候生成的,Elasticsearch 在建立倒排索引时采用了分词(tokenization)的过程,使用分词器,将文本字段中的文本切分成一个个有意义的词(token)以便进行检索。关于分词器,这是一项开源的技术,其实现是五花八门的,常见的分词器包括标准分词器(standard tokenizer)、较简单的空格分词器(whitespace tokenizer)、关键字分词器(keyword tokenizer)等。ES是支持替换分词器的。

我想到这里大家会有这样的疑惑:

比如ES中存储的是海量数量的文章,那么分词出来的索引和分词的关系也是海量的,即使使用倒排索引,应该也很慢吧。MySQL的索引用了B+树来提升索引的匹配速度,ES是怎么处理的喃?

ES给出了以下两个维度的优化

  • 分布式

  • 倒排索引的优化

分布式:

Elasticsearch 是为分布式和水平扩展而设计的,它将数据分布在多个节点上,每个节点负责部分数据。这样可以让每个节点上的倒排索引总的规模要小一些。

倒排索引的优化:

Elasticsearch 对倒排索引进行了多方面的优化,包括倒排索引的压缩、分段存储、合并和优化等策略,以提高查询性能。

总的来说倒排索引是文档全文搜索最好的解法,剩下要做的都是围绕采用倒排索引后带来问题进行优化,仅此而已。

5.联系作者

商务合作、各种交流:

公众号:每日十分钟系列,上下班通勤路上,花十分钟掌握一个新的计算机技术知识点,欢迎关注文末公众号。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1365489.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第11课 利用windows API捕获桌面图像并通过FFmpeg分享

在上一章,我们已经实现了一对一音视频对话功能。在实际应用中,我们常需要把自己的电脑桌面分享给他人以实现桌面共享功能,这种功能在视频会议、在线教学等场景中很常见,这种功能如何实现呢?这节课我们就来解决这个问题…

MySQL练习-DDL语法练习

文章目录 1、数据库操作2、表操作3、DDL数据类型 突然想起来好久没写过SQL了,写一下SQL练习一下😊 个人写sql比较喜欢用小写😁 什么是DDL:DDL是对数据库和表的操作 在这里练习DLL的时候先不添加约束,后面会把约束集中…

Demo:基于elementplus的弹窗嵌套表单进行二次封装

基于elementplus的弹窗嵌套表单进行二次封装 所见即所得&#xff1a;简单封装方便工作 ProForm.vue代码&#xff1a; <!--* Author: 忆往昔* LastEditTime: 2024-01-6 14:36:00* email: 15871856064163.com --> <template><div class"penk-form-contain…

微信小程序:flex常用布局

在我们平时微信小程序开发过程中为了页面能达到设计小伙伴的预期&#xff0c;追求还原度&#xff0c;那我们肯定会使用很多常用的布局方式&#xff0c;那我们今天就介绍一下微信小程序中常用的一些flex布局 1、常用flex布局 /** 水平垂直居中 **/ .flex-center {display: fle…

鸿鹄电子招投标系统源码实现与立项流程:基于Spring Boot、Mybatis、Redis和Layui的企业电子招采平台

随着企业的快速发展&#xff0c;招采管理逐渐成为企业运营中的重要环节。为了满足公司对内部招采管理提升的要求&#xff0c;建立一个公平、公开、公正的采购环境至关重要。在这个背景下&#xff0c;我们开发了一款电子招标采购软件&#xff0c;以最大限度地控制采购成本&#…

普中STM32-PZ6806L开发板(HAL库函数实现-温度传感器DS18B20)

简介 主芯片STM32F103ZET6, 通过引脚PG11 连接DS18B20, 读取DS18B20采集的温度数据;电路原理图 DS18B20电路图 DS18B20 与 主芯片连接引脚 其他知识 DS18B20资料 DS18B20数据手册 DS18B20 简介 单线通讯的温度传感器, 测量温度在-55℃ 到 125℃&#xff0c; 在-10C 到…

[大厂实践] 重新发明后端子集

子集算法有助于优化服务间连接利用率&#xff0c;降低资源使用。但随机或轮询子集算法在动态拓扑环境中会造成较高的连接扰动。本文介绍了谷歌在解决连接扰动方面所做的思考和实践&#xff0c;并介绍了当前最新的Rocksteadier子集算法。原文: Reinventing Backend Subsetting a…

算法的复杂度分析

[王有志](https://www.yuque.com/wangyouzhi-u3woi/dfhnl0/hqrch62un0cc9sp2?singleDoc# 《&#x1f525;快来关注我》)&#xff0c;一个分享硬核Java技术的互金摸鱼侠加入Java人的提桶跑路群&#xff1a;[共同富裕的Java人](https://www.yuque.com/wangyouzhi-u3woi/dfhnl0/n…

pytorch集智-2单车预测器

完整代码在个人主页简介链接pytorch路径下可找到 1 单车预测器1.0 1.1 人工神经元 对于sigmoid函数来说&#xff0c;w控制函数曲线的方向&#xff0c;b控制曲线水平方向位移&#xff0c;w控制曲线在y方向的幅度 1.2 多个人工神经元 模型如下 数学上可证&#xff0c;有限神经…

前端ui库搜集

涟漪动画效果 - MDUI 开发文档, Material Design 前端框架添加涟漪动画效果后&#xff0c;会在点击元素时&#xff0c;产生向外扩散的水波纹效果。https://www.mdui.org/docs/ripple#ripple https://semantic-ui.com/ https://getuikit.com/ https://www.purecss.cn/grids.htm…

iview table 表格合并行鼠标悬停时的高亮

背景&#xff1a; Iview里面的表格没有提供鼠标移入移出的事件。 而且当开启鼠标悬浮高亮的时候会显示异常&#xff0c;并没有高亮合并后的整行&#xff0c;还是高亮子行。 高亮前&#xff1a; 高亮异常情况&#xff1a; 解决后&#xff1a; 解决方案&#xff1a; 一、思路&…

第6章 密码学和对称密钥算法

6.1 密码学基本知识 6.1.1 密码学的目标 安全从业者可借助密码系统实现4个基本目标&#xff1a;保密性、完整性、身份认证和不可否认性。 其中每个目标的实现都需要满足诸多设计要求&#xff0c;而且并非所有密码系统都是为达到所有4个目标而设计的。 下面的小节将详细讲解这…

我的剑,传给能挥舞它的人--量化书籍推荐!

这篇笔记介绍量化入门的参考书目。 前1/4叹为观止&#xff0c;再1/4勉强点赞&#xff0c;再1/4乏善可陈&#xff0c;最后1/4简直不忍卒读。这是我对某本名书的评价&#xff0c;希望你并不会将这句话还给我。“不会的”&#xff0c;我安慰自己。不是文章多好&#xff0c;但你们…

云卷云舒:【实战篇】对象存储迁移

云卷云舒&#xff1a;【实战篇】MySQL迁移-CSDN博客 1. 简介 对象存储与块存储、文件存储并列为云计算三大存储模型。提供海量存储空间服务&#xff0c;具备快速的数据存取性能、高可靠和数据安全性&#xff0c;通过标准的RESTful API接口和丰富的SDK包来提供服务&#xff0c…

基于SSM的校内信息服务发布系统的设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;Vue 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#xff1a;是 目录…

uniapp 微信小程序跳转至其他小程序

一、背景&#xff1a; 需要在目前的小程序中跳转到另一个小程序&#xff0c;跳转的目标小程序需要已经发布上线了 二、具体实现 使用uni.navigateToMiniProgram打开另一个小程序 官网指引&#x1f449;&#xff1a;uni.navigateToMiniProgram(OBJECT) | uni-app官网 <t…

RA8900CE汽车用c总线接口实时时钟模块

汽车用c总线接口实时时钟模块内置调频32.768 kHz晶体单元和DTCXO&#xff0c;高稳定性和电源切换。 接口类型我 2C-Bus接口(400kHz)界面电压范围2.5V ~ 5.5V温度补偿电压范围2.0V至5.5V计时电压范围1.6V ~ 5.5V可选时钟输出(32.768 kHz, 1024 Hz, 1 Hz)各种功能齐全的日历、报…

css3 transform:scale

transform:scale 语法&#xff1a;transform:scale(x,y); <html> <head><style>.box1 {display: inline-block;width: 200px;height: 200px;background-color: pink;}.box2 {display: inline-block;width: 200px;height: 200px;background-color: red;tran…

第85讲:MySQLDump与Binlog日志实现企业级数据备份恢复案例

文章目录 1.企业级数据备份恢复案例描述2.第一环节&#xff1a;周三凌晨进行数据全量备份3.第二环节&#xff1a;模拟周三凌晨备份完之后到下午3点前的业务操作4.第三环节&#xff1a;模拟数据库异常数据丢失导致平台无法使用5.第四环节&#xff1a;发布停服公告全员进入数据恢…

计算机组成原理 I/O方式

I/O 方式 I/O方式分类: 程序查询方式。由 CPU通过程序不断查询 /O 设备是否已做好准备&#xff0c;从而控制0 设备与主机交换信息程序中断方式。只在 I/0 设备准备就绪并向 CPU发出中断请求时才予以响应。DMA方式。主存和 I/O 设备之间有一条直接数据通路&#xff0c;当主存和…