搜索引擎ES相关问题

news2025/4/19 11:22:18

一、什么是倒排索引？有什么好处？

索引：从ID到内容。

倒排索引：从内容到ID。好处：比较适合做关键字检索。可以控制数据的总量。提高查询效率。

搜索引擎为什么比MySQL查询快？ lucence

文章 -》 term ->排序 term dictionary -> term index -》 Posting List -> [文章ID ，[在文章中出现的偏移量]，权重 ]TFIDF

二、ES了解多少？说说你们公司的ES集群架构。

ES：是一个基于Lucene框架的搜索引擎产品。you know for search。提供了Restful风格的操作接口。 ELK

Lucene：是一个非常高效的全文检索引擎框架。java jar

ES的一些核心概念：

1、索引 index ：关系型数据库中的 table

2、文档 document ： row

3、字段 field text\keyword\byte ：列

4、映射Mapping ： Schema。

5、查询方式 DSL ： SQL ES的新版本也支持SQL

6、分片 sharding 和副本 replicas： index都是由sharding组成的。每个sharding都有一个或多个备份。 ES集群健康状态：

ES的使用场景。ES可以用在大数据量的搜索场景下，另外ES也有很强大的计算能力。用户画像

三、如何进行中文分词？用过哪些分词器？

IK分词器。

四、ES写入数据的工作原理是什么？

1、客户端发写数据的请求时，可以发往任意节点。这个节点就会成为coordinating node协调节点。

2、计算的点文档要写入的分片：计算时就采用hash取模的方式来计算。

3、协调节点就会进行路由，将请求转发给对应的primary sharding所在的datanode。

4、datanode节点上的primary sharding处理请求，写入数据到索引库，并且将数据同步到对应的replica sharding

5、等primary sharding 和 replica sharding都保存好文档了之后，返回客户端响应。

五、ES查询数据的工作原理是什么？

1、客户端发请求可发给任意节点，这个节点就成为协调节点

2、协调节点将查询请求广播到每一个数据节点，这些数据节点的分片就会处理改查询请求。

3、每个分片进行数据查询，将符合条件的数据放在一个队列当中，并将这些数据的文档ID、节点信息、分片信息都返回给协调节点。

4、由协调节点将所有的结果进行汇总，并排序。

5、协调节点向包含这些文档ID的分片发送get请求，对应的分片将文档数据返回给协调节点，最后协调节点将数据整合返回给客户端。

六、ES部署时，要如何进行优化？

1、集群部署优化。

调整ES的一些重要参数。path.data目录尽量使用SSD。定时JVM堆内存大小。

关于ES的参数，大部分情况下是不需要调优的，如果有性能问题，最好的办法是安排更合理的sharding布局并且增加节点数量。

2、更合理的sharding布局：

让sharding和对应的replica sharding尽量在同一个机房。

3、Linux服务器上的一些优化策略：

不要用root用户；修改虚拟内存大小；修改普通用户可以创建的最大线程数。

ES生态： ELK日志收集解决方案- filebeat(读log日志)-> logstash -> ElasticSearch -> kibana、Grafana、自研的报表平台

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/351929.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

搜索引擎ES相关问题

一、什么是倒排索引？有什么好处？

二、ES了解多少？说说你们公司的ES集群架构。

三、如何进行中文分词？用过哪些分词器？

四、ES写入数据的工作原理是什么？

五、ES查询数据的工作原理是什么？

六、ES部署时，要如何进行优化？

相关文章

element-ui中el-table点击其他自定义按钮展开table中某一行

JAVA开发测试（jmeter如何测试性能与估算）

CCF-CSP真题《202212-1 现值计算》思路+python满分题解

中点BH算法对任意斜率的直线扫描转换方法

六“元”数智增长模型，企业元宇宙时代的经营新范式

分享IDEA通过插件【一键自动生成】在线api接口文档

qt 内存泄漏处理办法

VUE -- defineExpose

图片文字识别OCR调研-中文

时尚高级实用，零跑C01满足各种用车需求

扬帆优配|日均客运量恢复，民航业加速复苏，外资买入2股超亿元

Lesson5.1---Python 之 NumPy 简介和创建数组

【贰】嵌入式系统的分类

FPGA MAX 10 10M50系列10M50DAF484C8G/10M50DAF484C7G/10M50DCF484C7G规格

ant design vue 组件中经常会出现 label过长被盖住的情况

2023美赛A题：收干旱影响的植物群落（MCM）思路Python代码

基于dll注入读取任务管理器中指定进程的详细信息

37.网络结构与模型压缩、加速-4

【JVM与性能调优】JVM常用指令之Javap详解

Mybatis执行完新增操作后，对象的ID主键被修改了的原因【mybatis-spring-boot-starter开源项目的贡献者解答】