ES基础概念

news2024/12/27 12:03:00

         本文不介绍如何使用ES(使用ES见:)

1.ES生态圈

        ES:

        Logstash:数据处理服务程序,解析转换加工数据;

        Kibana:数据展示、集群管理,数据可视化、ES管理与监控、报表等;

        Beats:轻量级数据采集工具,支持多个数据源采集,占用系统资源少; 

        ES-Hadoop:连接器,通过 ES-Hadoop,可以充分利用 Hadoop 的大数据处理能力和 Elasticsearch 的快速搜索与分析能力,构建强大的数据处理和分析平台;

        其他非官方框架:Flink(开源的实时数据流处理框架)、nifi(数据集成工具)、GrafanaLabs(提供开源的监控、日志管理和数据可视化工具,帮助用户在分布式系统和云原生环境中实现更好的可观测性和性能管理)、presto。。。

2.ES的作用

  • 全文搜索:全文索引,支持多种语言分词、中文、英文、数字、特殊符号,应用在企业知识库、电商商品搜索、垂直领域搜索引擎;
  • 地图应用:地图位置应用搜索,集成 Geohash算法,支持大规模的地理位置搜索,结合自身的分布式特性,可以满足海量数据Geo检索;
  • 向量检索:相似图片、类似语音、问答系统、推荐系统,内置支持Dense Vector数据类型,与多种向量计算产品集成,支持多种向量应用场景;
  • 业务系统加速查询:替代关系型数据库,关系型数据库查询性能瓶,分库分表合并查询、海量数据查询、复杂条件组合查询;
  • 大数据领域:强大的数据处理能力,提供Hadoop对外的数据查询服务;自有大数据处理能力、聚合、转换、上卷、大规模明细查询;
  • 日志平台:统一日志平台,采集所有日志、系统日志、程序日志、业务日志,存储所有类型日志,查询所有日志,分析所有日志;
  • 基础监控:指标采集、时序数据,采集基础指标、基于时序数据存储、性能超过时序数据库;
  • 安全分析:网络安全分析预测,机器学习算法模型训练,分析预测潜在网络安全风险;

3.ES的核心概念

  • Cluster集群:Elasticsearch天然是分布式,由一个或者多个节点实例组成

  • Node节点:服务程序运行实例

  • Index索引:数据存储逻辑空间

  • Shard分片:数据存储实际逻辑空间,单分片就是完整索引数据

  • Replicate副本:分片数据备份复制,高可用高性能

  • Segment分段:分片数据实际存储空间

  • Docment文档:一条完整数据,等同Mysql一行数据

  • Term词项:单个字段数据拆分成多个独立的词

4.ES的核心算法

  • Inverted Index倒排索引:根据内容找到内容所在位置
  • Doc Value列式存储:Elasticsearch数据排序/聚合统计(导致修改数据性能差)
  • FST有限状态转换:Finite State Transducers 前缀/后缀(模糊匹配)
  • Skip List跳表:文档定位跳跃
  • BKD Tree多维空间树:简单数值、范围数据(解决倒排不好范围查询的问题)
  • RoaringBitmap压缩位图:原始数值压缩、查询结果合并
  • TF/IDF/BM25分值计算:文本搜索排序分值计算

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1692599.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【QT+VS】如何在现有VS项目中添加Qt界面?【全网最详细】

0. 前置步骤 参考如下链接文章中的 前3个步骤(1:下载Qt;2:安装Qt;3:安装Qt插件),完成环境的配置和安装。 深耕AI:如何联合Qt,VS,C++,来开发一个电脑版软件(简单有趣,详细) 本文的基础项目链接为: c++工程+图像分割预测+mmdet+实例分割+最新工程+简洁易懂+新手…

方正畅享全媒体新闻采编系统 binary.do SQL注入漏洞复现

0x01 产品简介 方正畅享全媒体新闻生产系统是以内容资产为核心的智能化融合媒体业务平台,融合了报、网、端、微、自媒体分发平台等全渠道内容。该平台由协调指挥调度、数据资源聚合、融合生产、全渠道发布、智能传播分析、融合考核等多个平台组成,贯穿新闻生产策、采、编、发…

Mysql 备份恢复 mysqldump与xtrabackup备份

1.1 备份的原因 备份是数据安全的最后一道防线,对于任何数据丢失的场景,备份虽然不一定能恢复百分之百的数据 (取决于备份周期),但至少能将损失降到最低。衡量备份恢复有两个重要的指标:恢复点目标(RPO) 和恢复时间目标(RTO)&…

1.freertos基础知识

1.freertos最核心的概念就是多线程,就是可以让两段代码同时进行。 2.针对不同的用户场景,freertos提供了4种交互方式:消息队列,任务通知,信号量,互斥锁 3.什么是API?API是应用程序编程接口&…

【退役之重学Java】关于B+树索引

一、为什么使用索引 一条数据可能有很多字段,数据量比较大,挨个查询效率极差故使用索引,提高查询性能和加快数据检索速度。同时还可以帮助优化排序、分组和连接操作,提高数据库系统的整体性能和响应速度。 二、为什么要用 B 树 B树…

HarmonyOS 鸿蒙应用开发 - 创建自定义组件

开发者定义的称为自定义组件。在进行 UI 界面开发时,通常不是简单的将系统组件进行组合使用,而是需要考虑代码可复用性、业务逻辑与UI分离,后续版本演进等因素。因此,将UI和部分业务逻辑封装成自定义组件是不可或缺的能力。 1、创…

Stable Diffusion简单食用方法

1.下载 1.1打开B站 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili哔哩哔哩(bilibili.com)是国内知名的视频弹幕网站,这里有及时的动漫新番,活跃的ACG氛围,有创意的Up主。大家可以在这里找到许多欢乐。https://www.bilibili.com/ 1.2搜索…

【CSS】input宽度根据内容自适应

目标:纯css实现以下功能 input 设置width:min-content | max-content;//无效 ∵ 文本输入框通常会被浏览器渲染为具有固定宽度的控件。 解决方法:设置input的宽高都为100%,让它随着父元素的宽高改变。 父元素如何改变呢&#xf…

可视化在医疗健康领域的巨大价值,该如何设计呢。

可视化设计在医疗健康领域具有以下价值: 数据展示与分析:可视化设计可以将医疗健康领域的大量数据以图表、图形等形式进行展示和分析,帮助医生、研究人员和决策者更直观地理解和解读数据,发现规律和趋势,从而做出科学决…

HTTP 错误 404.3 - Not Found 问题处理

问题描述 HTTP 错误 404.3 - Not Found 由于扩展配置问题而无法提供您请求的页面。如果该页面是脚本,请添加处理程序。如果应下载文件,请添加 MIME 映射。 解决对策

MATLAB构建一些简单的人工数据集

1. 构建一个2维3类的数据集 %高斯二维三类 1 3 mul[0,0]; % 均值 S1[.1 0;0 .1]; % 协方差 data1mvnrnd(mul, S1, 100); % 产生高斯分布数据 % 第二组数据 mu2[1.25 1.25]; S2[.1 0;0 .1]; data2mvnrnd(mu2,S2,100); % % 第三组数据 mu3[-1.25;1.25] S3[.1 0;0 .1] data3mvn…

企业级架构及本体论最新进展

本文主要探讨了企业级架构和本体论的新兴趋势,特别是DoDAF、IDEAS、UAF和NAF的发展历程、理论基础、模型构建以及与ArchiMate和语义网技术的关联。原文: The emerging landscape of Enterprise Architecture and Ontology 导言 动机和采用的方法 关注我的人都知道我…

ROCm上运行预训练BERT

14.10. 预训练BERT — 动手学深度学习 2.0.0 documentation (d2l.ai) 下载数据集 在d2l-zh/pytorch/data目录解压: ~/d2l-zh/pytorch/data$ unzip wikitext-2-v1.zip Archive: wikitext-2-v1.zipcreating: wikitext-2/inflating: wikitext-2/wiki.test.tokens …

Autodesk 3DS Max v2025 解锁版安装教程 (3D 建模软件)

前言 Autodesk 3ds Max 是一款功能强大的 3D 建模和动画解决方案,游戏开发人员、视觉效果艺术家和平面设计师使用它来创建庞大的世界、令人惊叹的场景和引人入胜的虚拟现实 (VR) 体验。 Autodesk 3DS MAX是业界使用最广泛的3D建模和动画软件程序之一,它…

MoE 系列论文解读:Gshard、FastMoE、Tutel、MegaBlocks 等

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。 总结链接…

并发编程:ScheduledThreadPoolExecutor你真的了解吗?

前言 首先看到标题,我们其实很多人都知道,但是呢 在实际项目中我们面对很多延迟任务实现方案有很多选择,甚至直接在网上百度反正都能实现就行,但是忽略了很多细节,导致生产上的事故,都是因为没有真正了解到…

根据多个坐标经纬度获取到中心点的经纬度,scala语言

文章目录 前言scala 代码 总结 前言 Scala 语言 通过多个经纬度坐标点, 计算出中心点, 这里使用的是 Scala 语言,其他的语言需要自行转换。求出来的并不是原有的点,而是原有点的中心位置的点。 scala 代码 package com.dw.process.midimport java.lang.Double.pa…

数据库DCL语句

数据库DCL语句 介绍: DCL英文全称是Data Control Language(数据控制语言),用来管理数据库用户、控制数据库的访 问权限。 管理用户: 查询用户: select * from mysql.user;创建用户: create user 用户名主机名 identified by 密码;修改用…

CSDN 自动评论互动脚本

声明 该脚本的目的只是为了提升博客创作效率和博主互动效率,希望大家还是要尊重各位博主的劳动成果。 数据库设计 尽量我们要新建一个数据库csdn_article,再在其中建一个数据表article -- csdn_article-- article-- 需要进行自动评论的表格信息...CREATE TABLE `article`…

python低阶基础100题(上册)

** python低阶基础100题(上册) ** 1. 请打印出字符串 Hello World print("Hello World")2. 请打印出字符串 爸爸妈妈,你们辛苦啦 print("爸爸妈妈,你们辛苦啦")3. 请打印出字符串 人生苦短,我…