java高级--Elasticsearch

news2024/9/27 15:31:53

        一、概述搜索引擎

                1.1 什么是搜索引擎

                概念:用户输入想要的关键词,返回含有该关键词的所有信息。

        场景:

                1、互联网搜索:谷歌、百度、各种新闻首页

                 2、 站内搜索(垂直搜索):企业OA查询订单、人员、部门,电商网站内部搜索商品(淘宝、京东)场景。

                1.2 数据库做搜索弊端

                数据量小,简单搜索,可以使用数据库。

                站内搜索的问题: 如果数据量很大。

  1. 存储的问题: 电商网站商品上亿条时,涉及到单表数据过大必须拆分表,数据库磁盘占用过大必须分库。

  2. 性能问题: 解决上面问题后,查询“笔记本电脑”等关键词时,上亿条数据的商品名字段逐行扫描,性能跟不上。

  3. 分词搜索问题: 如搜索“笔记本电脑”,只能搜索完全和关键词一样的数据,那么数据量小时,搜索“笔记电脑”,“电脑”数据要不要给用户。

                互联网搜索: ---数据量pb级别的数据【byte字节 kb m G t p】

                        存储引擎来解决上面数据库作为搜索的弊端。

                1.3 常用的搜索引擎软件

                 Solr Elasticsearch                 理解为数据库-->搜索性能非常块而且存储量也比较大

                1.4 Solr 和 Elasticsearch

1.当单纯的对已有数据进行搜索时,Solr更快

 

2.当实时建立索引时,Solr会产生io阻塞,查询性能较差,ElasticSearch具有明显的优势

3.随着数据量的增加,Solr的搜索效率会变得更低,而ElasticSearch却没有明显的变化

        总结
1、es基本是开箱即用(解压就可以用!)【南京】 ,非常简单。Solr安装略微复杂一丢丢!
2、Solr 利用Zookeeper进行分布式管理,而Elasticsearch<mark>自身带有分布式协调管理功能</mark>。
3、Solr 支持更多格式的数据,比如JSON、XML、 CSV ,而Elasticsearch仅支持json文件格式。
4、Solr 官方提供的功能更多,而Elasticsearch本身更注重于核心功能,高级功能多有第三方插件提供,例如图形化界面需要kibana友好支撑
5.Solr 查询快,但更新索引时慢(即插入删除慢) ,用于电商等查询多的应用;

ES建立索引快(即查询慢) ,即实时性查询快,用于facebook新浪等搜索。
Solr是传统搜索应用的有力解决方案,但Elasticsearch更适用于新兴的实时搜索应用。
6、Solr比较成熟,有一个更大,更成熟的用户、开发和贡献者社区,而Elasticsearch相对开发维护者较少,更新太快,学习使用成本较高。

        > 大多数企业使用的是ES.

                1.5 Elasticsearch是什么

                The Elastic Stack, 包括 Elasticsearch【搜索,分析】、 Kibana【可视化】、 Beats 和 Logstash【数据的搜集】(也称为 ELK Stack)。能够安全可靠地获取任何来源、任何格式的数据,然后实时地对数据进行搜索、分析和可视化。

        Elaticsearch,简称为 ES, ES 是一个开源的高扩展的分布式全文搜索引擎, 是整个 ElasticStack 技术栈的核心。

        它可以近乎实时的存储检索数据;本身扩展性很好,可以扩展到上百台服务器,处理 PB 级别的数据。

        总结: 核心实时存储 和 实时数据分析 实时数据检索 而且可以处理数据量PB级别,以及扩展

                1.6 哪些公司正在使用ES

国外:

  • 维基百科,类似百度百科,“网络七层协议”的维基百科,全文检索,高亮,搜索推荐

  • Stack Overflow(国外的程序讨论论坛),相当于程序员的贴吧。遇到it问题去上面发帖,热心网友下面回帖解答。

  • GitHub(开源代码管理),搜索上千亿行代码。

  • 电商网站,检索商品

  • 日志数据分析,logstash采集日志,ES进行复杂的数据分析(ELK技术,elasticsearch+logstash+kibana)

  • 商品价格监控网站,用户设定某商品的价格阈值,当低于该阈值的时候,发送通知消息给用户,比如说订阅《java编程思想》的监控,如果价格低于27块钱,就通知我,我就去买。

  • BI系统,商业智能(Business Intelligence)。大型连锁超市,分析全国网点传回的数据,分析各个商品在什么季节的销售量最好、利润最高。成本管理,店面租金、员工工资、负债等信息进行分析。从而部署下一个阶段的战略目标。

国内:

  • 百度搜索,第一次查询,使用es。

  • OA、ERP系统站内搜索。

  • 知网

                1.7 安装ES

                保证JDK 1.8.0_73以上的版本。---安装在window                不要安装在中文目录下

                下载和解压缩Elasticsearch安装包,查看目录结构。

         Download Elasticsearch | ElasticDownload Elasticsearch | ElasticDownload Elasticsearch | ElasticDownload Elasticsearch | ElasticDownload Elasticsearch | Elastic

        下载地址:https://www.elastic.co/cn/downloads/

        历史版本下载:https://www.elastic.co/cn/downloads/past-releases/

        注意: 9300 端口为 Elasticsearch 集群间组件的通信端口, 9200 端口为浏览器访问的 http协议 RESTful 端口。

        打开浏览器,输入地址: http://localhost:9200,测试返回结果,返回结果如下:

                1.8 安装kibana

             kibana是es数据的前端展现,数据分析时,可以方便地看到数据。作为开发人员,可以方便访问es----可以理解为navcate         

下载 Elastic 产品 | Elastic

历史版本下载:Past Releases of Elastic Stack Software | Elastic

        

1、下载,解压kibana。

2、启动Kibana:bin\kibana.bat

3、浏览器访问 http://localhost:5601 进入Dev Tools界面。像plsql一样支持代码提示。

4、发送get请求,查看集群状态GET _cluster/health。相当于浏览器访问。

                 如果出现如下错误        

        Could not create APM Agent configuration: Request Timeout after 30000ms

                重写启动es就可以用了

                1.9 ES中常用的概念

        集群

            集群这一概念已经遍及天下了,在Elasticsearch中也不例外,可以将多台Elasticsearch节点组成集群使用,可以在任意一台节点上进行搜索。

        节点

                节点是一台Elasticsearch服务器,可以存储、查询、创建索引,也可以与其它节点一共组成一个集群。

        索引---数据库

                索引是具有某种相似特性的文档集合,熟悉mysql的应该不会对于这个名词陌生,Elasticsearch使用的是倒排索引。

        文档---一条记录

                一个文档是一个可以被索引的基础信息单元。

        分片

                单个索引包含数据太大的话,将会降低索引速度。为此,Elasticsearch提供了将索引细分成多个片段的能力,就是分片。

        副本

                副本是ElasticSearch索引分片的备份,主要应对与节点故障时保存数据的可用性。副本与它的原始分片不会在同一个节点上,以此来保存单节点故障时的高可用。

注意: ES6.0以后Type这个概念模糊了,7.0以后不在使用Type. 默认索引的type都是_doc

 索引----数据库

类型---表

文档---一条记录

字段---列 

Elasticsearch 是面向文档型数据库,一条数据在这里就是一个文档。 为了方便大家理解,我们将 Elasticsearch 里存储文档数据和关系型数据库 MySQL 存储数据的概念进行一个类比

  

ES 里的 Index 可以看做一个库,而 Types 相当于表, Documents 则相当于表的行。这里 Types 的概念已经被逐渐弱化, Elasticsearch 6.X 中,一个 index 下已经只能包含一个type, Elasticsearch 7.X 中, Type 的概念已经被删除了。_doc

                 二、ES中常用的API接口

        ES中提高了很多API接口,而这些接口是按照Restful风格定义的。

        ---风格: 根据不同的操作提供不同的提交方式,而且可以在地址上传递参数 /{id}

  

         2.1、创建索引

语法:

        PUT /索引名称

          {

                "mappings": {

                "properties":{

                "字段名":{"type":数据类型},

                "字段名": {"type":数据类型}

          }

     }

}

数据类型:

字符串类型: text keywords

数字类型: long、Integer、short、byte、double、float、half float、scaled float

日期类型: date

布尔类型: boolean

二进制类型: .........

  

         2.2、获取索引的结构

语法:

              GET /索引名称

        2.3、查询ES中所有的索引

语法:

        GET /_cat/indices?v

        2.4、删除索引

语法:

        DELETE /索引名称

        2.5、添加文档

                添加记录-----数据库

                添加时指定了id

语法:

        put /索引名称/_doc/1

        {

                "name":"张学友",

                "age": 18

        }

        

         

                添加时不知道id

POST /索引名称/_doc

        {

}

        

        2.6、根据id查询文档

语法:

        GET /索引/_doc/id值

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/97328.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linx基础(8)shell基础

该文章主要为完成实训任务&#xff0c;详细实现过程及结果见【参考文章】 参考文章&#xff1a;https://howard2005.blog.csdn.net/article/details/127139576?spm1001.2014.3001.5502 文章目录一、常用shell命令1. 管道命令任务1、查看/etc目录信息前5行信息任务2、查看/etc/…

【谷歌新作】Transformer杀入机器人领域,RT-1:97%成功率,轻松完成700多条控制指令

谷歌机器人团队等在机器人领域构建了一个多任务 transformer 模型&#xff0c;显著改进了对新任务、环境和对象的零样本泛化。 我们知道&#xff0c;机器学习&#xff08;ML&#xff09;多个子领域&#xff08;如 NLP 和 CV&#xff09;的最新重大进展通过一种共享的通用方法实…

ZYNQ之FPGA学习----SPI协议驱动模块仿真实验

1 SPI通信协议简介 SPI通信协议基础知识学习&#xff1a;硬件设计基础----通信协议SPI 2 实验任务 设计SPI驱动模块&#xff0c;并进行仿真验证&#xff0c;观察仿真波形 3 实验设计 3.1 创建工程 新建工程&#xff0c;操作如图所示&#xff1a; 输入工程名和路径&#x…

m基于K-means聚类算法和神经网络的模糊控制器设计matlab仿真

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 聚类就是按照某个特定标准把一个数据集分割成不同的类或簇&#xff0c;使得同一个簇内的数据对象的相似性尽可能大&#xff0c;同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一…

React学习23(redux基本使用)

理解 1&#xff09;学习文档 英文文档&#xff1a;https://redux.js.org/ 中文文档&#xff1a;https://www.redux.org.cn/ github:https://github.com/react.js/redux 2&#xff09;redux是什么 redux是一个专门用于状态管理的JS库&#xff08;不是react插件库&#xff09; …

JavaScript中的4种for循环

这里介绍了4中for循环的方法。 注&#xff1a;这里不介绍do while循环。 普通for循环 这个应该是最常规的for循环了&#xff0c;按照数组下标遍历。 for (var i 0; i < 3; i) {console.log(i); }var arr [{"text":"text2","key":1},{&q…

IIS 使用 office365 SMTP relay

IIS上设置smtp 代理不是难事&#xff0c;但是如果使用office365就比较复杂点&#xff0c;弄不好会陷在里面。 一.office365 SMTP的选项 先了解一下office365对于smtp的三个选项&#xff0c;对应三张图及对比。 第一种方式&#xff0c;是使用office365的邮箱账号&#xff0c;通…

《小白WEB安全入门》02. 开发篇

开发篇初识HTML潜在漏洞初识CSS潜在漏洞初识JS潜在漏洞初识后端潜在漏洞后端能做什么后端种类后端框架潜在漏洞本系列文章只叙述一些超级基础理论知识&#xff0c;极少有实践部分 本文涉及到的语言需自行掌握 初识HTML潜在漏洞 HTML指的是超文本标记语言&#xff08;Hyper Tex…

math_基本导数公式@积分公式@部分推导

文章目录导数积分公式表&#x1f388;积分计算器pictures versionmarkdown Table version&#x1f388;&#x1f388;&#x1f388;&#x1f388;Notes补充几个积分公式的推导和记忆方法&#x1f388;x2a2x^2\pm{a^2}x2a2a2−x2\sqrt{a^2-{x^2}}a2−x2​x2−a2\sqrt{x^2-a^2}x2…

【C++天梯计划】1.13 广搜(BFS)(search widely)

文章目录什么是广搜?与深搜的对比实际应用例题1&#xff1a;快乐的马里奥题目描述输入输出样例代码1代码2例题2&#xff1a;迷宫出口题目描述输入输出样例思路代码&#x1f386;&#x1f389;&#x1f389;&#x1f389;&#x1f389;&#x1f389;&#x1f389;&#x1f389;…

解释最小二乘法(最小平方法)?

Reference: https://blog.csdn.net/Rosie9/article/details/119717881 &#xff08;二乘 aa 平方&#xff09; 最小化误差平方和残差平方和最小&#xff0c;是一种数学优化技术。 问题&#xff1a;对于一元线性回归模型, 假设从总体中获取了n组观察值&#xff08;X1&#x…

【财务】FMS财务管理系统---应收管理

笔者前面介绍了FMS财务管理系统相关逻辑结构&#xff0c;本篇文章继续对应收管理进行了系统的介绍&#xff0c;希望通过此文能够加深你对FMS财务管理系统的认识。 上一篇主要介绍了财务进销存系统的数据流与模块组成&#xff0c;知道了FMS系统中数据的来源并从系统结构上说明了…

SAP Gateway Foundation Client Proxy 的使用方法

根据实际使用场景&#xff0c;SAP OData 客户端代理配置有多种消费类型和 OData 版本。 OData Client Proxy是ABAP中OData服务消费中客户端&#xff08;服务的消费者&#xff09;和服务实现&#xff08;数据提供&#xff09;之间的接口。 这使 ABAP 开发人员能够创建 OData 客…

Android核心技术——Coil 解析与使用

概述 Coil 是一个非常年轻的图片加载库&#xff0c;在 2020 年 10 月 22 日才发布了 1.0.0 版本&#xff0c;但却受到了 Android 官方的推广&#xff0c;在 Android Developers Backstage 这个博客中专门聊过一期。推广的原因比较简单&#xff1a;一方面是这个库确实做得很好&…

双机高速互联

双机高速互联 配置ip[非必须] 配置ip步骤是可以省略的, 但是如果你希望每次重新连接时候不用反复为新识别的网络配置成特定专用网络然后共享, 或者是每次为共用网络开启网络发现, 可以固定下网络ip, 这样每次网络发现都是不用重新设置的 配置如下 192.168.1.1 主机配置 19…

演讲类或观点类的爆款短视频脚本是怎样写出来的?模板分享

演讲类或观点类的爆款短视频脚本是怎样写出来的&#xff1f;模板分享 今天刷到一个讲全职妈妈价值的短视频&#xff0c;点赞量近千万&#xff0c;拆解分析了一下。 加上最近在我赢助手小禾呈序学到的观点类短视频脚本文案的模板&#xff0c;分析给大家看看&#xff1a; 第一部…

初探React环境搭建与运行

在家看React 知识&#xff0c;在本地环境搭建&#xff0c;记录下来&#xff0c;方便查看。 环境前置&#xff1a;Nodejs 14 及以上 网站地址&#xff1a;React中文官网 一、方式一命令生成项目 通过 create-react-app脚手架 来创建 React项目&#xff0c;其中 npx 是 npm5.2 …

68、4K-NeRF:高分辨率重建

简介 官网&#xff1a;https://github.com/frozoul/4K-NeRF 基于nerf方法的渲染过程通常依赖于一种像素方式&#xff0c;在这种方式中&#xff0c;射线(或像素)在训练和推断阶段都是独立处理的&#xff0c;这限制了其描述微妙细节的表示能力&#xff0c;特别是当提升到极高分…

机器学习——04朴素贝叶斯

机器学习——04朴素贝叶斯 参考资料 AIlearningMachine-Learning-in-Action庞善民.西安交通大学机器学习导论2022春PPT 更多原理请参考本人另一篇博客&#xff1a;[机器学习导论]——第六课——贝叶斯分类器 使用Jupyter进行练习&#xff0c;python3 一、知识准备 贝叶斯…

【算法技术专题】如何用Java实现一致性 hash 算法( consistent hashing )(上)

一致性hash的历史 【Consistent Hashing算法】早在 1997 年就在论文 Consistent hashing and random trees 中被提出&#xff0c;目前在 cache 系统中应用越来越广泛&#xff1b; 一致性hash的目的 一致性哈希算法是分布式系统中常用的算法&#xff0c;一致性哈希算法解决了…