es elasticsearch 基础

news2025/1/15 22:52:07

es
https://www.elastic.co/guide/en/elasticsearch/reference/6.8/getting-started.html
倒排索引:
正排–>从目录到文章内容
倒排–>内容到目录文章标题
在这里插入图片描述

if we dont need full text search ,we dont need to create 倒排 using text type
分词:
(1)Analyzer 组件对文档执行一些操作并将具体子句拆分为 token/term,简单说就是分词,然后将这些术语作为倒排索引存储在磁盘中
(2)analyzer 三部分:
character Filter 剔除html标签,Tokenizer 分词,英文中按照空格分词,Token Filter分词过滤 过滤调stopwords
https://zhuanlan.zhihu.com/p/137916758
核心: 单词词典,所有document的单词,比较大 文档ID, TF词频 单词在文中出现的频率 Position 单词出现的位置, 偏移offset 出现的开始和结束
中文分词器,常用IK 支持自定义词库热更新分词词典
ik_max_word:粒度最细,穷尽所有组合 , ik_smart 粗粒度
分词器调优:

mapping
Mapping is the process of defining how a document, and the fields it contains, are stored and indexed.
dynamic mapping is enabled, es can automatically index the new added data by mapping boolean string and so on to es datatypes; ofcourse wed better control our data
index principle
wed better index the same field(same data) in deffifrent way for different purpose
es aggregations enable u to analyze your data
create a table, index_api like storing data to a table
mapping is to set the tyepe of table column
document like a row
SEARCH
https://www.elastic.co/guide/en/elasticsearch/reference/6.8/getting-started-search.html
Query DSL: https://www.elastic.co/guide/en/elasticsearch/reference/6.8/query-dsl.html#query-dsl
数据类型:
Text :索引全文值字段,字段需要被分词
Keyword: 索引结构化内容,通常用于排序。过滤和聚合
其他常见date,number等
document API
index api add/update a json document in a specified index making it searchable, automatically created if not exist (default)
update/delete/reindex/get
docvalue_fields: use Doc fileds structure stored on disk to accelerate the speed of sorting and aggregation of non-text filed, dont need to use 倒排索引
aggeration
“size”:0, #最外围的size表示不返回文档包括元数据, “_source”:false 还返回元数据
“terms” 是 表示对keyword的精确查询,在聚合中表示分组
所有带bucket_前缀的aggs都只能用于桶分组计算
index.max_result_window 的值表示from+size的最大值,默认为1w,而非表示结果集数量,如果分页要往后,则需要search_after 和 scroll
向量空间模型
https://www.zhihu.com/search?type=content&q=%E5%90%91%E9%87%8F%E7%A9%BA%E9%97%B4%E6%A8%A1%E5%9E%8B
分词
2 高维向量表示doc (1w1,1w2,1*w3,0),1表示词出现,w表示词的权重,0表示未出现,权重由TF和IDF决定
计算查询和文档向量的相似度
score
评分影响因素: TF词频,IDF逆词频(关键词在collection中的重要程度,若很多问doc中都出现了则IDC比较低,不太重要),
字段长度越短评分越高,文档级别boost, 某个子查询的boost,会让查询结果doc评分更高

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1081524.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

优雅而高效的JavaScript——解构赋值

🙃博主:小猫娃来啦 🙃文章核心:优雅而高效的JavaScript——解构赋值 文章目录 什么是解构赋值数组解构赋值基本用法默认值剩余参数 对象解构赋值基本用法默认值剩余参数 解构赋值的优势和应用场景代码简化和可读性提高交换变量值函…

硬件基本功--过流、过压保护电路

1.简介 过流保护(OCP):当电路电流超过预定最大值时,使保护装置动作的一种保护方式。不允许超过预定最大值电流,不然会烧坏电路的器件。过压保护(OVP):被保护电路电压超过预定的最大值时,使电源断开或使受控设备电压降低…

企业如何实现财务无纸化?票档一体化建设势在必行

随着“大智移云物区”等信息技术的发展,传统的财务管理开始向信息化、数字化转型,电子发票、电子凭证也逐渐取代传统的纸质档案资料,促使企业转型升级并逐步实现财务无纸化,助力降本增效。 同时,在政策强力推动下&…

【赠书活动】如何提高C++代码的性能

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

C++QT-day5

#include <iostream> //多继承using namespace std;class Sofa { private:string sitting; public:Sofa(){cout << "Sofa无参构造函数" << endl;}Sofa(string sitting):sitting(sitting){cout << "Sofa有参构造函数" << …

数据可视化——ucharts的使用

目录 1.引入 uCharts插件 2.使用组件 3.修改默认渲染数据的内容 1.修改柱状图上面渲染的内容 2.修改点击展示的内容 1.修改展示内容 2.自定义展示内容 4.修改其他设置查看官方文档 官网地址&#xff1a;uCharts官网 - 秋云uCharts跨平台图表库 uCharts是一款基于canvas API…

线性数据结构集会

目录 序言 一、数组 数组的优点 数组的缺点 数组的适用场景 二、链表 链表的优点 链表的缺点 链表的使用场景 链表的种类 Java单向链表的实现 三、队列 队列的特点 四、栈 栈的特点 栈的适用场景 五、时间复杂度简述 序言 线性数据结构是一种将数据元素以线性…

C语言,洛谷题:你的飞碟在这

文中要把字母A对应到1&#xff0c;Z对应到26&#xff0c;这时候就要用上ASCII表了。A对应的ASCII码值是65&#xff0c;要让A对应1&#xff0c;只要将A减去64&#xff0c;后面的字母也是一样的只要减去64&#xff0c;就能对应其26字母中的顺序。 要存储字符串对应的每个元素的数…

计算机毕业设计选什么题目好?springboot 学生考勤管理系统

✍✍计算机编程指导师 ⭐⭐个人介绍&#xff1a;自己非常喜欢研究技术问题&#xff01;专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目&#xff1a;有源码或者技术上的问题欢迎在评论区一起讨论交流&#xff01; ⚡⚡ Java实战 |…

Java实验一 Java语言基础(12题)

文章目录&#xff1a; 1、我国历法中的天干、地支和生肖的排列是有规律的。天干的顺序是“甲乙丙丁戊己庚辛壬癸”&#xff0c;地支的顺序是“子丑寅卯辰巳午未申酉戌亥”&#xff0c;生肖的顺序是“鼠牛虎兔龙蛇马羊猴鸡狗猪”。天干、地支、生肖的计算方法非常简单&#xff…

Etsy玩家必看之7个运营技巧

2023年跨境电商行业趋势愈发旺盛&#xff0c;目前正处于红利期&#xff0c;而作为近年来的电商网红“Etsy”&#xff0c;以其低成本低竞争高回报的优势吸引了大批的跨境电商玩家。但仅仅入驻照搬其他平台经验很难出单&#xff0c;如果你正烦恼这个问题&#xff0c;那么接下来的…

软件测试学习(一)基础概念、实质、说明书测试、分类、动态黑盒测试

软件测试概念、背景 软件无处不在。然而&#xff0c;软件是人写的一所以不完美。 世界上有完美的软件吗&#xff1f;NO 世界上没有完美的软件。所有软件都可能存在缺陷、错误或漏洞&#xff0c;无论是操作系统、应用程序、游戏还是其他类型的软件。这些问题可能会导致功能问题…

1.软件开发-HTML结构-元素剖析

元素的嵌套 代码注释 ctrl/ URL url 统一资源定位符 一个给定的独特资源在web上的地址 URI

那些年,我们一起发现的Bug

一、背景 在这篇文章中&#xff0c;分享一些自己在工作中或别人发现的一些常见Bug&#xff0c;与大家共同成长~ 二、常见Bug分类 1、前后命名不一致 举个例子 接口入参中的名称是&#xff1a;aslrboot Java代码中使用的名称是&#xff1a;aslrBoot Codis中存储的名称是&…

LCD简介

lcd简介 LCD简介1、分辨率2、像素格式3、LCD时间参数4、RGB LCD屏幕时序6、像素时钟 此文章摘抄于正点原子的嵌入式linux驱动开发指南&#xff0c;仅作为笔记&#xff0c;以放便忘记时查阅 LCD简介 LCD全称是Liquid Crystal Display,也就是液晶显示器&#xff0c;其显示的基本原…

机器人的组成

机器人是一个机电一体化的设备&#xff0c;从控制的角度来看&#xff0c;机器人系统可以分成四大部分&#xff0c;即执行机构、驱动系统、传感系统和控制系统. 各部分之间的控制关系如下图所示。 执行机构 执行机构是直接面向工作对象的机械装置&#xff0c;相当于人体的手和脚…

3年测试经验,测试用例应该达到这个水平才合格

状态迁移法主要关注在测试状态转移的正确性上面。对于一个有限状态机&#xff0c;通过测试验证其在给定的条件内是否能够产生需要的状态变化&#xff0c;有没有不可达的状态和非法的状态&#xff0c;是否可能产生非法的状态转移等。通过构造能导致状态迁移的事件&#xff0c;来…

力扣-2512.奖励最顶尖的k名学生

Idea 记录caibi学习的第n天&#xff0c;这道题折磨了我两个多小时&#xff0c;终于用自己的思路ac了 大佬建议参考官方题解思路 用一个map记录学生id及其得分情况 用两个set存放 正面词汇集和负面词汇集 遍历report&#xff0c;然后获取每一个单词&#xff0c;跟两个set进行查找…

二叉树链式结构的遍历访问——前中后序

最开始接触树的时候&#xff0c;因为并不是二叉树&#xff0c;所以我们并不知道一个节点最多有几个度&#xff0c;所以我们要用链表来实现树的话就需要用孩子兄弟法 然后我们认识了完全二叉树&#xff0c;因为它是从左到右都满的二叉树&#xff0c;所以我们可以用顺序表&#…

【数据结构】二叉树的顺序结构及实现

目录 1. 二叉树的顺序结构 2. 堆的概念及结构 3. 堆的实现 3.1 堆向下调整算法 3.2 堆的创建 3.3 建堆时间复杂度 3.4 堆的插入 3.5 堆的删除 3.6 堆的代码实现 4. 堆的应用 4.1 堆排序 4.2 TOP-K问题 1. 二叉树的顺序结构 普通的二叉树是不适合用数组来存储的&…