05.Elasticsearch应用(五)

news2024/9/25 1:17:26

Elasticsearch应用(五)

1.目标

咱们这一章主要学习Mapping(映射)

2.介绍

Mapping是对索引库中文档的约束,类似于数据表结构,作用如下:

  • 定义索引中的字段的名称
  • 定义字段的数据类型,例如字符串,数字,布尔等
  • 字段,倒排索引的相关配置(Analyzer)

3.映射类型

动态映射

介绍

在关系型数据库中,需要事先创建数据库,然后在该数据库下创建数据表,并创建表字段,类型,长度,主键等,最后才能基于表插入数据。而Elasticsearch中不需要定义Mapping映射,在文档写入Elasticsearch时,会根据文档自动识别类型,这种机制称之为动态映射

缺点

动态映射(Dynamic Mapping)的机制,使得我们无需手动定义Mappings,Elasticsearch会自动根据文档信息,推算出字段的类型。但是有时候会推算的不对,例如地理位置信息。当类型如果设置不对时,会导致一些功能无法正常运行,例如Range查询

自动识别的类型

在这里插入图片描述

静态映射

静态映射是在Elasticsearch中也可以实现定义好映射,包含文档的各字段类型,分词器等,这种方式称之为静态映射

4.常见的字段类型

核心类型具体类型说明
字符串类型text可分词的文本
不分词的字符串keyword精确值,例如:品牌,国家,IP地址等 不能被分词
整数类型long,integer,short,byte在ES中id应该是个字符串keyword而不是数值类型
浮点类型double,float,half_float,scaled_float
日期类型date,date_nanos
布尔类型boolean
数组类型array数组类型不存在,里面是什么就是很么类型
对象类型object
地理位置类型geo_point,geo_shape
补全类型completion自动补全功能所需要的类型
二进制类型binary
范围类型integer_range,float_range,long_range,double_range,date_range,ip_range
JSON对象数组nested

5.常见的Mapping属性

属性含义
type字段数据类型
index是否创建索引,默认为true
analyzer使用那种分词器
properties该字段的子字段
copy_to字段拷贝,可以将当前字段拷贝到指定字段
store是否单独存储。如果设置为true,则该字段能够单独查询
boost控制算分
coerce
doc_values
dynamic动态映射设置
eager_global_ordinals
enabled
fielddata
fields
format
ignore_above
ignore_malformed
index_options控制倒排索引记录的内容
index_phrases
index_prefixes
meta
normalizer
norms
null_value对NULL值进行搜索
position_increment_gap
search_analyzer
similarity
term_vector

6.能否后期更改Mapping的字段类型

两种情况

  1. 新增字段
  2. 对已有字段修改(有数据写入后)

新增字段

  1. dynamic设为true时,一旦有新增字段的文档写入,Mapping也同时被更新
  2. dynamic设为false,Mapping不会被更新,新增字段的数据无法被索引,但是信息会出现在_source中
  3. dynamic设置成strict(严格控制策略),文档写入失败,抛出异常

对已有字段修改(有数据写入后)

  1. Lucene实现的倒排索引,—旦生成后,就不允许修改
  2. 如果希望改变字段类型,必须Reindex APl,重建索引

原因

  1. 如果修改了字段的数据类型,会导致已被索引的数据无法被搜索
  2. 但是如果是增加新的字段,就不会有这样的影响

总结

在这里插入图片描述

7.对已有字段的mapping修改

步骤

  1. 如果要推倒现有的映射, 你得重新建立一个静态索引
  2. 然后把之前索引里的数据导入到新的索引里
  3. 删除原创建的索引
  4. 为新索引起个别名, 为原索引名

索引数据迁移API

POST _reindex
{
	"source":{
		"index":"user"
	},
	"dest":{
		"index":"user2"
	}
}

使用别名兼容原有的索引

PUT /user/_alias/user

8.Dynamic Template

需求

我们可以使用动态模板来告诉es,一些字段需要动态映射成相关类型,例如根据类型来判断,或者只要是根据字段名称包含ip的,动态的给一个IP的类型,而这种思路就是es提供的动态模板,Dynamic templates

介绍

动态模板是针对某个具体的索引来设定的,即在创建某个具体的索引时指定

适用场景

  • 根据ES自动识别字段类型的这个特性,去设置一些特殊字段的名称为某些特定的类型
  • 设置所有字符串类型的字段都为 keyword
  • is 开头的字符串都设置成为 boolean 类型

三种规则

  • match_mapping_type
  • match and unmatch
  • path and path_unmatch

match_mapping_type

根据文档字段的类型进行动态映射。在这种方式下,会对JSON的数据类型进行动态定义es的数据类型。从前面,我们值JSON的数据是没有类型之分,所以es会动态根据数据本身的类型来进行映射

PUT es-learn-000002
{
  "mappings": {
    "dynamic_templates": [
      {
        "integers": {
          "match_mapping_type": "long",
          "mapping": {
            "type": "integer"
          }
        }
      }
    ]
  }
}

match and unmatch

根据名称的规则,来定义一些特定的动态映射,这便是动态模板的第二种方式match and unmatch。在这种方式下,字段名称的匹配支持正则表达式。match表示当字段名称符合的规则时应用,unmatch表示当字段符合规则时不应用这个动态映射

PUT es-learn-000003
{
  "mappings": {
    "dynamic_templates": [
      {
        "email_keyword": {
          "match":   "*_email",
          "mapping": {
            "type": "keyword"
          }
        }
      },
      {
        "ip_rule": {
          "match":   "*_ip",
          "unmatch": "long_*",
          "mapping": {
            "type": "ip"
          }
        }
      }
    ]
  }
}

注意

当我们插入嵌套的JSON的时候,动态映射的规则是应用在嵌套JSON里的对象

path_match and path_unmatch

我们知道JSON可以保存复杂的嵌套关系,那么如果我们想依据嵌套关系制定相关的动态映射的规则,该怎么处理呢?path_match和path_unmatch的用法同match和unmatch的用法相似,使用正则表达式来进行匹配。只是match匹配的是字段的值,而path_match匹配的是JSON的嵌套关系

以下这段代码想实现的效果是,name下的嵌套对象,并且不是middle名字的类型都为keyword

PUT es-learn-000005
{
  "mappings": {
    "dynamic_templates": [
      {
        "middle_name_key": {
          "path_match":   "name.*",
          "path_unmatch": "*.middle",
          "mapping": {
            "type": "keyword"
          }
        }
      }
    ]
  }
}

9.索引基础操作

创建索引的时候指定Mapping

PUT /[索引名称]
{
    "mappings":{
        "properties":{
            "字段名":{
                "type":"text",
                "analyzer":"ik_smart"
            },
            "字段名2":{
                "type":"keyword",
                "index":false
            },
            "字段名3":{
                "properties":{
                    "子字段":{
                        "type":"keyword"
                    }
                }
            }
        } 
    }
}

获取索引的字段Mapping

介绍

检索一个或多个字段的映射定义。如果您不需要索引的完整映射或索引包含大量字段,这将很有用

请求路径
GET /_mapping/field/[字段名]

GET /[索引名]/_mapping/field/[字段名]
请求示例
GET publications/_mapping/field/title
GET publications/_mapping/field/author.id,abstract,name
GET publications/_mapping/field/a*

获取某个索引的映射信息

GET /索引名/_mapping

10.Mapping属性解读

字段拷贝(copy_to)

介绍
  1. 该参数允许将多个字段的值复制到copy_to的字段上
  2. copy_to的字段支持查询
  3. 如果有多个字段需要查询,可以尝试把多个字段的值拷贝到一个新字段上
  4. 可以将相同的值复制到多个字段, “copy_to”: [ “field_1”, “field_2” ]
示例
PUT /[索引名]
{
    "mappings":{
        "properties":{
            "name":{
                "type":"text",
                "analyzer":"ik_max_word",
                "copy_to":"all"
            },
            "business":{
                "type":"keyword",
                "copy_to":"all"
            },
            "all":{
                "type":"text",
                "analyzer":"ik_max_word"
            }
        }
    }
}

index

介绍

控制当前字段是否被索引,默认为true。如果设置为false,该字段不可被搜索

示例
PUT /[索引名]
{
    "mappings":{
        "properties":{
            "name":{
                "type":"text",
                "index":false
            }
        }
    }
}

index_options

介绍

控制倒排索引记录的内容

可选值
  1. docs: 记录doc id
  2. freqs: 记录doc id和term frequencies(词频)
  3. positions: 记录doc id / term frequencies / term position
  4. offsets: doc id / term frequencies / term posistion / character offects
  5. 注意: text类型默认记录postions,其他默认为docs。记录内容越多,占用存储空间越大
示例
PUT /[索引名]
{
    "mappings":{
        "properties":{
            "name":{
                "type":"text",
                "index_options":"offsets"
            }
        }
    }
}

null_value

介绍

需要对NULL值进行搜索,只有keyword类型支持设计Null_value

示例
PUT /[索引名]
{
    "mappings":{
        "properties":{
            "name":{
                "type":"keyword",
                "null_value":"NULL"
            }
        }
    }
}

boost

介绍

在查询时,可以增加字段的算分,默认为1

请求格式
# 创建索引时候指定
PUT /<index>
{
  "mappings": {
    "properties": {
      "<field>": {
        "type": "text",
        "boost": 2 
      }
    }
  }
}

# 查询时指定
POST _search
{
    "query": {
        "match" : {
            "title": {
                "query": "quick brown fox",
                "boost": 2
            }
        }
    }
}
注意
  • 不提升prefix,range,fuzzy查询的分数
  • 不建议使用index time提升。而是在search time时使用

fields

介绍

text字段类型不能被排序和聚合如果要text字段能被排序或聚合可以使用fields

请求格式
PUT /<index>
{
  "mappings": {
    "properties": {
      "<field>": {
        "type":     "text",
        "fields":{
          "<child_field>":{
            "type":"keyword"
          }
        }
      }
    }
  }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1408771.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

0124-2-算法题解析与总结(四)

5.5 如何去除有序数组的重复元素 本文对应的力扣题目&#xff1a; 26.删除排序数组中的重复项 83.删除排序链表中的重复元素 26.删除排序数组中的重复项&#xff1a; int removeDuplicates(int[] nums) {int n nums.length;if (n 0) return 0;int slow 0, fast 1;while…

Spring基于AbstractRoutingDataSource实现MySQL多数据源

目录 多数据源实现 yml配置文件 配置类 业务代码 案例演示 多数据源实现 yml配置文件 spring:datasource:type: com.alibaba.druid.pool.DruidDataSourcedatasource1:url: jdbc:mysql://127.0.0.1:3306/datasource1?serverTimezoneUTC&useUnicodetrue&characte…

第二百八十六回

文章目录 概念介绍实现方法示例代码 我们在上一章回中介绍了如何拦截路由相关的内容&#xff0c;本章回中将介绍页面转场动画.闲话休提&#xff0c;让我们一起Talk Flutter吧。 概念介绍 我们在上一章回中介绍了路由拦截相关的内容&#xff0c;本章回中将使用路由拦截实现转场…

《动手学深度学习(PyTorch版)》笔记3

注&#xff1a;书中对代码的讲解并不详细&#xff0c;本文对很多细节做了详细注释。另外&#xff0c;本书源代码是在Jupyter Notebook上运行的&#xff0c;较为分散&#xff0c;本文将代码集中起来&#xff0c;并加以完善&#xff0c;全部用vscode测试通过。 Chapter3 Linear …

长城资产信息技术岗24届校招面试面经

本文介绍2024届秋招中&#xff0c;中国长城资产管理股份有限公司的信息技术岗岗位一面的面试基本情况、提问问题等。 10月投递了中国长城资产管理股份有限公司的信息技术岗岗位&#xff0c;所在部门为长城新盛信托有限责任公司。目前完成了一面&#xff0c;在这里记录一下一面经…

Puppeteer结合Jest对网页进行测试

之前我们使用Puppeteer进行网页爬虫&#xff08;以及自动化操作&#xff09;&#xff0c;这篇文章主要验证一下Puppeteer测试的可实现性。 项目设置 让我们从设置一个基本的React应用程序开始。 我们将安装其他依赖项,如Puppeteer和Faker。 为了这篇文章的目的,我创建了一个…

ASP.NET Core WebAPI从HTTPS调整为HTTP启动

使用VS2022创建WebAPI项目时&#xff0c;默认勾选“配置HTTPS(H)”&#xff0c;这样启动WebAPI时以https方式启动。   如果要从HTTPS调整为HTTP启动&#xff0c;需要修改项目中以下几处&#xff0c;首先是Program.cs中删除app.UseHttpsRedirection()语句&#xff0c;删除后…

gitlab runner 安装、注册、配置、使用

天行健&#xff0c;君子以自强不息&#xff1b;地势坤&#xff0c;君子以厚德载物。 每个人都有惰性&#xff0c;但不断学习是好好生活的根本&#xff0c;共勉&#xff01; 文章均为学习整理笔记&#xff0c;分享记录为主&#xff0c;如有错误请指正&#xff0c;共同学习进步。…

GitLab升级版本(任意用户密码重置漏洞CVE-2023-7028)

目录 前言漏洞分析影响范围查看自己的GitLab版本升级路程 升级过程13.1.1113.8.8 - 14.0.1214.3.614.9.5 - 16.1.6 前言 最近GitLab发了个紧急漏洞需要修复&#xff0c;ok接到命令立刻着手开始修复&#xff0c;在修复之前先大概了解一下这个漏洞是什么东西 漏洞分析 1、组件…

免费的 UI 设计资源网站 Top 8

今日与大家分享8个优秀的免费 UI 设计资源网站。这些网站的资源包括免费设计材料站、设计工具、字体和其他网站&#xff0c;尤其是一些材料站。它们是免费下载的&#xff0c;材料的风格目前很流行&#xff0c;适合不同的项目。非常适合平面设计WEB/UI设计师收藏&#xff0c;接下…

.git 文件夹结构解析

.git 文件夹结构解析 在这篇文章就让我们来看看这个 Git 仓库里的文件分别都是用来干什么的&#xff0c;以及在执行了相关的 Git 命令后这些文件会如何响应。 hooks&#xff08;钩&#xff09;&#xff1a;存放一些shell脚本info&#xff1a;存放仓库的一些信息logs&#xff…

1分钟部署幻兽帕鲁联机服务,PalWorld服务器搭建教程(阿里云)

1分钟部署幻兽帕鲁联机服务&#xff0c;PalWorld服务器搭建教程 最近这游戏挺火&#xff0c;很多人想跟朋友联机&#xff0c;如果有专用服务器&#xff0c;就不需要房主一直开着电脑&#xff0c;稳定性也好得多。 概述 幻兽帕鲁是Pocketpair开发的一款开放世界生存制作游戏&…

Linux系统Shell脚本编程之条件语句

一、条件测试 Shell 环境根据命令执行后的返回状态值 " $? " 来判断是否执行成功&#xff0c;当返回值为0时表示成功&#xff0c;否则表示失败或异常&#xff08;非0值&#xff09;。使用专门的测试工具 test 命令&#xff0c;可以对特定条件进行测试&#xff0c;并…

金融OCR领域实习日志(一)

一、OCR基础 任务要求&#xff1a; 工作原理 OCR&#xff08;Optical Character Recognition&#xff0c;光学字符识别&#xff09;是指电子设备&#xff08;例如扫描仪或数码相&#xff09;检查纸上打印的字符&#xff0c;经过检测暗、亮的模式肯定其形状&#xff0c;而后用…

先进车辆驾驶舱系统的强大网络安全协议

近年来&#xff0c;车辆驾驶舱系统发展迅速&#xff0c;融入了导航、娱乐和车辆性能监控系统等先进技术。随着驾驶舱变得更加互联和依赖软件&#xff0c;它们也变得更容易受到网络安全威胁。实施强大的网络安全协议对于保护驾驶员和乘客以及保持车辆运行的完整性至关重要。 本…

支付宝推出新年“五福节”活动,新增四大AI玩法;大型语言模型综合指南

&#x1f989; AI新闻 &#x1f680; 支付宝推出新年“五福节”活动&#xff0c;新增四大AI玩法 摘要&#xff1a;支付宝宣布今年的“集五福”活动升级为“五福节”&#xff0c;新增了四大AI玩法&#xff1a;飙戏小剧场、时空照相馆、会说话红包和大家来找福。用户可以通过拼…

uniapp canvas做的刮刮乐解决蒙层能自定义图片

最近给湖南中烟做元春活动&#xff0c;一个月要开发4个小活动&#xff0c;这个是其中一个难度一般&#xff0c;最难的是一个类似鲤鱼跃龙门的小游戏&#xff0c;哎&#xff0c;真实为难我这个“拍黄片”的。下面是主要代码。 <canvas :style"{width:widthpx,height:hei…

c语言-枚举和联合体

文章目录 前言一、枚举类型1.1 枚举类型的定义1.2 枚举类型的使用1.3 枚举的优点 二、联合体类型2.1 联合体类型的定义2.2 联合体类型的特点2.3 联合体大小的计算 总结 前言 本篇文章介绍c语言中的枚举类型和联合体类型 一、枚举类型 1.1 枚举类型的定义 枚举类型和结构体类…

【C++干货铺】C++中的四种类型转换

个人主页点击直达&#xff1a;小白不是程序员 C系列专栏&#xff1a;C干货铺 代码仓库&#xff1a;Gitee 目录 C语言中的类型转换 为什么C需要四种类型转化 C强制类型转换 static_cast reinterpret_cast const_cast dynamic_cast RTTI C语言中的类型转换 在C语言中&…

2023 IoTDB Summit:中核武汉核电运行技术股份有限公司主管工程师方华建《IoTDB在核电数字化转型过程的应用实践》...

12 月 3 日&#xff0c;2023 IoTDB 用户大会在北京成功举行&#xff0c;收获强烈反响。本次峰会汇集了超 20 位大咖嘉宾带来工业互联网行业、技术、应用方向的精彩议题&#xff0c;多位学术泰斗、企业代表、开发者&#xff0c;深度分享了工业物联网时序数据库 IoTDB 的技术创新…