Elasticsearch7.8.0版本进阶—

Elasticsearch7.8.0版本进阶——自定义分析器

news2025/12/28 10:31:18

一、自定义分析器的概述

Elasticsearch 带有一些现成的分析器，然而在分析器上 Elasticsearch 真正的强大之
处在于，你可以通过在一个适合你的特定数据的设置之中组合字符过滤器、分词器、词汇单
元过滤器来创建自定义的分析器。

一个分析器就是在一个包里面组合了三种函数的一个包装器，三种函数按照顺序被执行:

字符过滤器
字符过滤器用来整理一个尚未被分词的字符串。例如，如果我们的文本是 HTML 格式的，它会包含像 < p> 或者 < div> 这样的 HTML 标签，这些标签是我们不想索引的。我们可以使用 html 清除字符过滤器来移除掉所有的 HTML 标签，并且像把 Á 转换为相对应的 Unicode 字符 Á 这样，转换 HTML 实体。一个分析器可能有 0 个或者多个字符过滤器。
分词器
一个分析器必须有一个唯一的分词器。分词器把字符串分解成单个词条或者词汇单元。标准分析器里使用的标准分词器把一个字符串根据单词边界分解成单个词条，并且移除掉大部分的标点符号，然而还有其他不同行为的分词器存在。
例如:
关键词分词器完整地输出接收到的同样的字符串，并不做任何分词。
空格分词器只根据空格分割文本。
正则分词器根据匹配正则表达式来分割文本。
词单元过滤器
经过分词，作为结果的词单元流会按照指定的顺序通过指定的词单元过滤器。词单元过滤器可以修改、添加或者移除词单元。如：lowercase 和 stop 词过滤器。
在 Elasticsearch 里面还有很多可供选择的词单元过滤器，例如：
词干过滤器把单词遏制为词干。
ascii_folding 过滤器移除变音符，把一个像 “très” 这样的词转换为 “tres” 。
ngram 和 edge_ngram 词单元过滤器可以产生适合用于部分匹配或者自动补全的词单元。

二、自定义的分析器的测试示例

通过postman工具，在消息体里，指定分析器和要分析的文本

# PUT http://localhost:9200/my_index
{
    "settings": {
        "analysis": {
            "char_filter": {
                "&_to_and": {
                    "type": "mapping",
                    "mappings": [ "&=> and "]
                }
            },
            "filter": {
                "my_stopwords": {
                    "type": "stop",
                    "stopwords": [ "the", "a" ]
                }
            },
            "analyzer": {
                "my_analyzer": {
                    "type": "custom",
                    "char_filter": [ "html_strip", "&_to_and" ],
                    "tokenizer": "standard",
                    "filter": [ "lowercase", "my_stopwords" ]
                }
            }
        }
    }
}

在这里插入图片描述

索引被创建以后，使用 analyze API 来测试这个新的分析器

# GET http://127.0.0.1:9200/my_index/_analyze
{
	"text":"The quick & brown fox",
	"analyzer": "my_analyzer"
}

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/371250.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Elasticsearch7.8.0版本进阶——自定义分析器

目录

一、自定义分析器的概述

二、自定义的分析器的测试示例

相关文章

刚来的薪资20k，是我的2倍，我是真的卷不过，真的太变态了

Python为CANoe工程添加/删除DBC文件

【洛谷 P1563】[NOIP2016 提高组] 玩具谜题（模拟+结构体数组+指针）

Python变量的定义和使用

Redis的持久化方式

Android中使用GRPC简明教程

Spring Cloud Nacos源码讲解（七）- Nacos客户端服务订阅机制的核心流程

十四、项目实战二（CORS、同源策略、cookie跨域）

SpringBoot+HttpClient+JsonPath提取A接口返回值作为参数调用B接口

大数据技术之Hive（三）函数

Kubernetes之服务的基本管理

JSD2212班第二次串讲-面向对象阶段

Spring Cloud @RefreshScope 原理分析：代理类的创建

6-Java中新建一个文件、目录、路径

ASE40N50SH-ASEMI高压MOS管ASE40N50SH

【架构师】零基础到精通——架构发展

PHP - ChatGpt API 接入，代码，亲测！(最简单！)

HttpRunner接口自动化测试框架--常见问题

操作系统（复试准备）

Linux 基础知识：指令与shell