ES全文检索支持拼音和繁简检索

news2024/10/5 14:35:30

ES全文检索支持拼音和繁简检索

  • 1. 实现目标
  • 2. 引入pinyin插件
    • 2.1 编译 elasticsearch-analysis-pinyin 插件
    • 2.2 安装拼音插件
  • 3. 引入ik分词器插件
    • 3.1 已有作者编译后的包文件
    • 3.2 只有源代码的版本
    • 3.3 安装ik分词插件
  • 4. 建立es索引
  • 5.测试检索
  • 6. 繁简转换

1. 实现目标

ES检索时无论输入简体还是繁体都要能够被检索到,例如检索时输入“語法”或者“语法”,检索结果中无论是简体繁体都务必要被命中。

并且也要正确的高亮返回

image-20240429162129485

2. 引入pinyin插件

拼音分词器(pinyin analyzer)通常需要自行引入,因为它不是 Elasticsearch 的默认分词器。可以使用 Elasticsearch 的插件来引入 pinyin 分词器,以便在索引中使用它。

2.1 编译 elasticsearch-analysis-pinyin 插件

选择与自己版本一致的版本,插件地址:
https://github.com/medcl/elasticsearch-analysis-pinyin/releases

在这里插入图片描述
elasticsearch-analysis-pinyin分词器目前没有下载即可使用的安装包,需要自己下载源码进行编译。可以在项目目录elasticsearch-analysis-pinyin\target\releases看到编译后的结果elasticsearch-analysis-pinyin-7.17.11.zip

在这里插入图片描述

2.2 安装拼音插件

然后在es的安装目录下plugins目录下新建pinyin目录,并将解压后的文件复制到该目录下
在这里插入图片描述
重启es,启动日志中已经加载了拼音插件
在这里插入图片描述

3. 引入ik分词器插件

GitHub下载地址:Releases · infinilabs/analysis-ik · GitHub

3.1 已有作者编译后的包文件

选择与所需es版本相同的ik分词器,下载已经打包后的.zip文件

image-20240421170408043

3.2 只有源代码的版本

首先下载源码解压后使用idea打开,修改es版本与分词器版本相同

image-20240421172009705

使用 mvn clean install 打包时报错:

[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.5.1:compile (default-compile) on project elasticsearch-analysis-ik: Compilation failure
[ERROR] /D:/PersonalProjects/analysis-ik-7.17.11/analysis-ik-7.17.11/src/main/java/org/elasticsearch/index/analysis/IkAnalyzerProvider.java:[13,9] 无法将类 org.elasticsearch.index.analysis.AbstractIndexAnalyzerProvider<T>中的构造器 
AbstractIndexAnalyzerProvider应用到给定类型;
[ERROR]   需要: org.elasticsearch.index.IndexSettings,java.lang.String,org.elasticsearch.common.settings.Settings
[ERROR]   找到: java.lang.String,org.elasticsearch.common.settings.Settings

修改代码报错部分:增加indexSetting参数到super入参的第一个位置

image-20240421172326529

使用mvn clean install进行打包,注意我们所需的是/target/release目录下的.zip压缩包

image-20240421172441311

3.3 安装ik分词插件

将下载或者编译后的.zip文件解压到es的安装目录下的plugins目录下,并重命名为ik

image-20240421173223669

然后启动es,查看日志可发现已经加载的ik分词器

image-20240421173516905

常规的最常用的使用方式就是,数据插入存储时用 ik_max_word模式分词,而检索时,用ik_smart模式分词,即:索引时最大化的将文章内容分词,搜索时更精确的搜索到想要的结果。

建立映射示例如下:在数据被索引时我们设置"analyzer": “ik_max_word”,在检索时指定"search_analyzer": “ik_smart”

4. 建立es索引

setting.json

{
  "aliases": {
  },
  "settings": {
    "index": {
      "refresh_interval": "3s",
      "number_of_shards": "3",
      "number_of_replicas": "1",
      "max_inner_result_window": "10000",
      "max_result_window": "20000",
      "analysis": {
        "filter": {
          "pinyin_full_filter": {
            "keep_joined_full_pinyin": "true",
            "lowercase": "true",
            "keep_original": "false",
            "keep_first_letter": "false",
            "keep_separate_first_letter": "false",
            "type": "pinyin",
            "keep_none_chinese": "false",
            "limit_first_letter_length": "50",
            "keep_full_pinyin": "true"
          },
          "pinyin_simple_filter": {
            "keep_joined_full_pinyin": "true",
            "lowercase": "true",
            "none_chinese_pinyin_tokenize": "false",
            "padding_char": " ",
            "keep_original": "true",
            "keep_first_letter": "true",
            "keep_separate_first_letter": "false",
            "type": "pinyin",
            "keep_full_pinyin": "false"
          }
        },
        "analyzer": {
          "pinyinFullIndexAnalyzer": {
            "filter": [
              "asciifolding",
              "lowercase",
              "pinyin_full_filter"
            ],
            "type": "custom",
            "tokenizer": "ik_max_word"
          },
          "pinyinSimpleIndexAnalyzer": {
            "filter": [
              "pinyin_simple_filter",
              "lowercase"
            ],
            "type": "custom",
            "tokenizer": "ik_max_word"
          },
          "ik_pinyin_analyzer": {
            "filter": [
              "asciifolding",
              "lowercase",
              "pinyin_full_filter",
              "word_delimiter"
            ],
            "type": "custom",
            "tokenizer": "ik_smart"
          },
          "ikIndexAnalyzer": {
            "filter": [
              "asciifolding",
              "lowercase",
              "pinyin_full_filter",
              "word_delimiter"
            ],
            "type": "custom",
            "tokenizer": "ik_max_word"
          }
        }
      }
    }
  },
  "mappings": {
    "dynamic": "false"
  }
}

mapping.json

{
  "properties": {
    "nickName": {
      "type": "text",
      "analyzer": "ikIndexAnalyzer",
      "search_analyzer": "ik_pinyin_analyzer",
      "fields": {
        "full": {
          "type": "text",
          "analyzer": "pinyinFullIndexAnalyzer"
        },
        "simple": {
          "type": "text",
          "analyzer": "pinyinSimpleIndexAnalyzer"
        }
      }
    }
  }
}

mapping.json 文件定义了 Elasticsearch 索引中的字段映射和分析器设置:

  1. analyzer:定义了在索引时使用的分析器。在搜索时会用这个分析器来处理查询字符串,使之与索引中的文本数据匹配。ikIndexAnalyzer 分析器使用了 ik_max_word 分词器(tokenizer),并应用了一系列过滤器(filter),包括 ASCII 折叠、小写转换、拼音处理和词分割。

  2. search_analyzer:定义了在搜索时使用的分析器。ik_pinyin_analyzer分析器用于处理查询字符串,在进行搜索时与索引中的数据进行匹配。

  3. fields:定义了为同一个字段创建不同的索引方式。在这个示例中,为 nickName 字段创建了两个额外的索引方式:fullsimple

    • full:使用了 pinyinFullIndexAnalyzer 分析器,它将 nickName 字段的文本进行全拼音分析,用于支持全拼音搜索。

    • simple:使用了 pinyinSimpleIndexAnalyzer 分析器,它将 nickName 字段的文本进行简拼音分析,用于支持简拼音搜索。

5.测试检索

新增测试数据

PUT /zzt_works/_doc/2
{
 "nickName":"語法講義"
} 

PUT /zzt_works/_doc/3
{
 "nickName":"语法讲义"
} 

中文简写查询

image-20240429173124264

中文繁体查询

image-20240429173158053

拼音全拼查询

image-20240429173256512

拼音简拼查询

image-20240429173352106

6. 繁简转换

如果需求只需要繁简转换,可使用以下设置和映射配置

index.json

{
  "aliases": {
  },
  "settings": {
    "index": {
      "refresh_interval": "3s",
      "number_of_shards": "3",
      "number_of_replicas": "1",
      "max_inner_result_window": "10000",
      "max_result_window": "20000",
      "analysis": {
        "filter": {
          "pinyin_full_filter": {
            "keep_joined_full_pinyin": "true",
            "lowercase": "true",
            "keep_original": "false",
            "keep_first_letter": "false",
            "keep_separate_first_letter": "false",
            "type": "pinyin",
            "keep_none_chinese": "false",
            "limit_first_letter_length": "50",
            "keep_full_pinyin": "true"
          }
        },
        "analyzer": {
          "ik_pinyin_analyzer": {
            "filter": [
              "asciifolding",
              "lowercase",
              "pinyin_full_filter",
              "word_delimiter"
            ],
            "type": "custom",
            "tokenizer": "ik_smart"
          },
          "ikIndexAnalyzer": {
            "filter": [
              "asciifolding",
              "lowercase",
              "pinyin_full_filter",
              "word_delimiter"
            ],
            "type": "custom",
            "tokenizer": "ik_max_word"
          }
        }
      }
    }
  },
  "mappings": {
    "dynamic": "false"
  }
}

mapping.json

{
  "properties": {
    "nickName": {
      "type": "text",
      "analyzer": "ikIndexAnalyzer",
      "search_analyzer": "ik_pinyin_analyzer"
    }
  }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1632982.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CentOS7编译jsoncpp静态库

1. 官网下载源码 github地址&#xff1a;GitHub - open-source-parsers/jsoncpp at update 2. 编译 Unzip jsoncpp-master.zip Cd jsoncpp-master mkdir -p ./build/debug cd ./build/debug/ cmake -DCMAKE_BUILD_TYPEdebug -DBUILD_SHARED_LIBSOFF -DCMAKE_ARCHIVE_OUTPUT_D…

3d数字化在线云展平台打破传统束缚

在数字化浪潮的推动下&#xff0c;线上VR云展会正以其独特的魅力&#xff0c;为展览主办方打开一扇全新的大门。这一新兴展览形式不仅突破了传统实体展览的时间、空间和物理限制&#xff0c;更为国际性展览活动带来了前所未有的可能性。 作为展览主办方&#xff0c;您是否曾为实…

高扬程水泵的性能与应用领域 /恒峰智慧科技

在现代社会中&#xff0c;科技的发展为我们的生活带来了无数便利和可能性。其中&#xff0c;高扬程水泵作为一种高效能的水泵&#xff0c;其独特的设计使其在各个领域都有着广泛的应用&#xff0c;尤其是在森林消防中。 一、高扬程水泵的性能 1. 高扬程&#xff1a;高扬程水泵…

stm32HAL库-GPIO

一 什么是 GPIO: GPIO(general porpose intput output), 通用输入输出端口 . 二 我们先认识芯片控制 GPIO 输出控制。 2.1LED 硬件原理如图&#xff1a; 当电流从这根电线流通&#xff0c; LED 亮。当电流不通过这根电线&#xff0c; LED 灭。 上面 PF** &#xff0c;芯片电…

HarmonyOS编程实践系列:第一节 - 创建健康App欢迎页

系列文章目录 &#xff08;零&#xff09;鸿蒙HarmonyOS入门&#xff1a;如何配置环境&#xff0c;输出“Hello World“ &#xff08;一&#xff09;鸿蒙HarmonyOS开发基础 &#xff08;二&#xff09;鸿蒙HarmonyOS主力开发语言ArkTS-基本语法 &#xff08;三&#xff09;鸿蒙…

C语言阶段性测试错题纠正与拓展

引言&#xff1a;在2024年4月26日&#xff0c;我进行了C语言知识的“期末考试”。通过这次考试&#xff0c;我发现了我的知识漏洞。所以&#xff0c;我写下这篇博客来记录我的错题&#xff0c;并进行纠正&#xff0c;然后对于以前遗忘知识的回顾。 更多有关C语言的知识详解可前…

螺栓的预紧力与夹紧力——​SunTorque智能扭矩系统​

预紧力与夹紧力是紧固件使用中两个重要的力学概念。了解它们之间的关系以及如何正确地应用它们&#xff0c;对于确保机械系统的稳定性和安全性至关重要。本文SunTorque智能扭矩系统将从紧固件的基本概念和用途出发&#xff0c;深入探讨预紧力与夹紧力的概念、影响因素以及实际应…

四信数字孪生水库解决方案,加快构建现代化水库运行管理矩阵

近年&#xff0c;水利部先后出台《关于加快构建现代化水库运行管理矩阵的指导意见》与《构建现代化水库运行管理矩阵先行先试工作方案》等文件&#xff0c;明确总体要求及试点水库、先行区域建设技术要求等&#xff0c;为全面推进现代化水库运行管理矩阵建设工作提供依据。 《2…

android studio项目实战——备忘录(附源码)

成果展示&#xff1a; 1.前期准备 &#xff08;1&#xff09;在配置文件中添加权限及启动页面顺序 ①展开工程&#xff0c;打开app下方的AndroidManifest.xml,添加权限&#xff0c;如下&#xff1a; <uses-permission android:name"android.permission.CAMERA"…

NGINX发布动态页面的方法

一、建立 [rootserver100 html]# vim index.php [rootserver100 html]# pwd /usr/share/nginx/html 二、下载PHP文件 [rootserver100 conf.d]# dnf install php.x86_64 -y 正在更新 Subscription Management 软件仓库。 无法读取客户身份 本系统尚未在权利服务器中注册。可…

【C++】:const成员,取地址及const取地址操作符重载

目录 一&#xff0c;const成员二&#xff0c;取地址及const取地址操作符重载 一&#xff0c;const成员 将const修饰的“成员函数”称之为const成员函数&#xff0c;const修饰类成员函数&#xff0c;实际修饰该成员函数隐含的this指针&#xff0c;表明在该成员函数中不能对类的…

微信私域:如何管理多号聊天

我经常要在不同的微信号之间来回切换&#xff0c;这真是既麻烦又容易漏回消息&#xff0c;让我头疼不已。我试过了很多方法&#xff0c;但效果都不太理想。直到有一天&#xff0c;朋友分享了一个微信私域流量管理系统给我&#xff0c;我决定试试看。试用之后&#xff0c;我感觉…

机器学习理论基础—聚类算法

机器学习理论基础—聚类算法 聚类的距离计算 聚类&#xff1a;物以类聚。将相似的样本聚集到一起&#xff0c;使得同一类簇的样本尽可能接近,不同类簇的样本尽可能远离。&#xff08;无监督算法&#xff09; 对于距离的定义&#xff1a;满足下面的四个特点 非负性同一性对称性…

实验 | RT-Thread:L0

1 理解 官网文档&#xff1a;RT-Thread 简介 在 RT-Thread 系统中&#xff0c;任务通过线程实现的&#xff0c;RT-Thread 中的线程调度器也就是以上提到的任务调度器。RT-Thread与FreeRTOS是同等地位的东西&#xff0c;都是属于RTOS项目设置&#xff1a;RT-Thread 4.0.2 基于…

单链表进阶算法题精析

目录 一、回文链表 1.1 题目 1.2 题解 1.3 分析 二、带环链表I 2.1 题目 2.2 题解 2.3 分析 2.3.1为什么该思路可行&#xff1f; 2.3.2为什么只能快指针走两步&#xff1f; 三、带环链表II 3.1 题目 3.2 题解 3.3 分析 四、相交链表 4.1 题目 4.2 题解 4.3 分…

uniapp:K线图,支持H5,APP

使用KLineChart完成K线图制作,完成效果: 1、安装KLineChart npm install klinecharts2、页面中使用 <template><view class="index"><!-- 上方选项卡 --><view class="kline-tabs"><view :style="{color: current==ite…

git出错、文件无法删除、文件无法访问、文件或目录损坏且无法读取 等相关问题处理

一、错误历程与解决方案 1. 在用idea时&#xff0c;突然出现 部分git的命令无法使用&#xff0c;提示错误 2. 尝试删除项目文件夹&#xff0c;重新从git拉取代码 3.发现无法删除文件夹&#xff0c;删除操作没有任何反应&#xff0c;但是可以对文件夹重命名。 4.重新clone g…

【哈希】Leetcode 219. 存在重复元素 II

题目讲解 219. 存在重复元素 II 算法讲解 class Solution { public:bool containsNearbyDuplicate(vector<int>& nums, int k) {map<int, int>Hash;for(int i 0; i < nums.size(); i){//这一步说明前面已经出现过一次这样的数字了&#xff0c;所以用后面…

Android Studio的button点击事件

xml添加onClick调用方法 public class MainActivity extends AppCompatActivity {// 创建系统时间的文本控件TextView systemTimeTextView;Overrideprotected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);setContentView(R.layout.activit…

Docker基本操作 Linux里边操作

docker镜像操作命令: docker images:查看所有镜像; docker rmi:删除镜像 后边可以跟镜像的名字或者id指定要删除的镜像&#xff1b; docker pull:拉取镜像&#xff1b; docker push:推送镜像到服务&#xff1b; docker save :打包镜像 后边有用法; docker load:加载镜像&…