ElasticSearch-使用IK分词器进行分词

ElasticSearch-使用IK分词器进行分词

news2026/3/15 2:20:04

使用KIbana测试IK分词器

打开开发工具台

ik_smart 最少分词器

分词结果比较少

GET _analyze

{

  "analyzer": "ik_smart",

  "text": "中国共产党"

}

ik_max_word 颗粒度最细分词器

分词结果比较多,组成各种结果,穷尽词库的可能！

GET _analyze

{

  "analyzer": "ik_max_word",

  "text": "中国共产党"

}

再看个例子,把我们的句子换成超级喜欢魏一鹤学习Java

首先看最少分词

然后是最细颗粒度分词

问题来了我们输入超级喜欢魏一鹤学习Java,发现魏一鹤被拆开了,这种需要自己加入到分词器字典中的词如何处理呢?

IK分词器自定义词汇

找到并且打开IKAnalyzer.cfg分词器配置文件

自己自定义新建一个dic文件,一个dic就算一个字典,ik自带的字典是远远不够用的，我们需要手动去创建字典

新增字典项内容并且保存

然后把我们自定义配置的字典加入到配置文件让字典生效

配置完之后保存,然后重启es,注意观察,在重启es的时候会发现黑窗口已经加载我们自定义的字典weiyihe.dic

重启kibana,再次测试使用过自定义字典之后魏一鹤是否被分割

不管是哪种分词,魏一鹤都没被分割！说明我们自定义字典配置成功！

以后需要什么词汇,直接在我们的weiyihe.dic字典中去定义即可使用

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/681512.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

easypan前端学习

easypan前端学习

文章目录前端项目node 版本node镜像构建项目创建项目安装项目所有依赖图片资源网站encodeURI & decodeURIapp.config.globalProperties与getCurrentInstanceObject.assignvue-cookies安装vue-cookies 使用vue-cookiesrouter.currentRoutepreserve logimport.meta.envRequ…

阅读更多...

QPaint绘制图形

QPaint绘制图形

流程继承QWidget类，重写paintEvent方法，在其中使用QPainter进行绘图。举例创建项目，项目结构如下： // widget.h#ifndef WIDGET_H #define WIDGET_H#include <QWidget>QT_BEGIN_NAMESPACE namespace Ui { class Widget…

阅读更多...

TypeScript ~ TS 掌握编译文件配置项 ⑥

TypeScript ~ TS 掌握编译文件配置项 ⑥

作者 : SYFStrive 博客首页 : HomePage 📜： TypeScript ~ TS 📌：个人社区（欢迎大佬们加入） 👉：社区链接🔗 📌：觉得文章不错可以点点关注 &…

阅读更多...

git 上传下载

git 上传下载

文章目录 gitee/GitHub 是用来做什么的？什么时候需要学习上传项目到 gitee？为什么要将本地项目上传到 gitee？创建 gitee 仓库：在本地新建一个项目将仓库拉取到本地使用 idea 实现项目的上传下载gitee 仓库查看下面我就来为大家介…

阅读更多...

第六章习题（6789B）【计算机系统结构】

第六章习题（6789B）【计算机系统结构】

第六章习题【计算机系统结构】前言推荐第六章习题678911 最后前言 2023-6-24 10:43:46 以下内容源自《【计算机系统结构】》仅供学习交流使用推荐第五章作业（149A）【计算机系统结构】答案参考： https://www.docin.com/p-28456…

阅读更多...

LVDS (Low Voltage Differential Signaling）基础知识

LVDS (Low Voltage Differential Signaling）基础知识

LVDS(Low Voltage Differential Signaling）: 是一种小振幅差分信号技术，它使用非常低的幅度信号 (250mV~450mv）通过一对平行的 PCB 走线或平衡电缆传输数据。在两条平行的差分信号线上流经的电流及电压振幅相反，噪声信号同时耦…

阅读更多...

小鱼C python - 集合的练习

小鱼C python - 集合的练习

题一：用字典实现集合的去重特性 1. 生成100个1～100的随机值思路： 1. range 范围 2. random.randint(a,b) import random x [] for I in range(100):x.append(random.randint(1,100)) print(x) 2. x和y的交集思路：1.遍历x,…

阅读更多...

通过 pGina 对 Windows 设备进行管理

通过 pGina 对 Windows 设备进行管理

文章目录前言1、环境信息1.1、服务器端1.2、客户端 2、pGina 安装及配置2.1、下载并安装2.2、配置2.3、模拟测试2.4、Windows 远程登录测试总结前言对 Windows 设备进行管理，一般是通过 AD 进行的，但是这玩意儿是收费的，而且还挺贵。有没…

阅读更多...

SpringSecurity(二):自定义认证(源码+落地实现)。

SpringSecurity(二):自定义认证(源码+落地实现)。

自定义认证自定义资源权限规则资源分类自定义资源权限规则为什么我们要自定义呢？如何去覆盖呢？WebSecurityConfigurerAdapter它是干什么用的实例自定义登录界面步骤源码解析自定义登录成功处理（前后端分离的情况）项目环境succe…

阅读更多...

Axure中使用echarts图标

Axure中使用echarts图标

第一步：axure中防一个矩形框第二步：将矩形框命名为Demo 这步很重要，后续会引用这个名字第三步：打开Echarts示例，选择需要的样式，并调整数值 Examples - Apache ECharts 第四步：代码准备需…

阅读更多...

Windows10host文件修改方法

Windows10host文件修改方法

1、首先打开“此电脑”，定位到： C:\Windows\System32\drivers\etc 2、使用鼠标右键单击“hosts”，弹出来的菜单中选择“属性” 3、弹出“文件属性”窗口后单击“上方的”安全“栏”。选中“ALL APPLICATON PACKAGES”后单击“编辑” 4、同…

阅读更多...

Jmeter核心结构和运行原理（1）

Jmeter核心结构和运行原理（1）

Jmeter核心结构和运行原理一、Jmeter核心结构和运行原理1、JMeter核心结构2、JMeter的体系结构3、JMeter运行原理a、GUI模式：b、非GUI模式：c、单机模式：d、分布式模式一、Jmeter核心结构和运行原理 1、JMeter核心结构测试计划线程组配…

阅读更多...

MongoDB基本使用（一）

MongoDB基本使用（一）

MongoDB基本使用 Nosql简介 NoSQL(NoSQL Not Only SQL )，意即”不仅仅是SQL”。在现代的计算系统上每天网络上都会产生庞大的数据量， 这些数据有很大一部分是由关系数据库管理系统（RDBMS）来处理。 1970年 E.F.Codd’s提出的关系…

阅读更多...

总结910

总结910

目标规划： 月目标：6月（线性代数强化9讲，考研核心词过三遍） 周目标：线性代数强化5讲，英语背3篇文章并回诵，检测每日规划今日已做 1.早上回顾之前背诵的文章 2.写自我总结&#…

阅读更多...

Java 中常见的数据结构

Java 中常见的数据结构

数据结构简介数据结构是计算机科学中用于组织和存储数据的一种方式或方法。它定义了不同数据元素之间的关系，以及对这些数据元素进行操作和访问的规则和技术。数据结构可以用来描述问题的抽象模型，并提供处理该问题的操作和算法。它可以通过逻辑和物…

阅读更多...

wpf增加系统托盘图标

wpf增加系统托盘图标

使用系统托盘，可以为用户提供一个简便快捷的操作习惯。 wpf中增加系统托盘图标有2种第一种，使用Hardcodet.NotifyIcon.Wpf开源组件 1.建立一个wpf程序 2.安装Hardcodet.NotifyIcon.Wpf 3.增加图片图片选择资源，否则获取不到路径 4.界面…

阅读更多...

TypeScript - 函数（上）

TypeScript - 函数（上）

目录 1、介绍 2、函数类型表达式 3、呼叫签名 4、构造签名 5、泛型函数 6、推论 7、约束 8、使用约束值 9、指定类型参数 1、介绍函数是JavaScript应用程序的基础。它帮助你实现抽象层，模拟类，信息隐藏和模块。在TypeScript里&#xff0c…

阅读更多...

Linux——进程的概念

Linux——进程的概念

task_struct task_struct 是linux下管理进程的结构，称为PCB，进程控制块。linux所有的指令本质上都是一个进程。进程 task_struct 进程的数据、代码、可执行程序，有属性、有内容。进程是系统的工作单元。系统由多个进程组成，包…

阅读更多...

Linux定时任务--crontab

Linux定时任务--crontab

linux内置了cron进程，cron搭配shell脚本，就可以完成特定的需求，有定时任务的效果。 crontab指令即cron table的简写，相关的配置文件目录如下： /var/spool/cron/ 目录下存放的是每个用户包括root的crontab任务&#xf…

阅读更多...

论文笔记--On the Sentence Embeddings from Pre-trained Language Models

论文笔记--On the Sentence Embeddings from Pre-trained Language Models

论文笔记--On the Sentence Embeddings from Pre-trained Language Models 1. 文章简介2. 文章概括3 文章重点技术3.1 BERT模型的语义相似度能力分析3.2 Anistropic各向异性3.3 BERT-flow3.4 Flow-based model 4. 文章亮点5. 原文传送门6. References 1. 文章简介标题&#x…

阅读更多...

推荐文章

最新文章