三、IK分词器

news2024/12/26 21:46:41

目录

1、IK分词器下载

2、下载完毕后解压,放入到elasticsearch的plugins下即可

 3、重启elasticsearch,可以看到ik分词器被加载了

 4、也可以通过elasticsearch-plugin这个命令来查看加载进来的插件

 5、使用kibana测试ik分词器

6、扩展配置ik分词器词典

6.1、进入到ik分词器的配置文件夹config下

6.2、在当前目录下新建一个词典,my.dic(以.dic结尾,命名自己定义)

6.3、打开IKAnalyzer.cfg.xml文件(ik分词器的配置文件)

6.4、重启elasticsearch即可把自定义的词典加载进来

6.5、重新使用kibana进行测试


IK分词器是elasticsearch的一个插件

        分词的主要用于把一段中文或者英文的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词器是将每个字看成一个词,比如"我爱技术"会被分为"我","爱","技","术",这显然不符合要求,所以我们需要安装中文分词器IK来解决这个问题

IK提供了两个分词算法:ik_smartik_max_word

ik_smart为最少切分,添加了歧义识别功能,推荐

ik_max_word为最细粒度切分,能切的都会被切掉

1、IK分词器下载

下载地址:https://github.com/medcl/elasticsearch-analysis-ik 

注意要下载release版本,具体版本最好与elasticsearch的版本对应

如果下载了源码则需要自己手动打包

2、下载完毕后解压,放入到elasticsearch的plugins下即可

在elasticsearch的plugins下,可以新建一个文件夹管理ik分词器解压后的文件

 3、重启elasticsearch,可以看到ik分词器被加载了

 4、也可以通过elasticsearch-plugin这个命令来查看加载进来的插件

在elasticsearch-7.6.1\bin下cmd打开一个新的命令行窗口

输入elasticsearch-plugin list

 5、使用kibana测试ik分词器

 

         可以看到选择不同的ik分词器的分词算法,相同的切分内容会有不同的分词结果,具体根据自己的需求选择。如果不指定“analyzer”的分词算法,则会使用默认的分词器,默认的分词算法会把切分的内容中的每个字当成一个词进行切分,如上述“现在测试分词器”会被切分出“现”、“在”、“测”、“试”、“分”、“词”、“器”七个词

6、扩展配置ik分词器词典

分词器分词规则是根据字典来进行拆分的,同样,我们可以添加自定义字典

有些词在逻辑上不是一个整体,但是自己又想当成一个词来用,这就需要把这个词加到分词器的字典中,例如上面的内容“现在测试分词器”,我想把“现在测试”当成一个词来用

6.1、进入到ik分词器的配置文件夹config下

6.2、在当前目录下新建一个词典,my.dic(以.dic结尾,命名自己定义)

在里面输入我们的需要定义成一个词的内容,如我想把“现在测试”当成一个词,那就输入“现在测试”然后保存

 需要配置多个不同的词以换行区分,参照ik分词器自带的dic词典的内容格式即可(随便打开一个.dic词典参照)

6.3、打开IKAnalyzer.cfg.xml文件(ik分词器的配置文件)

添加扩展配置自己的词典,保存

 6.4、重启elasticsearch即可把自定义的词典加载进来

启动时可以看到my.dic被elasticsearch被加载的日志

 6.5、重新使用kibana进行测试

可以看到我们配置的分词字典生效了,“现在测试”被当成一个词解析了出来

        综上,以后需要自己配置分词规则,只需要在自己定义的分词词典(my.dic)中添加需要的词即可(换行区分),ik分词器则会根据词典和分词算法对内容进行切分

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/663640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux下安装rabbitmq及踩坑总结

下载erlang mq 下载地址 https://github.com/rabbitmq/erlang-rpm/releases?page7 https://github.com/rabbitmq/rabbitmq-server/tags?afterv3.8.12-beta.1 版本对应 1.官网地址 https://www.rabbitmq.com/download.html ** 2.文件上传 上传到/usr/local/software 目录…

STC15 Proteus仿真DHT11环境湿度采集报警系统STC15W4K32S4-0043

STC15 Proteus仿真DHT11环境湿度采集报警系统STC15W4K32S4-0043 Proteus仿真小实验: STM32 Proteus仿真DHT11环境湿度采集报警系统STC15W4K32S4-0043 功能: Protues版本:8.9 硬件组成:STC15W4K32S4单片机 LCD1602显示器DHT11…

UG\NX 二次开发 获取实体面的面积,测量面积

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan 简介: 获取实体面的面积 UF_MODL_ask_mass_props_3d 效果: 代码: #include "me.hpp" //测量面积 double GetFaceArea(tag_t face) {// 抽取片体tag_t solid = NULL_TAG;UF_MODL_extract_face…

前端架构是什么?

文章目录 什么是前端架构前端架构的好处什么项目用前端架构必须要用前端架构嘛? 什么是前端架构 前端架构是指在前端开发中,设计和组织应用程序的基本结构和组件之间的关系的方法和原则。它涉及到如何组织代码、管理数据、处理业务逻辑以及实现用户界面…

基于matlab各种天线阵列几何形状进行建模和可视化(附源码)

一、前言 本示例说明如何使用相控阵系统工具箱对各种天线阵列几何形状进行建模和可视化。这些几何形状还可用于对其他类型的阵列进行建模,例如水听器阵列和麦克风阵列。您可以查看每个绘图的代码,并在您自己的项目中使用它。 二、线性阵列 线性天线阵列在…

【C数据结构】栈_Stack

目录 栈_Stack 【1】栈的概念及结构 【2】栈的实现 【1.1】栈数据结构的接口 【1.2】栈的初始化 【1.3】栈的释放 【1.4】入栈 【1.5】出栈 【1.6】获取栈顶数据 【1.8】获取栈中的有效元素个数 【1.9】检测栈是否为空 栈_Stack 【1】栈的概念及结构 栈&#xff1…

程序员自学能找到工作吗?

程序员是一个非常热门的职业,很多人都想成为一名优秀的程序员。但是,要成为一名程序员,需要学习哪些知识和技能呢?是否一定要上大学或者参加培训班才能学习编程呢?自学编程是否可行呢?自学编程的人能否找到…

山东泰安电力学校,华为ensp考试

文章目录 一、考试要求二、作者的拓扑图,作者的x27,y5三、每个设备的代码(可直接复制粘贴运行,端口和连线要一样)SW1SW2R0R1R2 四、每个部分的有运行截图SW1SW2R0R1R2 五、运行成功截图 一、考试要求 考试初始化文件下…

马克思期末复习 第一章

目录 第一节 1.物质和意识 2.主观能动性和客观规律 3.运动与静止 第二节 第一节 1.物质和意识 总括:物质决定意识,任何事情都要从实际出发,实事求是 意识的能动作用: 1.意识反作用于物质,好的意识推动物质发展&am…

AI Chat 设计模式:3. 原型模式

本文是该系列的第三篇,采用问答式的方式展开,问题由我提出,答案由 Chat AI 作出,灰色背景的文字则主要是我的旁白。 问题列表 Q.1 今天我们聊一下原型模式吧A.1Q.2 那写一个实现了深拷贝的例子A.2Q.3 你这里为什么要对构造函数进…

【敬伟ps教程】图层进阶知识

文章目录 图层过滤和锁定图层链接图层编组图层合并图层盖印图层复合图层剪贴蒙版 图层过滤和锁定 图层过滤可以根据图层不同的性质进行查看管理 图层锁定即是对图层或图层某部分进行操作保护 按钮分别为: 锁定透明像素:禁止对透明区域进行操作 锁…

写给刚进互联网圈子的人,不管你是开发,测试,产品,运维都适用

1、技术没那么值钱,真正值钱的是技术背后的商业模式,更好地满足市场需求才是重点。 所以不要排斥技术以外的东西,我们要做的,是以技术进入这个行业立足,然后找到适合自己的定位,深耕下去,把自己…

Alibaba Sentinel | 流控规则设置

文章目录 一、Sentinel概述强大的优势:组成部分: 二、微服务集成Sentinel版本说明安装Sentinel控制台:1、docke安装2、jar安装启动控制台 微服务集成Sentinel:查看控制台监控数据 三、流控规则详解流量控制概述什么是流控规则原理…

接口自动化测试中的用例编写问题总结

目录 01sql语句内容出现错误 02sql语句格式错误 03断言返回数据的类型 04业务逻辑覆盖判断 05一些具体业务需求需要封装api 总结: 本篇文章分享几个接口自动化用例编写过程遇到的问题总结,希望能对初次探索接口自动化测试的小伙伴们解决问题上提供一…

程序员需要达到什么水平才能不被性别歧视?顺利拿到 20k 无压力?

被歧视,不存在? 我是女生,大三,却没人这样对我,因为我从来都是队长!谁敢砍我代码他试试!我就把他砍掉!而且,我写的代码他们很少能看懂,因为我一般都写算法或者一个项目里比较难的部分&#xff…

网络管理与维护(一)

这里写自定义目录标题 管理站网络管理系统组成代理网络管理协议管理信息库 网络管理的功能故障管理配置管理计费管理性能管理安全管理 总结 管理站 网络管理系统组成 代理 代理(Agent)位于被管理对象中,被管理对象可以是计算机、网络设备&a…

【云原生】云原生架构

文章目录 背景一、云原生二、云原生简介三、三大技术基石3.1、基础设施即代码3.2、不可变基础设施3.3、声明式API 四、云原生的优点4.1、加速软件开发周期4.2、更快的上市时间4.3、高可用性与弹性4.4、更低的成本4.5、将应用程序转变为API 五、云原生架构模式特点详解5.1、现收…

SQL数据库防挂科

注:本篇文章的图片等内容来自B站UP主:编程张无忌 一、绪论 二、关系数据库 三、SQL上 1、模式的定义和删除 单纯定义一个模式: create schema "S-T" authorizationg WANG 定义模式 表/视图/授权 任意一个来描述(创建一个tab…

22JS13——简单类型与复杂类型

文章目录 一、简单类型与复杂类型二、堆和栈三、简单类型的内存分配四、复杂类型的内存分配五、简单类型传参六、复杂类型传参 目标: 1、简单类型与复杂类型 2、堆和栈 3、简单类型的内存分配 4、复杂类型的内存分配 5、简单类型传参 6、复杂类型传参 一、简单类型与…

selenium爬虫运行慢如何解决?

Selenium作为一个强大的自动化工具,可用于编写爬虫程序,尽管Selenium在处理动态网页上非常强大,但对于静态网页爬简单数据提取,使用轻量级库或工具可能更加上所述,Selenium作为一个灵活可定动化工具,在需要…