Elasticsearch 全文搜索引擎 ---- IK分词器

news2024/11/25 9:42:55

        原理:分词的原理:二叉树        

        首先讲一下为什么要出这个文章,前面我们讲过分词方法:中文分词搜索 pscws(感兴趣的同学可以去爬楼看一下),那为什么要讲IK分词?最主要的原因是:pscws分词颗粒度不如IK分词的颗粒度高,现在的需求要求颗粒度细一点,以便提高搜索进度,所以我们今天讲一下IK分词

        第一步:安转Elasticsearch,这个在博主原来的文章里面有,所以不在讲述,安装完成后运行结果:

访问地址:http://localhost:9200

        第二步:安转IK扩展(现在下载扩展包):需要选择和自己的Elasticsearch对应的版本,我的Elasticsearch版本是7.3.2,下载后存放在:/plugins 目录下:

        下载地址:https://gitcode.net/mirrors/medcl/elasticsearch-analysis-ik/-/tree/v7.3.2

        直接运行会发现闪退情况:为什么会出现这样的情况,主要有两个原因:

        1.版本不配

        2.未修改配置 ,配置如何修改?

        需要安装 maven 包管理工具,这个是JAVA开发的,所以需要安装JAVA的环境IK 分词器需要 Java 8 或者以上的版本)  

        一、下载&安装

        1. 下载地址

        maven下载地址如下,各位请选择对应系统的maven版本进行下载。

        https://maven.apache.org/download.cgi

        2. 解压maven安装包

        maven安装包下载之后,对其进行解压。


        二、配置环境变量:
        系统变量新增:变量名:MAVEN_HOME   值:maven存放目录
        系统变量追加:变量名:path         值:%MAVEN_HOME%\bin

        测试maven是否配置完毕:输入mvn -v命令,如果出现maven版本号,就表明安装成功。
        如果报错:
        配合:The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME should point to a JDK not a JRE
        没有安装Java的运行环境或者JAVA_HOME的环境变量没有配置,安装好JAVA的运行环境后记得配置JAVA_HOME环境变量,安装好后,再运行mvn -v命令        

查看命令:elasticSearch-plugin list:安装成功

第三步:使用分词(PHP版本):

//引入自动加载文件
require_once APPPATH.'../vendor/es/autoload.php';
//使用命名空间引用
use Elasticsearch\ClientBuilder;
class Test extends CI_Controller
{
    //初始化
    public function __construct()
    {
        parent::__construct();
        //拼接参数
        $params = [
            [
                'host'   => '地址',
                'port'   => '端口号',
                'scheme' => 'http',
                'user'   => '用户名',
                'pass'   => '密码'
            ]
        ];
                //初始化对象
        $this->client = ClientBuilder::create()->setHosts($params)->setConnectionPool('连接池地址(相对地址)', []) ->setRetries(10)->build();
    }
        
        //分词器
    public function ik(){
         $params = [
            'body' => [
                'text' => '中国上海市直辖市静安区',
                //ik_max_word 精细  ik_smart 粗略
                'analyzer'=>'ik_max_word'
            ]
        ];
                //请求分词
        $res =  $this->client->indices()->analyze($params);
        var_dump($res);die;
    }
}

IK精细分词输出结果:

  array(11) {
    [0]=>array(5) {
        ["token"]=>string(6) "中国"["start_offset"]=>int(0)["end_offset"]=>int(2) 
        ["type"]=>string(7) "CN_WORD"["position"]=>int(0)
        }
    [1]=>array(5) {
        ["token"]=>string(9) "上海市"["start_offset"]=>int(2)["end_offset"]=>int(5)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(1)
        }
    [2]=>array(5) {
        ["token"]=>string(6) "上海"["start_offset"]=>int(2)["end_offset"]=>int(4)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(2)
        }
    [3]=>array(5) {
        ["token"]=>string(6) "海市" ["start_offset"]=>int(3)["end_offset"]=>int(5)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(3)
        }
    [4]=>array(5) {
        ["token"]=>string(6) "市直" ["start_offset"]=>int(4)["end_offset"]=>int(6)
        ["type"]=> string(7) "CN_WORD"["position"]=>int(4)
        }    
    [5]=>array(5) {
        ["token"]=>string(9) "直辖市"["start_offset"]=>int(5)["end_offset"]=>int(8)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(5)
        }
    [6]=>array(5) {
        ["token"]=> string(6) "直辖"["start_offset"]=> int(5)["end_offset"]=>int(7)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(6)
        }
    [7]=>array(5) {
        ["token"]=>string(3) "市"["start_offset"]=>int(7)["end_offset"]=>int(8)
        ["type"]=>string(7) "CN_CHAR"["position"]=>int(7) 
        }
    [8]=> array(5) {
        ["token"]=>string(9) "静安区" ["start_offset"]=>int(8)["end_offset"]=> int(11)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(8)
        }
    [9]=>array(5) { 
        ["token"]=>string(6) "静安" ["start_offset"]=>int(8)["end_offset"]=>int(10)
        ["type"]=>string(7) "CN_WORD" ["position"]=>int(9) 
        }
    [10]=>array(5) {
        ["token"]=>string(3) "区"["start_offset"]=>int(10)["end_offset"]=>int(11)
        ["type"]=>string(7) "CN_CHAR"["position"]=>int(10) 
        }
  }
}

IK粗略分词:

array(1) {
  ["tokens"]=>
  array(11) {
    [0]=>array(5) {
        ["token"]=>string(6) "中国"["start_offset"]=>int(0)["end_offset"]=>int(2) 
        ["type"]=>string(7) "CN_WORD"["position"]=>int(0)
        }
    [1]=>array(5) {
        ["token"]=>string(9) "上海市"["start_offset"]=>int(2)["end_offset"]=>int(5)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(1)
        }
    [2]=>array(5) {
        ["token"]=>string(9) "直辖市"["start_offset"]=>int(5)["end_offset"]=>int(8)
        ["type"]=>string(7) "CN_WORD"["position"]=>int(5)
        }
    [3]=> array(5) {
        ["token"]=>string(9) "静安区" ["start_offset"]=>int(8)["end_offset"]=> int(11) 
        ["type"]=>string(7) "CN_WORD"["position"]=>int(8)
        }
  }
}

中文分词搜索 pscws

array(4) { 
["中国"]=> array(4) { 
    ["word"]=> string(6) "中国" 
    ["times"]=> int(1) ["weight"]=> float(6.2600002288818) ["attr"]=> string(3) "ns" 

["上海市"]=> array(4) { 
    ["word"]=> string(9) "上海市" 
    ["times"]=> int(1) ["weight"]=> float(7.8200001716614) ["attr"]=> string(3) "ns" 

["直辖市"]=> array(4) { 
    ["word"]=> string(9) "直辖市" 
    ["times"]=> int(1) ["weight"]=> float(6.8499999046326) ["attr"]=> string(3) "n" 

["静安区"]=> array(4) { 
    ["word"]=> string(9) "静安区"
    ["times"]=> int(1) ["weight"]=> float(12.140000343323) ["attr"]=> string(3) "ns" 
 }
}

        至此IK分词器讲解完成,可以对比一下IK与pscws的区别,后续操作可以根据自己的业务来确定

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/977506.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp 手机 真机测试 ​ 云打包 要是没申请 可以使用云打包 然后采用 测试权限即可​

uniapp 手机 真机测试 打开手机 找到手机的 版本号 点击 知道提示 (启动开发者模式) 然后 在进行usb的连接打开 运行uniapp 到手机基台 手机确认 即可 四, 云打包 要是没申请 可以使用云打包 然后采用 测试权限即可

SpringMVC <url-pattern/>解读

1. < url-pattern/>的值 (1).使用拓展名的方式&#xff0c;语法*.xxx&#xff0c;xxx是自定义的拓展名&#xff0c;常用的方式*.do&#xff0c;*.action,不能使用*.jsp. (2).使用斜杠 "/"当项目中使用了 / &#xff0c;他会替代tomcat中的default。导致所有的…

OpenCV(二十一):椒盐噪声和高斯噪声的产生

目录 1.图像噪声介绍 2.椒盐噪声的产生 3.高斯噪声的产生 1.图像噪声介绍 噪声介绍 图像噪声是指在图像中存在的不期望的、随机的像素值变化&#xff0c;这些变化来源于多种因素。噪声可能导致图像细节模糊、失真或难以分辨。 以下是几种常见的图像噪声类型&#xff1a; 1…

Go语言中的数组、切片和映射解析

目录 数组数组的声明数组循环 切片切片声明切片元素循环 映射Map的声明及初始化Map的遍历 数组 数组存放的是固定长度、相同类型的数据&#xff0c;而且这些存放的元素是连续的。 数组的声明 例如声明一个整形数组&#xff1a; array : [3]int{1, 2, 3}在类型名前加 [] 中括…

MySQL之MHA高可用配置及故障切换

目录 一、MHA概念 1、MHA的组成 2、MHA的特点 3、主从复制有多少种复制方法 二、搭建MySqlMHA部署 1&#xff0e;Master、Slave1、Slave2 节点上安装 mysql 2&#xff0e;修改 Master、Slave1、Slave2 节点的 Mysql主配置文件/etc/my.cnf 3. 配置 mysql 一主两从 4、安…

【计算机网络】 ARP协议和DNS协议

文章目录 数据包在传输过程中的变化过程单播组播和广播ARP协议ARP代理免费ARP路由数据转发过程DNS协议 数据包在传输过程中的变化过程 在说ARP和DNS之前&#xff0c;我们需要知道数据包在传输过程的变化过程 从图片中可以看到&#xff0c;发送方的原数据最开始是在应用层&…

SystemVerilog 第5章 面向对象编程基础

5.1概述 对结构化编程语言,例如 Verilog和C语言来讲,它们的数据结构和使用这些数据结构的代码之间存在很大的沟壑。数据声明、数据类型与操作这些数据的算法经常放在不同的文件里,因此造成了对程序理解的困难。 Verilog程序员的境遇比C程序员更加棘手,因为Ⅴ erilog语言…

《服务端开发技术、方法与实用解决方案》——AIC松鼠活动第八期

AI 时代&#xff0c;程序员无需焦虑 ChatGPT 横空出世后&#xff0c;“AI 即将取代程序员” 的观点一度引发热议&#xff0c;至今尚未完全冷却。作为一名服务端开发工程师&#xff0c;同时也是 ChatGPT 的“忠实”用户&#xff0c;经过将近一年的使用&#xff0c;今天抽空写一篇…

智慧园区用水用电信息管理系统:实现高效节能的现代化园区管理

随着科技的不断发展&#xff0c;各类产业园区在我国经济社会发展中发挥着越来越重要的作用。为了提高园区的运营效率、降低能源消耗、实现绿色可持续发展&#xff0c;智慧园区用水用电信息管理系统应运而生。本文将从系统背景、功能特点、应用优势等方面进行详细介绍。 一、系统…

自然语言处理(八):预训练BERT

来自Transformers的双向编码器表示&#xff08;BERT&#xff09; BERT&#xff08;Bidirectional Encoder Representations from Transformers&#xff09;是一种预训练的自然语言处理模型&#xff0c;由Google于2018年提出。它是基于Transformer模型架构的深度双向&#xff0…

【c++】stringstream基础:实现数据类型转换和字符串分割

传统实现整型转换为字符串需要使用itoa或者sprintf&#xff0c;对于itoa和atoi的使用可以看文章&#xff1a; atoi和itoa极简无废话概述 但是用这两个函数进行转换时&#xff0c;所需要的空间事先不确定&#xff0c;所以可能造成程序崩溃&#xff0c;今天介绍的stringstream可…

进程、线程、进程池、进程三态、同步、异步、并发、并行、串行

进程、线程、进程池、进程三态、同步、异步、并发、并行、串行 一.进程, 线程 1.&#x1f335;进程 &#x1f379;什么是进程? 开发写的代码我们称为程序&#xff0c;那么将开发的代码运行起来。我们称为进程。 明白点: 当我们运行一个程序&#xff0c;那么我们将运行的程…

反序列化漏洞及漏洞复现

文章目录 渗透测试漏洞原理不安全的反序列化1. 序列化与反序列化1.1 引例1.2 序列化实例1.2.1 定义一个类1.2.2 创建对象1.2.3 反序列化1.2.4 对象注入 2. 漏洞何在2.1 漏洞触发 3. 反序列化漏洞攻防3.1 PHP反序列化实例3.1.1 漏洞利用脚本3.1.2 漏洞利用3.1.3 获取GetShell 3.…

folium中RegularPolygonMarker的rotation怎么理解

背景 我们在使用 folium 库创建交互式地图的时候&#xff0c;如果我们使用 RegularPolygonMarker 对象&#xff0c;则会使用到 rotation这个参数&#xff0c;这个rotation的基准是什么&#xff1f;方向是顺时针还是逆时针&#xff1f;今天来聊聊。 创建几个 RegularPolygonMa…

策略路由典型配置:通过流策略实现策略路由(即重定向到不同的下一跳)

策略路由典型配置&#xff1a;通过流策略实现策略路由&#xff08;即重定向到不同的下一跳&#xff09; 1、拓扑图及组网要求 公司用户通过SW2核心交换机连接到外部网络&#xff0c;其中一条是高速链路&#xff0c;网关是192.168.100.2/24&#xff0c;另一条是低俗网络&#…

Python+Appium+Pytest+Allure实战APP自动化测试!

pytest只是单独的一个单元测试框架&#xff0c;要完成app测试自动化需要把pytest和appium进行整合&#xff0c;同时利用allure完成测试报告的产出。 编写常规的线性脚本具体的步骤如下&#xff1a; 1、设计待测试APP的自动化测试用例 2、新建app测试项目 3、配置conftest.py文…

VMware虚拟机安装CentOS6.9设置静态ip

1.设置虚拟网络编辑器 点击编辑–>虚拟网络编辑器 2.更改系统网络适配器选项 这里的子网掩码与网关&#xff0c;与第一步的一致 3.修改虚拟机主机名 vi /etc/sysconfig/networkNETWORKINGyue HOSTNAMEchen4.配置IP映射 vi /etc/hosts192.168.121.138 chen5.配置网卡…

Vue2+Vue3笔记(尚硅谷张天禹老师)day03

声明:只是记录&#xff0c;初心是为了让页面更好看,会有错误,我并不是一个会记录的人&#xff0c;所以有点杂乱无章的感觉&#xff0c;我先花点时间把视频迅速过掉&#xff0c;再来整理这些杂乱无章的内容 脚手架 Vue-cli CLI是Command Line Interface的缩写&#xff0c;直译的…

机器学习练习

原文章添加链接描述

OPENCV+QT环境配置

【qtopencv开发入门&#xff1a;4步搞定opencv环境配置2】https://www.bilibili.com/video/BV1f34y1v7t8?vd_source0aeb782d0b9c2e6b0e0cdea3e2121eba 第一步&#xff1a; 安装QT Qt 5.15 第二步&#xff1a; 安装OPENCV VS2022 Opencv4.5.5 C 配置_愿飞翔的鱼儿的博客…