elasticsearch hanlp插件远程词典配置

news2024/11/25 8:21:20

elasticsearch hanlp插件远程词典配置

  • 背景
  • 远程词典配置
    • 新增远程词典文件
    • 修改hanlp-remote.xml
    • 自动加载词典
  • 远程词典测试

背景

在使用elasticsearch的过程中,总会遇到与分词相关的需求,这里将针对常用的elasticsearch hanlp(后面统称为 es hanlp)分词插件进行讲解演示配置自定义业务字典,提高es hanlp分词的准确性,同时也提高查询效率。关于es hanlp通过更改关键词文件配置自定义词典的内容可以参考文章:https://developer.aliyun.com/article/1163240,本文主要是讲述另外一种自定义词典内容的操作,配置远程词典。

远程词典配置

新增远程词典文件

es hanlp关于远程词典的文件配置方式参考官方文档即可,文档地址:https://github.com/KennFalcon/elasticsearch-analysis-hanlp/tree/master,这里我把远程词典文件放在我们的腾讯云上面,主要是因为es hanlp 在加载远程词典文件时需要通过response header判断Last-Modified和 ETag来确定远程文件是否有变动,进而决定是否需要加载更新;而腾讯云返回的文件是直接带有Last-Modified和 ETag,这里可以看一下我的文件响应的response
在这里插入图片描述
符合官方文档要求的远程词典文件返回两个头部(header),一个是 Last-Modified,一个是 ETag
在这里插入图片描述
说明:这里说明一下,如果这两个属性都没有变化的话,es hanlp插件是不会热更新关键词的;
另外,如果大家想要使用腾讯云COS作为远程词典文件存放位置的话,需要注意必须要用文件的原始请求地址,不能用有CDN缓存的地址,这样才能达到1分钟热更新的目的。比如

http://存储桶名.cos.ap-beijing.myqcloud.com/ei-dongao/mywords.txt

远程词典文件准备好之后就可以修改es hanlp 远程配置文件hanlp-remote.xml了

修改hanlp-remote.xml

找到hanlp-remote.xml配置文件路径ES_HOME/config/analysis-hanlp
在这里插入图片描述
修改hanlp-remote.xml,增加远程词典配置
在这里插入图片描述
这里配置好远程词典路径之后需要重启es,因为改动了配置文件嘛,后续更改远程配置文件的内容时就无需重启es了,因为你没有改动es的配置文件。

自动加载词典

配置完成远程词典内容后,无需重启es,等待1分钟后,词典自动加载。

[2023-04-24T13:29:16,636][INFO ][c.h.d.ExtMonitor         ] [ei-test-es-node190] hanlp custom dictionary isn't modified, so no need reload

[2023-04-24T13:29:17,163][INFO ][c.h.d.RemoteMonitor      ] [ei-test-es-node190] load hanlp remote custom dict path: http://存储桶名.cos.ap-beijing.myqcloud.com/ei-dongao/mywords.txt

[2023-04-24T13:29:17,623][INFO ][c.h.d.RemoteMonitor      ] [ei-test-es-node190] finish load hanlp remote custom dict path: http://存储桶名.cos.ap-beijing.myqcloud.com/ei-dongao/mywords.txt

比如我在远程词典中增加关键词

腾讯云文件管理

加载完成之后我们可以开始测试是否生效。
注:多台es服务器配置时,需保证指向相同的远程词典路径,保证加载关键词文件的一致

远程词典测试

在远程词典测试之前,我们需要对我们的索引开启远程词典,这需要配置自定义分词,并开启远程词典加载开关,es hanlp 自定义分词配置参考博文:https://developer.aliyun.com/article/1163285
1.当我们使用hanlp默认词典配置的时候我们测试

POST _analyze

{

  "text": "初级会计指南在这里",

  "analyzer": "hanlp"

}

返回结果是

{

  "tokens" : [

    {

      "token" : "初级",

      "start_offset" : 0,

      "end_offset" : 2,

      "type" : "b",

      "position" : 0

    },

    {

      "token" : "会计",

      "start_offset" : 2,

      "end_offset" : 4,

      "type" : "nnt",

      "position" : 1

    },

    {

      "token" : "指南",

      "start_offset" : 4,

      "end_offset" : 6,

      "type" : "n",

      "position" : 2

    },

    {

      "token" : "在",

      "start_offset" : 6,

      "end_offset" : 7,

      "type" : "p",

      "position" : 3

    },

    {

      "token" : "这里",

      "start_offset" : 7,

      "end_offset" : 9,

      "type" : "rzs",

      "position" : 4

    }

  ]

}

2.我们使用自定义分词配置,开启远程词典

PUT test

{

  "settings": {

    "analysis": {

      "analyzer": {

        "hanlp_dongao": {

          "tokenizer": "hanlp_analyzer"

        }

      },

      "tokenizer": {

        "hanlp_analyzer": {

          "type": "hanlp",

          "enable_stop_dictionary": true,

          "enable_custom_config":true,

          "enable_remote_dict":true

        }

      }

    }

  }

}

然后配置关键词

初级会计

等待远程词典加载完成后再次用开启了远程词典的索引测试
在这里插入图片描述
加载完成之后再次验证

POST test/_analyze

{

  "text": "初级会计指南在这里",

  "analyzer": "hanlp_dongao"

}

分词结果

{

  "tokens" : [

    {

      "token" : "初级会计",

      "start_offset" : 0,

      "end_offset" : 4,

      "type" : "n",

      "position" : 0

    },

    {

      "token" : "指南",

      "start_offset" : 4,

      "end_offset" : 6,

      "type" : "n",

      "position" : 1

    }

  ]

}

可以看到已经将【初级会计】分成一个词了。
这里有一点需要说明,新增加关键词的话,热加载完成之后es分词就可以按照增加的关键词进行分词,但是删除关键词的话,还是会按之前增加的关键词进行分词,可能是es hanlp插件有缓存机制,也可能是插件版本的问题,我用的是匹配es版本6.7.1的hanlp插件,最新的版本可能不会存在这个问题,但是鉴于升级es改动较大,为了不影响业务只能采用当下版本对应的hanlp插件。这一点在使用es hanlp插件时需要考虑在内。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1834128.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

表单中的常用元素

10.图像形式上传文件 <input type“image”>定义图像形式的提交。 src 属性和alt属性必须与<input type“image””>结合使用。 input type"image"src"img/l.jpg"alt"submit"/> 11.下拉列表框 <select>标签定义下拉列表框…

java基础-IDEA环境基础用法自动导包等设置

IDEA&#xff1a; 是用于Java语言开发的集成环境&#xff0c;它是业界公认的目前用于Java程序开发最好的工具。 把代码编写&#xff0c;编译&#xff0c;执行&#xff0c;调试等多种功能综合到一起的开发工具。 IDEA项目结构&#xff1a; 多级包用 . 链接。 快速生成 快…

解锁工业自动化:通过CANopen转Profinet的无缝对接

通过开疆智能CanOpen转ProfiNet网关&#xff08;KJ-PNG-205&#xff09;实现&#xff0c;上位机能够直接与CANopen总线驱动器进行通信&#xff0c;以实时获取设备运行状态信息。具体过程为&#xff1a;上位机通过发送CanOpen协议命令到CanOpen转ProfiNet网关&#xff0c;然后由…

华为手环9省电设置

1、 手环开启熄屏显示续航约3天&#xff0c;原因为屏幕持续常亮显示&#xff1b;如不需要可通过手环“设置->表盘->熄屏显示”路径进行关闭&#xff1b; 2、 手环具备后台健康自动检测功能&#xff0c;您可根据需要选择是否使用或关闭&#xff1a; &#xff08;1&#x…

怎么将文档翻译免费导出?这些工具让你写论文更轻松

对于许多学生&#xff0c;啃下外文文献的难度有时甚至超过了写论文。查词费时&#xff0c;段落翻译又常受限于字数。 在线翻译工具&#xff0c;作为语言间的桥梁&#xff0c;正在学术和商业领域变得越来越重要。 下面&#xff0c;让我们快速浏览一些免费的文档翻译软件app&am…

css之浏览器兼容性

css之浏览器兼容性 内核 内核代表作品 兼容的概念和原因 Hack的副作用 常见的CSS Bug 多个图片在一起&#xff0c;图片套个盒子 图片在IE浏览器上有蓝色边框 解决办法&#xff1a;给img加上 border:0 表单元素中距离顶部元素不一样 左边input 右边button 解决办法&#x…

四款让人大开眼界的高质量软件,个个实力超群,使用起来爱不释手

电脑里的Windows软件&#xff0c;简直多得数不清&#xff0c;啥都有。 像那个电子表格、写文章的、玩游戏聊天的、还有修图的&#xff0c;这些都太常见了&#xff0c;它们确实给咱们生活带来方便&#xff0c;但有时候也会让那些不太懂电脑的小伙伴们头疼不已。 讲真&#xff0…

物联网协议应用

目录 前言一、NTP协议1.1 NTP简介1.2 NTP实现 二、HTTP协议2.1 HTTP协议简介2.2 HTTP服务器 三、MQTT协议3.1 MQTT协议简介3.1.1 MQTT通信模型3.1.2 MQTT协议实现原理3.1.3 MQTT 控制报文 3.2 移植MQTT协议 前言 本文主要介绍一下物联网协议如NTP协议、HTTP协议和MQTT协议的接口…

elementPlus渲染需要权限校验的图片

技术栈&#xff1a;elementPlusvue3 html部分&#xff1a; <el-image :style"{width:width,height:height}" ref"previewimg" :src"previewSrc"></el-image> js部分 /*** 预览图片* param {String} url [图片的地址]*/const showP…

飞腾派初体验(3)

“我心光明&#xff0c;夫复何言” - 王阳明。 朋友的题词&#xff0c;念念不忘 做人要厚道&#xff0c;挖坑就要填。说了要整labview&#xff0c;现在来还愿。 国内labview还是相对小众的东西&#xff0c;而且主要是大厂设备在用&#xff0c;同时NI原厂比较佛系&#xff08;欧…

企业邮箱大附件无法上传?无法确认接收状态?这样解决就行

Outlook邮箱作为最常用的邮箱系统&#xff0c;被全世界企业采用作为内部通用沟通方式&#xff0c;但Outlook邮箱却有着明显的使用缺陷&#xff0c;如邮箱大附件上传障碍及附件接收无提示等。 1、企业邮箱大附件无法上传 Outlook企业邮箱大附件的上传上限一般是50M&#xff0c;…

opencv c++ 检测图像尺寸大小,标注轮廓

1. 项目背景 本项目旨在开发一个图像处理程序&#xff0c;通过使用计算机视觉技术&#xff0c;能够自动检测图像中物体的尺寸并进行分类。项目利用了开源的计算机视觉库 OpenCV&#xff0c;实现了图像的灰度处理、二值化、轮廓检测、边界框绘制以及尺寸分类等功能。通过这些功…

Java控制语句——break和continue

系列文章目录 文章目录 系列文章目录前言一、【break的例子】二、【continue的例子】 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff0c;这篇文章男女通用&#xff0c;看懂…

003 AOP介绍

文章目录 什么是AOP为什么用AOPAOP相关术语介绍AOP实现之AspectJ(了解)AOP实现之Spring AOP(了解)JDK动态代理Cglib动态代理 什么是AOP 在软件业中&#xff0c;AOP为Aspect Oriented Programming的缩写&#xff0c;意为面向切面编程作用&#xff1a;在不修改目标类代码的前提下…

Ubuntu乌班图安装VIM文本编辑器工具

系列文章目录 Ubuntu-24.04-live-server-amd64安装界面中文版 Ubuntu-24.04-live-server-amd64启用ssh Ubuntu安装qemu-guest-agent 文章目录 系列文章目录前言一、安装VIM&#xff1f;二、VIM基本设置总结 前言 从centos转到Ubuntu发现默认安装没有vi 一、安装VIM&#xff1…

服务器部署开源大模型完整教程 Ollama+Gemma+open-webui

现在开源的大模型其实挺多的&#xff0c;今天搭建Gemma这个谷歌开源的大模型&#xff0c;但是你想搭建别的只要你看完你都会了。 介绍 Ollama&#xff1a;一款可以让你在本地快速搭建大模型的工具 官网&#xff1a;https://ollama.com/ github&#xff1a;https://github.c…

【机器学习】智能创意工厂:机器学习驱动的AIGC,打造未来内容新生态

&#x1f680;时空传送门 &#x1f50d;机器学习在AIGC中的核心技术&#x1f4d5;深度学习&#x1f388;生成对抗网络&#xff08;GANs&#xff09; &#x1f680;机器学习在AIGC中的具体应用&#x1f340;图像生成与编辑⭐文本生成与对话系统&#x1f320;音频生成与语音合成 …

关于阿里云效流水线自动部署项目教程

1、登录阿里云效:阿里云登录 - 欢迎登录阿里云&#xff0c;安全稳定的云计算服务平台 2、点击左侧流水线&#xff1a; 3、在流水线界面&#xff0c;新建流水线 4、我的是php代码&#xff0c;因此选择php模版 5、创建之后添加流程线源&#xff0c;如下图 6、选择相应的源头。比…

【市场分析】TEMU平台美国区品牌产品市场分析Python采集爬虫数据

文章目录 一、引言二、数据概述1. 数据字段展示2. 数据统计信息展示 三、数据分析3.1 店铺托管模式3.1.1 半托管与全托管占比 3.2 品牌化最多的类目3.2.1 数据可视化展示3.2.2 各类目品牌商品占比分布 3.3 商品占比最多的Top品牌3.2.1 数据可视化展示3.2.2 品牌商品数量占比Top…

物联网技术-第6章-物联网应用案例

目录 1.共享单车 2.自动驾驶汽车 &#xff08;1&#xff09;概念 &#xff08;2&#xff09;关键技术 &#xff08;3&#xff09;典型代表 3.智能电网 4.智能交通 &#xff08;1&#xff09;车联网 &#xff08;2&#xff09;无人驾驶 5.智能物流 6.致谢 1.共享单车…