【Java】jieba结巴分词器自定义分词词典超详细完整版

news2026/2/14 2:17:05

发现一款很轻量好用的分词器->结巴分词器分享给大家
不仅可以对常规语句分词，还可以自定义分词内容，很强大！！

源码地址👉：https://github.com/huaban/jieba-analysis

简单使用

如果是常规的语句，使用这种方式没有问题，如果是复杂语句或带有专业名词的语句请看下方“复杂语句分词”

1.引入依赖

<dependency>
       <groupId>com.huaban</groupId>
    <artifactId>jieba-analysis</artifactId>
     <version>1.0.2</version>
 </dependency>

2.使用方法

	@Test
    public void demo() {
        String content = "中华人民共和国万岁，世界人民大团结万岁";
        JiebaSegmenter segmenter = new JiebaSegmenter();
        List<String> result = segmenter.sentenceProcess(content);
        System.out.println("分词：" + result );
        //分词结果->分词：中华人民共和国 万岁  世界 人民 大团结 万岁
    }

复杂语句分词

自定义分词，适合对带有专业名词的语句分词

问题复现

使用上方代码如果我对“使用前对yb清洗后，将妇科凝胶推进器伸入yd，将妇科凝胶推入yd深处。每日1次，每次1支。”分词 ;

结果为：分词：[使用, 前, 对, yb, 清洗, 后, ，, 将, 妇科, 凝胶, 推进器, 伸入, yd, ，, 将, 妇科, 凝胶, 推入, yd, 深处, 。, 每日, 1, 次, ，, 每次, 1, 支, 。] ;
妇科凝胶是一个专业名词，很显然不符合我分词的需求另外我还想把每日1次和每次1支合并在一起

自定义分词

	@Test
    public void demo() {
   		String content = "使用前对yb清洗后，将妇科凝胶推进器伸入yd，将妇科凝胶推入yd深处。每日1次，每次1支。";
        JiebaSegmenter segmenter = new JiebaSegmenter();
        List<String> result = segmenter.sentenceProcess(content);
        System.out.println("分词：" + result);
        //↓↓↓↓自定义分词器↓↓↓↓↓
        Path path = Paths.get("D:\\资料\\fkck.txt");
        WordDictionary.getInstance().loadUserDict(path);
        List<String> result2 = segmenter.sentenceProcess(content);
        System.out.println("自定义分词：" + result2);
        //自定义分词：[使用, 前, 对, yb, 清洗, 后, ，, 将, 妇科凝胶, 推进器, 伸入, yd, ，, 将, 妇科凝胶, 推入, yd, 深处, 。, 每日1次, ，, 每次1支, 。]
        //可以看到妇科凝胶和每日1次，每次1支都正确的进行了分词
}

fkck.txt内容

在这里插入图片描述

妇科凝胶 1 n
每日1次 1 num
每次1支 1 num

格式为：一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。

去掉标点符号

用正则表达式，把分词后的结果中所有的标点符号全部去除

result.toString().replaceAll("[\\pP‘’“”]", "")

觉得好用点个赞吧😄😄😄

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/443120.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【Java】jieba结巴分词器自定义分词词典超详细完整版

简单使用

1.引入依赖

2.使用方法

复杂语句分词

问题复现

自定义分词

fkck.txt内容

去掉标点符号

相关文章

transformer与vit

全注解下的SpringIoc 续1

微信开发者工具使用git提交项目至gitee远程仓库(保姆级)

代码生涯冲常见的的bug.例如layui表格中日期自动生成、eacharts 报表的重复点击事件

通过Salesforce考试 (考证) 后，如何在Trailhead上验证和维护证书？

野火STM32电机系列（五）Cubemx配置高级定时器TIM1

一文告诉你什么是无代码?无代码开发有什么好处

2022年中国广义数据智能市场规模为442亿元

Zabbix“专家坐诊”第188期问答汇总

绒毛/短毛渲染

数值分析（四） Hermite（埃尔米特）插值法及matlab代码

2.1寸黑白TFT电子标签【基站版】

Mysql第一章字符集

Python用curve_fit进行多元拟合

Zookeeper源码分析——Follower和Leader状态同步源码

VUE3 学习笔记（九）使用富文本编辑器tinymce最新版

python+vue小型公司人事企业员工培训报名管理系统

Springboot整合Quartz定时任务框架（Spring解决方案）

【案例教程】FVCOM流域、海洋水环境数值模拟方法及实践技术应用

王道计组(23版)2_数据的表示和运算

【Java】jieba结巴分词器自定义分词词典 超详细完整版

简单使用

1.引入依赖

2.使用方法

复杂语句分词

问题复现

自定义分词

fkck.txt内容

去掉标点符号

相关文章

【Java】jieba结巴分词器自定义分词词典超详细完整版