最好用的中文分词库cppjieba_ok【可直接编译使用用版】

news2024/9/24 23:31:31

最好用的中文分词库cppjieba_ok【可直接编译使用用版】

中文分词技术在自然语言处理领域中扮演着非常重要的角色,其中cppjieba是一个高效、开源的中文分词库,它提供了多种分词算法和分词模式,并且能够支持多线程,能够大大提升分词效率。
本文将介绍cppjieba的使用方法和技术原理。
在这里插入图片描述

一、cppjieba的安装

cppjieba是一个C++库,可以在Linux、Windows、Mac OS等多个平台上使用,安装cppjieba也非常简单。

依赖:

  • g++ (version >= 4.1 is recommended) or clang++;
  • cmake (version >= 2.6 is recommended);

可以先从github上克隆cppjieba的代码仓库,然后进入cppjieba的源码目录,执行命令进行编译:

1.1 按照原作者方法:

在shell中:

git clone –depth=10 –branch=master git://github.com/yanyiwu/cppjieba.gitcd cppjieba
mkdir build
cd build
cmake ..
make

但是这里是有坑的,编译会报错:缺少limonp库。

这时可以在原作者主页的开源库里找到limonp,
再shell 中 cd 切换到 /cppjieba/include,
下载:git clone https://github.com/yanyiwu/limonp.git

1.2 可以直接使用以下我整理好的方法:

在shell中:

git clone https://github.com/sweetorange2022/jiebacpp_ok.git
cd cppjieba
mkdir build
cd build
cmake ..
make -j4;

编译完成后,即可在编译目录中找到生成的动态库和静态库文件。

二、cppjieba的使用方法

2.1 cppjieba的基本使用方法

cppjieba提供了非常简单的API,使得使用者能够快速地进行中文分词:

cpp


#include "cppjieba/Jieba.hpp"

int main(int argc, char** argv) {
    cppjieba::Jieba jieba("../dict/jieba.dict.utf8",
                          "../dict/hmm_model.utf8",
                          "../dict/user.dict.utf8",
                          "../dict/idf.utf8",
                          "../dict/stop_words.utf8");

    std::string text = "今天天气不错,我们一起出去玩吧!";
    std::vector<std::string> words;
    jieba.Cut(text, words, true);

    for (auto& word : words) {
        std::cout << word << "/";
    }

    return 0;
}

result:
今天/天气/不错/,/我们/一起/出去/玩吧/!/

在这个例子中,首先创建了一个cppjieba::Jieba对象,用于进行分词。
然后,指定了分词所需的词典文件路径、模型文件路径、用户自定义词典路径、IDF值文件路径以及停用词文件路径。
接着,使用Jieba对象的Cut()函数对一个输入字符串进行分词,最后将分词结果输出到标准输出流中。

2.2 分词算法和分词模式:

除了基本的分词方法外,cppjieba还提供了多种分词算法和分词模式。

2.2.1 分词算法:

Jieba算法(cut_all = false):根据词典和模型进行精确切分。

全模式算法(cut_all = true):将所有可能的词语都列出来,速度很快,但准确率较低。

HMM算法(use_hmm = true):基于隐马尔可夫模型进行切分,对未登录词的识别能力较强

2.2.2 分词模式:

搜索模式(mode = cppjieba::Search):用于搜索引擎分词,适合于对文本进行深度分析,但速度较慢。

默认模式(mode = cppjieba::Default):在精度和速度上做了一个平衡,适用于大多数分词场景。

MP模式(mode = cppjieba::MP):适用于对速度要求很高的场景,但精度会有一定的下降。

2.3 多线程分词:

cppjieba还提供了多线程分词的功能,能够更快地进行分词。以下是使用多线程分词的例子:

cpp


#include "cppjieba/Jieba.hpp"
#include <thread>

int main(int argc, char** argv) {
    cppjieba::Jieba jieba("../dict/jieba.dict.utf8",
                          "../dict/hmm_model.utf8",
                          "../dict/user.dict.utf8",
                          "../dict/idf.utf8",
                          "../dict/stop_words.utf8");

    std::string text = "今天天气不错,我们一起出去玩吧!";
    std::vector<std::string> words;

    std::vector<std::thread> threads;
    const int thread_count = 4;
    for (int i = 0; i < thread_count; i++) {
        threads.emplace_back([&jieba, &text, &words]() {
            std::vector<std::string> sub_words;
            jieba.Cut(text, sub_words, true);
            std::lock_guard<std::mutex> lock(words_mutex);
            words.insert(words.end(), sub_words.begin(), sub_words.end());
        });
    }

    for (auto& thread : threads) {
        thread.join();
    }

    for (auto& word : words) {
        std::cout << word << "/";
    }

    return 0;
}

在这个例子中,首先创建了一个cppjieba::Jieba对象,然后指定了分词所需的文件路径。
接着,将要进行分词的文本分成多个部分,并使用多个线程进行分词。
最后,将所有的分词结果合并到一个结果集合中,并输出到标准输出流中。

2.4 cppjieba的分词流程:

加载词典文件:cppjieba使用jieba.dict.utf8和hmm_model.utf8文件构建前缀词典和HMM模型。这些文件包含了词语、词性、词频等信息。

构建前缀词典:将词典中的所有词语按照字典序排列,并将它们拆分成多个前缀。对于每个前缀,记录下对应的词语、词性和词频等信息。

分词:对于输入的文本,先进行基于HMM的分词,得到一个初步的分词结果。然后使用前缀词典进行匹配,得到所有可能的分词结果。最后,对这些结果进行歧义消解,找出最优的分词结果。

输出分词结果:将分词结果输出到标准输出流中,或者存储到文件中。

三、cppjieba的技术原理

cppjieba使用的分词算法是基于前缀词典和有向无环图的,主要包含:

  1. 前缀词典构建:将词典中的所有词语按照字典序排列,并将它们拆分成多个前缀。对于每个前缀,记录下对应的词语、词性和词频等信息。
  2. DAG构建:将待分词的文本字符串构建成一个有向无环图(DAG),其中每个节点代表一个可能的词语,边表示词语之间的前后关系。DAG的构建可以通过动态规划算法实现。
  3. 最大概率路径计算:使用Viterbi算法计算出DAG中的最大概率路径,即分词结果。
  4. 未登录词分词:对于DAG中没有被词典覆盖的节点(即未登录词),根据节点周围的字符信息进行分词。
  5. 歧义消解:根据语言学和统计学的方法,对分词结果进行歧义消解,找出最优的分词结果。

总结

  • cppjieba是一个快速、准确、易用的中文分词库,它基于前缀词典和有向无环图的算法,能够有效地对中文文本进行高效的分词。
  • cppjieba支持多种分词模式和多线程分词,并且具有很好的可定制性和扩展性。
  • 如果你需要在自然语言处理中使用中文分词功能,cppjieba是一个非常不错的选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/430767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机组成原理——第五章中央处理器(中)

辞别再无相见月&#xff0c;终是一人度春秋 文章目录前言5.4.1 硬布线控制器的设计5.4.2 微程序控制器的基本原理5.4.3 微指令的设计5.4.4 微程序控制单元的设计前言 本文主要写的是控制器的设计&#xff0c;控制器的设计分为硬部件控制器(就是用纯硬件的方式来实现的一种控制…

Asp net core写法

变量和字符串赋值 $"{变量}字符串" 列如 $"{a}你好" 全球唯一标识符 Guid.NewGuid() 线程 Task Map Dictionary<string,object> using 定义对象的使用范围&#xff0c;即使释放对象 using(Student student new Student() ) { } 异步编程&#x…

博客友链效果

学习风宇blog flex布局使用百分比作2栏网格布局&#xff0c;内部也是使用flex布局做左图右文使用IntersectionObserver这个浏览器提供的Api&#xff0c;配合vue指令&#xff0c;当元素出现在可视区时&#xff0c;添加上移的动画效果。注意&#xff1a;元素的初始状态&#xff…

Clion 创建的Qt程序界面是老式风格

环境&#xff1a; Clion版本&#xff1a;CLion 2023.1.1Qt 5.15.2 问题 当使用Clion创建Qt程序&#xff0c;不管是选择MinGW编译器还是MSVC编译器&#xff0c;显示出来的界面都很old style 即老式的界面风格&#xff0c;如图所示&#xff1a; 原因 产生这个问题的原因是…

现在培训IT技术出来还能就业吗?

受疫情影响&#xff0c;近三年各行业都是在裁员节流&#xff0c;直接倒闭的也是常态。互联网企业也不能幸免于难&#xff0c;被裁掉了一大波基础或中级技术岗位&#xff0c;还有一部分中高层领导降薪。然后就到处疯传IT行业不行了&#xff0c;大家都失业了&#xff0c;但你知道…

算法训练第五十六天 | 583. 两个字符串的删除操作、72. 编辑距离、编辑距离总结篇

这里写自定义目录标题583. 两个字符串的删除操作题目描述思路动态规划一动态规划二72. 编辑距离&#xff08;困难&#xff09;题目描述思路编辑距离总结篇583. 两个字符串的删除操作 题目链接&#xff1a;583. 两个字符串的删除操作 参考&#xff1a;https://programmercarl.c…

clickhouse跳表索引最佳实践--minmax索引+Set索引

背景 我们知道对于clickhouse这种列式存储数据库来说&#xff0c;它虽然也提供了与mysql的btree的二级索引类似的跳表索引的功能&#xff0c;但是其实跳表索引和btree的二级索引有根本上的不同&#xff0c;比如mysql的二级索引一般来说应用于高基数的列的效果是最佳的&#xf…

SpringMVC入门以及工作流程详解

什么是MVC MVC是一种分层方法&#xff0c;其三层分别是模型&#xff08;Model&#xff09;&#xff0c;视图&#xff08;View&#xff09;和控制器&#xff08;Controller&#xff09;。是一种软件设计规范。MVC可以将软件的逻辑、数据和业务相分离&#xff0c;其主要作用是消除…

SpringCloud-Alibaba学习笔记03——nacos管理界面详细介绍和注册中心配置详解

一、nacos管理界面详细介绍 nacos服务管理界面如图所示&#xff1a; 1、创建服务和隐藏空服务 我们可以看到在界面上有个隐藏空服务的按钮&#xff0c;我们打开该按钮之后&#xff0c;服务列表并没有发生变化&#xff0c;这个按钮有啥用呢&#xff1f; 该按钮的作用就是隐藏…

St link V2驱动安装方法

前言 st-link v2又便宜又好用&#xff0c;是ARM单片机开发的必备神器。本文面向初学者介绍如何给windows安装stlink 驱动&#xff0c;并在keil v5进行配置。 操作系统&#xff1a;windows11&#xff0c; Keil版本&#xff1a;keil v5 mdk5.37. st-link驱动云盘共享地址&#x…

OSS下载中文名编码错误

最近工作中有个需求&#xff0c;是将客户支付的银行回执单上按照客户姓名上传到oss&#xff0c;然后将oss地址反显到pc后台&#xff0c;供客户自己查看下载。 开始的时候感觉很简单&#xff0c;设计思路是根据客户支付单单号&#xff0c;查询数据库中是否存在该支付单的回执单&…

Java生成二维码之Graphics2D自定义码眼形状

Java 2D API 提供了几个类来定义常见的几何对象&#xff0c;例如点、直线、曲线和矩形。这些几何类是 java.awt.geom包的一部分。通过熟练使用Graphics2D类&#xff0c;可以绘制出任意类型的图形。 官网教程地址&#xff1a;https://docs.oracle.com/javase/tutorial/2d/geome…

【虹科案例】固态量子发射器——虹科数字化仪用于控制钻石色心中的脉冲序列

前言 钻石的色心是晶格中的缺陷&#xff0c;其中碳原子被不同种类的原子取代&#xff0c;相邻的晶格位置是空的。由于其明亮的单光子发射和光学可访问的自旋&#xff0c;色心可以成为未来量子信息处理和量子网络的有前途的固态量子发射器。 实现自旋量子比特和相干光子纠缠的两…

基于RK3568的Linux驱动开发—— GPIO知识点(二)

authordaisy.skye的博客_CSDN博客-嵌入式,Qt,Linux领域博主系列基于RK3568的Linux驱动开发——GPIO知识点&#xff08;一&#xff09;_daisy.skye的博客-CSDN博客 查看goio使用情况 cat /sys/kernel/debug/gpio 1|rk3568_r:# cat /sys/kernel/debug/gpio gpiochip0: GPIOs 0-3…

English Learning - L2-14 英音地道语音语调 重音技巧 2023.04.10 周一

English Learning - L2-14 英音地道语音语调 重音技巧 2023.04.10 周一课前热身重音日常表达节奏单词全部重读的句子间隔时间非重读单词代词和缩约词助动词声临其境语调预习课前热身 学习目标 重音 重弱突出&#xff0c;重音突出核心表达的意思 重音是落在重读单词上&#x…

Vue3简介

1.Vue3简介 2020年9月18日&#xff0c;Vue.js发布3.0版本&#xff0c;代号&#xff1a;One Piece&#xff08;海贼王&#xff09;耗时2年多、[2600次提交](https://github.com/vuejs/vue-next/graphs/commit-activity)、[30个RFC](https://github.com/vuejs/rfcs/tree/master/…

机器学习 | 实验四:正则化

⭐对应笔记&#xff1a;正则化 &#x1f4da;描述 在这个练习中&#xff0c;你将实现正则化的线性回归和正则化的逻辑回归。 &#x1f4da;数据 这个数据包包含两组数据&#xff0c;一组用于线性回归&#xff0c;另一个用于逻辑回归。还包含一个名为"map_feature"…

Win11快速打开便签和使用技巧分享

Win11快速打开便签和使用技巧分享。Win11系统中为用户提供了一个非常实用的系统组件&#xff0c;就是便签功能&#xff0c;使用这个功能可以帮助我们便捷的进行一些重要内容的记录。那么如何去开启开启这个程序来使用呢&#xff1f;来看看以下的详情分享吧。 详细分享&#xff…

docker介绍与安装

目录 Docker docker概述 容器化优点 虚拟化架构 docker与虚拟机区别 docker三大核心概念 docker运行的原理 Docker安装 查看 docker 版本信息 docker 信息查看 Docker docker概述 Docker是一个开源的应用容器引擎&#xff0c;基于go语言开发并遵循了apache2.0协议开…

Perceiver Perceiver IO: 人工智能的多功能工具

如今人工智能系统使用的大多数架构都是专业的。2D 残差网络可能是处理图像的一个很好的选择&#xff0c;但它最多只能用于其他类型的数据&#xff0c;比如自动驾驶汽车中使用的激光雷达信号或机器人中使用的 torques。此外&#xff0c;标准架构在设计时通常只考虑一项任务&…