jieba,一个结巴的Python库

news2024/11/19 3:25:07

微信公众号:愤怒的it男,超多Python技术干货文章。

一、jieba的简介

在自然语言处理任务时,中文文本需要通过分词获得单个的词语,此时一个好的分词工具是非常有必要的。jieba分词是一个开源项目,地址为:github.com/fxsjy/jieba。目前是国内最好的中文分词Python库,它在分词准确度和速度方面均表现非常不错。

二、jieba的安装

使用pip安装,由于官方源在国外,可能由于网络超时而导致安装失败,这里建议使用国内的镜像源:

阿里云镜像:https://mirrors.aliyun.com/pypi/simple/
清华大学镜像:https://pypi.tuna.tsinghua.edu.cn/simple/
豆瓣镜像:https://pypi.doubanio.com/simple/
中科大镜像:https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

pip的安装命令如下:

pip install jieba -i https://mirrors.aliyun.com/pypi/simple/

三、中文分词

1、默认模式分词

默认模式分词使用jieba.cutjieba.lcut方法,都是接受四个输入参数:
(1)需要分词的字符串
(2)cut_all:True为采用全面分词,False为采用精准分词
(3)HMM:是否使用HMM模型,HMM默认为True
(4)use_paddle:是否使用PaddlePaddle深度学习框架分词
jieba.cut返回的是迭代生成器,而jieba.lcut返回的是列表

import jieba

text = '微信公众号:愤怒的it男,超多Python技术干货文章。'

seg_list = jieba.cut(text, cut_all=True)
print("/".join(seg_list))
# 微/信/公众/号/:/愤怒/的/it/男/,/超/多/Python/技术/干货/文章/。

seg_list = jieba.cut(text, cut_all=False)
print("/".join(seg_list))
# 微信/公众/号/:/愤怒/的/it/男/,/超多/Python/技术/干货/文章/。

seg_list = jieba.lcut(text, cut_all=True)
print(seg_list)
# ['微', '信', '公众', '号', ':', '愤怒', '的', 'it', '男', ',', '超', '多', 'Python', '技术', '干货', '文章', '。']

seg_list = jieba.lcut(text, cut_all=False)
print(seg_list)
# ['微信', '公众', '号', ':', '愤怒', '的', 'it', '男', ',', '超多', 'Python', '技术', '干货', '文章', '。']

2、搜索引擎模式分词

搜索引擎模式分词使用jieba.cut_for_searchjieba.lcut_for_search方法,都是接受两个输入参数:
(1)需要分词的字符串
(2)HMM:是否使用HMM模型,HMM默认为True
jieba.cut_for_search返回的是迭代生成器,而jieba.lcut_for_search返回的是列表,该分词模式适合用于搜索引擎构建排序索引的分词,粒度比较细

import jieba

text = '微信公众号:愤怒的it男,超多Python技术干货文章。'

seg_list = jieba.cut_for_search(text)
print("/".join(seg_list))
# 微信/公众/号/:/愤怒/的/it/男/,/超多/Python/技术/干货/文章/。

seg_list = jieba.lcut_for_search(text)
print(seg_list)
# ['微信', '公众', '号', ':', '愤怒', '的', 'it', '男', ',', '超多', 'Python', '技术', '干货', '文章', '。']

3、相关知识

HMM:隐马尔科夫模型,是一种用于处理生成序列数据问题的统计模型,被广泛应用于自然语言处理、语音识别等领域。

PaddlePaddle:飞桨,以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体,是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。

四、自定义词典

1、载入字典

开发者可以使用自定义的字典,这样能够保证更高的分词正确率。字典为普通的txt文件,格式为一个词占一行,每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。

图1

import jieba

text = '微信公众号:愤怒的it男,超多Python技术干货文章。'

jieba.load_userdict("userdict.txt")
seg_list = jieba.cut(text)
print("/".join(seg_list))
# 微信/公众号/:/愤怒/的/it男/,/超多/Python/技术/干货/文章/。

2、调整字典

(1)使用add_word(word,freq=None,tag=None)del_word(word)可在程序中动态修改词典。

import jieba

text = '微信公众号:愤怒的it男,超多Python技术干货文章。'

jieba.add_word('公众号', freq=5, tag='n')
jieba.add_word('it男', freq=5, tag='n')
seg_list = jieba.cut(text)
print("/".join(seg_list))
# 微信/公众号/:/愤怒/的/it男/,/超多/Python/技术/干货/文章/。

jieba.del_word('公众号')
jieba.del_word('it男')
seg_list = jieba.cut(text)
print("/".join(seg_list))
# 微信/公众/号/:/愤怒/的/it/男/,/超多/Python/技术/干货/文章/。

(2)使用suggest_freq(segment,tune=True)可调节单个词语的词频,使其能(或不能)被分出来。

import jieba

text = '微信公众号:愤怒的it男,超多Python技术干货文章。'

seg_list = jieba.cut(text)
print("/".join(seg_list))
# 微信/公众/号/:/愤怒/的/it/男/,/超多/Python/技术/干货/文章/。

jieba.suggest_freq('公众号', True)
jieba.suggest_freq('it男', True)
jieba.suggest_freq(('超', '多'), True)
seg_list = jieba.cut(text)
print("/".join(seg_list))
# 微信/公众号/:/愤怒/的/it男/,/超/多/Python/技术/干货/文章/。

五、关键词提取

1、基于TF-IDF算法提取关键词

使用jieba.analyse.extract_tags基于TF-IDF算法提取关键词,其接受四个输入参数:
(1)sentence:待提取的文本
(2)topK:返回关键词的数量,默认为20
(3)withWeight:是否返回关键词权重值,默认为False
(4)allowPOS:返回指定词性的关键词,默认为空

使用jieba.analyse.set_idf_path设置逆向文件频率(IDF)语料库。逆向文件频率是文件频率的倒数,主要用于TF-IDF算法中。

使用jieba.analyse.set_stop_words设置停止词(Stop Words)语料库。停止词一般指‘的’,‘了’,‘和’等频率高但又不重要的词。

import jieba.analyse

text = '微信公众号:愤怒的it男,超多Python技术干货文章。'

seg_list = jieba.analyse.extract_tags(text, topK=2, withWeight=True, allowPOS=('n'))
print(seg_list)
# [('干货', 2.798156862725), ('公众', 1.6857355419325)]

2、基于TextRank算法提取关键词

使用jieba.analyse.textrank基于TextRank算法提取关键词,其接受四个输入参数:
(1)sentence:待提取的文本
(2)topK:返回关键词的数量,默认为20
(3)withWeight:是否返回关键词权重值,默认为False
(4)allowPOS:返回指定词性的关键词,默认为空

import jieba.analyse

text = '微信公众号:愤怒的it男,超多Python技术干货文章。'

seg_list = jieba.analyse.textrank(text, topK=2, withWeight=True, allowPOS=('n'))
print(seg_list)
# [('文章', 1.0), ('技术', 0.9966849915940917)]

六、词性标注

使用jieba.posseg.cut进行词性标注方式地分词,这对于文本挖掘的帮助很大。

import jieba.analyse

text = '微信公众号:愤怒的it男,超多Python技术干货文章。'

words = jieba.posseg.cut(text)
for word, flag in words:
    print('%s %s' % (word, flag))

# 微信 vn
# 公众 n
# 号 m
# : x
# 愤怒 v
# 的 uj
# it eng
# 男 n
# , x
# 超多 v
# Python eng
# 技术 n
# 干货 n
# 文章 n
# 。 x

词性和专用名类别标签集合如下,其中词性标签24个(小写字母),专名类别标签4个(大写字母)。

图2

七、分词定位

使用jieba.tokenize进行分词定位方式地分词,可以返回分词在原文的起止位置。其接受两个输入参数:
(1)待提取的文本,只接受unicode编码的文本
(2)mode:值为’search’则选择搜索引擎模式分词,值为空则选择默认模式分词

import jieba

text = u'微信公众号:愤怒的it男,超多Python技术干货文章。'

words = jieba.tokenize(text)
for word in words:
    print("word %s\t\t start: %d \t\t end:%d" % (word[0],word[1],word[2]))

# word 微信                start: 0                end:2
# word 公众                start: 2                end:4
# word 号          start: 4                end:5
# word :          start: 5                end:6
# word 愤怒                start: 6                end:8
# word 的          start: 8                end:9
# word it          start: 9                end:11
# word 男          start: 11               end:12
# word ,          start: 12               end:13
# word 超多                start: 13               end:15
# word Python              start: 15               end:21
# word 技术                start: 21               end:23
# word 干货                start: 23               end:25
# word 文章                start: 25               end:27
# word 。          start: 27               end:28

八、命令行分词

使用python -m jieba [options] filename使用jieba命令行界面。

固定参数:
  filename              输入文件

可选参数:
  -h, --help            显示此帮助信息并退出
  -d [DELIM], --delimiter [DELIM]
                        使用 DELIM 分隔词语,而不是用默认的' / '。
                        若不指定 DELIM,则使用一个空格分隔。
  -p [DELIM], --pos [DELIM]
                        启用词性标注;如果指定 DELIM,词语和词性之间
                        用它分隔,否则用 _ 分隔
  -D DICT, --dict DICT  使用 DICT 代替默认词典
  -u USER_DICT, --user-dict USER_DICT
                        使用 USER_DICT 作为附加词典,与默认词典或自定义词典配合使用
  -a, --cut-all         全模式分词(不支持词性标注)
  -n, --no-hmm          不使用隐含马尔可夫模型
  -q, --quiet           不输出载入信息到 STDERR
  -V, --version         显示版本信息并退出

如果没有指定文件名,则使用标准输入。

最后的最后,使用终端命令python -m jieba input.txt > output.txt将周杰伦新歌《mojito》的歌词进行分词

图3

微信公众号:愤怒的it男,超多Python技术干货文章。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1302562.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python从入门到精通四:Python循环语句

前言 循环普遍存在于日常生活中,同样,在程序中,循环功能也是至关重要的基础功能。 为什么学习循环语句 循环在程序中同判断一样,也是广泛存在的,是非常多功能实现的基础: while循环的基础语法 学习目标&…

竞赛保研 LSTM的预测算法 - 股票预测 天气预测 房价预测

0 简介 今天学长向大家介绍LSTM基础 基于LSTM的预测算法 - 股票预测 天气预测 房价预测 这是一个较为新颖的竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://gitee.com/dancheng-senior/postgraduate 1 基于 Ke…

基于Qt的登录页面设计

题目: 完善对话框,点击登录对话框,如果账号和密码匹配,则弹出信息对话框,给出提示”登录成功“,提供一个Ok按钮,用户点击Ok后,关闭登录界面,跳转到其他界面 如果账号和…

leetcode 股票DP系列 总结篇

121. 买卖股票的最佳时机 你只能选择 某一天 买入这只股票&#xff0c;并选择在 未来的某一个不同的日子 卖出该股票。 只能进行一次交易 很简单&#xff0c;只需边遍历边记录最小值即可。 class Solution { public:int maxProfit(vector<int>& prices) {int res …

Java:字符流 文件输出 与 读入 方法

Java&#xff1a;字节流 文件输出与读入方法 并 实现文件拷贝 文章目录 字符流FileReaderFileWrite 字符流 字符流底层就是字节流。 字符流 字节流 字符集 特点&#xff1a; 输入流&#xff1a;一次读入一个字节&#xff0c;遇到中文时&#xff0c;一次读多个字节。 输出流…

我的 CSDN 三周年创作纪念日:2020-12-12

本人大叔一枚&#xff0c;自1992年接触电脑&#xff0c;持续了30年的业余电脑发烧爱好者&#xff0c;2022年CSDN博客之星Top58&#xff0c;阿里云社区“乘风者计划”专家博主。自某不知名财校毕业后进入国有大行工作至今&#xff0c;先后任职于某分行信息科技部、电子银行部、金…

六级翻译之印章

好像大房子挺难得 三段式 1Since ancient from now&#xff0c;seals have been a symbol of power and certerfiction of identity.seals not only practical but also is a form of art.Seal is an ancient art combining with manafutuer of crafting and desgin of…

基于SSM的健身房预约系统设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;Vue 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#xff1a;是 目录…

2023Python自动化测试5种模型(建议收藏)

1、前言 在自动化测试中&#xff0c;我们往往将自动化脚本都归纳属于哪种框架模型&#xff0c;比如关键字驱动模型等。 本篇将列举实际自动化测试中&#xff0c;Python 自动化测试的五种模型&#xff1a;线性模型、模块化驱动模型、数据驱动模型、关键字驱动模型、行为驱动模…

访问NFS存储及自动挂载

本章主要介绍NFS客户端的使用 创建NFS服务器并通过NFS共享一个目录 在客户端上访问NFS共享的目录 自动挂载的配置和使用 1 访问NFS存储 前面介绍了本地存储&#xff0c;本章就来介绍如何使用网络上的存储设备。NFS即网络文件系统&#xff0c;所实现的是 Linux 和 Linux 之间的…

AI降重软件,AI降重后原创高质量文章

在当今信息爆炸的时代&#xff0c;写作与创作的重要性日益凸显。随着大量内容的涌现&#xff0c;文章降重成为了许多作者和内容创作者的一大问题。本文将专心分享该软件的优势&#xff0c;并为广大用户推荐几款好用的AI降重软件。 AI降重使用场景 AI降重技术利用机器学习算法和…

扔掉xshell,基于 QT 实现一个串口命令行工具(带源码)

背景 xshell 带有支持串口的命令行能力&#xff0c; 可以方便的和下位机用命令进行交互&#xff0c;如下图所示&#xff1a; msh > msh > msh >version\ | / - RT - Thread Operating System/ | \ 3.1.3 build Nov 7 20232006 - 2019 Copyright by rt-thre…

《opencv实用探索·十四》VideoCapture播放视频和视像头调用

1、VideoCapture播放视频 #include <opencv2/opencv.hpp> #include <iostream>using namespace std; using namespace cv;int main() {// 定义相关VideoCapture对象VideoCapture capture;// 打开视频文件capture.open("1.avi");// 判断视频流读取是否正…

聚首引领行业风潮!聚首品牌联动资源价值平台发布会正式启航

2023年12月10日&#xff0c;由杭州建筑装饰学会、浙江聚首联优材料科技有限公司主办&#xff0c;天尚设计集团、公和设计集团、铭扬工程设计集团、地标设计集团、上宸工程设计集团、华坤建筑设计院、广厦建筑设计研究院、上海传承博华建筑规划设计院、航冠工程设计院、浙江鸿能…

控制台打印如来佛图像

代码 System.out.println(" _ooOoo_ \n"" o8888888o \n"" 88 \".\" 88 …

Java王者荣耀火柴人

主要功能 键盘W,A,S,D键&#xff1a;控制玩家上下左右移动。按钮一&#xff1a;控制英雄发射一个矩形攻击红方小兵。按钮控制英雄发射魅惑技能&#xff0c;伤害小兵并让小兵停止移动。技能三&#xff1a;攻击多个敌人并让小兵停止移动。普攻&#xff1a;对小兵造成基础伤害。小…

【人工智能 | 知识表示】问题规约法 谓词/符号逻辑,良好的知识表示是解题的关键!(笔记总结系列)

&#x1f935;‍♂️ 个人主页: AI_magician &#x1f4e1;主页地址&#xff1a; 作者简介&#xff1a;CSDN内容合伙人&#xff0c;全栈领域优质创作者。 &#x1f468;‍&#x1f4bb;景愿&#xff1a;旨在于能和更多的热爱计算机的伙伴一起成长&#xff01;&#xff01;&…

【算法优选】 动态规划之路径问题——贰

文章目录 &#x1f38b;前言&#x1f332;[下降最小路径和](https://leetcode.cn/problems/minimum-path-sum/)&#x1f6a9;题目描述&#x1f6a9;算法思路&#xff1a;&#x1f6a9;代码实现 &#x1f38d;[最小路径和](https://leetcode.cn/problems/minimum-path-sum/)&…

12.11

1.q&#xff0c;w&#xff0c;e亮led1&#xff0c;2&#xff0c;3&#xff1b; a&#xff0c;s&#xff0c;d灭led1&#xff0c;2&#xff0c;3&#xff1b; main.c #include "uar1.h"#include "led.h"void delay(int ms){int i,j;for(i0;i<ms;i){for…

计算机科学与技术认识实习【报告】

一、实习目的 此次认识实习主要面对计算机科学与技术专业的同学&#xff0c;了解专业在未来的发展趋势&#xff0c;通过观看公司的介绍视频和技术发展情况招聘信息后的感想和学习体会等多种方式&#xff0c;使我们了解本专业相关领域的发展现状&#xff0c;让我们在校园内课堂上…