python-jieba库

news2024/12/28 5:10:45

jieba库,python提供的中文分词函数库的第三方库,它可以将一段中文文本分割成中文词语序列。

安装jieba库

pip install jieba

jieba的三个模式

  • 全模式 - - - jieba.lcut(s,cut_all=True) - - - 速度非常快,但有冗余数据

  • 精确模式(最常用) - - - jieba.lcut(s) - - - 适合文本分析

  • 搜索引擎模式 - - - jieba.lcut_for_search(s) - - - 在精确模式的基础上,对长词进行切分,适合用于搜索引擎分词

    三种模式都返回一个list类型

jieba.add_word(w) - - - 向分词字典中添加新词w

jieba.del_word(w) - - - 将词典中的词语w删除

import jieba
jieba.lcut('吃葡萄不吐葡萄皮')
# ['吃', '葡萄', '不吐', '葡萄', '皮']

在这里插入图片描述

jieba.lcut('你们谁吃葡萄不吐葡萄皮?',cut_all=True)
# ['你们', '谁', '吃', '葡萄', '不', '吐', '葡萄', '皮', '?']
jieba.lcut_for_search('你们谁吃葡萄不吐葡萄皮?')
# ['你们', '谁', '吃', '葡萄', '不吐', '葡萄', '皮', '?']
jieba.add_word('吃葡萄不吐葡萄皮')
jieba.lcut('你们谁吃葡萄不吐葡萄皮?')
# ['你们', '谁', '吃葡萄不吐葡萄皮', '?']

其他常用方法

  1. 分词方法:jieba.cut(),可以将文本分成词语的列表,支持多种分词模式,如精确模式、全模式、搜索引擎模式等。
    返回一个可迭代的生成器对象,使用list函数将其变为列表

  2. jieba.add_word(word, freq=None, tag=None): 向词典中添加新词,freq表示词频,tag表示词性。

  3. 获取停用词:jieba.analyse.set_stop_words(stop_words_path),可以获取停用词列表,对于语义分析来说,停用词可以过滤掉一些无意义的词语。

  4. 关键词提取:jieba.analyse.extract_tags(sentence, topK=20, withWeight=False),可以提取文本中的关键词,并按照权重排序输出
    topK表示返回关键词的个数,withWeight表示是否返回权重值

    import jieba.analyse
    jieba.analyse.set_stop_words(stop_words_path)
    jieba.analyse.extract_tags()
    
  5. Tokenize方法:jieba.tokenize(unicode_sentence, mode=‘default’, HMM=True),可以返回每个词的位置、长度和词语本身,可用于索引分词等功能。

  6. jieba.load_userdict(file_name): 加载用户自定义的词典文件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/994100.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

窗口延时、侧输出流数据处理

一 、 AllowedLateness API 延时关闭窗口 AllowedLateness 方法需要基于 WindowedStream 调用。AllowedLateness 需要设置一个延时时间,注意这个时间决定了窗口真正关闭的时间,而且是加上WaterMark的时间,例如 WaterMark的延时时间为2s&…

嵌入式开发-绪论

目录 一.什么是嵌入式 1.1硬件系统 1.2软件系统 二.嵌入式应用场景 2.1消费电子 2.1.1智能家居 2.1.2影音 2.1.3家用电器 2.1.4玩具游戏机 2.2通信领域 2.2.1对讲机 2.2.2手机 2.2.3卫星 2.2.4雷达 2.3控制领域 2.3.1机器人 2.3.2采集器PLC 2.4金融 2.4.1POS…

快速文件复制与删除工具,将复制时文件夹里的原文件删除掉

无论是工作还是生活,我们都离不开文件的复制和管理。然而,手动复制文件不仅费时费力,而且容易出错。现在,我们为您推荐一款快速文件复制与删除工具,让您的文件管理更加高效! 首先,我们要进入文…

MybatisPlus分页插件使用

一. 效果展示 二. 代码编写 2.1 pom <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.4.2</version> </dependency>2.2 添加配置类 Configuration MapperScan(…

推荐一款程序员截图神器!

快来看一下程序员必备的一款截图工具 今天就来和大家说一下作为程序员必备截图神器&#xff0c;几乎每一个程序员都会设置开机自启&#xff0c;因为这个截图功能太太太好用了&#xff01;&#xff01;&#xff01;只要你在键盘上按下F1就可以轻松截取整个屏幕&#xff0c;然后…

51单片机项目(9)——基于51单片机的电子琴设计

简易电子琴设计设计内容: 1.用矩阵键盘代表琴键&#xff0c;至少能弹出8个音符&#xff0c;分别是:音符1.23.4.,5,6, 2.键按下的时间长短表征节拍的长短&#xff0c;用蜂鸣器发出声音 3.数码管显示出当前音符 4.音量可调 &#xff08;代码及其工程文件放在最后&#xff09; …

vue中的几种name属性

vue中的几种name属性 组件名name name选项 export default{name:xxx } // 获取组件的name属性 this.$options.namevue-devtools调试工具里显示的组件名称&#xff1b; 未配置name选项&#xff0c;就是组件的文件名&#xff1b; vue3配置name通过defineOptions()函数 de…

msvcp110.dll是什么意思与msvcp110.dll丢失的解决方法

电脑突然提示msvcp110.dll丢失&#xff0c;无法执行此代码。导致软件无法打开运行&#xff0c;这个怎么办呢&#xff1f;我在网上找了一天的资料&#xff0c;终于把这个问题彻底处理好&#xff0c;也弄清楚了msvcp110.dll丢失的原因及msvcp110.dll丢失修复方法&#xff1f;现在…

20230909java面经整理

1.java常用集合 ArrayList动态数组&#xff0c;动态调整大小&#xff0c;实现List接口 LinkedList双向链表&#xff0c;实现list和queue接口&#xff0c;适用于频繁插入和删除操作 HashSet无序&#xff0c;使用哈希表实现 TreeSet有序&#xff0c;使用红黑树实现 HashMap无序&…

FPGA开发

https://www.enclustra.com.cn/?bd_vid11435475462206745180 https://www.monolithicpower.cn/design-tools/design-tools/llc-design-tool.html https://www.elecfans.com/article/88/143/2012/20120718280641_2.html

[JAVAee]IP数据包的组包与分包

目录 数据包是什么? 数据包的结构 数据包/分组与分组交换 分包是什么?为什么需要分包呢? 组包是什么? 分包组包过程中和哪些 IP 报头字段有关联? 本篇文章主要围绕三个问题来展开: 为什么要分包?分包组包过程中和哪些 IP 报头字段有关联组包时如何保证数据的顺序和…

基于Yolov8的中国交通标志(CCTSDB)识别检测系统

目录 1.Yolov8介绍 2.纸箱破损数据集介绍 2.1数据集划分 2.2 通过voc_label.py得到适合yolov8训练需要的 2.3生成内容如下 3.训练结果分析 1.Yolov8介绍 Ultralytics YOLOv8是Ultralytics公司开发的YOLO目标检测和图像分割模型的最新版本。YOLOv8是一种尖端的、最先进的&…

kafka学习-生产者

目录 1、消息生产流程 2、生产者常见参数配置 3、序列化器 基本概念 自定义序列化器 4、分区器 默认分区规则 自定义分区器 5、生产者拦截器 作用 自定义拦截器 6、生产者原理解析 1、消息生产流程 2、生产者常见参数配置 3、序列化器 基本概念 在Kafka中保存的数…

虚拟机上部署K8S集群

虚拟机上部署K8S集群 安装VM Ware安装Docker安装K8S集群安装kubeadm使用kubeadm引导集群 安装VM Ware 参考&#xff1a;http://www.taodudu.cc/news/show-2034573.html?actiononClick 安装Docker 参考&#xff1a;https://www.yuque.com/leifengyang/oncloud/mbvigg#2ASxH …

长安链BaaS服务平台调研

目录 一、菜单功能二、其他说明2.1、服务平台的部署方式2.2、链本身2.3、建链流程2.4、支持连接已部署的链2.5、链治理投票2.6、支持动态节点操作2.7、支持应用 长安链ChainMaker管理平台文档地址&#xff1a;https://docs.chainmaker.org.cn 一、菜单功能 菜单子菜单/功能点…

lock screen password (remove)

解除apple手机锁屏密码步骤 对于老人家来说手机越简单越好 换手机的时候连界面图标&#xff0c;页码&#xff0c;原来放那里&#xff0c;新机也是放那里

Nacos实战(19)-Nacos健康检查机制:保障你的服务稳定运行!

0 前言 注册中心不应仅提供服务注册和发现功能&#xff0c;还应保证对服务可用性监测&#xff0c;对不健康的服务和过期的进行标识或剔除&#xff0c;维护实例的生命周期&#xff0c;以保证客户端尽可能的查询到可用的服务列表。 因此本文介绍Nacos注册中心的健康检查机制。 …

C++函数内联详解

本文旨在讲解C中的函数内联相关知识&#xff0c;读完这篇文章&#xff0c;希望读者们会对函数内联有更深一步的认识&#xff01; 内联函数的定义 在计算机科学中&#xff0c; 内联函数 &#xff08;有时称作 在线函数 或 编译时期展开函数 &#xff09;是一种编程语言结构&…

如何给Mybatis-plus再增加点plus

来源公众号&#xff1a;赵侠客 一、Mybatis-plus基本功能 1.1 Mybatis-plus内置方法 Mybatis-plus给我们造了很多轮子&#xff0c;让我们可以开箱即用&#xff0c;在BaseMapper中有19种操作数据库常用的方法&#xff0c;如Insert()、deleteById()、updateById()、selectById(…

Spring系列文章:Spring事务

一、事务简述 1、什么是事务&#xff08; Transaction&#xff08;tx&#xff09;&#xff09; 在⼀个业务流程当中&#xff0c;通常需要多条DML&#xff08;insert delete update&#xff09;语句共同联合才能完成&#xff0c;这 多条DML语句必须同时成功&#xff0c;或者同…