Python学习-8.2.1 库(jieba库的基础与实例-中文分词库)

news2024/11/16 17:46:29

jieba库的安装见上篇:Python学习-8.库(第三方库介绍与下载安装)

jieba库概述

在这里插入图片描述
由于中文文本中的单词不像英文那样,并不是根据空格或者标点符号进行分割的,而是存在一个重要的分词问题。因此引入了jieba库。

  • 分词原理:利用一个中文词库,将待分的内容与分词词库进行对比,通过图结构和动态规划方法找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。

jieba库的使用

和标准库一样,第三方库jieba需要import使用。当在解释器中输入import 库名时,解释器会自动在该项目目录下寻找库名.py文件,若找不到,会在安装目录下指定的第三方库目录内寻找。

jieba库提供了三种分词模式
①精确模式:jieba.lcut(s),最常用的中文分词函数,可以将句子最精确地分开,即将字符串分割成等量的中文词组,返回结果是列表类型,适合文本分析。
精确模式是根据每个词组组合的概率进行返回,只返回概率最大的词组。

import jieba
print(jieba.lcut('由于中文文本中的单词不像英文那样,不是根据空格或者标点符号进行分割的'))
--输出
['由于', '中文', '文本', '中', '的', '单词', '不像', '英文', '那样', ',', '不是', '根据', '空格', '或者', '标点符号', '进行', '分割', '的']

②全模式:jieba.lcut(s,cut_all=True),与精准模式命名一样,多了一个cut_all参数。可以将句子中所有可以成词的语句都扫描出来,速度非常快,但是不能够解决歧义问题。
全模式会返回字符串的所有分词结果,返回结果是列表型,冗余最大。

import jieba
print(jieba.lcut('由于中文文本中的单词不像英文那样,不是根据空格或者标点符号进行分割的',cut_all=True))
--输出
['由于', '中文', '文文', '文本', '中', '的', '单词', '不', '像', '英文', '那样', ',', '不是', '根据', '空格', '或者', '标点', '标点符号', '符号', '进行', '分割', '的']#返回了“文文”这种词组

③搜索引擎模式:jieba.lcut_for_search(s),该模式首先执行精确模式,然后对其中长词进一步切分获得最终结果,提高召回率,适合用于搜索引擎分词。

import jieba
print(jieba.lcut_for_search('由于中文文本中的单词不像英文那样,不是根据空格或者标点符号进行分割的'))
--输出
['由于', '中文', '文本', '中', '的', '单词', '不像', '英文', '那样', ',', '不是', '根据', '空格', '或者', '标点', '符号', '标点符号', '进行', '分割', '的']#标点符号为长词,进一步拆分

jieba词库内容的自定义

使用add_word(s)函数可添加自定义内容

import jieba
print(jieba.lcut('利用厌疾医生',cut_all=True))
--输出
['利用', '厌', '疾', '医生']#“厌”“疾”为两个词

#添加词汇
import jieba
jieba.add_word('厌疾')
print(jieba.lcut('利用厌疾医生',cut_all=True))
--输出
['利用', '厌疾', '医生']#“厌疾”识别为一个词

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/70887.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chrome Google无法翻译?腾讯已经出手了,一劳永逸!

谷歌翻译中国版和谷歌地图中国版同时停服,此次停服也影响到谷歌浏览器翻译功能的使用。谷歌给出的官方回应是谷歌翻译和谷歌地图的中国版使用率都太低,既然使用率太低那直接停服也情有可原(笑笑)。 只是谷歌浏览器内置的翻译功能…

前端开发:JS中使用到的贪心算法场景

前言 在前端开发过程中,除了一般的逻辑使用之外,也会涉及到算法相关的知识,比如冒泡排序、数组去重/合并、贪心算法、八皇后算法等等,这些都是比较常用的前端算法相关的知识点。关于前端实际开发中用到的算法,虽然没有…

Studio Controls COM 64 for MFC 组合套件-dbi-tech

dbi-tech Studio Controls COM 64 - 新功能... Studio 控制 COM 64 位 v6.0 ctxCalendar - (v4.0.0.0) DBI Technologies Inc. 是一家创新的商业软件开发公司,专注于为应用程序开发人员提供最佳的端到端供应链可见性组件软件。DBI 以其屡获殊荣的组件软件产品和服务…

华为机试_HJ62 查找输入整数二进制中1的个数【简单】【收藏】

目录 描述 输入描述: 输出描述: 解题过程 提交代码一(常规方法) 提交代码二(位运算方法) 学习代码 代码一 代码二 收藏点 描述 输入一个正整数,计算它在二进制下的1的个数。 注意多…

kubernetes学习之路--基础概念以及搭建

写在前面:代码审计太难了,不想学了摆烂了,开始学云安全了。。。。 一.云介绍 云分类:公有云、私有云、混合云 云有三种服务模式:Laas、Paas 和 Saas Laas:基础设施即服务(Infrastructure-as…

[附源码]计算机毕业设计酒店客房管理信息系统Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

Git版本控制器

文章目录1.Git介绍1.1.什么是Git?1.2.Git的历史1.3.版本控制分类1.3.1.集中式版本控制1.3.2.分布式版本控制1.4.Github(Git服务器)1.5.Git原理2.使用前的准备2.1.准备Git2.1.1.安装Git2.1.2.配置环境变量2.1.3.IEDA配置Git2.1.4.安装git插件&#xff08…

java面向对象 final static 关键字

目录 关键字:static 类属性、类方法的设计思想 类变量(class Variable) 静态变量的内存解析 类方法(class method) 单例 (Singleton)设计模式 理解main方法的语法 代码块 关键字:final 总结 关键字:static 当我们编写一个类时&…

Vue.js设计与实现,读书笔记第一章

第一章:权衡的艺术 1.1命令式和声明式 jq是命令式,关注过程,jq针对简化dom 而产生的 vue是 声明式,关注实现,不严格地说就像是在命令式(关注过程)基础上再对标签进行了一次封装(关注实现) jQuery命令式…

干货 | Jmeter 如何保证抢购、秒杀活动正常运行?

1. 前言 平常为了保证运营促销、抽奖活动能正常运行,我们一般都需要使用 Jmeter、LoadRunner 对接口进行压力测试 使用它可以模拟一定量的用户同时去参与促销抽奖活动,最后生成测试报告,以此判系统接口的稳定性 本篇文章以抢购商品为例&am…

清华毕业大佬用了一个项目就把SpringMVC+Spring+MyBatis给讲完了

前言 时间飞逝,转眼间毕业七年多,从事 Java 开发也六年了。我在想,也是时候将自己的 Java 整理成一套体系。 这一次的知识体系面试题涉及到 Java 知识部分、性能优化、微服务、并发编程、开源框架、分布式等多个方面的知识点。 写这一套 Ja…

R语言学习笔记——入门篇:第五章-高级数据管理

R语言 R语言学习笔记——入门篇:第五章-高级数据管理 文章目录R语言一、数值与字符处理函数1.1、数学函数1.2、统计函数1.3、概率函数1.4、字符处理函数1.5、其他实用函数1.6、将函数应用于矩阵与数据框二、控制流2.1、循环(for,while&#…

从零开始带你实现一套自己的CI/CD(三)Jenkins+Harbor

目录一、简介二、安装Harbor2.1 Amd64架构安装Harbor2.2 Arm64架构安装Harbor找不到make命令找不到git命令执行make download和make compile_redis失败执行make compile_redis命令执行make prepare_arm_data命令执行make pre_update命令执行make compile COMPILETAGcompile_gol…

【OpenCV-Python】教程:4-4 SIFT 介绍

OpenCV Python SIFT (尺度不变特征变换) 【目标】 SIFT算法SIFT特征点和描述子 【理论】 前面的章节中,我们提到了角点检测,例如Harris角点,他们是旋转不变的,因为,图像无论如何旋转,其角点特性不会发生…

世界杯8强盘点

2022年卡塔尔世界杯(英语:FIFA World Cup Qatar 2022)是第二十二届世界杯足球赛,是历史上首次在卡塔尔和中东国家境内举行、也是第二次在亚洲举行的世界杯足球赛。除此之外,卡塔尔世界杯还是首次在北半球冬季举行、首次…

docker(八)compose

compose 一 简介: 通过前面几篇文章,我们了解了docker的基本知识,docker帮我们解决了服务打包安装的问题,但是随着服务的不断增多带来了如下问题: 多次使用Dockerfile Build Image或者DockerHub拉取Image;需要创建多…

Spark 动态资源分配参数与源码原理分析

1.1.1、Dynamic Allocation 1.1.1.1 参数说明 1.2 版本 参数名及默认值含义spark.dynamicAllocation.enabled false是否开启动态资源分配,主要是基于集群负载分配executorspark.dynamicAllocation.executorIdleTimeout60sexecutor空闲时间达到规定值&#xff0c…

程序人生:化解互联网 “寒冬” 危机,我教你摆脱困境

三年反复的yi情,近20年史无前例的互联网裁员潮汹涌而至。 寒冬来袭,每一个职场打工人,都感到了寒意。 互联网企业大裁员的底层逻辑,一方面是受宏观环境影响(yq、互联网红利结束、政策变化等),…

ChatGPT震撼上市,AI也开始跟你卷了,来一起看看怎么用ChatGPT!!!

强大AI产品,ChatGPT震撼上市,程序员真的要失业了吗? 最近聊天机器人异常火爆,火爆到什么程度,卖个关子,下文解释。 OpenAI推出了ChatGPT,它能够回答各种各样的问题,包括生成代码&a…

Node.js学习下(70th)

一、Buffer 缓冲区 背景 1、浏览器没有储存图片文件等媒体文件的需求,JS 存的都是一些基本数据类型。 2、服务器需要存储图片/视频/音频等媒体文件,因此有了 Buffer 缓冲器。 1. Buffer 是什么 Buffer 是一个和数组类似的对象,不同是 Buf…