python机器学习8--自然语言处理(1)

news2024/9/21 18:30:45

1.基本定义:

语义:就是一句话的重点是什么。

自定词汇:因为语言、文字太多,自定和处理你所关心的重点词汇。

简体转繁体代码

from opencc import OpenCC

text1 = "我去过清华大学"
openCC = OpenCC('s2t')
line = openCC.convert(text1)
print(" "+text1)  # 打印原文本
print("s2t;"+line)  # 打印转换后的文本

结果如下:

 2.中文分词断词工具

        在中文分词的处理方面,Python有几个第三方的程序pymmseg、smallseg和jieba,本节将介绍的是jieba。这个需要先安装。

pip install jieba

        原理: jieba中文分词所使用的算法是通过Trie Tree(又称前缀树或字典树)结构去创建句子,根据文字所有可能成词的情况,通过动态规划算法找出最大概率的路径,这个路径就是基于词频的最大断词结果。对于字典词库中不存在的词,则使用HMM(Hidden Markov Model,隐马尔可夫模型)及Viterbi算法来辨识出来。

一个小demo

import jieba
text1="我去过清华大学"
test2="小明来到了行研大厦"
seg_list=jieba.cut(text1,cut_all=True,HMM=False)
print("Full Mode:"+"/".join(seg_list))
seg_list=jieba.cut(text1,cut_all=False,HMM=True)
print("Default Mode:"+"/".join(seg_list))
print(",".join(jieba.cut(test2,HMM=True)))
print(",".join(jieba.cut(test2,HMM=False)))
print(",".join(jieba.cut(test2)))
print(",".join(jieba.cut_for_search(test2)))

运行结果

上面的几种模式:

        Full Mode(全模式):试图将句子最精确地切开,适合文本分析,输出的是所有可能的分词组合,比如清华大学,会被分成:清华、清华大学、华大、大学。

        Default Mode(精确模型):把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义,比如清华大学,只会输出清华大学。

        jieba.cut_for_search(搜索引擎模式):在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

注意有些词分割不正确,可以自己进行设置jieba.load_userdict("userdict.txt")这样再次通过jieba.cut(text)切割后就会达到自己的预期了。取得词性jieba.posseg.cut(text)

3.使用TF-IDF算法的关键词计算

 jieba.analyse.extract_tags(content, topK = 20, withWeight = True, allowPOS=( ))

参数如下:

· content:待处理的文字。

· topK:返回关键词的数量,重要性权重TF-IDF从高到低排序,如topK=20,就是回传20个最重要的分词。

· withWeight:设置为True或False,即是否返回每个关键词的权重TF-IDF。

· allowPOS:词性过滤,为空表示不过滤。词性,如同jieba.posseg.cut所输出的内容,即n是名词、v是动词。

        关键词的权重(TF-IDF)也就是这个关键词在这篇文章中所出现的比重。有很多不同的数学公式可以用来计算TF-IDF,具体公式不在详细介绍。

import sys
from os import path
import jieba
import jieba.analyse

# 取得现在的路径
d = path.dirname(__file__)

# 读取文本
with open(path.join(d, "C:\\Users\\nsy\\Desktop\\test.txt"), 'r', encoding='utf-8') as f:
    text = f.read()

# 去除不要的文字
text = text.replace("", "")  # 这里假设您要替换的是一个特定的字符串,但原代码中是空的
text = text.replace("「", "")
text = text.replace("」", "")
text = text.replace(",", "")
text = text.replace(" ", "")

# 使用jieba进行分词
print('/'.join(jieba.cut(text)))

# 开启HMM做分词动作
# 样例1使用自定义字典
jieba.load_userdict(path.join(d, "C:\\Users\\nsy\\Desktop\\userdict.txt.txt"))  # 加载自定义字典

# 再次使用自定义字典进行分词
print('/'.join(jieba.cut(text)))

# 样例2取得词性
words = jieba.posseg.cut(text)
for word, flag in words:
    print('%s, %s' % (word, flag))  # 显示切割的词语和词性

# 样例3和样例4取得关键字
if sys.version_info > (3, 0):
    content = text
else:
    content = text.decode('utf-8')

keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v'))

# 访问捕获结果
for item in keywords:
    print('%s=%f' % (item[0], item[1]))  # 分别为关键词和相应的权重

print("程序执行完毕")

运行结果:

 4.自定分词

        jieba.load_userdict,在jieba之中,还有另一个类似的函数jieba.suggest_freq。

from os import path
import jieba
import jieba.analyse
d=path.dirname(__file__)
text="今天学习好累,还没有效率"
text=text.replace(",","")
print('/'.join(jieba.cut(text)))
jieba.suggest_freq('还没有',True)
print('/'.join(jieba.cut(text)))
                   

 取出断词位置

jieba.tokenize(文字)
import sys
from os import path
import jieba

# 获取脚本文件的目录
d = path.dirname(__file__)
# 定义自定义词典的路径
userdict_path = path.join(d, "C:\\Users\\nsy\\Desktop\\userdict.txt.txt")
# 加载自定义词典
jieba.load_userdict(userdict_path)

# 定义要分词的文本
content = "今天学习好累,在家还没有效率"

# 使用自定义词典进行精确模式分词
print('default' + '-'*40)
result = jieba.cut(content, use_paddle=False)  # 精确模式
for word in result:
    print(word)

# 使用自定义词典进行搜索引擎模式分词
print('tokenize search' + '-'*40)
result = jieba.cut_for_search(content)  # 搜索引擎模式
for word in result:
    print(word)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1947202.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【系统架构设计师】计算机组成与体系结构 ⑯ ( 奇偶校验码 | CRC 循环冗余码 | 海明码 | 模 2 除法 )

文章目录 一、校验码1、校验码由来2、奇偶校验码3、CRC 循环冗余码 ( 重点考点 )4、海明码校验 ( 软考不经常考到 ) 二、CRC 循环冗余码 ( 重点考点 )1、模 2 除法概念2、模 2 除法步骤3、模 2 除法示例4、CRC 循环冗余码示例 15、CRC 循环冗余码示例 2 参考之前的博客 : 【计…

基于微信小程序的自习室选座系统/基于Java的自习室选座系统/自习室管理系统的设计与实现

获取源码联系方式请查看文章结尾🍅 摘要 自习室选座是学校针对用户必不可少的一个部分。在学校的整个过程中,学生担负着最重要的角色。为满足如今日益复杂的管理需求,各类微信小程序自习室选座也在不断改进。本课题所设计的小程序自习室选座系…

npm下载pnpm

一、提供node_global和node_cache的文件夹 若不存在,可自行新建文件夹 二、配置环境变量 配置NODE_PATH变量: 配置Path变量: 三、执行cmd指令 npm config set prefix "D:\Configure\nodejs\node_global" npm config set cache &…

cdga|数据治理难题破解:策略与实施路径

随着信息技术的飞速发展,数据已成为企业最宝贵的资产之一。然而,数据治理的复杂性也随之增加,如何有效管理、保护和利用数据成为摆在企业面前的一大难题。本文将从数据治理的挑战入手,探讨其破解策略与实施路径。 数据治理的挑战 …

华为IoTDA平台下发MQTT消息

前一篇博文介绍了如何使用MQTTX连接华为IoTDA平台并上报消息,本文介绍一下如何下发消息。 IoT设备接入平台支持MQTT协议设备进行命令下发,属性设置,属性查询以及消息下发等操作。 在进入指定设备的页面后,选择“云端下发”&#…

洛谷 P9854 [CCC 2008 J1] Body Mass Index

这题让我们计算出 BMI 值,随后判断属于哪个等级。 BMI 值计算公式: ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​。 BMI 范围 对应信息 …

element-plus时间组件el-date-picker只能选择当前及之前日期

<el-date-picker v-model"timeVal" type"daterange" value-format"YYYY-MM-DD" range-separator"To" start-placeholder"开始时间" end-placeholder"结束时间" />默认是这样的&#xff0c;需要绑定disabled…

安卓手机怎么恢复出厂设置?之后如何恢复数据?3个技巧解决

随着时间的推移&#xff0c;手机可能会遇到性能下降、系统崩溃或其他问题。在这种情况下&#xff0c;恢复出厂设置成为了一个常见的解决方案。安卓手机怎么恢复出厂设置&#xff1f;如何在恢复出厂设置后恢复数据呢&#xff1f;本文将详细解答这些问题&#xff0c;并分享3个数据…

JavaWeb-Servlet(1)-Servlet程序、请求处理、继承体系

目录 什么是Servlet 手动实现Servlet程序 ​编辑url地址如何定位到Servlet程序去访问 Servlet的生命周期 ​编辑GET和POST请求的分发处理 通过继承HttpServlet类实现Servlet程序 IDEA菜单生成Servlet程序 Servlet类的继承体系 ServletConfig类 ServletContext类 什么…

Elasticsearch 7.x入门学习-Java API操作

1 创建项目 在idea开发工具中创建Maven项目 修改 pom 文件&#xff0c;增加 Maven 依赖关系 <dependencies><dependency><groupId>org.elasticsearch</groupId><artifactId>elasticsearch</artifactId><version>7.8.0</versi…

2024恶意样本提交激励计划:年中特别回馈惊喜来袭

恶意样本提交激励计划 “恶意样本提交激励计划”由CACTER邮件安全发起&#xff0c;主要目的是更好地帮助客户排查潜在风险问题&#xff0c;同时丰富Coremail邮件安全大数据中心威胁邮件云端特征库&#xff0c;共同提升Coremail邮件安全大数据中心的识别能力&#xff0c;共同建…

别错过!2024年苹果iPhone AI革命:揭秘技术突破与未来蓝图

本文首发于公众号“AntDream”&#xff0c;欢迎微信搜索“AntDream”或扫描文章底部二维码关注&#xff0c;和我一起每天进步一点点 2024年&#xff0c;苹果公司的iPhone手机在技术创新和系统升级方面展现出一系列亮点&#xff0c;预示着苹果在智能手机领域的持续领导地位。以下…

【python】Python中采集Prometheus数据,进行数据分析和可视化展示

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

openEuler安装docker,加速镜像拉取

文章目录 文章来源1.配置镜像源2.编辑配置文件3.安装想要的版本4. ~ 原神&#xff01;5.由于很多镜像无法拉取配置镜像源 文章来源 http://t.csdnimg.cn/zYDYy 原文连接 由于之前的仓库不让用且 1.配置镜像源 由于 国外的镜像仓库好多不让用 所以配置阿里的镜像源 yum-confi…

MySQL之视图和索引

新建数据库 插入数据 处理表 1. 2. 3. mysql> alter table sc add unique index SC_INDEX (sno asc,cno asc); 4. mysql> create view stu_info as select student.sno,ssex,sc.cno,score from student join sc on student.snosc.sno; 5. mysql> drop index S…

VD2120-DB可替代HY2120-DB 两串可充电锂电池保护IC

VD2120系列10,内置高精度电压检测电路和延时电路&#xff0c;是用于2节串联锂离子/锂聚合物可再充电电池的保护IC。VD2120系列IC适合于对2节串联可再充电锂离子/锂聚合物电池的过充电、过放电和过电流进行保护。 VD2120-DB的参数如下 HY2120-DB的参数如下 参数上面的使用上基本…

LeetCode - #103 二叉树的锯齿形层序遍历

文章目录 前言1. 描述2. 示例3. 答案关于我们 前言 我们社区陆续会将顾毅&#xff08;Netflix 增长黑客&#xff0c;《iOS 面试之道》作者&#xff0c;ACE 职业健身教练。&#xff09;的 Swift 算法题题解整理为文字版以方便大家学习与阅读。 LeetCode 算法到目前我们已经更新…

销售分析,奥威BI,销售好帮手

【销售分析&#xff0c;奥威BI&#xff0c;销售好帮手】 在商海浮沉中&#xff0c;销售数据是企业最宝贵的资产之一&#xff0c;它不仅反映了市场的反馈&#xff0c;更是指引企业未来战略方向的灯塔。奥威BI&#xff08;Business Intelligence&#xff09;&#xff0c;作为数据…

【实现100个unity特效之8】使用ShaderGraph实现2d贴图中指定部分局部发光效果

最终效果 寒冰法师 火焰法师 文章目录 最终效果寒冰法师火焰法师 素材一、功能分析实现方法基本思路Unity的Bloom后处理为什么关键部位白色&#xff1f;最终结果 二、 新建URP项目三、合并图片四、使用PS制作黑白图片方法一 手动涂鸦方法二 魔棒工具1. 拖入图片进PS&#xff0…

干货 | 记一次src通杀漏洞挖掘

0x1 前言 这里我是有目的地去对某机构或者某学校进行渗透测试漏洞挖掘的&#xff0c;之前在网上看到很多文章说可以直接去edusrc官网的漏洞排行榜上去找&#xff0c;可以去看一些开发商排行榜以及某些高校大学的排行榜&#xff0c;里面有很多的该公司或者该学校的漏洞提交情况…