人工智能中常用的python模块

news2025/1/15 22:59:14

一:pypinyin

作用:汉字转拼音

pip3 install pypinyin

使用

from pypinyin import lazy\_pinyin,TONE2,TONE

res \= lazy\_pinyin('先帝创业未半')
print(res)  #\['xian', 'di', 'chuang', 'ye', 'wei', 'ban'\]
res \= lazy\_pinyin('先帝创业未半',style=TONE2)
print(res) #\['xia1n', 'di4', 'chua4ng', 'ye4', 'we4i', 'ba4n'\]
print(''.join(res))#xia1ndi4chua4ngye4we4iba4n

res \= lazy\_pinyin('先帝创业未半',style=TONE)
print(res)  #\['xiān', 'dì', 'chuàng', 'yè', 'wèi', 'bàn'\]

打个小广告——分享一份Python学习大礼包(激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程)点击免费领取!

二:jieba

作用:把一句话分成词组

pip3 install jieba

使用

import jieba

res \= jieba.cut('皇帝打天下打到一半就挂了')
print(res)#<generator object Tokenizer.cut at 0x000001544D390888>
res \= list(jieba.cut('皇帝打天下打到一半就挂了'))
print(res)  #\['皇帝', '打天下', '打', '到', '一半', '就', '挂', '了'\]
res \= list(jieba.cut\_for\_search('皇帝打天下打到一半就挂了'))
print(res)  #\['皇帝', '天下', '打天下', '打', '到', '一半', '就', '挂', '了'\]

jieba.add\_word('挂了')  #添加到词库(必须符合中文结构)
res = list(jieba.cut('皇帝打天下打到一半就挂了'))
print(res)  #\['皇帝', '打天下', '打', '到', '一半', '就', '挂了'\]

三:gensim

作用:语言训练库

自然语言处理(NLP) : 大概意思就是 让计算机明白一句话要表达的意思,NLP就相当于计算机在思考你说的话,让计算机知道"你是谁",“你叫啥”,"你叫什么名字"是一个意思

这就要做 : 语义相似度

import jieba
import gensim
from gensim import corpora
from gensim import models
from gensim import similarities

l1 \= \["你的名字是什么", "你今年几岁了", "你有多高"\]
a \= "你今年多大了"

all\_doc\_list \= \[\]
for doc in l1:
    doc\_list \= \[word for word in jieba.cut(doc)\]
    all\_doc\_list.append(doc\_list)

print(all\_doc\_list)
doc\_test\_list \= \[word for word in jieba.cut(a)\]

# 制作语料库
dictionary = corpora.Dictionary(all\_doc\_list)  # 制作词袋
# 词袋的理解
# 词袋就是将很多很多的词,进行排列形成一个 词(key) 与一个 标志位(value) 的字典
# 例如: {'什么': 0, '你': 1, '名字': 2, '是': 3, '的': 4, '了': 5, '今年': 6, '几岁': 7, '多': 8, '有': 9, '高': 10,}
# 至于它是做什么用的,带着问题往下看

print("token2id", dictionary.token2id)
print("dictionary", dictionary, type(dictionary))

corpus \= \[dictionary.doc2bow(doc) for doc in all\_doc\_list\]
# 语料库:
# 这里是将all\_doc\_list 中的每一个列表中的词语 与 dictionary 中的Key进行匹配
# 得到一个匹配后的结果,例如\['你', '今年', '几岁', '了'\]
# 就可以得到 \[(1, 1), (5, 1), (6, 1), (7, 1)\]
# 1代表的的是 你 1代表出现一次, 5代表的是 了  1代表出现了一次, 以此类推 6 = 今年 , 7 = 几岁
print("corpus", corpus, type(corpus))

# 将需要寻找相似度的分词列表 做成 语料库 doc\_test\_vec
doc\_test\_vec = dictionary.doc2bow(doc\_test\_list)
print("doc\_test\_vec", doc\_test\_vec, type(doc\_test\_vec))

# 将corpus语料库(初识语料库) 使用Lsi模型进行训练
lsi = models.LsiModel(corpus)
# 这里的只是需要学习Lsi模型来了解的,这里不做阐述
print("lsi", lsi, type(lsi))
# 语料库corpus的训练结果
print("lsi\[corpus\]", lsi\[corpus\])
# 获得语料库doc\_test\_vec 在 语料库corpus的训练结果 中的 向量表示
print("lsi\[doc\_test\_vec\]", lsi\[doc\_test\_vec\])

# 文本相似度
# 稀疏矩阵相似度 将 主 语料库corpus的训练结果 作为初始值
index = similarities.SparseMatrixSimilarity(lsi\[corpus\], num\_features=len(dictionary.keys()))
print("index", index, type(index))

# 将 语料库doc\_test\_vec 在 语料库corpus的训练结果 中的 向量表示 与 语料库corpus的 向量表示 做矩阵相似度计算
sim = index\[lsi\[doc\_test\_vec\]\]

print("sim", sim, type(sim))

# 对下标和相似度结果进行一个排序,拿出相似度最高的结果
# cc = sorted(enumerate(sim), key=lambda item: item\[1\],reverse=True)
cc = sorted(enumerate(sim), key=lambda item: -item\[1\])
print(cc)

text \= l1\[cc\[0\]\[0\]\]

print(a,text)

本期先分享到这,更多内容【点击这里】先睹为快!

Python所有方向的学习路线图,清楚各个方向要学什么东西
100多节Python课程视频,涵盖必备基础、爬虫和数据分析
100多个Python实战案例,学习不再是只会理论
华为出品独家Python漫画教程,手机也能学习
历年互联网企业Python面试真题,复习时非常方便
请添加图片描述
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2104653.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是网络威胁情报?

目录 网络威胁情报定义 网络威胁情报的优势 常见攻击指标(IOC) 数据与情报 谁从威胁情报中受益&#xff1f; 我的组织是否具备威胁情报能力&#xff1f; 全面网络威胁情报的价值 提供威胁情报的三种方式 战略威胁情报 战术威胁情报 运营威胁情报 威胁情报解决方案中…

【主机入侵检测】开源安全平台Wazuh之Wazuh Server

引言 Wazuh是一个开源的、免费的企业级安全监控解决方案&#xff0c;专注于威胁检测、完整性监控、事件响应和合规性。它由部署在受监控系统的端点安全代理和管理服务器组成&#xff0c;服务器收集并分析代理收集的数据。Wazuh支持多平台&#xff0c;包括Windows、Linux、macOS…

Qt (14)【Qt窗口 —— 文件对话框 QFileDialog】

阅读导航 引言一、文件对话框 QFileDialog简介二、基本用法1. 打开文件&#xff08;一次只能打开一个文件&#xff09;2. 打开多个文件&#xff08;一次可以打开多个文件&#xff09;3. 保存文件⭕参数说明 三、使用示例四、注意事项 引言 在之前的文章中&#xff0c;我们学习…

【Java】封装

文章目录 前言一、封装是什么&#xff1f;总结 前言 了解封装&#xff0c;运用起来。 一、封装是什么&#xff1f; 封装&#xff1a;就是隐藏对象的属性和实现细节&#xff0c;仅对外提供公共访问方式。 专业术语有点难以理解&#xff0c;但是可以用通俗易懂的例子来理解&am…

小皮面板webman ai项目本地启动教程

1.前置条件 下载小皮面板 下载后&#xff0c;双击安装&#xff0c;一路next&#xff08;下一步&#xff09;&#xff0c;无需更改配置。 2.安装必须软件 在小皮面板的软件管理页&#xff0c;安装编号①②③④下面四个软件。 3.启动本地服务 进入到小皮面板的首页&#x…

机器学习引领未来:赋能精准高效的图像识别技术革新

图像识别技术近年来取得了显著进展,深刻地改变了各行各业。机器学习,特别是深度学习的突破,推动了这一领域的技术革新。本文将深入探讨机器学习如何赋能图像识别技术,从基础理论到前沿进展,再到实际应用与挑战展望,为您全面呈现这一领域的最新动态和未来趋势。 1. 引言 …

线性表之双向链表

1. 双向链表的结构 对于单向链表和单向循环链表而言有一个共同的特点&#xff0c;就是链表的每个节点都只有一个指向后继节点的指针&#xff0c;通过这个指针我们就可以从前往后完成对链表的遍历。但是开弓没有回头箭&#xff0c;遍历到尾节点之后再想要回到头结点&#xff0c…

电脑实时监控软件都有哪些,哪款好用?五款热门软件盘点!(珍藏篇)

"洞察秋毫明察见&#xff0c;安全守护在于心。" 在数字化浪潮汹涌的今天&#xff0c;电脑实时监控软件如同古代的明镜高悬&#xff0c;不仅照亮了企业管理的每一个角落&#xff0c;更以科技之力&#xff0c;守护着数据安全与业务高效运转的底线。 本文将带您领略八款…

中秋赏月,白酒相伴更添情趣

月华如练&#xff0c;秋风送爽&#xff0c;又是一年中秋时。在这个象征着团圆与和谐的佳节里&#xff0c;明月当空&#xff0c;照亮了大地的每一个角落&#xff0c;也照亮了人们心中那份深深的思念与期盼。而在这样的夜晚&#xff0c;若有一瓶豪迈白酒&#xff08;HOMANLISM&am…

快速回顾-CSS3

回顾 1 效果图 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>CSS66</title><style…

C++,拷贝构造 详解

文章目录 1. 概述1.1 拷贝构造函数的定义1.2 拷贝构造函数的特点 参考 1. 概述 拷贝构造&#xff0c;也被称为复制构造或拷贝构造函数&#xff0c;是C中的一种特殊构造函数。其主要作用是在创建一个新对象时&#xff0c;将另一个已存在的同类型对象的值拷贝到新对象中。拷贝构…

代码随想录冲冲冲 Day36 动态规划Part4

又一次越来越感受到了动规的“魅力”&#xff0c;头发又开始掉了 1049. 最后一块石头的重量 II 1.dp数组 dp[j]中的 j是 背包为j的情况下 最多能背的石头的最大量 2.dp数组初始化 首先dp[j]中j表示的是容量 那么这个容量最大值就是所有石头的总重量 因为提示中给出1 <…

前端入门了解

1. 网页 1.1 网页概述 1.2 超文本标记语言 1.3 网页的形成 2. 浏览器了解 网页需要通过浏览器来展示&#xff0c;下面是关于浏览器的两点; 国际上通用的浏览器有如下六个&#xff08;百度&#xff0c;360&#xff0c;uc等是主要在国内使用&#xff09;&#xff0c; 3. We…

QT Android开发之Android端usb调试模式设置与问题解决

一.QT android开发android端usb调试模式设置 QT android开发环境搭建完成后,android设备需要打开usb调试模式才能正常连接,下面以小米ipad为例进行设置(其他手机和ipad设置方法类似) 常见问题: 本文会介绍相关问题的解决方法。 二.小

先别急着夸华为 更炸裂的在后面

文&#xff5c;琥珀食酒社 作者 | 积溪 你们都消停点吧 更炸裂的还在后面 上周华为不是披露了半年报吗&#xff1f; 上半年销售收入4175亿元 同比增长34.3% 净利润551.1亿元 全网那是“哇塞”一片 部分见不得华为好的 也开始阴阳怪气了 今天我就来统一降降火 你们都…

源代码保密中一机两用的意义是什么

在数字化办公时代&#xff0c;企业面临着既要保障数据安全又要提高工作效率的双重挑战。SDC沙盒技术应运而生&#xff0c;为实现“一机两用”提供了一种高效且安全的综合解决方案。所谓“一机两用”&#xff0c;即在同一台电脑上&#xff0c;既能处理敏感的工作任务&#xff0c…

什么是数字化?数字化的意义有哪些?简单聊下我所理解的数字化

我理解的「数字化」有两个层面的意义&#xff1a; 第一&#xff0c;打破「信息壁垒」&#xff0c;从而全面提升公司和全社会沟通&#xff0c;生产和经营效率。第二&#xff0c;释放创造力&#xff0c;用创新的方式不断提升用户体验&#xff0c;解决用户的问题。 再说说数字化…

34523423

c语言中的小小白-CSDN博客c语言中的小小白关注算法,c,c语言,贪心算法,链表,mysql,动态规划,后端,线性回归,数据结构,排序算法领域.https://blog.csdn.net/bhbcdxb123?spm1001.2014.3001.5343 给大家分享一句我很喜欢我话&#xff1a; 知不足而奋进&#xff0c;望远山而前行&am…

这个桌面插件真的酷!该有的都有了!改造桌面必备神器

这个桌面插件真的酷&#xff01;该有的都有了&#xff01;改造桌面必备神器。一个好用的桌面插件可以给我们提供很多的方便&#xff0c;给自己桌面打扮一下&#xff0c;定制一个自己喜欢的桌面插件&#xff0c;让桌面变得更美观实用&#xff01; 如何给桌面添加一个实用的插件&…

Visual Studio+Qt配置开发环境

一些基础知识 1.QtVisual Stuido在开发Windows程序时需要安装MSVC编译器&#xff0c;此时需要安装的编译器版本和VS版本匹配&#xff0c;具体匹配关系如下&#xff1a; Qt版本MSVC编译器版本匹配的VS版本生成32位程序生成64位程序5.9MSVC2015VS2015可以可以5.12MSVC2017VS2017…