N5 - 使用Gensim库训练word2vec模型

news2025/1/11 0:15:46
  • 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
  • 🍖 原作者:K同学啊

目录

  • 环境
  • 步骤
    • 分词
    • 训练word2vec模型
    • 模型应用
      • 计算词汇间的相似度
      • 找出不匹配的词汇
      • 计算词汇的词频
  • 总结与心得体会


环境

安装gensim和jieba库

pip install gensim jieba

步骤

分词

使用jieba进行分词,通过调整一些人名的词频,防止人名被分词。

names = ['沙瑞金', '田国富', '高育良', '候亮平', '钟小艾', '陈岩石', '欧阳菁', '易学习', '王大路', '蔡成功', '陈连城', '季昌明', '丁义珍', '郑西坡', '赵东来', '高小琴', '赵瑞龙', '林华华', '陆亦可', '刘新建', '刘庆祝', '赵德汉']

for name in names:
	jieba.suggest_freq(name, True)

然后读取文本,进行分词

with open('in_the_name_of_peoples.txt', encoding='utf-8') as f:
	result_cut = []
	lines = f.readlines()
	for line in lines:
		result_cut.append(jieba.lcut(line))
f.close()

添加自定义停用词,把一些标点,空格,符号等去除

stopwords_list = [',', '。', '\n', '\u3000', ' ', ':', '!', '?', "…"]

# 删除停用词
def remove_stopwords(ls):
	return [word for word in ls if word not in stopwords_list]
result_stop = [remove_stopwords(x) for x in result_cut if remove_stopwords(x)]

随机打印几行文字,看下效果

print(result_stop[100:103])

分词效果

训练word2vec模型

直接调用gensim提供的工具函数来进行模型训练

from gensim.models import Word2Vec

# vector_size 代表了特征向量的维度
# window=5 意思是一个句子中当前单词和被预测单词的最大距离
# min_count=1 可以对字典做截断,词频少于min_count次数的单词会被丢弃,不能在一起特征向量计算
model = Word2Vec(result_stop, vector_size=100, window=5, min_count=1)

模型应用

计算词汇间的相似度

可以使用similarity()方法计算两个词汇间的余弦相似度

print(model.wv.similarity('沙瑞金', '季昌明'))
print(model.wv.similarity('沙瑞金', '田国富'))

相似度
还可以在模型中选择出与给定的词汇最相似的n个词汇

for word, similarity in model.wv.most_similar(positive=['沙瑞金'], topn=5):
	print(word, similarity)

最相似的5个词汇

找出不匹配的词汇

odd_word = model.wv.doesnt_match(['苹果', '香蕉', '橙子', '书'])
print(f"在这组词汇中不匹配的词汇是: {odd_word}")

不匹配的词汇

计算词汇的词频

word_frequency = model.wv.get_vecattr('沙瑞金', 'count')
print(f"沙瑞金:{word_frequency}")

词汇的词频
说明沙瑞金这个词汇在所有的句子中一共出现了353次。

总结与心得体会

通过本次实验,我发现传统的机器学习与深度学习任务比起来,节约的计算机性能不是一点半点。因此在一个任务使用传统的机器学习方法就可以取得不错的效果时,其实根本就没有必要使用深度学习模型。
通过word2vec模型的部分应用效果,感觉效果比深度学习模型差别很大,有可能是因为停用词只去除了标点符号,但是中文有很多常见的停用词,如“的”,“了”这种词汇,但是有些动词在句子中是有意义的,在相似问题中却是没什么意义,就像上面搜索与沙瑞金相似度较高的词汇,竟然出现了“做”, “像”这种动词,显然是不太合理的。这可能就是Word2Vec模型的弊端,它并不能从句子角度来分析,只能在词汇的角度进行一些统计意义上的分析与建模。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1986599.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mysql实现MHA

一、什么是MHA 高可用模式下的故障切换,基于主从复制,单点故障和主从复制不能切换的问题,架构需要奇数台,至少需要3台,故障切换过程0-30秒,vip地址,根据vip地址所在的主机,确定主备…

全网最最实用--边缘智能的常见微调方式以及适用场景

文章目录 1. BitFit2. Adapter3. Prompt-Tuning4. Prefix-Tuning5. LoRA (Low-Rank Adaptation)6. QLoRA (Quantized Low-Rank Adaptation)7. LongLoRA总结 1. BitFit https://arxiv.org/abs/2106.10199 主要做法: BitFit(Bias Term Fine-Tuning&#…

日撸Java三百行(day15:栈的应用之括号匹配)

目录 一、栈的括号匹配 二、代码实现 1.方法创建 2.数据测试 3.完整的程序代码 总结 一、栈的括号匹配 要完成今天的任务,需要先来了解一下什么是栈的括号匹配。首先,顾名思义,括号匹配就是指将一对括号匹配起来,我们给定一…

HashTable源码

引子 看到一个关于HashMap和HashTable对比的面试题,于是简单看了下HashTable的源码,简单记录下。 概述 与HashMap相似的哈希表结构,有很多不同点: 节点数组的初始化是在构造函数中完成的,初始容量11,负载因…

基于JSP、java、Tomcat三者的项目实战--校园交易网(3)主页--历史清单

技术支持:JAVA、JSP 服务器:TOMCAT 7.0.86 编程软件:IntelliJ IDEA 2021.1.3 x64 前文几个功能的实现的博客 基于JSP、java、Tomcat、mysql三层交互的项目实战--校园交易网(1)-项目搭建(前期准备工作&a…

工具学习_CVE Binary Tool

1. 工具概述 CVE Binary Tool 是一个免费的开源工具,可帮助您使用国家漏洞数据库(NVD)常见漏洞和暴露(CVE)列表中的数据以及Redhat、开源漏洞数据库(OSV)、Gitlab咨询数据库(GAD&am…

鸿蒙AI功能开发【人脸活体验证控件】 机器学习-场景化视觉服务

人脸活体验证控件 介绍 本示例展示了使用视觉类AI能力中的人脸活体验证能力。 本示例模拟了在应用里,跳转人脸活体验证控件,获取到验证结果并展示出来。 需要使用hiai引擎框架人脸活体验证接口kit.VisionKit.d.ts。 效果预览 使用说明: …

RK3568平台开发系列讲解(文件系统篇)文件描述符 fd(File Descriptor)是什么?

📢USB控制传输是USB通信中的一种基本传输类型,用于控制USB设备的配置和操作。它由 Setup 阶段和 Data 阶段组成,可用于发送命令、读取状态、配置设备等操作。 一、文件描述符 fd(File Descriptor)是什么? 文件描述符 fd 是一个非负整数,用来标识一个打开的文件,由内核…

用户态tcp协议栈四次挥手-服务端发送fin时,客户端不返回ac

问题: 四次挥手时,服务端发送fin后,客户端不发送ack,反而过了2min后发了个rst报文 62505是客户端,8889是服务端 解决: 服务端返回fin报文时带上ack标记

微波武器反无人机技术详解

微波武器反无人机技术中展现出了独特的优势和广阔的应用前景。以下是对微波武器在反无人机技术方面的详细解析: 一、微波武器概述 微波武器是指配备高功率微波(High-Power Microwave, HPM)载荷的作战武器,能够发射高能量的电磁脉…

在AI浪潮中保持核心竞争力:XIAOJUSURVEY的智能化探索

讲点实在的 在AI技术快速发展的今天,各行各业的工作方式正经历深刻变革。尤其是身处浪潮中甚至最有机会推动发展的我们,更需要置身事内。 ChatGPT、Copilot等的普及,使得编程效率显著提升,但也带来了新的挑战。为了在这种变革中…

C++输出为非科学计数法不同数据类型表示范围

目录 一、C数据类型 1、基本的内置类型 2、修饰符 (1)signed 和 unsigned (2)short 和 long (3)区别总结 默认情况 二、类型转换 1、静态转换(Static Cast) 2、动态转换&a…

C语言——函数(1)

函数 定义: 函数就是用来完成一定功能的一段代码(程序)模块。 在设计较大的程序时,一般将其分为若干个程序模块,每个模块用来实现一定的功能。 函数优势: 我们可以通过函数提供功能给别人使用&#xff0c…

美国商超入驻Homedepot,传统家织厂家跨境赛道新选择?——WAYLI威利跨境助力商家

美国商超入驻Homedepot为传统家织厂家提供了新跨境选择。据《Interactive Home Shopping》一文,电子购物让消费者更易定位和比较产品。传统家织厂家可通过Homedepot等大型零售商,利用其平台优势,接触更广泛消费者。 根据《Homedepot之争——家…

【八股文】Redis

1.Redis有哪些数据类型 常用的数据类型,String,List,Set,Hash和ZSet(有序) String:Session,Token,序列化后的对象存储,BitMap也是用的String类型,…

案例:LVS+Keepalived集群

目录 Keepalived 原理 Keepalived案例 双机高可用热备案例 配置 修改配置文件 测试 严格模式测试 修改配置文件 测试 模拟故障测试 LVSKeepalived高可用 案例拓扑图 初步配置 关闭服务 主调度器配置 健康状态检查的方式 调整内核参数 从调度器配置 服务器池…

失业后才会明白,职场上有4个扎心的现象

最近一段时间,因为疫情的原因,很多企业都在经历着前所未有的困难,其中就包括华为这样的大型企业。 任正非在接受媒体采访的时候表示:“全球经济持续衰退,未来3到5年内都不可能转好……把寒气传递给每个人。 这句话一…

python中的魔术方法(特殊方法)

文章目录 1. 前言2. __init__方法3. __new__方法4. __call__方法5. __str__方法6. __repr__方法7. __getitem__方法8. __setitem__方法9. __delitem__方法10. __len__方法11. 富比较特殊方法12. __iter__方法和__next__方法13. __getattr__方法、__setattr__方法、__delattr__方…

深度学习DeepLearning Inference 学习笔记

神经网络预测 术语 隐藏层神经元多层感知器 神经网络概述 应当选择正确的隐藏层数和每层隐藏神经元的数量,以达到这一层的输出是下一层的输入,逐层变得清晰,最终输出数据的目的。 在人脸识别的应用中,我们将图片视作连续的像…

【Java 第九篇章】多线程实际工作中的头大的模块

多线程是一种编程概念,它允许多个执行路径(线程)在同一进程内并发运行。 一、多线程的概念和作用 1、概念 线程是程序执行的最小单元,一个进程可以包含多个线程。每个线程都有自己的程序计数器、栈和局部变量,但它们…