【NLP练习】调用Gensim库训练Word2Vec模型

news2025/4/14 7:44:24

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

一、准备工作

1.安装Gensim库

使用pip安装：

!pip install gensim

2. 对原始语料分词

选择《人民的民义》的小说原文作为语料，先采用jieba分词。

import jieba
import jieba.analyse

#加入一些词，使得jieba分词准确率更高
jieba.suggest_freq('沙瑞金',True)
jieba.suggest_freq('田国富',True)
jieba.suggest_freq('高育良',True)
jieba.suggest_freq('侯亮平',True)
jieba.suggest_freq('钟小艾',True)
jieba.suggest_freq('陈岩石',True)
jieba.suggest_freq('欧阳菁',True)
jieba.suggest_freq('易学习',True)
jieba.suggest_freq('王大路',True)
jieba.suggest_freq('蔡成功',True)
jieba.suggest_freq('孙连城',True)
jieba.suggest_freq('季昌明',True)
jieba.suggest_freq('丁义珍',True)
jieba.suggest_freq('郑西坡',True)
jieba.suggest_freq('赵东来',True)
jieba.suggest_freq('高小琴',True)
jieba.suggest_freq('赵瑞龙',True)
jieba.suggest_freq('林华华',True)
jieba.suggest_freq('陆亦可',True)
jieba.suggest_freq('刘新建',True)
jieba.suggest_freq('刘庆祝',True)
jieba.suggest_freq('赵德汉',True)

with open(r'C:\Users\zhangjh46\Downloads\in_the_name_of_people.txt','r',encoding = 'UTF-8') as f:
    result_cut = []
    lines = f.readlines()
    for line in lines:
        result_cut.append(list(jieba.cut(line)))
        
f.close()

输出：
在这里插入图片描述

stopwords_list = ["，","。","\n","\u3000"," ","：","！","？","..."]

def remove_stopwords(ls):
    return [word for word in ls if word not in stopwords_list]

result_stop = [remove_stopwords(x) for x in result_cut if remove_stopwords(x)]
print(result_stop[100:103])

输出：

[['侯亮平', '也', '很', '幽默', '一把', '抓住', '了', '赵德汉', '的', '手', '哎', '赵', '处长', '我', '既', '来', '了', '还', '真', '舍不得', '和', '你', '马上', '就', '分手', '哩', '咱们', '去', '下', '一个点', '吧', '说', '罢', '从', '赵家', '桌上', '杂物', '筐', '里', '准确', '地', '拿出', '一张', '白色', '门卡', '插到', '了', '赵德汉', '的', '上衣', '口袋', '里'], ['赵德汉', '慌', '了', '忙', '把门', '卡往', '外', '掏', '这', '…', '…', '这', '什么', '呀', '这', '是'], ['你', '帝京', '苑', '豪宅', '的', '门', '卡', '啊', '请', '继续', '配合', '我们', '执行公务', '吧']]

二、训练Word2Vec模型

from gensim.models import Word2Vec

model = Word2Vec(result_stop,
                vector_size=100,
                window=5,
                min_count = 1)

三、模型应用

1. 计算词汇相似度

我们可以使用similarity()方法计算两个词汇之间的余弦相似度。

print(model.wv.similarity('沙瑞金','季昌明'))
print(model.wv.similarity('沙瑞金','田国富'))

输出：

0.9995858
0.99938

#选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'],topn=5):
    print(e[0],e[1])

输出：

这位 0.9998286962509155
李达康 0.9998038411140442
陈清泉 0.9997875094413757
有些 0.999778687953949
陈岩石 0.9997553825378418

2. 找出不匹配的词汇

使用doesnt_match()方法，我们可以找到一组词汇中与其他词汇不匹配的词汇。

odd_word = model.wv.doesnt_match(["苹果","香蕉","橙子","书"])
print(f"在这组词汇中不匹配的词汇：{odd_word}")

输出：

在这组词汇中不匹配的词汇：书

3. 计算词汇的词频

我们可以使用get_vecattr()方法获取词汇的词频。

word_frequency = model.wv.get_vecattr("沙瑞金","count")
print(f"沙瑞金:{word_frequency}")

输出：

沙瑞金:353

四、总结

Gensim库在使用的过程中更加高效、易用

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1590808.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【NLP练习】调用Gensim库训练Word2Vec模型

一、准备工作

1.安装Gensim库

2. 对原始语料分词

二、训练Word2Vec模型

三、模型应用

1. 计算词汇相似度

2. 找出不匹配的词汇

3. 计算词汇的词频

四、总结

相关文章

12.4.1 实验1：配置CDP

js解密心得，记录一次抓包vue解密过程

SpringBoot与MyBatisPlus的依赖版本冲突问题

MongoDB的安装和使用

基于单片机的智能居家火灾报警系统

element-ui的年份范围选择器，选择的年份需等于或小于当前年份，选择的年份范围必须在三年之内

地理空间分析中的深度学习应用

Harmony鸿蒙南向外设驱动开发-Camera

【c 语言】结构体的定义格式及变量初始化

vue3 依赖-组件tablepage-vue3说明文档，列表页快速开发，使用思路及范例（Ⅳ）其他配置项

可视化大屏的应用（13）：在智慧校园的九项应用

BERT论文解读及情感分类实战

MES实施优势有哪些？MES制造执行系统的主要内容

O2OA开发平台如何查看数据表结构？

位像素海外仓管理系统对接ERP系统教程，一对一教学

C/C++：实现一个柱状统计图

数据结构课程设计（八）---排序算法比较 [排序]

搭建Maven的Nexus3私服

【INNODB引擎篇】深奥探究Innodb存储引擎

修改cmd默认编码(win10系统) 亲测有效