词的表示方法笔记——词向量+代码练习

news2026/2/12 16:53:46

词的表示方法：
一、one-hot（最简单）
独热编码是一种将单词转化为稀疏向量的方法，其中每个单词都表示为一个只有一个元素为1其余元素均为0的向量，其维度由词库的大小决定。。例如，对于包含 4个单词的词汇表 [tapple, banana, orange, peach] 单词“banana”的独热编码为[0,1,0,0]。
缺点：
（1）纬度灾难，有多少个词语我们的维度就多大，对于庞大的语料库来说，存储量和计算量都是问题；
（2）无法度量词语之间的相似性；
二、word embedding（词向量）
词向量则是一种将单词映射到连续向量空间中的方法，旨在捕捉单词之间的语义信息和关系。通过词向量，可以将自然语言处理中的单词转化为计算机可以处理的数字形式，从而便于进行文本分类、情感分析、机器翻译等任务。常见的词向量模型包括word2Vec、Glove、ELMo、BERT等。
词向量如何获取？
针对word2vec
（1）重要假设：文本中离得越近的词语相似度越高。
（2）其使用CBOW和skip-gram来计算词向量矩阵：
CBOW：使用上下文词来预测中心词；
skip-gram（常用）：使用中心词来预测上下文词；
评估词向量：输出与特定词语的相关度比较高的词语；可视化；类比实验：国王-王后=男人-女人
词向量的用途：
（1）主题聚类；
（2）情感分析；
（3）信息检索……
word2vec缺点
（1）没有考虑多义词；
（2）窗口长度有限；
（3）没有考虑全局的文本信息；
（4）不是严格意义的语序……

代码实现

导包

import jieba
import re
import numpy as np
from sklearn.decomposition import PCA
import gensim
from gensim.models import Word2Vec
import matplotlib.pyplot as plt
import matplotlib

分词

f = open("sanguo.txt", 'r',encoding='utf-8') #读入文本
lines = []
for line in f: #分别对每段分词
    temp = jieba.lcut(line)  #结巴分词 精确模式
    words = []
    for i in temp:
        #过滤掉所有的标点符号
        i = re.sub("[\s+\.\!\/_,$%^*(+\"\'””《》]+|[+——！，。？、~@#￥%……&*（）：；‘]+", "", i)
        if len(i) > 0:
            words.append(i)
    if len(words) > 0:
        lines.append(words)
print(lines[0:5])#预览前5行分词结果

[[‘三国演义’, ‘上卷’], [‘罗贯中’], [‘滚滚’, ‘长江’, ‘东’, ‘逝水’, ‘浪花’, ‘淘尽’, ‘英雄’, ‘是非成败’, ‘转头’, ‘空’, ‘青山’, ‘依旧’, ‘在’, ‘几度’, ‘夕阳红’], [‘白发’, ‘渔樵’, ‘江渚上’, ‘惯看’, ‘秋月春风’, ‘一壶’, ‘浊酒’, ‘喜相逢’, ‘古今’, ‘多少’, ‘事’, ‘都’, ‘付笑谈’, ‘中’], [‘–’, ‘调寄’, ‘临江仙’]]

模型训练

# 调用Word2Vec训练
# 参数：size: 词向量维度；window: 上下文的宽度，min_count为考虑计算的单词的最低词频阈值
#negative负采样，sg模型的训练算法1:skip-gram 0:CBOW
model = Word2Vec(lines,vector_size = 20, window = 2 , min_count = 3, epochs=7, negative=10,sg=1)
print("孔明的词向量：\n",model.wv.get_vector('孔明'))
print("\n和孔明相关性最高的前20个词语：")
model.wv.most_similar('孔明', topn = 20)# 与孔明最相关的前20个词语

在这里插入图片描述
可视化

# 将词向量投影到二维空间
rawWordVec = []
word2ind = {}
for i, w in enumerate(model.wv.index_to_key): #index_to_key 序号,词语
    rawWordVec.append(model.wv[w]) #词向量
    word2ind[w] = i #{词语:序号}
rawWordVec = np.array(rawWordVec)
X_reduced = PCA(n_components=2).fit_transform(rawWordVec)

rawWordVec #降维之前20维

在这里插入图片描述

X_reduced #降维之后2维

在这里插入图片描述

# 绘制星空图
# 绘制所有单词向量的二维空间投影
fig = plt.figure(figsize = (15, 10))
ax = fig.gca()
ax.set_facecolor('white')
ax.plot(X_reduced[:, 0], X_reduced[:, 1], '.', markersize = 1, alpha = 0.3, color = 'black')


# 绘制几个特殊单词的向量
words = ['孙权', '刘备', '曹操', '周瑜', '诸葛亮', '司马懿','汉献帝']

# 设置中文字体 否则乱码
zhfont1 = matplotlib.font_manager.FontProperties(fname='./华文仿宋.ttf', size=16)
for w in words:
    if w in word2ind:
        ind = word2ind[w]
        xy = X_reduced[ind]
        plt.plot(xy[0], xy[1], '.', alpha =1, color = 'orange',markersize=10)
        plt.text(xy[0], xy[1], w, fontproperties = zhfont1, alpha = 1, color = 'red')

在这里插入图片描述
类比关系实验

# 玄德－孔明＝？－曹操
words = model.wv.most_similar(positive=['玄德', '曹操'], negative=['孔明'])
words

在这里插入图片描述

# 曹操－魏＝？－蜀
words = model.wv.most_similar(positive=['曹操', '蜀'], negative=['魏'])
words

在这里插入图片描述
代码参考：【词向量 | word2vec | 理论讲解+代码 | 文本分析【python-gensim】-哔哩哔哩】 https://b23.tv/O02nfAb

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/450787.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

词的表示方法笔记——词向量+代码练习

代码实现

相关文章

Python二分查找（折半查找）的实现

【基础算法】栈和队列

手写axios源码系列二：创建axios函数对象

Xilinx FPGA下如何加快QSPI Flash加载速度

特征选择算法 | Matlab实现基于互信息特征选择算法的分类数据特征选择 MI

【1105. 填充书架】

题目3180:蓝桥杯2023年第十四届省赛真题-互质数的个数======及探讨互质专题

世界读书日|这些值得程序员反复阅读的经典书

【远程工具】- MobaXterm 的下载、安装、使用、配置【Telnet/ssh/Serial】

JavaScript概述三（循环结构+BOM浏览器对象模型+JSON对象）

Redis队列Stream、Redis多线程详解（三）

CTA进网测试《5G消息终端测试方法》标准依据：YDT 3958-2021

ArcGIS Pro用户界面

注册表取证

无需代码！新人可操作！分享20个可视化大屏(内附下载）

03 - 大学生如何使用GPT

「区间DP-步入」凸多边形的划分

云智慧陆兴海：统一运维体系为数字政府建设保驾护航

无源滤波器为什么能滤波？

ChatGPT: 从GPT-3.5到GPT-4，探索语言模型的演进之路