【NLP】daydayup 词向量训练模型word2vec

news2024/11/15 19:53:31

词嵌入算法 word2vec

word2vec是一种高效训练词向量的模型,基本出发点是上下文相似的两个词。它们的词向量也应该相似。一般分为CBOW(Continuous Bag-of-Words)与 Skip-Gram

  • CBOW 词袋模型,使用中心词周围的词来预测中心词,中心词是目标,周围词是输入
  • Skip-gram 根据中心词来预测周围词,中心词是输入,周围词是目标
  • 左图为CBOW 右图是Skip-gram

在这里插入图片描述

CBOW模型

连续词袋模型,根据上下文来预测目标单词的模型。使用上下文各词的词向量的均值作为拼接起来的词向量。

对小型的数据比较合适

import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt

# 定义数据类型为浮点数
dtype = torch.FloatTensor 

# 语料库,包含训练模型的句子
sentences = ["i like dog", "i like cat", "i like animal",
             "dog cat animal", "apple cat dog like", "cat like fish",
             "dog like meat", "i like apple", "i hate apple",
             "i like movie book music apple", "dog like bark", "dog friend cat"]

# 将所有句子拼接为一个字符串并按空格分词
word_sequence = ' '.join(sentences).split()
# 获取词汇表中的所有唯一词
word_list = list(set(word_sequence))
# 创建词典,词汇表中的每个词都分配一个唯一的索引
word_dict = {w: i for i, w in enumerate(word_list)}

# 创建跳字模型的训练数据
cow = []  # 训练数据
for i in range(1, len(word_sequence) - 1):
    # 获取两个上下文词对应的id
    context = [word_dict[word_sequence[i - 1]], word_dict[word_sequence[i + 1]]]
    # 当前词对应的id
    target = word_dict[word_sequence[i]]

    # 将目标词与上下文词配对,添加到训练数据中
    cow.append([context,target])
# print(cow)
# 定义嵌入维度(嵌入向量的大小)为2
embedding_size = 2
# 每次训练的批量大小
batch_size = 5
voc_size = len(word_list)

# 定义CBOW模型
class CBOW(nn.Module):
    def __init__(self):
        super(CBOW, self).__init__()
        # 定义词嵌入矩阵W,随机初始化,大小为(voc_size, embedding_size)
        self.embed = nn.Embedding(voc_size,embedding_size)
        self.l = nn.Linear(embedding_size,voc_size)

    # 前向传播
    def forward(self, x):
        x = self.embed(x)
        x = torch.mean(x,dim=1) # 自动降维
        x = self.l(x)
        return x

# 创建模型实例
model = CBOW()

# 定义损失函数为交叉熵损失
criterion = nn.CrossEntropyLoss()
# 使用Adam优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)


# 定义随机批量生成函数
def random_batch(data, size):
    random_inputs = []  # 输入批次
    random_labels = []  # 标签批次
    # 从数据中随机选择size个索引
    random_index = np.random.choice(range(len(data)), size, replace=False)

    # 根据随机索引生成输入和标签批次
    for i in random_index:
        random_inputs.append(data[i][0])
        random_labels.append(data[i][1])

    return random_inputs, random_labels

# 训练模型
for epoch in range(10000):
    # 获取随机的输入和目标
    inputs, labels = random_batch(cow, batch_size)

    #转为张量
    input_batch = torch.LongTensor(inputs)
    label_batch = torch.LongTensor(labels)

    optimizer.zero_grad() # 梯度清零
    output = model(input_batch)
    # 计算损失函数
    loss = criterion(output, label_batch.view(-1))

    if (epoch + 1) % 1000 == 0:
        print('Epoch:', '%04d' % (epoch + 1), 'cost =', '{:.6f}'.format(loss))

    loss.backward() # 反向传播
    optimizer.step() # 参数更新

#可视化词嵌入
for i, label in enumerate(word_list):
    W = model.embed.weight.data.numpy()
    x,y = float(W[i][0]),float(W[i][1])
    plt.scatter(x, y) #  绘制散点图
    plt.annotate(label, xy=(x, y), xytext=(5, 2), textcoords='offset points', ha='right', va='bottom')

plt.show()

在这里插入图片描述

在这里插入图片描述

skip-grams

根据目标单词预测上下文单词的模型

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt

# 语料库,包含训练模型的句子
sentences = ["i like dog", "i like cat", "i like animal",
             "dog cat animal", "apple cat dog like", "cat like fish",
             "dog like meat", "i like apple", "i hate apple",
             "i like movie book music apple", "dog like bark", "dog friend cat"]

# 构建词表
word_sentences = ' '.join(sentences).split()
word_list = list(set(word_sentences))
word_index = {w: i for i, w in enumerate(word_list)}
index_word = {i: w for i, w in enumerate(word_list)}
vocab_size = len(word_list)

# print(word_index)

# 创建词表
skip_grams = []
for i in range(1, len(word_sentences) - 1):
    # 当前词的id
    input_word = word_index[word_sentences[i]]

    # 获得上下文
    context = [word_index[word_sentences[i - 1]], word_index[word_sentences[i + 1]]]
    for w in context:
        # 当前词和上下文词组合形成的skip-gram数据集
        skip_grams.append([input_word, w])

# 定义超参数
# 词嵌入维度
emb_dim = 2
bach_size = 5
vocab_size = len(word_list)


# skip-gram 模型
class Word2Vec(nn.Module):
    def __init__(self):
        super().__init__()
        self.w1 = nn.Parameter(torch.rand(vocab_size, emb_dim).type(torch.FloatTensor))
        self.w2 = nn.Parameter(torch.rand(emb_dim, vocab_size).type(torch.FloatTensor))

    def forward(self, x):
        x = torch.matmul(x, self.w1)
        x = torch.matmul(x, self.w2)
        return x


# 模型训练
model = Word2Vec()

# 损失函数
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)


def random_bath(data, size):
    label_list = []
    input_list = []

    random_index = np.random.choice(range(len(data)), size, replace=False)

    # 随机索引生成输入和标签批次
    for i in random_index:
        # 目标词one-hot 编码
        input_list.append((np.eye(vocab_size)[data[i][0]]))

        # 上下文
        label_list.append((data[i][1]))
    return input_list, label_list


for epoch in range(10000):
    # 获得数据
    inputs, labels = random_bath(skip_grams, bach_size)

    # 转换为张量
    input_bach = torch.Tensor(inputs)
    label_bach = torch.LongTensor(labels)

    optimizer.zero_grad()
    out = model(input_bach)

    loss = criterion(out, label_bach)

    if (epoch + 1) % 1000 == 0:
        print('Epoch:', '%04d' % (epoch + 1), 'cost =', '{:.6f}'.format(loss))

    loss.backward()
    optimizer.step()

#可视化词嵌入
for i, label in enumerate(word_list):
    W, WT = model.parameters()  # 获取模型参数
    x, y = float(W[i][0]), float(W[i][1])
    plt.scatter(x, y)  # 绘制散点图
    plt.annotate(label, xy=(x, y), xytext=(5, 2), textcoords='offset points', ha='right', va='bottom')

plt.show()

在这里插入图片描述

在这里插入图片描述

使用API调用

Gensim(generate similarity)是一个简单高效的自然语言处理Python库,用于抽取文档的语义主题(semantic topics)。Gensim的输入是原始的、无结构的数字文本(纯文本),内置的算法包括Word2Vec,FastText,潜在语义分析(Latent Semantic Analysis,LSA),潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)等,通过计算训练语料中的统计共现模式自动发现文档的语义结构。这些算法都是非监督的,这意味着不需要人工输入——仅仅需要一组纯文本语料。一旦发现这些统计模式后,任何纯文本(句子、短语、单词)就能采用语义表示简洁地表达。
model.wv: 这个对象包含了所有单词的词嵌入向量。常用的方法有:

  • model.wv[word]:返回某个特定单词的向量。
  • model.wv.most_similar(word):获取与某个单词最相似的词。
  • model.wv.similarity(word1, word2):计算两个词之间的相似度。
import numpy as np
import matplotlib.pyplot as plt
from gensim.models import Word2Vec

sentences = "Word embedding is the collective name for a set of language modeling and feature learning techniques in natural language processing (NLP) where words or phrases from the vocabulary are mapped to vectors of real numbers."

# 每个句子分成单词表
token_list = [sentences.split()]  # 增加一个维度
print(token_list)

# 定义模型
model = Word2Vec(token_list, vector_size=2,window=1,min_count=0)
# 参数  语料库列表  size 词向量的维度  window窗口大小  最小出现次数、

# 获取词汇表   model.wv  映射矩阵 的对象
word_list = list(model.wv.index_to_key)
print(word_list)

# 可视化
# 设置matplotlib支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体
plt.rcParams['axes.unicode_minus'] = False  # 正确显示负号
#可视化词嵌入
for i, word in enumerate(word_list):
    W = model.wv[word]
    x,y = float(W[0]),float(W[1])
    plt.scatter(x, y) #  绘制散点图
    plt.annotate(word, xy=(x, y), xytext=(5, 2), textcoords='offset points', ha='right', va='bottom')

word_vector = [model.wv[word] for word in word_list]
sen_vector = np.mean(word_vector,axis=0)
print('句向量',sen_vector)

# 可视化
plt.scatter(sen_vector[0],sen_vector[1])
plt.annotate('句向量', xy=(sen_vector[0],sen_vector[1]), xytext=(5, 2), textcoords='offset points', ha='right', va='bottom')

plt.show()

在这里插入图片描述

在这里插入图片描述

参考博客:

Gensim简介-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2161364.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《微信小程序实战(4) · 地图导航功能》

📢 大家好,我是 【战神刘玉栋】,有10多年的研发经验,致力于前后端技术栈的知识沉淀和传播。 💗 🌻 CSDN入驻不久,希望大家多多支持,后续会继续提升文章质量,绝不滥竽充数…

seL4 Mapping(三)

官网链接: Mapping Mapping 这节课程主要是介绍seL4的虚存管理。 虚存 Virtual memory 除了用于操作硬件分页结构的内核原语之外,seL4不提供虚拟内存管理。用户必须为创建中间级分页结构,映射页面以及取消映射页面提供服务。 用户可以随意的定义他们…

Python图表显示添加中文

import re import numpy as np import matplotlib.pyplot as plt from matplotlib.font_manager import FontProperties# 动态加载字体文件 font_path /usr/local/sunlogin/res/font/wqy-zenhei.ttc # 替换为实际字体路径 my_font FontProperties(fnamefont_path)# 定义日志…

Go语言基础学习01-Liunx下Go开发环境配置;源码组织方式;go build/install/get详解

目录 Linux环境下配置安装VScode并配置Go语言开发环境Go语言源码的组织方式Go语言源码安装后的结果Go程序构建和安装的过程go build扩展go get 命令详解 之前学习过Go语言,学习的时候没有记录笔记,最近找了个极客时间的Go语言36讲,打算时间学…

影响RPA流程稳定运行的若干因素|实在RPA研究

RPA发展现状 当前,中国正处于实现高质量发展、数字化转型升级的关键时期。RPA作为数字化转型的一项重要工具,已经开始在许多领域发挥积极作用。 RPA(Robotic Process Automation 机器人流程自动化)是一种通过软件机器人自动执行…

stm32 keil有一些别人的工程在你这打开为什么会乱码?如何解决的

因为别人编辑代码使用的编辑器和你的不一样,要更正可以调一下自己的翻译器编码格式 也可以直接换掉文件的格式, 用记事本打开文件,然后点会另存为,下面有个编码格式选择,换成你自己的就行

Neko一个在Docker环境下的虚拟浏览器

Neko是一个在 Docker 中运行并使用 WebRTC 技术的自托管虚拟浏览器。Neko 是一个强大的工具,可让您在虚拟环境中运行功能齐全的浏览器,使您能够从任何地方安全、私密地访问互联网。使用 Neko,您可以像在常规浏览器上一样浏览 Web、运行应用程…

Python接口测试实践—参数化测试、数据驱动测试和断言的使用

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 在Python接口测试实践中,参数化测试、数据驱动测试和断言是常用的技术手段。 参数化测试 参数化测试是指将测试用例中的某些部分(如输入数…

蓝桥杯算法之暴力

暴力 1.十进制数转换成罗马数字 2.判断给出的罗马数字是否正确 小知识 %(模除): % 符号用作模除(或取模)运算符。模除运算是一种数学运算,它返回两个数相除的余数。 具体来说,如果 a 和 b 是…

初识 C++ ( 1 )

引言:大家都说c是c的升级语言。我不懂这句话的含义后来看过解释才懂。 一、面向过程语言和面向对象语言 我们都知道C语言是面向过程语言,而C是面向对象语言,说C和C的区别,也就是在比较面向过程和面向对象的区别。 1.面向过程和面向…

自然语言处理实战项目:从理论到实现

一、引言 自然语言处理(NLP)是计算机科学、人工智能和语言学交叉的领域,旨在让计算机能够理解、处理和生成人类语言。随着互联网的飞速发展,大量的文本数据被产生,这为自然语言处理技术的发展提供了丰富的素材&#xf…

【动态规划】(五)动态规划——子序列问题

动态规划——子序列问题 子序列问题☆ 最长递增子序列(离散)最长连续递增序列(连续)最大子序和(连续)最长重复子数组(连续)☆ 最长公共子序列(离散-编辑距离过渡&#xf…

【驱动】修改USB转串口设备的属性,如:Serial

1、查看串口信息 在Windows上,设备管理窗口中查看设备号 2、修改串口号工具 例如使用:CH34xSerCfg.exe 使用步骤:恢复默认值 - -> 修改 Serial String(或者Product String等属性)–> 写入配置 3、查看设备节点 在linux上使用lsub查看新增的设备信息,如下这个…

python多线程开发的具体示例

用一个具体的示例,展示如何使用 ThreadPoolExecutor 和 asyncio 来并行运行多个任务,并输出结果。 代码: import asyncio import time from concurrent.futures import ThreadPoolExecutorclass WorkJob:def __init__(self, job_id):self.j…

报表做着太费劲?为你介绍四款好用的免费报表工具

1. 山海鲸可视化 介绍: 山海鲸可视化是一款免费的国产可视化报表软件,与许多其他宣传免费的软件不同,山海鲸的报表功能完全免费并且没有任何限制,就连网站管理后台这个功能也是免费的。同时山海鲸可视化还提供了种类丰富的可视化…

11.安卓逆向-安卓开发基础-api服务接口设计2

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于:图灵Python学院 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要盲目相信。 工…

云手机推荐:五款热门云手机测评!

在云手机市场中,各个品牌层出不穷,让人难以选择。为了帮助你更好地找到适合的云手机应用,我们整理了五款最受欢迎的云手机进行测评。2024年,哪款云手机是你的不二之选?且慢下结论,看看这五款云手机的真实表…

【深度学习】深度卷积神经网络(AlexNet)

在 LeNet 提出后,卷积神经网络在计算机视觉和机器学习领域中很有名气,但并未起到主导作用。 这是因为 LeNet 在更大、更真实的数据集上训练的性能和可行性还有待研究。 事实上,在 20 世纪 90 年代到 2012 年之间的大部分时间里,…

Windows系统的Tomcat日志路径配置

文章目录 引言I Windows系统的Tomcat日志路径配置配置常规日志路径访问日志路径配置,修改server.xmlII 日志文件切割:以分隔割tomcat 的 catalina.out 文件为例子通过Linux系统自带的切割工具logrotate来进行切割引言 需求:C盘空间不足,处理日志文件,tomcat日志迁移到D盘…

中国科学院云南天文台博士招生目录

中国科学院云南天文台是专业基础研究与应用研究结合的综合性天文研究机构(其前身是1938年中央研究院天文研究所在昆明东郊凤凰山创建的凤凰山天文台),总部在云南省昆明市,设有两个观测站(丽江高美古天文观测站和澄江抚…