【文本到上下文 #6】高级词嵌入:Word2Vec、GloVe 和 FastText

news2025/2/28 3:32:07

一、说明

        欢迎来到“完整的 NLP 指南。到目前为止,我们已经探索了自然语言处理的基础知识、应用程序和挑战。我们深入研究了标记化、文本清理、停用词、词干提取、词形还原、词性标记和命名实体识别。我们的探索包括文本表示技术,如词袋、TF-IDF 以及词嵌入的介绍。然后,我们将 NLP 与机器学习联系起来,涵盖监督和无监督学习、情感分析以及分类和回归的基础知识。最近,我们涉足深度学习,讨论了神经网络、RNN 和 LSTM。现在,我们准备更深入地研究深度学习领域的词嵌入。

以下是第六篇博客文章中的内容:

  1. Word2Vec:深入 Word2Vec 的世界,探索其架构、工作原理以及它如何彻底改变对文本内语义关系的理解。我们将研究它的两种主要训练算法:连续词袋 (CBOW) 和 Skip-gram,以了解它们在捕获上下文单词含义方面的作用。
  2. GloVe(单词表示的全局向量):解开 GloVe 模型的复杂性。我们将通过利用全局词词共现统计数据来探索它与 Word2Vec 的不同之处,提供一种独特的方法来根据语料库中的集体上下文嵌入单词。
  3. FastText:研究 FastText 的功能,重点关注其处理词汇表外单词的创新方法。了解 FastText 如何将单词分解为更小的单元(n 元语法),以及该方法如何增强单词的表示,尤其是在形态丰富的语言中。
  4. 选择正确的嵌入模型:深入研究为 NLP 项目选择嵌入模型时要考虑的关键因素。我们将讨论每个模型的细微差别,帮助您确定哪一个模型最符合您在语言丰富性、计算效率和应用范围方面的特定需求。
  5. 比较词嵌入代码示例:通过动手代码示例将理论付诸实践。本节将提供实际演示,比较 Word2Vec、GloVe 和 FastText 在常见 NLP 任务中的性能,让您切实了解它们在实际应用中的优缺点。

这篇博文的目的不仅是让您了解这些先进的嵌入技术,还让您掌握在 NLP 项目中实施这些技术时做出明智决策的知识。

二、词向量

        Word2Vec 是一种流行的词嵌入技术,旨在将单词表示为高维空间中的连续向量。它引入了两种模型:连续词袋(CBOW)和 Skip-gram,每种模型都有助于向量表示的学习。

2.1.模型架构:

  • 连续词袋 (CBOW):在 CBOW 中,模型根据上下文预测目标词。上下文单词作为输入,目标单词作为输出。该模型经过训练,可以最大限度地减少预测目标词和实际目标词之间的差异。
  • Skip-gram:相反,Skip-gram 模型可以预测给定目标单词的上下文单词。目标词作为输入,模型旨在预测可能出现在其上下文中的词。与 CBOW 一样,目标是最小化预测和实际上下文单词之间的差异。

2.2 神经网络训练:

CBOW 和 Skip-gram 模型都利用神经网络来学习向量表示。神经网络在大型文本语料库上进行训练,调整连接权重以最小化预测误差。此过程将相似的单词在生成的向量空间中放置得更近。

2.3 向量表示:

经过训练后,Word2Vec 会在高维空间中为每个单词分配一个唯一的向量。这些向量捕获单词之间的语义关系。具有相似含义或经常出现在相似上下文中的单词具有彼此接近的向量,表明它们的语义相似性。

2.4 优点和缺点:

优点:

  • 有效捕获语义关系。
  • 对于大型数据集非常有效。
  • 提供有意义的单词表示。

缺点:

  • 可能会难以理解生僻单词。
  • 忽略词序。

2.5. 玩具数据集的代码示例:

        提供的代码示例演示了在玩具数据集上使用 Gensim 库训练 Word2Vec 模型。展示了句子的标记化、模型训练和词嵌入的访问。

from gensim.models import FastText
from nltk.tokenize import word_tokenize

# Toy dataset
sentences = ["FastText embeddings handle subword information.",
             "It is effective for various languages."]
# Tokenize sentences
tokenized_sentences = [word_tokenize(sentence.lower()) for sentence in sentences]

# Train FastText model
model = FastText(sentences=tokenized_sentences, vector_size=100, window=5, min_count=1, workers=4)

# Access embeddings
word_embeddings = model.wv
print(word_embeddings['subword'])

        总之,Word2Vec 的机制涉及训练神经网络模型(CBOW 和 Skip-gram)来学习有效捕获单词之间语义关系的向量表示。生成的向量在向量空间中提供有意义且有效的单词表示。

三、GloVe(用于词表示的全局向量)

        单词表示的全局向量 (GloVe) 是一种强大的单词嵌入技术,它通过考虑单词在语料库中的共现概率来捕获单词之间的语义关系。GloVe 有效性的关键在于单词上下文矩阵的构建以及后续的分解过程。

3.1.单词-上下文矩阵的形成:

        GloVe 机制的第一步涉及创建单词上下文矩阵。该矩阵旨在表示整个语料库中给定单词出现在另一个单词附近的可能性。矩阵中的每个单元格保存单词在特定上下文窗口中一起出现的频率的共现计数。

让我们考虑一个简化的例子。假设我们的语料库中有以下句子:

  • “词嵌入捕获语义含义。”
  • “GloVe 是一种有影响力的词嵌入模型。”

单词上下文矩阵可能如下所示:

        在这里,每一行和每一列对应于语料库中的一个唯一单词,单元格中的值表示这些单词在某个上下文窗口中一起出现的频率。

3.2. 词向量的因式分解:

        单词上下文矩阵就位后,GloVe 转向矩阵分解。这里的目标是将这个高维矩阵分解为两个较小的矩阵——一个代表单词,另一个代表上下文。我们将它们表示为W(表示单词)和C(表示上下文)。理想的情况是WCT的点积(C的转置)近似于原始矩阵:

X ≈ W ⋅ CT

通过迭代优化,GloVe 调整WC ,以最小化XW ⋅ CT之间的差异。这个过程为每个单词生成精细的向量表示,捕捉它们共现模式的细微差别。

3.3.向量表示:

        经过训练后,GloVe 会为每个单词提供一个密集向量,该向量不仅捕获本地上下文,还捕获全局单词使用模式。这些向量对语义和句法信息进行编码,根据单词在语料库中的整体用法揭示单词之间的相似性和差异。

3.4、优点和缺点:

优点:

  • 有效捕获语料库的全局统计数据。
  • 擅长表示语义和句法关系。
  • 有效捕捉词语类比。

缺点:

  • 需要更多内存来存储共生矩阵。
  • 对于非常小的语料库来说效果较差。

3.5 玩具数据集的代码示例 

        以下代码片段演示了在玩具数据集上使用 GloVe Python 包的 GloVe 模型的基本用法。该示例涵盖了共现矩阵的创建、GloVe 模型的训练以及词嵌入的检索。

from glove import Corpus, Glove
from nltk.tokenize import word_tokenize

# Toy dataset
sentences = ["Word embeddings capture semantic meanings.",
             "GloVe is an impactful word embedding model."]

# Tokenize sentences
tokenized_sentences = [word_tokenize(sentence.lower()) for sentence in sentences]

# Creating a corpus object
corpus = Corpus() 

# Training the corpus to generate the co-occurrence matrix
corpus.fit(tokenized_sentences, window=10)

# Training the GloVe model
glove = Glove(no_components=100, learning_rate=0.05)
glove.fit(corpus.matrix, epochs=30, no_threads=4, verbose=True)
glove.add_dictionary(corpus.dictionary)

# Retrieve and display word embeddings
word = "glove"
embedding = glove.word_vectors[glove.dictionary[word]]
print(f"Embedding for '{word}': {embedding}")

        总之,GloVe 的词嵌入方法侧重于捕获语料库中的全局词共现模式,提供丰富且有意义的向量表示。这种方法有效地编码了语义和句法关系,根据单词的广泛使用模式提供了单词含义的全面视图。上面的代码示例说明了如何在基本数据集上实现 GloVe 嵌入。

四、快速文本

        FastText 是 Facebook AI Research (FAIR) 开发的一种先进的词嵌入技术,扩展了 Word2Vec 模型。与 Word2Vec 不同,FastText 不仅考虑整个单词,还包含子词信息——单词的一部分,例如 n-gram。这种方法可以处理形态丰富的语言,并更有效地捕获有关单词结构的信息。

4.1.子词信息:

        除了整个单词本身之外,FastText 将每个单词表示为一袋字符 n 元语法。这意味着单词“apple”由单词本身及其组成的 n-gram 表示,如“ap”、“pp”、“pl”、“le”等。这种方法有助于捕获较短单词的含义并提供更好地理解后缀和前缀。

4.2.模型训练:

        与 Word2Vec 类似,FastText 可以使用 CBOW 或 Skip-gram 架构。然而,它在训练期间合并了子字信息。FastText 中的神经网络经过训练,不仅可以基于目标单词,还可以基于这些 n-gram 来预测单词(在 CBOW 中)或上下文(在 Skip-gram 中)。

4.3. 处理生僻词和未知词:

        FastText 的一个显着优势是它能够为罕见单词甚至训练期间未见过的单词生成更好的单词表示。通过将单词分解为 n 元语法,FastText 可以根据这些单词的子词单元构建有意义的表示。

4.4、优点和缺点:

优点:

  • 更好地表示生僻字。
  • 能够处理词汇表之外的单词。
  • 由于子词信息,词的表示更丰富。

缺点:

  • 由于 n 元语法信息而增加了模型大小。
  • 与 Word2Vec 相比,训练时间更长。

4.5. 玩具数据集的代码示例:

以下代码演示了如何在玩具数据集上将 FastText 与 Gensim 库结合使用。它强调了模型训练和访问词嵌入。

from gensim.models import FastText
from nltk.tokenize import word_tokenize

# Toy dataset
sentences = ["FastText embeddings handle subword information.",
             "It is effective for various languages."]
# Tokenize sentences
tokenized_sentences = [word_tokenize(sentence.lower()) for sentence in sentences]

# Train FastText model
model = FastText(sentences=tokenized_sentences, vector_size=100, window=5, min_count=1, workers=4)

# Access embeddings
word_embeddings = model.wv
print(word_embeddings['subword'])

        总之,FastText 通过合并子词信息丰富了词嵌入景观,使其能够非常有效地捕获语言中的复杂细节并处理罕见或看不见的单词。

五、选择正确的嵌入模型

  • Word2Vec:当语义关系至关重要并且您拥有大型数据集时使用。
  • GloVe:适用于不同的数据集,并且当捕获全局上下文很重要时。
  • FastText:选择形态丰富的语言或处理词汇表之外的单词至关重要。

六、比较词嵌入代码示例

# Import necessary libraries
from gensim.models import Word2Vec
from gensim.models import FastText
from glove import Corpus, Glove
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

# Toy dataset
toy_data = [
    "word embeddings are fascinating",
    "word2vec captures semantic relationships",
    "GloVe considers global context",
    "FastText extends Word2Vec with subword information"
]

# Function to train Word2Vec model
def train_word2vec(data):
    model = Word2Vec([sentence.split() for sentence in data], vector_size=100, window=5, min_count=1, workers=4)
    return model

# Function to train GloVe model
def train_glove(data):
    corpus = Corpus()
    corpus.fit(data, window=5)
    glove = Glove(no_components=100, learning_rate=0.05)
    glove.fit(corpus.matrix, epochs=30, no_threads=4, verbose=True)
    return glove

# Function to train FastText model
def train_fasttext(data):
    model = FastText(sentences=[sentence.split() for sentence in data], vector_size=100, window=5, min_count=1, workers=4)
    return model

# Function to plot embeddings
def plot_embeddings(model, title):
    labels = model.wv.index_to_key
    vectors = [model.wv[word] for word in labels]
    
    tsne_model = TSNE(perplexity=40, n_components=2, init='pca', n_iter=2500, random_state=23)
    new_values = tsne_model.fit_transform(vectors)

    x, y = [], []
    for value in new_values:
        x.append(value[0])
        y.append(value[1])

    plt.figure(figsize=(10, 8)) 
    for i in range(len(x)):
        plt.scatter(x[i],y[i])
        plt.annotate(labels[i],
                     xy=(x[i], y[i]),
                     xytext=(5, 2),
                     textcoords='offset points',
                     ha='right',
                     va='bottom')
    plt.title(title)
    plt.show()

# Train models
word2vec_model = train_word2vec(toy_data)
glove_model = train_glove(toy_data)
fasttext_model = train_fasttext(toy_data)

# Plot embeddings
plot_embeddings(word2vec_model, 'Word2Vec Embeddings')
plot_embeddings(glove_model, 'GloVe Embeddings')
plot_embeddings(fasttext_model, 'FastText Embeddings')

七、结论

        当我们结束对高级词嵌入的探索时,我们 NLP 之旅的下一站将是序列到序列模型、注意力机制和编码器-解码器架构。这些先进技术在机器翻译和摘要等任务中发挥了重要作用,使模型能够专注于输入序列的特定部分。

        请继续关注下一部分,我们将揭开序列到序列模型的复杂性,揭示注意力机制和编码器-解码器架构的力量。

参考资料:@mervebdurna

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1388324.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是高标准农田?为何要建设?该如何建设?

随着农业技术的不断进步,高标准农田成为了现代农业的标志之一。那么,什么是高标准农田?为何要建设高标准农田?如何建设高标准农田呢?接下来,我们将为您一一解答。 首先,我们来了解一下高标准农田…

【设计模式-3.3】结构型——享元模式

说明:说明:本文介绍设计模式中结构型设计模式中的,享元模式; 游戏地图 在一些闯关类的游戏,如超级玛丽、坦克大战里面,游戏的背景每一个关卡都不相同,但仔细观察可以发现,其都是用…

深入解析JavaScript中的变量作用域和闭包

🧑‍🎓 个人主页:《爱蹦跶的大A阿》 🔥当前正在更新专栏:《VUE》 、《JavaScript保姆级教程》、《krpano》、《krpano中文文档》 ​ ​ ✨ 前言 JavaScript作为一门解释执行的脚本语言,其变量作用域与传统编译型语言…

Elasticsearch Windows部署-ELK技术栈

1、下载Elasticsearch、kibana、logstash 本文不介绍ELK相关原理知识,只记录部署操作过程 下载地址Past Releases of Elastic Stack Software | Elastic 选择同一版本,这里选择是当前最新版本8.11.3 解压放在同目录下,方便后续操作与使用 …

Linux网络文件共享服务

目录 一.文件存储类型 1.直连式存储:Direct-Attached Storage,简称DAS 2.存储区域网络:Storage Area Network,简称SAN(可以使用空间,管理也是你来管理) 3.网络附加存储:Network-…

卡尔曼滤波基本原理详解

卡尔曼滤波 卡尔曼滤波简介 卡尔曼滤波器(Kalman Filter)是一种高效的递推滤波器(即基于上一个时刻的估计来更新当前时刻的估计),它能够从一系列含有噪声的观测数据中估计动态系统的状态。它在1960年由鲁道夫卡尔曼提…

kubectl与 jq的另外一些用法

背景: 在日常运维工作中,我们需要管理和操作大量的配置文件,这在使用 Kubernetes 集群管理应用时尤为常见。Kubernetes 提供了一个名为 ConfigMap 的资源对象,它用于存储应用的配置信息。有时,我们需要查找哪些 Confi…

第二证券:旅游股大涨 “预热”春节黄金周

在淄博烧烤热、哈尔滨冰雪热火爆出圈后,希望能接住文旅下一波“泼天富贵”的各地文旅局各出奇招并“卷”出新高度,被各地网友谈论“杀疯了”。 其间,A股游览概念股迎来一波集体上涨,成为不少出资者的重视热点,而行将到…

【原创】docker +宝塔+安装zabbix

Zabbix: Zabbix可以监控各种网络服务、服务器和网络设备,而无需在目标设备上安装客户端。它的强大之处在于自带的Web界面,能够提供实时监控和各种报警功能。方法1: 步骤 创建Docker Compose文件: 首先,你需要创建一个docker-comp…

FFmpeg之AVFormat

文章目录 一、概述二、解封装流程三、重要结构体3.1、AVFormatContext3.2、AVInputFormat3.3、AVOutputFormat3.4、AVStream 四、重要函数分析4.1、avformat_alloc_context4.2、avformat_open_input4.2.1、init_input4.2.2、av_probe_input_format2 4.3、avformat_find_stream_…

如何在几分钟内创建AI工具

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版,欢迎购买。点击进入详情 完成这篇文章后,您将在不到 2 分钟的时间内构建您的第一个 AI 工具,而无需编写任何代码! 您只需使用我将在这里与您分享的脚本…

JVM内存模型/运行时数据区域

java虚拟机管理这块内存,所以我们也叫运行时数据区域 总览 这里按线程是否共享来分类,所谓线程不共享就是每个线程里面都会配一套 程序计数器 栈, 互相不干涉。 而方法区和堆是线程所有共享 意味着只有一个(这里注意堆是实际概念…

第二证券:行业术语解读:CPO概念是什么意思?

cpo概念又名共封装光学概念,它是指把硅光模块和CMOS芯片用高级封装的方法耦合在背板PCB上,从而在成本、功耗和尺度上都进一步提升数据中心使用中的光互联技能等相关上市公司组成的概念。 概念股,并不特指于某一支股,而是一个选股话…

SV-8004VP 网络对讲求助话筒,4个自定义按键

SV-8004VP网络对讲求助话筒,4个自定义按键 SV-8004VP是一款4按键求助对讲话筒,具有10/100M以太网接口,支持G.711音频编解码,其接收SIP网络的音频数据,实时解码播放,还配置了麦克风输入和扬声器输出。 SV-…

什么是非电离辐射与电离辐射?

摘要: 非电离辐射和电离辐射是两种不同类型的辐射,它们主要区别在于能量水平和与物质相互作用的方式。 非电离辐射 非电离辐射是指能量较低,不足以使原子或分子的电子脱离其原子核束缚而产生电离现象的电磁波。这类辐射不 ... 非电离辐射和电离辐射是两…

Bazel

简介: Bazel 是 google 研发的一款开源构建和测试工具,也是一种简单、易读的构建工具。 Bazel 支持多种编程语言的项目,并针对多个平台构建输出。 高级构建语言:Bazel 使用一种抽象的、人类可读的语言在高语义级别上描述项目的构建属性。与其…

【遥感专题系列】影像信息提取之——面向对象的影像分类技术

“同物异谱,同谱异物”会对影像分类产生的影响,加上高分辨率影像的光谱信息不是很丰富,还有经常伴有光谱相互影响的现象,这对基于像素的分类方法提出了一种挑战,面向对象的影像分类技术可以一定程度减少上述影响。 本…

git 删除 submodule 子模块的步骤

实验有效,这里删除了两个 submodule。 1, 执行删除 submodule mkdir tmp1 && cd tmp1 && git clone --recursive ssh://gitaaa.bbb.ccc.git \ && cd ccc/ && git checkout -b abranch_01 \ && git submodule deinit -f…

初识物联网

1:什么是IOT: 物联网的英文名称是Internet of Things。IoT则是Internet of Things的缩写。因此, 物联网 IoT。 通俗地说,物联网是互联网的一种拓展。我们知道互联网是由无数的计算机和智能手机交错连接而编织成的一张网。而正是有了像NodeM…

半监督学习 - 三元组学习(Triplet Learning)

什么是机器学习 三元组学习(Triplet Learning)是半监督学习中一种用于学习有用表示的方法。它通常用于学习数据中的相似性关系,尤其在人脸识别、图像检索等领域中得到广泛应用。三元组学习是通过构造三元组(triplet)来…