【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

news2025/1/8 5:26:50

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂

关键词提炼

#嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet

第一节:嵌入方程的类比与核心概念【尽可能通俗】

嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。
正如翻译机将一种语言转换成另一种语言,嵌入方程将自然语言转换成向量语言,使得机器能够进行后续的处理和分析。

第二节:嵌入方程的核心概念与应用

2.1 核心概念

核心概念定义比喻或解释
词向量(V)代表单词在向量空间中的表示,每个单词对应一个唯一的向量。就像每个人都有自己的身份证,每个单词也有一个独特的向量标识。
嵌入矩阵(E)一个包含所有词向量的矩阵,每一行代表一个单词的向量。就像一本词典,每一页都记录了一个单词的信息。
上下文窗口(C)在训练词向量时,考虑的单词周围的其他单词的范围。就像看一个字,不仅要看这个字本身,还要看它前后的字来理解它的意思。

2.2 优势与劣势【重点在劣势】

方面描述
优势能够将自然语言转换成机器可理解的数学形式,为后续的机器学习算法提供输入。能够捕捉单词之间的语义关系,使得机器能够进行更复杂的语言处理任务。
劣势嵌入方程的选择和训练过程较为复杂,需要大量的数据和计算资源。对于稀有词或新词,可能无法得到准确的向量表示。

2.3 与自然语言处理的类比

嵌入方程在自然语言处理中扮演着“桥梁”的角色,它连接了自然语言和机器学习算法,使得机器能够理解和处理人类的语言。就像桥梁连接了两岸,使得人们能够方便地通行。

在这里插入图片描述

第三节:公式探索与推演运算【重点在推导】

3.1 嵌入方程的基本形式

嵌入方程的基本形式可以表示为:

V = E ⋅ W V = E \cdot W V=EW

其中, V V V 是词向量的矩阵, E E E 是嵌入矩阵, W W W 是单词的one-hot编码矩阵。

3.2 具体实例与推演【尽可能详细全面】

假设我们有一个包含三个单词的词典:{“apple”, “banana”, “cherry”},每个单词用一个3维的向量表示。那么,我们的嵌入矩阵 E E E 可以表示为:

E = [ e a p p l e 1 e a p p l e 2 e a p p l e 3 e b a n a n a 1 e b a n a n a 2 e b a n a n a 3 e c h e r r y 1 e c h e r r y 2 e c h e r r y 3 ] E = \begin{bmatrix} e_{apple1} & e_{apple2} & e_{apple3} \\ e_{banana1} & e_{banana2} & e_{banana3} \\ e_{cherry1} & e_{cherry2} & e_{cherry3} \end{bmatrix} E= eapple1ebanana1echerry1eapple2ebanana2echerry2eapple3ebanana3echerry3

对于单词 “apple”,其one-hot编码 W a p p l e W_{apple} Wapple 为:

W a p p l e = [ 1 0 0 ] W_{apple} = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} Wapple= 100

那么,单词 “apple” 的词向量 V a p p l e V_{apple} Vapple 可以通过嵌入方程计算得到:

V a p p l e = E ⋅ W a p p l e = [ e a p p l e 1 e a p p l e 2 e a p p l e 3 ] V_{apple} = E \cdot W_{apple} = \begin{bmatrix} e_{apple1} \\ e_{apple2} \\ e_{apple3} \end{bmatrix} Vapple=EWapple= eapple1eapple2eapple3

同理,我们可以得到其他单词的词向量。

在这里插入图片描述

第四节:相似公式比对【重点在差异】

公式/模型共同点不同点
嵌入方程都涉及将文本转换成向量表示。嵌入方程专注于单词或短语的向量表示,用于自然语言处理。
词袋模型(Bag-of-Words)词袋模型也是将文本转换成向量,但它是基于单词出现的频率,而嵌入方程考虑的是单词的语义关系。
TF-IDFTF-IDF也是文本向量化的一种方法,但它更侧重于单词在文档中的重要性,而嵌入方程更侧重于单词之间的语义关系。

第五节:核心代码与可视化

这段代码使用Python和TensorFlow库训练了一个简单的词嵌入模型,并绘制了词向量的散点图。通过可视化,我们可以直观地看到单词在向量空间中的分布。

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.manifold import TSNE

# Define the vocabulary and some sample sentences
vocabulary = ['apple', 'banana', 'cherry', 'dog', 'cat']
sentences = [
    "The apple is red",
    "The banana is yellow",
    "The cherry is red",
    "The dog is brown",
    "The cat is black"
]

# Convert sentences to indices
tokenized_sentences = [[vocabulary.index(word) for word in sentence.split()] for sentence in sentences]

# Define the embedding model using TensorFlow
embedding_dim = 3  # 3-dimensional embeddings
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=len(vocabulary), output_dim=embedding_dim, input_length=5)
])

# Compile the model (not necessary for embedding generation, but useful for training)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')

# Get the embedding weights (this is the embedding matrix)
embedding_matrix = model.layers[0].get_weights()[0]

# Print the embedding matrix
print("Embedding Matrix:\n", embedding_matrix)

# Use TSNE to reduce the dimensionality of the embedding vectors for visualization
tsne = TSNE(n_components=2, random_state=0)
embedding_vectors_2d = tsne.fit_transform(embedding_matrix)

# Create a DataFrame for visualization
import pandas as pd
df = pd.DataFrame(embedding_vectors_2d, columns=['x', 'y'])
df['word'] = vocabulary

# Visualize the results and beautify with Seaborn
sns.set_theme(style="whitegrid")
plt.figure(figsize=(10, 6))
sns.scatterplot(x='x', y='y', hue='word', data=df, palette='viridis', s=100)
plt.title('Word Embeddings Visualization')
plt.xlabel('x')
plt.ylabel('y')
plt.legend(title='Word')
plt.show()

# Printing more detailed output information
print("\nWord Embeddings Visualization has been generated and displayed.\nEach point in the scatter plot represents a word,\nand its position is determined by its embedding vector.")

# Output the embedding vectors for each word
for word, vector in zip(vocabulary, embedding_matrix):
    print(f"Embedding vector for '{word}': {vector}")
输出内容描述
嵌入矩阵打印了嵌入矩阵的数值。
词向量散点图显示了单词在向量空间中的2D分布。
图表标题、x轴标签、y轴标签和图例提供了图表的基本信息和说明。
详细的输出信息(打印到控制台)提供了关于词向量散点图的详细解释和每个单词的嵌入向量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2118844.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Model-based RL动态规划(基于价值、基于策略,泛化迭代)

白盒环境和黑盒环境 白盒环境:知道环境的状态转移函数P(s’|s)或P(s’|s,a)和奖励函数R(s)或R(s,a):   白盒环境下的学习相当于直接给出了有监督学习的数据分布(就是有了目标靶子),不需要采样了,直接最小…

电脑桌面文件删除了怎么找回来?别急,快速恢复攻略在此

在日常使用电脑的过程中,我们经常会遇到这样的情况:一不小心,桌面上的某个重要文件被删除了。这时,大多数人可能会感到惊慌失措,不知所措。 其实,不必过于担心,因为有很多方法可以帮助我们找回…

@开发者极客们,网易2024低代码大赛来啦

极客们,网易云信拍了拍你 9月6日起,2024网易低代码大赛正式开启啦! 低代码大赛是由网易主办的权威赛事,鼓励开发者们用低代码开发的方式快速搭建应用,并最终以作品决出优胜。 从2022年11月起,网易低代码大赛…

构建数字产业生态链,共绘数字经济新蓝图

在当今数字化浪潮席卷全球的时代,构建数字产业生态链成为了推动经济发展的关键引擎。数字产业生态链如同一个强大的磁场,吸引着各类创新要素汇聚,共同描绘出数字经济的宏伟新蓝图。 数字产业生态链的核心在于融合与协同。它将软件开发、数据分…

【原创】java+springboot+mysql学生信息管理系统设计与实现

个人主页:程序猿小小杨 个人简介:从事开发多年,Java、Php、Python、前端开发均有涉猎 博客内容:Java项目实战、项目演示、技术分享 文末有作者名片,希望和大家一起共同进步,你只管努力,剩下的交…

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时&#xff0c;发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null&#xff0c;再判断Count。 看了一下Count的源码如下&#xff1a; 1 [__DynamicallyInvokable] 2 public int Count 3 { 4 [__…

做了十几个数字化项目后,我对数字化转型的思考

现在讲数字化转型多是自顶向下视角&#xff0c;但企业仅提战略、目标还不够&#xff0c;必须把任务分配到每个团队及个人每天的工作中&#xff0c;这些工作与员工以前的工作不同&#xff0c;意味着团队和员工也要转型。 企业数字化转型口号再响亮&#xff0c;若一线员工工作内…

如何使用gewechat开发微信机器人

简介&#xff1a;本文将指导你如何搭建一个微信机器人&#xff0c;通过接入gewe实现智能回复与聊天功能。我们将从基础设置开始&#xff0c;逐步讲解如何配置机器人&#xff0c;并通过实例展示其实际应用。 随着人工智能技术的不断发展&#xff0c;智能机器人已经成为我们日常…

传输层协议TCP

本篇详细的讲解了有关传输层协议中 TCP 的常见知识&#xff0c;其中主要包括&#xff1a;TCP 协议段格式、确认应答机制、超时重传机制、连接管理机制&#xff08;三次握手和四次挥手&#xff09;、TIME_WAIT 和 CLOSE_WAIT 状态、滑动窗口、流量控制、延迟应答、捎带应答、面向…

宠物空气净化器352和希喂哪个品牌比较好?352、希喂宠物空气净化器终极PK

家里猫咪掉毛太厉害了怎么办&#xff1f;我家长毛、短毛猫都有&#xff0c;短毛还是猫界蒲公英银渐层&#xff0c;不会再有比曾经的我更受掉毛困扰的铲屎官了&#xff01;我曾经为了减少我家猫咪掉毛&#xff0c;鱼油、维生素A、维生素B5、碘营养物质都在喂&#xff0c;没啥用&…

table表格左键双击,单元格可编辑效果

1) 效果&#xff0c;修改内容后数据同步修改: 2) 思路 1、el-table提供了左键双击事件。 2、左键双击后&#xff0c;该单元格更改为input框后&#xff0c;input框需要获取焦点。 3、输入内容后&#xff0c;(回车按钮或者点击其他位置input框失去焦点)&#xff0c;数据需要更…

Django学习实战篇三(适合略有基础的新手小白学习)(从0开发项目)

前言&#xff1a; 在上一章中&#xff0c;我们对Django的Model层有了比较全面的认识&#xff0c;本章就来配置Django自带的admin。这里需要认识到&#xff0c;Django的Model层是很重要的一环&#xff0c;无论是对于框架本身还是对于基于Django框架开发的大多数系统而言。因为一…

私域电商 IP 化发展的探索与优势

摘要&#xff1a;本文聚焦于私域电商与社交电商的区别&#xff0c;重点探讨私域电商的 IP 属性。深入分析其在获取流量、转化用户以及挖掘用户价值方面的独特优势。同时引入链动 2 1 模式、AI 智能名片、S2B2C 商城小程序源码等元素&#xff0c;详细阐述这些元素在私域电商 IP…

前端:JavaScript中的this

前端&#xff1a;JavaScript中的this 1. this的指向2. 指定this的值3. 手写call方法4. 手写apply方法5. 手写bind方法 1. this的指向 在非严格模式下&#xff0c;总是指向一个对象&#xff1b;在严格模式下可以是任意值。 开启严格模式&#xff0c;如果是为整个脚本开启&#…

mapActions辅助函数的使用

什么是mapActions? mapActions 是 Vuex 提供的一个辅助函数&#xff0c;它允许你将组件中的方法映射为 Vuex 中的 Actions&#xff0c;以便于你可以直接从组件内部调用这些 actions。通过使用 mapActions 你可以在组件中以函数的方式引用 Vuex 中的 Actions&#xff0c;从而避…

个人随想-一道简单的AI面试题

大模型的兴起&#xff0c;很多公司现在都开始进入AI开发的新篇章&#xff0c;那么或多或少​也需要招聘一些AI的开发人员。 其实很多公司需要的&#xff0c;说白了就是一个AI开发工程师或者架构师&#xff0c;但是在招聘过程中&#xff0c;或多或少对要求写的太过夸张&#xf…

​在乙游热潮中,Soul App创新社交玩法,寻找年轻人的精神共鸣

经过8月份的连续事件,社会公众对于乙女游戏(下文简称乙游)有了全新的认知。 起初,是女子举重奥运冠军罗诗芳在社交平台与热门乙游《恋与深空》的意外互动,引发了广泛关注。“奥运冠军也玩乙游”成为社交平台热搜话题,众多玩家讨论奥运冠军是否会与他们有共同的虚拟角色喜好。 …

链动2+1:高效用户留存与增长的商业模式解析

大家好&#xff0c;我是吴军&#xff0c;任职于一家致力于创新的软件开发企业&#xff0c;担任产品经理的职位。今天&#xff0c;我打算深入分析一个历经时间考验且依旧充满活力的商业模式——“链动21”模式&#xff0c;并通过一个具体的案例和相关数据&#xff0c;展示它如何…

检测Meaven是否安装成功

一.配置本地仓库 1.创建一个文件夹用来存放jar包 2.解开第53行的注释,将存放jar包的路径复制 二.配置阿里云 三.配置jdk环境 1.JAVA_HOME 2.path地址里面配置BIN目录 四.配置Meaven_HOME 1.Meaven_HOME 2.path地址里面配置BIN目录 五.检查是否安装成功 1.mvn-v mvn -v 2.…

Redis 篇-深入了解分布式锁 Redisson 原理(可重入原理、可重试原理、主从一致性原理、解决超时锁失效)

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 本章目录 1.0 基于 Redis 实现的分布式锁存在的问题 2.0 Redisson 功能概述 3.0 Redisson 具体使用 4.0 Redisson 可重入锁原理 5.0 Redisson 锁重试原理 6.0 Redisson WatchDo…