使用Word Embedding+Keras进行自然语言处理NLP

news2026/2/12 18:27:26

介绍：

one-hot：

pad_sequences:

建模:

介绍：

Word Embedding是一种将单词表示为低维稠密向量的技术。它通过学习单词在文本中的上下文关系，将其映射到一个连续的向量空间中。在这个向量空间中，相似的单词在空间中的距离也比较接近，具有相似含义的单词在空间中的方向也比较一致。

Word Embedding可以通过各种方法来实现，包括基于统计的方法（如Word2Vec和GloVe）和基于神经网络的方法（如Skip-gram和CBOW模型）。这些方法通常使用大量的文本语料库来学习单词的向量表示。

Word Embedding在自然语言处理任务中广泛应用，如文本分类、情感分析、机器翻译等。由于Word Embedding能够捕捉到单词之间的语义关系，使得计算机能够更好地理解和处理自然语言。

one-hot：

from tensorflow.keras.preprocessing.text import one_hot中的one_hot函数用于将文本数据进行one-hot编码。

在自然语言处理任务中，文本通常需要进行预处理和编码才能用于训练模型。其中，one-hot编码是一种常用的文本编码方式，它将每个单词映射到一个唯一的整数索引，并将索引表示为一个独热向量。独热向量是一个稀疏向量，只有一个元素为1，其余元素为0，该元素的位置对应着单词的索引。

通过使用one_hot函数，可以将文本数据中的单词转换为对应的整数索引，方便后续处理和模型训练。该函数接受两个参数：文本数据和词汇表大小。它会根据词汇表的大小，将文本数据中的每个单词映射到一个唯一的整数索引，并返回一个编码后的整数列表。这些整数可以用作模型的输入或特征表示。

### sentences
sentences=[  'the glass of milk',
     'the glass of juice',
     'the cup of tea',
    'I am a good boy',
     'I am a good developer',
     'understand the meaning of words',
     'your videos are good',]

### Vocabulary size
voc_size=10000

onehot_repr=[one_hot(words,voc_size) for words in sentences] 
print(onehot_repr)

'''结果：
[[1607, 1898, 6281, 9401], [1607, 1898, 6281, 3401], [1607, 6359, 6281, 2217], [7508, 378, 2733, 8693, 7438], [7508, 378, 2733, 8693, 5363], [8292, 1607, 4448, 6281, 8555], [1825, 3648, 3717, 8693]]'''

pad_sequences:

pad_sequences函数是用于将序列数据进行填充（Padding）或截断（Truncation）的方法。在自然语言处理任务中，文本通常是以序列的形式表示的，例如句子或文档中的单词序列。这些序列的长度可能不一致，为了在神经网络中进行处理，需要将它们转换为相同长度的序列。

pad_sequences函数可以根据指定的最大长度对序列进行填充或截断操作。如果序列长度小于最大长度，则会在序列的末尾添加特定的填充值（通常是0），使得序列长度与最大长度相同。如果序列长度大于最大长度，则会从序列的末尾进行截断，使得序列长度与最大长度相同。

填充或截断序列可以确保在输入神经网络之前，所有的序列具有相同的长度。这对于训练机器学习模型非常重要，因为神经网络需要一个固定长度的输入。此外，在进行批量训练时，将数据转换为相同长度的序列可以提高计算效率。

from tensorflow.keras.layers import Embedding
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential

import numpy as np

sent_length=8
embedded_docs=pad_sequences(onehot_repr,padding='pre',maxlen=sent_length)
print(embedded_docs)
 
'''结果：
[[   0    0    0    0 1607 1898 6281 9401]
 [   0    0    0    0 1607 1898 6281 3401]
 [   0    0    0    0 1607 6359 6281 2217]
 [   0    0    0 7508  378 2733 8693 7438]
 [   0    0    0 7508  378 2733 8693 5363]
 [   0    0    0 8292 1607 4448 6281 8555]
 [   0    0    0    0 1825 3648 3717 8693]]
'''

建模:

dim=10

model=Sequential()
model.add(Embedding(voc_size,dim,input_length=sent_length))
model.compile('adam','mse')

model.summary()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1447951.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

使用Word Embedding+Keras进行自然语言处理NLP

介绍：

one-hot：

pad_sequences:

建模:

相关文章

ChatGPT高效提问—prompt实践（漏洞风险分析-重构建议-识别内存泄漏）

Docker-现代化应用部署的利器

降准是什么意思？降准对股市有哪些影响？

基于FPGA的I2C接口控制器（包含单字节和多字节读写）

尚硅谷最新Node.js 学习笔记（一）

深刻反思现代化进程：20世纪与21世纪的比较分析及东西方思想家的贡献

Swift Combine 使用 flatMap 和 catch错误处理从入门到精通十三

vue3 之商城项目—购物车

前端秘法基础式(HTML)(第一卷)

【王道数据结构】【chapter5树与二叉树】【P158t10】

CorelDRAW2024国内专业个人免费版下载

安装 NVIDIA Chat with RTX

2.8：Maefile、计算单词个数、判断文件类型、单词逆置

输出用“*”组成的X形图案。

波奇学Linux：文件缓冲区

片上网络NoC（3）——拓扑指标

JAVA设计模式之中介者模式详解

【王道数据结构】【chapter5树与二叉树】【P158t6】

3dmax云渲染怎么使用？渲染100邀请码1a12

UnityShader——03图形硬件简史与可编程管线