【深度学习】时间序列表示方法

news2025/1/4 21:43:30

自然界除了2D的图片数据之外，还有语音、文字，这些数据都有时间的先后顺序的。对于2D的图像的数据，可以用RGB值来表示像素的色彩度。语音可以用信号幅度值来表示，而Pytorch没有自带String支持，在表示文字之前需要进行Embedding。

没有String类型，采用embedding来进行表示——[seq_len, feature_len]，第一个维度表示序列的长度（即单词的个数），第二个维度表示进行维度表示所需要的维度数。如[5, 1]，表示一句话有5个单词，每个单词都用长度为1的向量进行表示；[5, 100]，表示一句话有5个单词，每个单词都用长度为100的向量进行表示。[seq_len, feature_len]针对不同的用户场景有着不同的含义，看以下曲线——房价随月份的变化，[100,1]中的第一个维度表示的是月份，第二个维度表示的是表示该月份的房价用长度为1的向量进行表示。

文本信息的表达方式为[words, word_vec]，第一个维度是单词数量，第二个维度区间于编码方式。编码方式可以采用独热编码。

one-hot编码非常系数，维度非常高，并且语言具有语义相关性（semantic similarity，通过计算余弦相似性），可以采用另外一种编码方式，本质上是对one-hot编码后的语义空间进行降维——word2vec（一种不存在激活函数的神经网络，相当于编词典）。

跟处理图片一样，处理序列也可以取几batch进行一起处理，这时候张量表示存在两种方式——[word_num, b, word_vec] 和 [b, word_num, word_vec]。

word_to_ix = {"hello":0, "world":1}

lookup_tensor = torch.tensor([word_to_ix["hello"]], dtype=torch.long)
# 2 words in vacab, 5 dimensional embeddings
embeds = nn.Embedding(2, 5)
hello_embed = embeds(lookup_tensor)
print(hello_embed)
tensor([[0.6614, 0.2669, 0.0617, 0.6213, -0.4519]], grad_fn=<EmbeddingBackward>)

直接使用GloVe方式（编码方式），直接输入单词既可以得到单词对应的向量。

from torchnlp.word_to_vector import GloVe
vectors = GloVe()

vectors['hello']

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2268872.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【深度学习】时间序列表示方法

相关文章

使用 Navicat 官方免费版来实现从 DAT 文件填充 MySQL 8 表

【CSS in Depth 2 精译_093】16.2：CSS 变换在动效中的应用（上）—— 图标的放大和过渡效果的设置

Linux 信号集与信号掩码

CPT203 Software Engineering 软件工程 Pt.5 软件测试（中英双语）

微信小程序中遇到过的问题

【C++】B2084 质因数分解

Unity中列表List使用出类似字典Dictionary的感觉

分布式项目___某污水处理项目

WebRTC：实现浏览器与移动应用的实时通信

小程序基础 —— 07 创建小程序项目

数据结构之线性表之链表(附加一个考研题)

RocketMQ（二）RocketMQ实战

Vue router router-link router-view keep-alive

掌握 PostgreSQL 的 psql 命令行工具

【C++】深入理解 break 和 continue 语句

【C++】B2064 斐波那契数列

在 Ubuntu 24.04.1 LTS | Python 3.12 环境下部署 Crypto 库

【ArcGIS Pro/GeoScene Pro】可视化时态数据

Junit4单元测试快速上手

HTML——24.图片引入1