利用F.interpolate()函数进行插值操作

news2026/4/1 7:31:49

函数简介

功能：

利用插值方法，对输入的张量数组进行上\下采样操作，换句话说就是科学合理地改变数组的尺寸大小，尽量保持数据完整。

torch.nn.functional.interpolate(input, size=None, scale_factor=None, mode='nearest', align_corners=None, recompute_scale_factor=None)

参数：

input (Tensor)：需要进行采样处理的数组。数据类型必须是float。维数只能是3，4或5，分别对应时间、空间或体积采样。输入数组的维度形式为：批量(batch_size)x通道(channel)x[可选深度]x[可选高度]x宽度（前两个维度具有特殊的含义，不进行采样处理）
size (int或序列)：输出空间的大小
scale_factor (float或序列)：空间大小的乘数
mode (str)：用于采样的算法，默认 'nearest'。

具体参考：

torch.nn.functional.interpolate — PyTorch 2.4 documentation
F.interpolate——数组采样操作-CSDN博客

示例

实际应用中，有时候会使用wav2vec或者hubert等预训练模型提取wav文件的中间表征，得到预测的id序列，predicted_ids，然后需要将该id序列对齐到另一个指定长度，进行监督。这时候就需要用到F.interpolate()函数进行插值操作，具体如下：

import torch
from torch.nn import functional as F

# [B, T]
predicted_ids = torch.tensor([[0, 1, 3, 4, 2],
                              [0, 2, 5, 0, 0]])
target_size = 8
phone_ids = F.interpolate(predicted_ids.unsqueeze(0).float(), target_size, mode='nearest').long().squeeze(0)
print(phone_ids)