1、和其他网络的比较
自注意力机制适合处理长文本,并行度好,在GPU上,CNN和Self-attention性能差不多,在TPU(Tensor Processing Uni)效果更好。
2、输入特点
原生的Transformer中nn.embeding输入需要非负整数,且范围在[0,100]之间(试出来的,未必准确),这是对不同长度的单词维度进行扩展,但是对于图像或者其他类别而言未必是最后一个维度大小不一致,可以参考ViT将nn.embeding换成nn.Linear,还需要修改mask.