本文参考了添加链接描述,其中oneflow实现softmax的CUDA编程源代码参考链接添加链接描述
关于softmax的解读以及CUDA代码实现可以参考本人之前编写的几篇文章添加链接描述,添加链接描述,添加链接描述
下面这个图片是之前本人实现的softmax.cu经过接入python接口,最终和pytorch自带的softmax对比的数值结果,可以看出本人之前编写的softmax算法在大部分情况下速度都比pytorch快,但是面对[4,1200,700],[700,1200,24]这样的张量却出现明显的时间差异,因此本人接下来的算法都会围绕这几个特殊案例进行分析和加速。
经过进一步实现softmax,最终本人实现的softmax和pytorch自带的softmax相比,可以在大部分情况下得到较好的加速效果,在上述特殊例子可以达到接近的速度。