1、Convolutional Neural Networks and Vision Transformers for Fashion MNIST Classification: A Literature Review
中文标题:卷积神经网络和视觉变换器在Fashion MNIST分类任务中的应用:文献综述
简介:本文综述了在Fashion MNIST数据集上使用卷积神经网络(CNN)和视觉Transformer(ViT)进行图像分类的相关研究。
CNN长期以来一直是图像分类的主流技术,而ViT则引入了一种基于自注意机制的创新方法。尽管Transformer最初主要应用于自然语言处理,但它们在图像分类任务上也显示出了良好的性能。
本综述旨在比较分析CNN和ViT在图像分类中的不同特点和优势。我们详细审视了采用这两种架构的最新方法,并探讨了影响它们性能的关键因素,如数据集特征、图像尺寸、类别数量等。
总的来说,本文的目标是确定在电子商务服装分类应用中,CNN和ViT哪种架构更加合适。同时也强调了将这两种架构结合使用的重要性,以充分发挥它们各自的优势,为该领域提供更加准确可靠的模型。
2、Post-hoc Part-prototype Networks
中文标题:事后原型网络
简介:后续解释方法(如Grad-CAM)因不影响模型性能而广受欢迎,但它们主要揭示了模型对输入"关注了哪里",却无法解释模型"在寻找什么"(比如对于将鸟类图像归类为Scott Oriole,模型认为哪些特征很重要)。现有的部件-原型网络利用部件原型(如Scott Oriole的翅膀和头部特征)来回答"关注了哪里"和"在寻找什么",但准确性通常不如它们的黑盒对应物。
因此,研究人员提出了一种新的网络结构,即后续部件-原型网络。它通过对训练好的模型的分类器进行分解,得到一组可解释的部件原型。具体来说,它采用无监督的原型发现和细化策略,获得能精确重构分类器的原型,同时又具有可解释性。与之前的部件-原型网络相比,这种方法不仅能保证模型性能,而且提供了更忠实、更定量的可解释性。
3、SuperFormer: Volumetric Transformer Architectures for MRI Super-Resolution
中文标题:SuperFormer: MRI超分辨率的体积变换器架构
简介:这篇文章提出了一种新的框架,使用视觉Transformer (ViT) 来处理3D医学图像数据,特别是磁共振成像 (MRI) 数据。
首先,作者将最新的Swin Transformer模型扩展到了3D医学领域。
其次,作者提出了一种新的方法来处理ViT中的体积信息和位置编码,使其更适用于3D应用。
基于这个框架,作者提出了SuperFormer,一种基于体积Transformer的MRI超分辨率方法。
这种方法利用了MRI数据的3D信息,并使用带有3D相对位置编码的局部自注意机制来恢复解剖细节。
此外,该方法还融合了体积和特征域的信息,以重构高分辨率的MRI图像。
作者在人类连接组数据集上进行了广泛的实验验证,并展示了体积Transformer模型优于基于3D卷积神经网络的方法。
最后,作者公开了相关的代码和预训练模型。