在AIoT设备上加速深度神经网络推理的进展：一项综述

这篇论文的标题是《Advancements in Accelerating Deep Neural Network Inference on AIoT Devices: A Survey》，作者是 Long Cheng, Yan Gu, Qingzhi Liu, Lei Yang, Cheng Liu, Ying Wang。论文主要探讨了在人工智能物联网（AIoT）设备上加速深度神经网络（DNN）推理的最新进展。以下是论文的主要内容概述：

摘要：

论文讨论了AIoT设备上部署DNN模型的挑战，包括计算能力、存储和能效。
论文提供了一个全面的回顾，探讨了旨在加速AIoT设备上DNN推理的技术。
论文涵盖了模型压缩技术、硬件优化策略、并行化方法和执行过程的优化策略。
论文还对未来趋势进行了前瞻性分析，包括移动硬件的进步、软硬件协同设计、隐私和安全考虑，以及在资源受限的AIoT设备上进行DNN推理。

1. 引言：

论文介绍了AI与物联网（IoT）设备的结合对日常生活各个方面的影响，如智能可穿戴技术、自动驾驶汽车和先进制造系统。
论文强调了DNN模型在AIoT设备中的作用，以及它们在处理大规模数据和操作数十亿模型参数方面的可扩展性。

2. DNN模型压缩：

论文讨论了模型压缩技术，包括剪枝、量化、蒸馏和紧凑的DNN模型结构设计，以提高资源受限AIoT设备上的推理速度和能效。

DNN模型压缩对于在资源受限的AIoT设备上高效进行DNN推理至关重要，因为它可以提高速度和能效，而不会显著牺牲性能。主要的模型压缩方法包括剪枝、量化、蒸馏和紧凑的DNN模型结构设计。

剪枝：通过消除对性能影响最小的参数来减少模型大小和计算复杂性。剪枝过程通常通过将DNN模型中的一些权重、神经元或连接设置为零或小幅度来实现。论文探讨了两种主要的剪枝方法：无结构剪枝和结构化剪枝，每种方法都有助于在保持准确性的同时提高模型执行效率。
- 无结构剪枝：在DNN模型中实现显著的压缩率，但这种方法通常会产生不规则的稀疏模式，由于需要复杂的硬件解决方案来管理这些非均匀结构，因此在有效实现方面面临挑战。
- 结构化剪枝：针对DNN模型中的特定层级，如通道或卷积核，通过消除稀疏索引开销来提高AIoT设备上的硬件兼容性。这种方法通过跳过处理元素（PE）中的不必要计算来减少能源消耗和延迟。
量化：DNN模型的参数通常由32位浮点数表示，这使得它们在计算和内存方面非常密集。为了在AIoT设备上促进高效的DNN推理，量化技术被用来压缩DNN模型中权重和激活的位宽。这种位宽的减少显著降低了内存和计算需求，从而提高了资源受限AIoT设备上DNN推理的效率。论文讨论了从两个角度的量化技术，即低比特宽度网络和混合精度网络。
- 低比特宽度网络：通过极端降低位宽来减少计算和存储成本，是加速AIoT设备上DNN推理的有效方法。
- 混合精度网络：根据它们的重要性和硬件特性为不同层分配不同的位精度，以提高AIoT设备上DNN推理的准确性。
模型蒸馏：模型蒸馏技术是加速DNN推理的有效方法，它使得从复杂、训练有素的模型中转移知识到更紧凑、更简化的模型成为可能。这种方法显著减少了模型的大小和复杂性，对AIoT设备上的快速DNN推理至关重要。蒸馏方法可以分为传统蒸馏、对抗性蒸馏和多教师蒸馏。
- 传统蒸馏：使用softmax来模拟DNN模型的输出分布，以实现知识转移。
- 对抗性蒸馏：通过让教师模型从真实数据分布中学习，增强模型在未知样本上的表现和鲁棒性。
- 多教师蒸馏：使用多个教师模型通过利用多样化的知识来改进学生模型的训练。

紧凑的DNN模型结构设计：设计紧凑且高效的DNN模型架构对于在AIoT设备上加速DNN推理至关重要。论文中展示了几种经典DNN模型的架构，并讨论了如何通过使用全局平均池化层、组卷积、深度可分离卷积等技术来减少计算工作量。

3. 硬件优化：

论文探讨了硬件优化技术，如移动GPU、ASIC、FPGA以及多核和多芯片架构设计，以提高DNN推理的效率。

4. 并行化技术：

论文分析了并行计算方法，包括数据并行性、模型并行性和管道并行性，以及混合并行性，以提高复杂计算任务的推理效率。

在AIoT设备上进行深度神经网络（DNN）推理时，由于涉及到大量的矩阵乘法和非线性计算，因此需要显著的计算资源。为了提高计算效率，研究人员探索了多种并行计算方法，包括数据并行性、模型并行性和管道并行性。此外，混合并行性，通过结合不同并行化技术的优势，以提高复杂计算任务的推理效率和可扩展性，已成为提高AIoT设备上DNN推理效率的有前途的解决方案。

数据并行性：数据并行性是DNN推理加速中的关键策略，特别适用于可以并行处理的实时任务。这种方法利用多核处理器的能力，显著减少了任务完成时间。例如，在GPU实现的背景下，通过将训练数据分批处理并分配给不同的GPU核心，可以实现显著的速度提升，同时只有最小的准确性折损。
模型并行性：模型并行性是一种分布式训练策略，涉及将DNN模型的不同部分分配给不同的资源进行处理，有效减少了训练期间的内存需求。模型并行性在设备上实现时，需要在不同的核或芯片之间进行频繁的通信以进行同步。例如，通过自动将DNN模型分解到可用处理器上，优化了各个推理阶段的资源效率。
管道并行性：管道并行性通过将计算流程分解为可以在不同处理核心上并行执行的多个阶段来提高DNN推理的效率。例如，DART架构提供了一种基于管道的数据并行调度方案，用于在由CPU和GPU组成的异构平台上实时和最佳努力任务。这种方法显著减少了最坏情况下的响应时间，并提高了最佳努力任务的吞吐量。
混合并行性：在AIoT设备上部署DNN架构的不断演变中，仅应用数据、模型或管道并行性已不再可行，因为不同类型的层需要不同的并行化策略。这种挑战促使研究人员探索混合并行方法，以确定复杂模型的最佳分区方案。例如，通过结合数据并行性和模型并行性，优化了在卷积层中的数据并行性，并在全连接层中应用模型并行性。

在AIoT设备上加速DNN推理的过程中，这些并行化技术的发展和应用至关重要，它们共同提高了计算效率，满足了AIoT设备上资源受限环境中对高性能计算的需求。

5. 执行优化策略：

论文介绍了执行优化策略，包括数据流优化、早期退出策略、缓存技术和内存访问方法，以加速AIoT设备的DNN推理。

执行优化策略在加速AIoT设备上的DNN推理中扮演着至关重要的角色。这些策略包括一系列方法，如数据流优化、早期退出策略、缓存技术和内存访问方法，旨在提高推理效率和适应性，尤其是在资源受限的AIoT设备上。

数据流优化：数据流优化着重于提高数据流处理系统的效率，以应对实时数据流的快速处理需求。这涉及到优化数据在系统中的传输和处理方式，减少计算和数据传输延迟。例如，通过灵活的数据流映射工具优化DNN加速器的能效和性能，实现与传统NoC（网络on芯片）结构相比更高的利用率。
早期退出策略：早期退出策略通过在DNN模型的早期层集成额外的分类器，以高置信度进行推理，从而加速推理过程。这是因为DNN模型的早期层学到的特征往往足以提供准确的推理结果。早期退出策略可以是静态的或动态的，它们通过在模型的适当层添加退出点，减少不必要的计算，从而提高推理速度。
缓存技术：缓存技术通过将频繁访问的数据存储在快速访问的缓存中，减少检索时间和延迟，对于处理大型实时数据流至关重要。数据缓存优化了数据存储和访问，减少了对主内存或外部存储的频繁访问。模型缓存则通过存储常见的DNN模型以快速加载，提高了推理效率。
- 数据缓存：通过在SRAM数组中执行原地算术操作、有效的数据映射和减少数据移动等技术，提高了数据流处理的效率。
- 模型缓存：通过缓存DNN模型的关键部分，如卷积层及其输入数据，提高了卷积性能，并减少了DNN模型的启动时间和资源消耗。
内存访问：内存访问优化技术旨在减少DNN推理过程中的计算和内存访问时间，尤其是在内存容量有限且功耗高的AIoT设备上。这包括使用处理内存储（PIM）架构，将计算任务与数据存储紧密集成，减少数据传输和延迟。
- 处理内存储（PIM）架构：通过在存储组件内集成计算核心，减少了数据移动，提高了内存操作的效率。例如，利用ReRAM（阻变随机存取存储器）等非易失性存储技术，提高了DNN模型的推理速度。