体系结构论文导读（三十四）：Design of Reliable DNN Accelerator with Un-reliable ReRAM

news2025/1/12 13:38:51

文章核心

这篇文章主要讨论了一种在不可靠的ReRAM（阻变存储器）设备上设计可靠的深度神经网络（DNN）加速器的方法。文章提出了两种关键技术来解决ReRAM固有的不可靠性问题：动态定点（DFP）数据表示和设备变异感知（DVA）训练方法。

一、引言

背景介绍：
- DNN在图像分类、语音识别、语言处理和计算机游戏等多个应用中表现出色。
- DNN的主要计算是向量-矩阵和矩阵-矩阵乘法操作，这些操作对数据的需求量大，使得传统冯·诺依曼架构在存储访问延迟和能量消耗方面成为瓶颈。
- 处理内存（PIM）通过将计算和存储直接集成，提供了解决存储瓶颈的解决方案。
- ReRAM是一种新兴的非易失性存储器，具有快速读写速度、高密度和高开关比，因而被广泛研究用于设计高效的机器学习加速器。
挑战：
- ReRAM设备的固有不可靠性，即设备电阻的随机变化，带来了设计可靠的ReRAM DNN加速器的主要挑战。
- ReRAM的计算是在模拟方式下进行的，电阻的偏差会直接导致乘积和结果的错误，从而显著降低计算精度。
提出的方法：
- 动态定点（DFP）数据表示：根据数据范围自适应地改变小数点位置，减少未使用的最重要位（MSB）带来的误差。
- 设备变异感知（DVA）训练：在训练过程中向参数添加随机噪声，以增强网络对参数变化的鲁棒性。

二、相关知识

深度神经网络（DNN）：
- 卷积神经网络（CNN）：包含卷积层、池化层和全连接层。主要计算在卷积层，通过应用滤波器提取输入特征。
- 递归神经网络（RNN）：利用序列信息，通过记忆之前的计算，适用于许多时间依赖的应用。长短期记忆网络（LSTM）通过引入门机制解决RNN的梯度消失问题。
基于ReRAM的DNN加速器：
- ReRAM设备的电阻受set和reset电压调制，具有低电阻状态（LRS）和高电阻状态（HRS）。
- 通过控制电阻状态，实现数据存储和计算功能。
ReRAM设备的变异性：
- ReRAM电阻的随机变化对DNN加速器的设计提出了挑战。设备的电阻分布通常符合正态或对数正态分布。
- 设备变异性对计算精度的影响由统计分布的偏差、设备on/off比以及存储的位数决定。

图2(a)：ReRAM结构及其电阻转换机制

ReRAM结构：ReRAM设备由上下电极和夹在中间的电阻切换层（HfOx, TiO2, Al2O3 或其组合）组成。
电阻转换机制：
Set过程：氧离子从晶格中逸出，形成氧空位导电丝，使设备处于低电阻状态（LRS）。
Reset过程：导电丝断裂，形成一个间隙，设备处于高电阻状态（HRS）。
多级电阻：通过控制间隙长度，设备可以被重置为不同的电阻值，实现多级存储。

图2(b)：用于向量矩阵乘法的ReRAM交叉阵列

核心组件：ReRAM加速器的核心是向量矩阵乘法器（VMM）引擎，执行乘法-累加（MAC）操作。
输入缓冲区：接收输入电压。
交叉阵列：通过字线（WL）和位线（BL）进行操作。
DAC/ADC转换器：在交叉阵列内外进行数字-模拟和模拟-数字转换。
移位和累加单元：将部分结果累加在一起，得到最终结果。

图3展示了影响基于ReRAM的DNN加速器计算精度的因素。

图3(a)：

1 bit，σ = σ0：当设备电阻的偏差较小时，读出误差较小。

图3(b)：

1 bit，σ = 3σ0：当设备电阻的偏差较大时，读出误差增大，导致计算错误。

图3(c)：

1 bit，低on/off比：较低的on/off比减小了不同电阻状态之间的间距，增加了错误的可能性。

图3(d)：

2 bit，σ = σ0：使用多级电阻时，相邻状态有较大的重叠，增加了计算错误的可能性。