深入剖析ReLU激活函数：特性、优势与梯度消失问题的解决之道，以及Leaky ReLU 和 Parametric ReLU

深入剖析ReLU激活函数：特性、优势与梯度消失问题的解决之道

在深度学习领域，激活函数的选择直接影响神经网络的训练效果和性能。整流线性单元（Rectified Linear Unit，简称ReLU）因其简单性、高效性以及对梯度消失问题的缓解能力，成为现代深度神经网络中最常用的激活函数之一。本文将从ReLU的定义、数学特性、梯度行为以及其在深度学习中的应用出发，深入探讨其为何能有效避免梯度消失问题，并提供一些深刻的洞见，面向具有扎实基础的深度学习研究者。

一、ReLU激活函数的数学定义

ReLU的定义极其简单：

$\text{ReLU}(x) = \max(0, x)$

即对于输入 ( $x$ )，如果 ( $x > 0$ )，输出 ( $x$ )；如果 ( $\leq 0$ )，输出0。从函数图像上看，ReLU是一条分段线性函数：在负半轴为水平线（值为0），在正半轴为45度斜线（斜率为1）。这种简单性不仅降低了计算复杂度，还带来了许多意想不到的优势。

二、ReLU的数学与计算特性

非线性与稀疏性
尽管ReLU在正半轴上是线性的，但其分段性质使其整体为非线性激活函数。这种非线性允许神经网络学习复杂的模式。同时，ReLU将所有负输入置为0，导致网络输出具有稀疏性（即许多神经元被“关闭”）。稀疏性被认为有助于提高模型的泛化能力和计算效率。
导数形式
ReLU的导数同样简单：
$\frac{d}{dx} \text{ReLU}(x) = \begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x < 0 \\ \text{未定义}, & \text{if } x = 0 \end{cases}$
在实践中，( $x = 0$ ) 处的导数通常被约定为0或1（实现中常取0）。这种二值性（0或1）是ReLU的核心特性之一，直接影响其梯度传播行为。
无上限性
与Sigmoid和tanh不同，ReLU在正半轴没有上界。这意味着它不会像tanh那样在输入较大时饱和，输出可以随着输入线性增长。这种无上限性对梯度传播有深远影响。

三、为何ReLU不会出现梯度消失问题？

梯度消失问题是深度神经网络训练中的一大难题，尤其在Sigmoid和tanh等激活函数中表现明显。这些函数在输入绝对值较大时，导数趋于0，导致反向传播时梯度在深层网络中迅速衰减。而ReLU通过其独特的设计有效缓解了这一问题，以下是详细分析：

导数的二值性与梯度保持
ReLU的导数在 ( $x > 0$ ) 时恒为1，这意味着只要输入为正，梯度在反向传播中不会衰减。相比之下，Sigmoid的导数最大值为0.25，tanh的最大值为1，但两者在输入远离0时迅速趋于0，导致梯度在多层传播中成倍缩小。而ReLU的梯度要么是0（负输入），要么是1（正输入），不会出现中间的“缩水”状态，从而保证了梯度在正输入区域的完整传递。
避免饱和区域
Sigmoid和tanh的梯度消失源于其饱和特性：当输入过大或过小时，函数值趋于边界，导数接近0。而ReLU在正半轴完全没有饱和问题，无论输入多大，导数始终为1。这种“非饱和性”使得ReLU在深层网络中能够维持梯度的有效传播，尤其是在网络层数较多时优势更加明显。
稀疏激活与梯度路径
ReLU的稀疏性（负输入被置为0）使得只有部分神经元被激活。这种稀疏激活形成了一条“活跃路径”，梯度只需通过这些活跃神经元传播，而不会被所有层的饱和效应削弱。换句话说，ReLU通过“选择性激活”减少了梯度消失的累积效应。
数学推导的直观解释
在反向传播中，梯度通过链式法则计算。对于第 ( $l$ ) 层的梯度：
$\frac{\partial L}{\partial z^{(l)}} = \frac{\partial L}{\partial a^{(l)}} \cdot \frac{\partial a^{(l)}}{\partial z^{(l)}}$
其中 ( $a^{(l)} = \text{ReLU}(z^{(l)})$ )。若 ( $z^{(l)} > 0$ )，则 ( $\frac{\partial a^{(l)}}{\partial z^{(l)}} = 1$ )，梯度直接传递；若 ( $z^{(l)} \leq 0$ )，则梯度为0。这种机制确保了梯度不会因激活函数本身而逐渐变小。

四、ReLU的优势与局限

优势
- 计算效率：ReLU仅涉及比较和取最大值，计算成本远低于指数运算（如Sigmoid和tanh）。
- 加速收敛：由于梯度不会消失，ReLU通常使网络收敛速度快于Sigmoid和tanh，尤其在配合适当的初始化（如He初始化）时。
- 稀疏表达：稀疏性可能有助于减少过拟合，提升模型的可解释性。
局限：死亡神经元问题
ReLU的一个潜在问题是“死亡神经元”（Dying ReLU）：当输入始终小于0时，神经元的输出和梯度均为0，导致该神经元在训练中无法更新。这一问题在学习率过高或输入分布不当时尤为明显。为此，研究者提出了变种如Leaky ReLU（允许负输入有小斜率）和Parametric ReLU（斜率可学习）。

五、深刻的洞见

ReLU的线性本质与非线性权衡
ReLU在正半轴的线性特性看似削弱了非线性，但通过多层堆叠和稀疏激活，网络仍能学习复杂的非线性映射。这种“局部线性+全局非线性”的设计是ReLU成功的深层原因。
与生物学的联系
ReLU的稀疏性和二值导数与生物神经元的行为有一定相似性：神经元要么被激活（发放脉冲），要么保持静默。这种生物启发性可能是ReLU在实践中表现优异的一个潜在因素。
梯度消失的本质反思
ReLU缓解梯度消失的根本在于其打破了传统激活函数的“压缩性”。Sigmoid和tanh将输入压缩到一个有限区间，而ReLU允许正输入“无损通过”，这提示我们在设计新激活函数时，应关注如何保持梯度的动态范围。

六、总结

ReLU激活函数以其简单高效的设计，成功解决了梯度消失问题，成为深度学习中的基石。其导数的二值性、非饱和性以及稀疏激活特性，确保了梯度在深层网络中的有效传播。尽管存在死亡神经元等局限，ReLU的变种和优化策略（如适当的初始化和正则化）进一步巩固了其地位。对于深度学习研究者而言，理解ReLU的数学本质及其对梯度传播的影响，不仅有助于优化现有模型，还能启发新型激活函数的设计。

Loss对激活的梯度

在反向传播中，计算 ( $\frac{\partial L}{\partial a^{(l)}}$ ) 是理解梯度传播的关键一步。它表示损失函数 ( $L$ ) 对第 ( $l$ ) 层激活值 ( $a^{(l)}$ ) 的偏导数，而这个值通常需要通过从后一层（第 ( $l + 1$ ) 层）传递回来的梯度计算得到。以下将详细推导 ( $\frac{\partial L}{\partial a^{(l)}}$ ) 的计算过程，并结合ReLU激活函数的特性进行说明，面向有深度学习基础的研究者，提供清晰且深入的分析。

一、反向传播的整体框架

在神经网络中，梯度通过链式法则从输出层逐层向输入层传播。对于第 ( $l$ ) 层，我们的目标是计算 ( $\frac{\partial L}{\partial z^{(l)}}$ )，以更新该层的权重和偏置。而根据链式法则：

$\frac{\partial L}{\partial z^{(l)}} = \frac{\partial L}{\partial a^{(l)}} \cdot \frac{\partial a^{(l)}}{\partial z^{(l)}}$

其中：

( $z^{(l)}$ ) 是第 ( $l$ ) 层的线性输入（即 ( $z^{(l)} = W^{(l)} a^{(l-1)} + b^{(l)}$ )），
( $a^{(l)} = \text{ReLU}(z^{(l)})$ ) 是第 ( $l$ ) 层的激活输出，
( $\frac{\partial a^{(l)}}{\partial z^{(l)}}$ ) 是激活函数的导数（对于ReLU，已知其值为1或0）。

因此，计算 ( $\frac{\partial L}{\partial z^{(l)}}$ ) 的关键在于先求出 ( $\frac{\partial L}{\partial a^{(l)}}$ )。而 ( $\frac{\partial L}{\partial a^{(l)}}$ ) 的值依赖于第 ( $l$ ) 层对后续层的影响，通过反向传播从第 (l+1) 层传递而来。

二、( $\frac{\partial L}{\partial a^{(l)}}$ ) 的推导

要计算 ( $\frac{\partial L}{\partial a^{(l)}}$ )，我们需要考虑 ( $a^{(l)}$ ) 如何影响损失 ( $L$ )。在神经网络中，( $a^{(l)}$ ) 是第 ( $l$ ) 层的输出，它会作为第 ( $l + 1$ ) 层的输入，参与计算 ( $z^{(l+1)}$ )。因此，( $\frac{\partial L}{\partial a^{(l)}}$ ) 需要通过 ( $z^{(l+1)}$ ) 和 ( $a^{(l+1)}$ ) 的关系来计算。

1. 定义第 ( $l + 1$ ) 层的计算

假设第 ( $l + 1$ ) 层的线性输入为：
$z^{(l+1)} = W^{(l+1)} a^{(l)} + b^{(l+1)}$
其中 ( $W^{(l+1)}$ ) 是权重矩阵，( $b^{(l+1)}$ ) 是偏置向量。然后，( $z^{(l+1)}$ ) 通过激活函数生成 ( $a^{(l+1)}$ )：
$a^{(l+1)} = f(z^{(l+1)})$
这里的 ( $f(\cdot)$ ) 可以是任意激活函数（比如ReLU、Sigmoid等）。

2. 应用链式法则

损失 ( $L$ ) 通过 ( $a^{(l+1)}$ ) 和 ( $z^{(l+1)}$ ) 间接依赖于 ( $a^{(l)}$ )。因此，( $\frac{\partial L}{\partial a^{(l)}}$ ) 需要考虑 ( $a^{(l)}$ ) 对所有 ( $z^{(l+1)}$ ) 的影响。假设 ( $z^{(l+1)}$ ) 是一个向量，其第 ( $j$ ) 个元素为 ( $z_j^{(l+1)}$ )，则：
$z_j^{(l+1)} = \sum_i W_{ji}^{(l+1)} a_i^{(l)} + b_j^{(l+1)}$
其中 ( $W_{ji}^{(l+1)}$ ) 是权重矩阵的第 ( $j$ ) 行第 ( $i$ ) 列元素，( $a_i^{(l)}$ ) 是 ( $a^{(l)}$ ) 的第 ( $i$ ) 个分量。

根据链式法则，( $\frac{\partial L}{\partial a_i^{(l)}}$ )（即 ( $\frac{\partial L}{\partial a^{(l)}}$ ) 的第 ( $i$ ) 个分量）为：
$\frac{\partial L}{\partial a_i^{(l)}} = \sum_j \frac{\partial L}{\partial z_j^{(l+1)}} \cdot \frac{\partial z_j^{(l+1)}}{\partial a_i^{(l)}}$

3. 计算 ( $\frac{\partial z_j^{(l+1)}}{\partial a_i^{(l)}}$ )

从 ( $z_j^{(l+1)}$ ) 的定义来看：
$\frac{\partial z_j^{(l+1)}}{\partial a_i^{(l)}} = W_{ji}^{(l+1)}$
这是因为 ( $z_j^{(l+1)}$ ) 对 ( $a_i^{(l)}$ ) 的偏导数仅与对应的权重 ( $W_{ji}^{(l+1)}$ ) 有关。

4. 代入链式法则

于是：
$\frac{\partial L}{\partial a_i^{(l)}} = \sum_j \frac{\partial L}{\partial z_j^{(l+1)}} \cdot W_{ji}^{(l+1)}$
用向量形式表示，( $\frac{\partial L}{\partial a^{(l)}}$ ) 是向量，其计算为：
$\frac{\partial L}{\partial a^{(l)}} = (W^{(l+1)})^T \cdot \frac{\partial L}{\partial z^{(l+1)}}$
这里的 (( $W^{(l+1)})^T$ ) 是权重矩阵的转置，( $\frac{\partial L}{\partial z^{(l+1)}}$ ) 是第 ( $l + 1$ ) 层的梯度（已通过反向传播从后一层计算得到）。

5. ( $\frac{\partial L}{\partial z^{(l+1)}}$ ) 的来源

( $\frac{\partial L}{\partial z^{(l+1)}}$ ) 本身是通过第 ( $l + 1$ ) 层的激活函数导数和更后层的梯度计算的：
$\frac{\partial L}{\partial z^{(l+1)}} = \frac{\partial L}{\partial a^{(l+1)}} \cdot \frac{\partial a^{(l+1)}}{\partial z^{(l+1)}}$
其中 ( $\frac{\partial a^{(l+1)}}{\partial z^{(l+1)}}$ ) 是第 ( $l + 1$ ) 层激活函数的导数（例如，若为ReLU，则为0或1）。这一过程递归进行，直到输出层。

三、结合ReLU的具体例子

假设第 ( $l$ ) 层和第 ( $l + 1$ ) 层都使用ReLU激活函数。我们从第 ( $l + 1$ ) 层开始：

( $\frac{\partial L}{\partial z^{(l+1)}} = \frac{\partial L}{\partial a^{(l+1)}} \cdot \frac{\partial a^{(l+1)}}{\partial z^{(l+1)}}$ )
- 若 ( $z_j^{(l+1)} > 0$ )，则 ( $\frac{\partial a_j^{(l+1)}}{\partial z_j^{(l+1)}} = 1$ )；
- 若 ( $z_j^{(l+1)} \leq 0$ )，则 ( $\frac{\partial a_j^{(l+1)}}{\partial z_j^{(l+1)}} = 0$ )。
然后：
$\frac{\partial L}{\partial a^{(l)}} = (W^{(l+1)})^T \cdot \frac{\partial L}{\partial z^{(l+1)}}$
对于第 ( $l$ ) 层：
$\frac{\partial L}{\partial z^{(l)}} = \frac{\partial L}{\partial a^{(l)}} \cdot \frac{\partial a^{(l)}}{\partial z^{(l)}}$
- 若 ( $z_i^{(l)} > 0$ )，则 ( $\frac{\partial a_i^{(l)}}{\partial z_i^{(l)}} = 1$ )，梯度直接传递；
- 若 ( $z_i^{(l)} \leq 0$ )，则 ( $\frac{\partial a_i^{(l)}}{\partial z_i^{(l)}} = 0$ )，梯度为0。

这种逐层传递的过程展示了ReLU如何通过保持导数为1（在正输入时）避免梯度缩减。

四、计算上的直观理解

从后向前：( $\frac{\partial L}{\partial a^{(l)}}$ ) 是第 ( $l + 1$ ) 层梯度通过权重矩阵“汇总”回来的结果。它反映了 ( $a^{(l)}$ ) 的变化如何影响下一层的输入 ( $z^{(l+1)}$ )，进而影响损失 ( $L$ )。
矩阵运算：在实际实现中，( $\frac{\partial L}{\partial a^{(l)}} = (W^{(l+1)})^T \cdot \frac{\partial L}{\partial z^{(l+1)}}$ ) 通常通过矩阵乘法高效计算，尤其在深度学习框架（如PyTorch或TensorFlow）中。

五、总结

( $\frac{\partial L}{\partial a^{(l)}}$ ) 的计算依赖于第 ( $l + 1$ ) 层的梯度 ( $\frac{\partial L}{\partial z^{(l+1)}}$ ) 和权重矩阵 ( $W^{(l+1)}$ )，通过链式法则从后一层递归传递而来。当结合ReLU时，( $\frac{\partial a^{(l)}}{\partial z^{(l)}}$ ) 的二值性（0或1）确保了梯度不会因激活函数而逐渐变小，从而缓解梯度消失问题。希望这个推导能帮助你更清晰地理解反向传播的细节！

ReLU的“死亡神经元”问题与变种：Leaky ReLU 和 Parametric ReLU 的深入剖析

ReLU（Rectified Linear Unit）激活函数因其简单高效和缓解梯度消失问题的能力，在深度学习中广受欢迎。然而，它的一个显著局限是“死亡神经元”（Dying ReLU）问题：当神经元的输入始终小于0时，其输出和梯度均为0，导致该神经元在训练中无法更新，相当于“死亡”。这一问题在学习率过高、输入分布偏移或网络初始化不当的情况下尤为突出。为了解决这一缺陷，研究者提出了ReLU的变种，其中 Leaky ReLU 和 Parametric ReLU（PReLU） 是两种重要的改进形式。下面将深入介绍这两种变种的定义、数学特性、优势及应用场景，面向深度学习研究者提供详细分析。

一、死亡神经元问题的根源

在标准ReLU中，激活函数定义为：
$\text{ReLU}(x) = \max(0, x)$
其导数为：
$\frac{d}{dx} \text{ReLU}(x) = \begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x \leq 0 \end{cases}$

当输入 ( $\leq 0$ ) 时，输出为0，梯度也为0。如果某个神经元的输入 ( $z = W x + b$ ) 在训练过程中始终小于0（例如由于权重 ( $W$ ) 和偏置 ( $b$ ) 的初始值或更新方向导致），该神经元将不再对损失函数产生贡献，也无法通过梯度更新调整权重。这种“不可逆关闭”的状态就是“死亡神经元”问题，尤其在深层网络中可能导致大量神经元失效，降低模型的表达能力。

二、Leaky ReLU：引入负输入的小斜率

1. 定义

Leaky ReLU（漏斗整流线性单元）是对ReLU的改进，旨在避免神经元完全“死亡”。其定义为：
$\text{Leaky ReLU}(x) = \begin{cases} x, & \text{if } x > 0 \\ \alpha x, & \text{if } x \leq 0 \end{cases}$
其中 ( $\alpha$ ) 是一个小的正数（通常取默认值如0.01），表示负输入区域的斜率。

2. 数学特性

导数：
$\frac{d}{dx} \text{Leaky ReLU}(x) = \begin{cases} 1, & \text{if } x > 0 \\ \alpha, & \text{if } x \leq 0 \end{cases}$
与ReLU不同，Leaky ReLU在负输入区域的梯度不再为0，而是 ( $\alpha$ )。这意味着即使输入小于0，神经元仍能通过小的梯度参与训练。
连续性：Leaky ReLU在 ( $x = 0$ ) 处不连续，但其导数定义明确，适合深度学习框架的反向传播。

3. 优势

缓解死亡神经元问题：通过允许负输入有非零梯度，Leaky ReLU确保神经元不会完全失去更新能力。即使输入始终为负，权重仍可以通过小的梯度逐步调整，增加“复活”的可能性。
计算简单：与ReLU类似，Leaky ReLU仅涉及简单的条件判断和乘法，保持了高效性。
增强表达能力：负输入区域的小斜率保留了更多信息，可能有助于网络学习更复杂的特征。

4. 局限与洞见

超参数选择：( $\alpha$ ) 通常是固定的（如0.01），但其最佳值可能因任务而异。若 ( $\alpha$ ) 过小，效果接近ReLU，仍可能导致梯度过弱；若过大，则可能削弱ReLU的稀疏性优势。
稀疏性减弱：相比ReLU，Leaky ReLU的负输入不再完全置零，导致网络输出的稀疏性降低，这可能影响模型的泛化能力。

5. 应用场景

Leaky ReLU常用于需要避免死亡神经元但仍希望保留ReLU简单性的场景，例如卷积神经网络（CNN）或深层全连接网络。研究表明，在某些视觉任务中（如图像分类），Leaky ReLU比标准ReLU表现更稳定。

三、Parametric ReLU（PReLU）：斜率可学习

1. 定义

Parametric ReLU（参数化ReLU，简称PReLU）是Leaky ReLU的进一步改进，将负输入区域的斜率 ( $\alpha$ ) 作为可训练参数。其定义为：
$\text{PReLU}(x) = \begin{cases} x, & \text{if } x > 0 \\ \alpha x, & \text{if } x \leq 0 \end{cases}$
与Leaky ReLU不同，这里的 ( $\alpha$ ) 不再是固定值，而是通过训练优化得到。可以为每个神经元设置独立的 ( $\alpha$ )（逐通道或逐元素），也可以共享一个全局 ( $\alpha$ )。

2. 数学特性

导数：
$\frac{d}{dx} \text{PReLU}(x) = \begin{cases} 1, & \text{if } x > 0 \\ \alpha, & \text{if } x \leq 0 \end{cases}$
此外，( $\alpha$ ) 本身是可训练的，其梯度通过反向传播计算：
$\frac{\partial L}{\partial \alpha} = \frac{\partial L}{\partial \text{PReLU}(x)} \cdot x, \quad \text{if } x \leq 0$
灵活性：PReLU允许网络自适应地调整负输入的斜率，使其更贴合数据特性。

3. 优势

自适应性：( $\alpha$ ) 的可学习性使PReLU能够根据任务和数据动态调整负区域的梯度，避免人为设定超参数的局限性。
更强的表达能力：相比固定斜率的Leaky ReLU，PReLU通过学习最佳斜率，进一步增强了网络对复杂模式的建模能力。
缓解死亡神经元：与Leaky ReLU类似，PReLU确保负输入区域有非零梯度，同时通过优化 ( $\alpha$ ) 提高神经元“复活”的可能性。

4. 局限与洞见

计算开销增加：引入可训练参数 ( $\alpha$ ) 增加了模型的参数量和计算成本，尤其在逐通道或逐元素设置 ( $\alpha$ ) 时。
过拟合风险：额外的参数可能导致模型过于灵活，在小数据集上容易过拟合，需要结合正则化策略。
初始化敏感性：( $\alpha$ ) 的初始值（如0.25）对训练稳定性有一定影响，需与权重初始化（如He初始化）配合使用。

5. 应用场景

PReLU在深层网络和复杂任务中表现出色，例如目标检测（如Faster R-CNN）和生成对抗网络（GAN）。其首次提出是在2015年的论文《Delving Deep into Rectifiers》中，用于提升深度CNN在ImageNet上的性能，实验表明PReLU显著优于ReLU和Leaky ReLU。

四、Leaky ReLU 与 PReLU 的对比

特性	Leaky ReLU	PReLU
负区域斜率	固定（如0.01）	可学习参数 ( $\alpha$ )
计算复杂度	低	稍高（需优化额外参数）
灵活性	较低（超参数需手动调优）	高（自适应调整斜率）
参数量	无额外参数	增加少量参数（视实现而定）
适用场景	简单任务、计算资源受限	深层网络、复杂任务

五、深刻的洞见

从“修复”到“优化”
Leaky ReLU通过固定斜率“修复”了ReLU的死亡神经元问题，而PReLU则将这一修复提升为“优化”问题，让网络自行决定最佳斜率。这种从人为设计到数据驱动的转变反映了深度学习发展的趋势。
稀疏性与表达能力的权衡
ReLU的稀疏性是其优势，但死亡神经元是副作用。Leaky ReLU和PReLU通过牺牲部分稀疏性换取更强的鲁棒性和表达能力，研究者需根据任务需求权衡这一特性。
生物学启发
Leaky ReLU和PReLU的负输入梯度设计与生物神经元的“泄漏”行为有一定相似性，可能为其效果提供了潜在的理论支持。

六、总结

Leaky ReLU和PReLU作为ReLU的变种，通过为负输入区域引入非零梯度，有效缓解了死亡神经元问题。Leaky ReLU以简单高效见长，适合资源受限或实验性场景；而PReLU通过可学习的斜率提供更大灵活性，适用于深层网络和复杂任务。研究者在选择时需综合考虑计算成本、任务复杂度及数据特性。未来，结合自适应机制或混合激活函数的设计，或许能进一步突破ReLU类激活函数的局限。

代码绘制图形

以下是一个使用 Python（结合 NumPy 和 Matplotlib）实现的代码，用于绘制 ReLU、Leaky ReLU 和 PReLU 的图像。我们将分别定义这三种激活函数，并在同一张图中展示它们的曲线，以便直观比较它们的特性。代码中还会添加注释，方便理解。

代码实现

import numpy as np
import matplotlib.pyplot as plt

# 定义激活函数
def relu(x):
    return np.maximum(0, x)

def leaky_relu(x, alpha=0.01):
    return np.where(x > 0, x, alpha * x)

def prelu(x, alpha):
    return np.where(x > 0, x, alpha * x)

# 生成输入数据
x = np.linspace(-5, 5, 1000)

# 设置参数
leaky_alpha = 0.1  # Leaky ReLU 的固定斜率
prelu_alpha = 0.25  # PReLU 的示例斜率（假设为可训练参数的一个值）

# 计算三种激活函数的输出
y_relu = relu(x)
y_leaky = leaky_relu(x, alpha=leaky_alpha)
y_prelu = prelu(x, alpha=prelu_alpha)

# 绘制图像
plt.figure(figsize=(10, 6))

# 绘制 ReLU
plt.plot(x, y_relu, label='ReLU', color='blue', linewidth=2)

# 绘制 Leaky ReLU
plt.plot(x, y_leaky, label=f'Leaky ReLU (α={leaky_alpha})', color='green', linewidth=2)

# 绘制 PReLU
plt.plot(x, y_prelu, label=f'PReLU (α={prelu_alpha})', color='red', linewidth=2)

# 添加标题和标签
plt.title('ReLU vs Leaky ReLU vs PReLU', fontsize=14)
plt.xlabel('x', fontsize=12)
plt.ylabel('f(x)', fontsize=12)

# 添加网格和图例
plt.grid(True, linestyle='--', alpha=0.7)
plt.legend(fontsize=12)

# 设置坐标轴范围（可选）
plt.ylim(-1.5, 5)
plt.xlim(-5, 5)

# 显示图像
plt.show()

代码说明

函数定义：
- relu(x)：标准 ReLU 函数，使用 np.maximum 实现 ( $\max(0, x)$ )。
- leaky_relu(x, alpha)：Leaky ReLU 函数，使用 np.where 实现条件选择，负输入区域斜率为 ( $\alpha$ )。这里 ( $\alpha$ ) 是固定的，默认设为 0.1。
- prelu(x, alpha)：PReLU 函数，形式上与 Leaky ReLU 相同，但 ( $\alpha$ ) 被视为可训练参数的示例值，这里设为 0.25。
输入数据：
- 使用 np.linspace(-5, 5, 1000) 生成从 -5 到 5 的 1000 个均匀分布点，覆盖正负输入范围。
参数设置：
- leaky_alpha = 0.1：Leaky ReLU 的负区域斜率，常用值之一。
- prelu_alpha = 0.25：PReLU 的示例斜率，模拟训练中可能学到的值。
绘图：
- 使用 plt.plot 分别绘制三种函数的曲线，设置不同颜色和标签。
- 添加网格、标题、坐标轴标签和图例，增强可读性。
- 设置 ylim 和 xlim 以确保图像清晰展示负区域的差异。