- 前言
- 作用
- 激活函数种类
- 1. ReLU (Rectified Linear Unit)
- 2. Leaky ReLU
- 3. ELU (Exponential Linear Unit)
- 4. Sigmoid
- 5. Tanh
- 6. Swish
- 结论
1. ReLU (Rectified Linear Unit)
- 公式
ReLU ( x ) = max ( 0 , x ) \text{ReLU}(x) = \max(0, x) ReLU(x)=max(0,x) - 激活函数图像
- 导数公式
ReLU ′ ( x ) = { 1 , if x > 0 0 , if x ≤ 0 \text{ReLU}'(x) = \begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x \leq 0 \end{cases} ReLU′(x)={1,0,if x>0if x≤0ReLU 函数在不同区间上的导数是不一样的。 - 求导后的图像
- 特点
计算简单且有效,但可能导致神经元输出稀疏性,且在负值区域不具备梯度。 - Python 代码实现图像
import numpy as np import matplotlib.pyplot as plt # 定义输入范围 x = np.linspace(-10, 10, 400) # 计算 ReLU 激活函数值 y = np.maximum(0, x) # 绘制 ReLU 激活函数图像 plt.plot(x, y, label="ReLU") plt.title("ReLU Activation Function") plt.xlabel("x") plt.ylabel("ReLU(x)") plt.legend() plt.grid(True) plt.show() # 计算 ReLU 激活函数的导数值 y_prime = np.where(x > 0, 1, 0) # 绘制 ReLU 激活函数导数图像 plt.plot(x, y_prime, label="ReLU Derivative") plt.title("Derivative of ReLU Activation Function") plt.xlabel("x") plt.ylabel("ReLU'(x)") plt.legend() plt.grid(True) plt.show()
2. Leaky ReLU
为了解决ReLU在负值区域没有梯度的问题,Leaky ReLU引入了一个小的斜率(通常很小,如0.01)以保证负值区域也有梯度。
- 公式
f ( x ) = { x , if x > 0 a x , otherwise f(x) = \begin{cases} x, & \text{if } x > 0 \\ ax, & \text{otherwise} \end{cases} f(x)={x,ax,if x>0otherwise
其中 a 是一个小的正数(例如 0.01),用于控制负值区域的斜率。 - 激活函数图像
- 求导公式
f ′ ( x ) = { 1 if x ≥ 0 α if x < 0 f'(x) = \begin{cases} 1 & \text{if } x \geq 0 \\ \alpha & \text{if } x < 0 \end{cases} f′(x)={1αif x≥0if x<0 - 求导后的图像
- Python 代码实现图像
import matplotlib.pyplot as plt import numpy as np def leaky_relu(x, alpha=0.01): return np.where(x >= 0, x, alpha * x) x = np.linspace(-10, 10, 400) y = leaky_relu(x) plt.plot(x, y, label="Leaky ReLU") plt.title("Leaky ReLU Activation Function") plt.xlabel("x") plt.ylabel("f(x)") plt.legend() plt.grid() plt.show() def leaky_relu_derivative(x, alpha=0.01): return np.where(x >= 0, 1, alpha) dy = leaky_relu_derivative(x) plt.plot(x, dy, label="Leaky ReLU Derivative") plt.title("Leaky ReLU Derivative") plt.xlabel("x") plt.ylabel("f'(x)") plt.legend() plt.grid() plt.show()
3. ELU (Exponential Linear Unit)
ELU ( x ) = { x if x ≥ 0 α ( e x − 1 ) if x < 0 \text{ELU}(x) = \begin{cases} x & \text{if } x \geq 0 \\ \alpha (e^x - 1) & \text{if } x < 0 \end{cases} ELU(x)={xα(ex−1)if x≥0if x<0
其中, α \alpha α 是一个超参数,通常为正数,控制负半轴的饱和程度。这个激活函数在 x ≥ 0 x \geq 0 x≥0 时表现为线性,在 x < 0 x < 0 x<0 时表现为指数形式,具有较好的性质,如避免了 ReLU 激活函数在负数区域的“死亡”问题。 -
ELU 激活函数的导数可以分别对 x ≥ 0 x \geq 0 x≥0 和 x < 0 x < 0 x<0 两个区域求导: ELU ′ ( x ) = { 1 if x ≥ 0 α e x if x < 0 \text{ELU}'(x) = \begin{cases} 1 & \text{if } x \geq 0 \\ \alpha e^x & \text{if } x < 0 \end{cases} ELU′(x)={1αexif x≥0if x<0 -
- 对于
x \geq 0
ELU ( x ) = x d d x ELU ( x ) = d d x x = 1 \text{ELU}(x) = x \\ \frac{d}{dx} \text{ELU}(x) = \frac{d}{dx} x = 1 ELU(x)=xdxdELU(x)=dxdx=1 - 对于
x < 0
ELU ( x ) = α ( e x − 1 ) d d x ELU ( x ) = α d d x ( e x − 1 ) = α e x \text{ELU}(x) = \alpha (e^x - 1) \\ \frac{d}{dx} \text{ELU}(x) = \alpha \frac{d}{dx} (e^x - 1) = \alpha e^x ELU(x)=α(ex−1)dxdELU(x)=αdxd(ex−1)=αex
- 对于
x \geq 0
Python 代码实现图像
import numpy as np import matplotlib.pyplot as plt def elu(x, alpha=1.0): return np.where(x >= 0, x, alpha * (np.exp(x) - 1)) def elu_derivative(x, alpha=1.0): return np.where(x >= 0, 1, alpha * np.exp(x)) # 创建输入数据 x = np.linspace(-3, 3, 400) y = elu(x) y_prime = elu_derivative(x) # 创建图像 plt.figure(figsize=(14, 6)) # ELU函数图像 plt.subplot(1, 2, 1) plt.plot(x, y, label='ELU') plt.title('ELU Activation Function') plt.xlabel('x') plt.ylabel('ELU(x)') plt.legend() plt.grid() # ELU导数图像 plt.subplot(1, 2, 2) plt.plot(x, y_prime, label='ELU Derivative', color='red') plt.title('ELU Derivative Function') plt.xlabel('x') plt.ylabel("ELU'(x)") plt.legend() plt.grid() # 显示图像 plt.tight_layout() plt.show()
4. Sigmoid
- 公式
σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1 + e^{-x}} σ(x)=1+e−x1 - 激活函数图像
- 求导公式
σ ′ ( x ) = σ ( x ) ⋅ ( 1 − σ ( x ) ) \sigma'(x) = \sigma(x) \cdot (1 - \sigma(x)) σ′(x)=σ(x)⋅(1−σ(x))
其中 σ ( x ) \sigma(x) σ(x) 是 Sigmoid 函数的值。 - 求导后的图像
- Python 代码实现图像
import numpy as np import matplotlib.pyplot as plt # Sigmoid函数 def sigmoid(x): return 1 / (1 + np.exp(-x)) # Sigmoid函数的导数 def sigmoid_derivative(x): sx = sigmoid(x) return sx * (1 - sx) # 定义输入范围 x = np.linspace(-10, 10, 400) # 计算Sigmoid函数值和导数值 sigmoid_values = sigmoid(x) sigmoid_derivative_values = sigmoid_derivative(x) # 绘制Sigmoid函数图像 plt.figure(figsize=(12, 6)) plt.subplot(1, 2, 1) plt.plot(x, sigmoid_values, label='Sigmoid') plt.title('Sigmoid Function') plt.xlabel('x') plt.ylabel('σ(x)') plt.legend() # 绘制Sigmoid函数导数图像 plt.subplot(1, 2, 2) plt.plot(x, sigmoid_derivative_values, label='Sigmoid Derivative', color='red') plt.title('Sigmoid Derivative Function') plt.xlabel('x') plt.ylabel('σ\'(x)') plt.legend() plt.tight_layout() plt.show()
5. Tanh
- 公式
Tanh ( x ) = e x − e − x e x + e − x \text{Tanh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} Tanh(x)=ex+e−xex−e−x - 激活函数图像
- 求导公式
Tanh ′ ( x ) = 1 − Tanh 2 ( x ) \text{Tanh}'(x) = 1 - \text{Tanh}^2(x) Tanh′(x)=1−Tanh2(x)
d d x ( e x − e − x e x + e − x ) = 1 − ( e x − e − x e x + e − x ) 2 \frac{d}{dx} \left( \frac{e^x - e^{-x}}{e^x + e^{-x}} \right) = 1 - \left( \frac{e^x - e^{-x}}{e^x + e^{-x}} \right)^2 dxd(ex+e−xex−e−x)=1−(ex+e−xex−e−x)2 - 求导后的图像
- Python 代码实现图像
import numpy as np import matplotlib.pyplot as plt # 定义 Tanh 函数 def tanh(x): return np.tanh(x) # 定义 Tanh 函数的导数 def tanh_derivative(x): return 1 - np.tanh(x)**2 # 定义 x 轴范围 x = np.linspace(-10, 10, 400) # 计算 y 轴值 y = tanh(x) y_derivative = tanh_derivative(x) # 绘制 Tanh 函数 plt.figure(figsize=(12, 6)) plt.subplot(1, 2, 1) plt.plot(x, y, label='Tanh(x)') plt.title('Tanh Activation Function') plt.xlabel('x') plt.ylabel('Tanh(x)') plt.legend() plt.grid(True) # 绘制 Tanh 函数的导数 plt.subplot(1, 2, 2) plt.plot(x, y_derivative, label="Tanh'(x)", color='r') plt.title('Derivative of Tanh Function') plt.xlabel('x') plt.ylabel("Tanh'(x)") plt.legend() plt.grid(True) plt.tight_layout() plt.show()
6. Swish
- 公式
Swish ( x ) = x ⋅ σ ( x ) \text{Swish}(x) = x \cdot \sigma(x) Swish(x)=x⋅σ(x)
其中, σ ( x ) \sigma(x) σ(x) 是 Sigmoid 函数。 - 激活函数图像
- 求导公式
d d x ( Swish ( x ) ) = Swish ( x ) + σ ( x ) ⋅ ( 1 − Swish ( x ) ) \frac{d}{dx}(\text{Swish}(x)) = \text{Swish}(x) + \sigma(x) \cdot (1 - \text{Swish}(x)) dxd(Swish(x))=Swish(x)+σ(x)⋅(1−Swish(x))
其中, Swish ( x ) = x ⋅ σ ( x ) \text{Swish}(x) = x \cdot \sigma(x) Swish(x)=x⋅σ(x), σ ( x ) \sigma(x) σ(x) 是 Sigmoid 函数。 - 激活函数图像
- Python 代码实现图像
import numpy as np import matplotlib.pyplot as plt # 定义 Sigmoid 函数 def sigmoid(x): return 1 / (1 + np.exp(-x)) # 定义 Swish 激活函数 def swish(x): return x * sigmoid(x) # 定义 Swish 激活函数的导数 def swish_derivative(x): sig = sigmoid(x) swish_value = swish(x) return swish_value + sig * (1 - swish_value) # 定义 x 范围 x = np.linspace(-10, 10, 400) # 计算 Swish 函数值和导数值 swish_values = swish(x) swish_derivative_values = swish_derivative(x) # 绘制 Swish 函数图像 plt.figure(figsize=(12, 6)) plt.subplot(1, 2, 1) plt.plot(x, swish_values, label='Swish(x)') plt.title('Swish Activation Function') plt.xlabel('x') plt.ylabel('Swish(x)') plt.legend() plt.grid(True) # 绘制 Swish 函数的导数图像 plt.subplot(1, 2, 2) plt.plot(x, swish_derivative_values, label="Swish'(x)", color='r') plt.title('Derivative of Swish Activation Function') plt.xlabel('x') plt.ylabel("Swish'(x)") plt.legend() plt.grid(True) plt.tight_layout() plt.show()
本文详细介绍了几种常用的激活函数,包括ReLU、Leaky ReLU、ELU、Sigmoid、Tanh和Swish。这些激活函数各有优劣,通过引入非线性,提高了神经网络的表达能力,使得其能够拟合复杂的数据分布和模式。理解和选择合适的激活函数对于设计高效的神经网络至关重要。通过具体的公式、导数和Python实现,我们可以更直观地理解每种激活函数的特点及其在不同情况下的表现。未来的研究可以继续探索新的激活函数,进一步提高深度学习模型的性能和效率。