前言
本文隶属于专栏《机器学习数学通关指南》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见《机器学习数学通关指南》
正文
一、定义与公式
链式法则(Chain Rule)是计算复合函数导数的核心规则:
- 数学表述(
y
=
f
(
u
)
y = f(u)
y=f(u),其中
u
=
g
(
x
)
u = g(x)
u=g(x),则复合函数
y
=
f
(
g
(
x
)
)
y = f(g(x))
y=f(g(x)) 的导数为:
d y d x = d y d u ⋅ d u d x \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx} dxdy=dudy⋅dxdu - 物理意义:描述“函数嵌套”时的变化率传递。外部函数对中间变量的导数( d y d u \frac{dy}{du} dudy),与中间变量对自变量的导数( d u d x \frac{du}{dx} dxdu)相乘。
二、核心作用
- 分解复杂函数
将多层嵌套函数(如 sin ( e 2 x ) \sin(e^{2x}) sin(e2x))分解为简单函数的导数乘积,避免直接计算整体极限。 - 兼容其他求导法则
常与乘积法则(如3 e 2 x ⋅ sin x e^{2x} \cdot \sin x e2x⋅sinx 的导数:- 先用链式法则求 e 2 x e^{2x} e2x 的导数(外层函数 e u e^u eu,内层 u = 2 x u=2x u=2x,导数 2 e 2 x 2e^{2x} 2e2x),
- 再用乘积法则组合结果 2 e 2 x sin x + e 2 x cos x 2e^{2x}\sin x + e^{2x}\cos x 2e2xsinx+e2xcosx。
三、应用步骤
具体操作流程:
- 识别复合结构
明确函数的内外层关系。例如函数 e 2 x e^{2x} e2x 中,外层是 e u e^u eu,内层是 u = 2 x u=2x u=2x。 - 逐层求导
- 先对外层函数求导: d y d u = e u = e 2 x \frac{dy}{du} = e^u = e^{2x} dudy=eu=e2x,
- 再对内层函数求导: d u d x = 2 \frac{du}{dx} = 2 dxdu=2。
- 乘积合成结果
d y d x = e 2 x ⋅ 2 = 2 e 2 x \frac{dy}{dx} = e^{2x} \cdot 2 = 2e^{2x} dxdy=e2x⋅2=2e2x。
五、注意事项
- 可导性要求
链条中的每一层函数需在对应点可导(如内层函数 u = 2 x u = 2x u=2x 需可导)。 - 嵌套扩展性
支持多重复合(如 y = f ( g ( h ( x ) ) ) y = f(g(h(x))) y=f(g(h(x)))):
d y d x = d f d g ⋅ d g d h ⋅ d h d x \frac{dy}{dx} = \frac{df}{dg} \cdot \frac{dg}{dh} \cdot \frac{dh}{dx} dxdy=dgdf⋅dhdg⋅dxdh
总结
链式法则的本质是传递变化率,适用于任何复合函数。其工程价值在于将复杂问题分解为局部可计算的部分(如深度学习中的反向传播算法即依赖链式法则),是导数工具链的核心组件之一。