优化算法（五）—梯度下降算法（附MATLAB程序）

news2026/2/12 23:19:48

梯度下降算法（Gradient Descent）是一种常用的优化算法，用于寻找函数的局部最小值。它通过沿着函数梯度的反方向迭代地调整变量，以逐步找到最优解。梯度下降广泛应用于机器学习和深度学习中，特别是在训练模型时优化损失函数。

一、基本原理

梯度下降算法是一种优化算法，用于最小化目标函数。其基本原理如下：

目标函数：设定一个需要最小化的函数（例如，损失函数）。
初始化：随机选择一个初始点（参数值）。
计算梯度：在当前点计算目标函数的梯度（即偏导数），表示函数在该点的上升方向。
更新参数：根据梯度调整参数，更新规则为：

其中，θ是参数，α是学习率，∇J是目标函数的梯度。

5.迭代：重复步骤3和4，直到达到停止条件（如梯度足够小或达到最大迭代次数）。

梯度下降算法的关键在于选择合适的学习率和确保收敛到局部最优解。根据更新的方式，可以分为不同类型，如批量梯度下降、随机梯度下降和小批量梯度下降。

二、公式推导

梯度下降算法的推导主要围绕目标函数的最优化过程。我们以最小化目标函数 J(θ) 为例，下面是详细的推导过程。

1. 定义目标函数

假设我们要最小化的目标函数为 J(θ)，其中 θ 是我们需要优化的参数。

2. 计算梯度

梯度是目标函数对参数的偏导数，表示在当前点上，函数最陡的上升方向。梯度的数学表示为：

这里，∇J(θ) 是一个向量，包含了目标函数在各个参数方向的导数。

3. 更新参数

我们希望通过沿着梯度的反方向更新参数，以减小目标函数的值。更新公式如下：

$\theta _{old}$ 是当前的参数值。
$\theta _{new}$ 是更新后的参数值。
$\alpha$ 是学习率，控制更新的步长。

4. 迭代过程

通过反复应用更新公式，可以不断调整参数，逐步逼近目标函数的最小值。迭代过程可以表示为：

其中 t表示迭代次数。

5. 收敛条件

迭代过程持续进行，直到满足某个停止条件，例如：

梯度的范数小于某个阈值：
参数的变化小于某个阈值：
达到最大迭代次数。

6. 误差分析

选择合适的学习率α 是关键。过大的学习率可能导致发散，过小的学习率则可能使收敛速度缓慢。因此，有时会使用动态调整学习率的方法。

三、MATLAB仿真

下面是一个简单的MATLAB仿真程序，用于实现梯度下降算法以最小化一个二次目标函数 $J\left ( \theta \right )=\theta ^{2}$

% 梯度下降算法示例
% 最小化目标函数 J(θ) = θ^2

% 初始化参数
theta = 10;        % 初始参数值
alpha = 0.1;      % 学习率
num_iterations = 100; % 迭代次数

% 存储每次迭代的目标函数值
J_history = zeros(num_iterations, 1);

% 梯度下降算法
for iter = 1:num_iterations
    % 计算目标函数 J(θ)
    J = theta^2; % 目标函数
    J_history(iter) = J; % 存储目标函数值

    % 计算梯度
    gradient = 2 * theta; % J(θ) 的导数

    % 更新参数
    theta = theta - alpha * gradient; % 更新公式

    % 输出当前迭代的信息
    fprintf('Iteration %d: theta = %.4f, J(θ) = %.4f\n', iter, theta, J);
end

% 绘制目标函数值随迭代次数变化的曲线
figure;
plot(1:num_iterations, J_history, 'b-', 'LineWidth', 2);
xlabel('Iteration');
ylabel('J(θ)');
title('Objective Function Value vs. Iteration');
grid on;

代码说明

初始化参数：
- theta 是优化的初始值。
- alpha 是学习率。
- num_iterations 是迭代次数。
循环进行梯度下降：
- 计算当前参数的目标函数值 JJJ。
- 计算梯度（对于 J(θ)=，梯度是 2θ2\theta2θ）。
- 更新参数 theta。
输出和绘图：
- 在每次迭代中输出当前的参数值和目标函数值。
- 最后绘制目标函数值随迭代次数变化的图。