梯度下降

梯度下降法是常用于求解无约束情况下凸函数的极小值，是一种迭代类型的算法，因为凸函数只有一个极值点，故求解出来的极小值点就是函数的最小值点
公式
在这里插入图片描述
第一个θ，是更新之后的θ，第二个θ是更新之前的θ，求偏导也是更新之前的θ，
需要对θ设置一个初始化的值，
α是学习率，α过大，可能会产生振荡，导致找不到极值点，甚至可能反向更新
α过小，会导致在限制的迭代次数之内没有找到极值点
迭代终止条件：偏差不再下降或下降很小，即误差控制在限定范围内；或迭代达到迭代次数上限要求

案例

对一元函数的收敛案例

import sys
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import random

# 设置字符集，防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'simHei']
mpl.rcParams['axes.unicode_minus'] = False

x = 100
input_x = np.arange(x) * 0.1
m = 10
step_max = 150
learn_rate = 0.0003
true_y = 5 * input_x


def pre_y(x, k):
    return k * x


# SDG
K = 0.0
G_KS = [0.0]
for step in range(step_max):
    x1_num = np.random.randint(len(input_x))
    tidu = (pre_y(input_x[x1_num], K) - true_y[x1_num]) * input_x[x1_num]
    K -= learn_rate * tidu
    G_KS.append(K)
# print(G_KS)

# BGD
K = 0.0
G_KB = [0.0]
for step in range(step_max):
    sum_tidu = 0
    for i in range(len(input_x)):
        tidu = (pre_y(input_x[i], K) - true_y[i]) * input_x[i]
        sum_tidu += tidu
    K -= learn_rate * sum_tidu
    G_KB.append(K)
# print(G_KB)


# MBGD
K = 0.0
G_KM = [0.0]
for step in range(step_max):
    sum_tidu = 0
    r_n = random.sample(range(0, len(input_x)), m)
    # print(r_n)
    for i in r_n:
        tidu = (pre_y(input_x[i], K) - true_y[i]) * input_x[i]
        sum_tidu += tidu
    K -= learn_rate * sum_tidu
    G_KM.append(K)
# print(G_KM)

## 画图
plt.figure(facecolor='w')
plt.plot(range(step_max + 1), G_KS, 'r', label='SGD')
plt.plot(range(step_max + 1), G_KB, 'b', label='BGD')
plt.plot(range(step_max + 1), G_KM, 'k', label='MBGD')
plt.legend(loc='lower right')
plt.title('一维函数不同梯度下降对比')
plt.xlabel('step')
plt.ylabel('K')
plt.show()