引言

众所周知的是，在大学课程中一般只会教授一种拟合方法(也即参数估计方法)——最小二乘法。这是一种直接求解的方法，非常的有效，不仅是损失最小解，而且是最大似然解。只不过，有一个缺点，它只能解决线性方程参数问题，对于非线性曲线，就无能为力了。大部分情况下还是将其转换成线性问题，再使用最小二乘法。

然而，并非所有的问题都能转换为线性问题，甚至并非所有目标建模公式的参数都能有解析解，其他学科如机器学习等学科如何解决这个参数估计问题？答案是——《最优化方法》，其中最常用的是梯度下降法，不去寻找解析解，而是寻找其导数/梯度。因为导数/梯度具有如下优点

导数/梯度永远指向数值变动最快的方向（梯度的性质）
导数/梯度（除非有边界和断点）永远指向一个到达极值的路径

我们的主要目标是
$\argmin_\theta L(\theta)=\dfrac{1}{n}\sum_{i=1}^{n} (y_i-f_\theta(x_i))^2$
这是最小二乘问题，也叫均方误差最小化问题。其中 $\theta$ 就是我们想要求的参数。 $f_\theta(x)$ 就是我们的模型，即带有参数 $\theta$ 的函数。 $x_i,y_i$ 分别是数据中第 $i$ 对自变量和因变量。 $L(\theta)$ 是损失函数，用来衡量我们拟合的效果。
而梯度下降法的主要内容是
$\theta \gets \theta- \eta\nabla_\theta L \quad until \quad \nabla_\theta L=0$
其中 $\eta$ 是学习率，目的是不要让 $\theta$ 变动幅度过大（特别是一些有限制的量，比如log函数的底数），导致不能收敛。 $\nabla_\theta$ 是求对 $\theta$ 的梯度。取负号是因为梯度默认是增大函数值的方向，这里是最小化问题，所以取其相反数。由这里可知，梯度大小不是我们所需要的，我们只要梯度的方向。

问题引入

关于logistics增长问题，是这样的，假设某生物种群数量记为 $N$ ，最开始为常数 $N_0$ 。
假设有未知参数 $r$ ， $K$ ，其中 $r$ 是固定增长率，表明在没有任何限制的情况下种群数量的增长速度。 $K$ 是环境容纳量，是表明某个环境对生物的限制导致的最大容纳数量。

它们的关系如下
$\dfrac{dN}{dt}=r\times N\times(1-\dfrac{N}{K})$
我们的数据是按照时间 $t_i$ 记录的种群数量 $N_i$ 。我们的目标就是求出 $r$ ， $K$ 。
这是一条微分方程。关于它的原函数可以参考我写的另一篇文章
它的图像是这样的
其中 $N_0=10,r=1,K=1000$ 。横坐标是时间 $t$ ，纵坐标是种群数量 $N$
在这里插入图片描述

链式求导法则

首先，我们先明确实际输出与目标输出，按照logistic公式，我们的输出
$f_i=f(t_i,N_i)=r\times N_i\times(1-\dfrac{N_i}{K})$
我们的目标
$\dfrac{dN(t_i)}{dt_i}\approx \dfrac{N_{i+1}-N_i}{t_{i+1}-t_i}$
如果我们更细究一点， $\dfrac{dN(t_{\xi_i})}{dt_{\xi_i}}= \dfrac{N_{i+1}-N_i}{t_{i+1}-t_i},t_{\xi_i}\in[t_i,t_{i+1}]$ 。我们可以大约令 $N_{\xi_i}=\frac{N_{i+1}+N_i}{2},t_{\xi_i}=\frac{t_{i+1}+t_i}{2}$ ，将点 $(t_{\xi_i},N_{\xi_i})$ 对应导数认为 $N_{\xi_i}'\approx\dfrac{N_{i+1}-N_i}{t_{i+1}-t_i}$ 。
那么损失函数
$L(r,K)=\dfrac{1}{n-1}\sum_{i=1}^{n-1} (N_{\xi_i}'-f(t_{\xi_i},N_{\xi_i}))^2=\dfrac{1}{n-1}\sum_{i=1}^{n-1} (N_{\xi_i}'-f_{\xi_i})^2$

在logistics增长问题中，未知量是 $r$ ， $K$ ，所以我们的目标是求出 $\nabla_r L,\nabla_K L$ 。
$\nabla_r L=\dfrac{\partial L}{\partial r},\quad\nabla_K L=\dfrac{\partial L}{\partial K}$
根据链式求导法则，我们有

$\dfrac{\partial L}{\partial r}=\sum_{i=1}^{n-1}\dfrac{\partial L}{\partial f_{\xi_i}}\dfrac{\partial f_{\xi_i}}{\partial r}$
同理 $K$ 也有类似形式。
而我们有
$\dfrac{\partial L}{\partial f_{\xi_i}}=-2(N_{\xi_i}'-f_{\xi_i}),\quad\dfrac{\partial f_{\xi_i}}{\partial r}=N_{\xi_i}(1-\dfrac{N_{\xi_i}}{K}),\quad\dfrac{\partial f_{\xi_i}}{\partial K}=r\dfrac{N_{\xi_i}^2}{K^2}$
所以
$\nabla_r L=\dfrac{\partial L}{\partial r}=-2\sum_{i=1}^{n-1}(N_{\xi_i}'-f(t_{\xi_i},N_{\xi_i}))N_{\xi_i}(1-\dfrac{N_{\xi_i}}{K})\\ \nabla_K L=\dfrac{\partial L}{\partial K}=-2\sum_{i=1}^{n-1}(N_{\xi_i}'-f(t_{\xi_i},N_{\xi_i}))r\dfrac{N_{\xi_i}^2}{K^2}\\$

实践

首先是数据的生成

import numpy as np
N0=10
K_real=1000
r_real=1
c=math.log(N0/(K_real-N0))

#原函数
def ground_true(t):
    return(K_real/(1+np.exp(-r_real*t-c)))

x=np.arange(0,10,0.1)
y=ground_true(x)

# dN/dt 目标输出
y_diff = (y[1:]-y[:-1])/(x[1:]-x[:-1])

# N_xi 处理后的输入
y_xi = (y[1:]+y[:-1])/2

# 这里不想用n-1，直接以n表示了
n = y_xi.shape[0]

原数据效果就是一开始给的图，而经过处理的数据则是如下效果

import matplotlib.pyplot as plt
plt.plot(x,y)
plt.plot(x[:-1],y_xi)
plt.show()

在这里插入图片描述
定义必要的函数

# 模型
def f(r, K, N):
    return r*N*(1-N/K)
    
# loss函数    
def loss_of_rK(r, K):
    return 1/n*np.sum((y_diff-f(r, K, y_xi))**2)

# ∂L/∂r
def diff_r(r, K):
    return -2.0/n*np.sum((y_diff-f(r, K, y_xi))*y_xi*(1-y_xi/K))

# ∂L/∂K
def diff_K(r, K):
    return -2.0/n*np.sum((y_diff-f(r, K, y_xi))*r*(y_xi**2)/(K**2))

在选择梯度下降法的起点时，尽量靠近最终目标，收敛时间才短。
前面说过，梯度的大小不是我们所关心的内容，所以我加入了一个归一化函数 $\arctan$ （归一化函数还有很多，如sigmoid等等）用来取出它的方向，用参数本身的绝对值当做步伐大小。（其实这比较像是强行把L2损失改为L1损失）

#初始化
rx = np.random.rand()
Kx = np.random.rand()*np.max(y_xi)#选接近最大值为初始值比较合理

# 学习率
eta = 1e-1
# 误差精度
epsilon= 1
while (loss_of_rK(rx, Kx) > epsilon):
    rx = rx-eta*np.arctan(diff_r(rx, Kx))*np.abs(rx)
    Kx = Kx-eta*np.arctan(diff_K(rx, Kx))*np.abs(Kx)