学习记录之数学表达式（5）

文章目录

十、线性回归
- 10.1 示例
- 10.2 拟合
- 10.3 推导
- 10.4 岭回归
- 10.5 作业
十一、Logistic回归
- 11.1 分割超平面
- 11.2 点到直线的距离
- 11.3 sigmoid函数
- 11.4 优化目标
- 11.5 求解
- 11.6 作业

十、线性回归

线性回归是一个常用的机器学习算法；

10.1 示例

表 1.单变量的股价预测

时间（天）	股价
1	10
2	11
3	?

令 x 表示第 x 天， $y = f (x)$ 表示第 x 天的股价，由此建立线性模型：
$y = f (x) = a x + b$
求系数 a 和 b.
解：
$\left\{ \begin{matrix} 10 = 1a + b \\ 11 = 2a + b \end{matrix} \right. \Rightarrow \left\{ \begin{matrix} a = 1 \\ b = 9 \end{matrix} \right. \Rightarrow f(x) = x + 9$
源码为：\left{ \begin{matrix} 10 = 1a + b \ 11 = 2a + b \end{matrix} \right. \Rightarrow \left{ \begin{matrix} a = 1 \ b = 9 \end{matrix} \right. \Rightarrow f(x) = x + 9；
将 x = 3 带入，可以预测第 3 天的股价为 12 元；

表 2.多变量的股价预测

时间（天）	外围股指	股价
1	25000	10
2	25500	11
3	25600	11.4
4	25800	？

令 $x_1$ 表示时间， $x_2$ 表示外围股数， $y$ 表示股价，由此建立线性模型：
$f(x_1,x_2) = a_1x_1 + a_2x_2 + b \tag{1}$
由于有三个变量 $a_1,a_2,b$ ，因此需要用三天的数据求得它们；
$\left\{ \begin{matrix} 10 = 1a_1 + 25000a_2 + b \\ 11 = 2a_1 + 25500a_2 + b \\ 11.4 = 3a_1 + 25600a_2 + b \end{matrix} \right.$
然后就可以对第 4 天的股价进行预测；
但是当自变量（属性）较多时，这样写太麻烦；
因此可以将第 i 天的数据写成向量 $\mathbf{x}_{i} = [x_{i1},\dots,x_{im}]$ ，相应的系数写为 $\mathbf{w} = [w_1,\dots,w_m]$ ，则（1）式可以修改为：
$y_i = \mathbf{x}_i\mathbf{w} + b \tag{2}$
进一步地，扩展 $\mathbf{x}_i = [x_{i0},x_{i1},\dots,x_{im}]$ ，其中 $x_{i0} \equiv 1$
同时扩展 $\mathbf{w} = [w_0,w_1,\dots,w_m]^{\mathrm{T}}$ ，其中 $w_0 = b$ ，则（2）式改写为：
$y_i = \mathbf{x}_{i} \mathbf{w} \tag{3}$
该方案看起来很完美，但是在实际数据中， $m$ 个属性远远不止 $m + 1$ 条训练数据，因此需要更加复杂的方案；

10.2 拟合

给定数据集 $\mathbf{X} = [x_{ij}]_{n \times (m+1)}$ 与其标签 $\mathbf{Y} = [y_1,\dots,y_N]^{\mathrm{T}}$ ，线性回归的目的是获得一个系数向量 $\mathbf{w}$ （它是 $(m+1)\times 1$ 列向量）使得 $\mathbf{X} \mathbf{w} \approx \mathbf{Y}$ ，源码为：\mathbf{X} \mathbf{w} \approx \mathbf{Y}；或者更为准确地说，是：
$\arg_{\mathbf{w}}\min \Vert \mathbf{X}_{\mathbf{w}} - \mathbf{Y} \Vert_{2}^{2} \tag{4}$
源码为：\arg_{\mathbf{w}}\min \Vert \mathbf{X}{\mathbf{w}} - \mathbf{Y} \Vert{2}^{2} \tag{4}；
注意：双竖线在Latex中需要换成 | 表示；另外，这里已经扩展了 $\mathbf{X}$ 和 $\mathbf{w}$ ；
表 2 所对应的：
$\mathbf{X} = \left[ \begin{matrix} 1&1&25000 \\ 1&2&25500 \\ 1&3&25600 \end{matrix} \right]$
源码为：\mathbf{X} = \left[ \begin{matrix} 1&1&25000 \ 1&2&25500 \ 1&3&25600 \end{matrix} \right]；
分析：

希望使用 $\sum_{j=0}^{m} x_{ij}w{j}$ 来拟合 $y_j$ ；
对于新的实例 $\mathbf{x}$ ，则将 $\mathbf{xw}$ 作为 $y$ 的预测值；
$\mathbf{X}$ 和 $\mathbf{w}$ 的维度分别为 $\times (m + 1)$ 和 $(m+1)\times 1$ ，因此其乘积的维度为 $\times 1$ ；
复习矩阵的乘法 $\mathbf{A} = \mathbf{U}\mathbf{V}$ ，则 $a_{ij}$ 为 $\mathbf{U}$ 的第 $i$ 行与 $\mathbf{U}$ 第 $j$ 行的乘积；

10.3 推导

如何获得 $\mathbf{w}$ ?
推导过程：
$\begin{array}{ll}||\mathbf{X} \mathbf{w} - \mathbf{Y}||_2^2 &= (\mathbf{X} \mathbf{w} - \mathbf{Y})^{\textrm{T}} (\mathbf{X} \mathbf{w} - \mathbf{Y})\\ &= (\mathbf{w}^{\textrm{T}} \mathbf{X}^{\mathrm{T}} - \mathbf{Y}^{\mathrm{T}}) (\mathbf{X} \mathbf{w} - \mathbf{Y})\\ &= \mathbf{w}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}}\mathbf{X} \mathbf{w} - \mathbf{w}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}}\mathbf{Y} - \mathbf{Y}^{\mathrm{T}}\mathbf{X} \mathbf{w}+\mathbf{Y}^{\mathrm{T}}\mathbf{Y} \end{array}$
将该式关于 $\mathbf{w}$ 求导（使用向量求导法则）并令其为0，可得：
$KaTeX parse error: Expected 'EOF', got '}' at position 80: …m{T}}\mathbf{Y}}̲ = 0$
最后： $\mathbf{w} = \left( \mathbf{X}^{\mathbf{T}} \mathbf{X} \right)^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y}$
更多知识请点击：向量求导法则和线性回归与最小二乘法；

注意：若公式需要对齐，在需要对齐的地方加&，并加换行符\；

10.4 岭回归

将优化目标改为：
$\arg_{\mathbf{w}}\min \Vert \mathbf{X}_{\mathbf{w}} - \mathbf{Y} \Vert_{2}^{2} + \lambda \Vert \mathbf{w} \Vert_{2}^{2} \tag{5}$
源码为：\arg_{\mathbf{w}}\min \Vert \mathbf{X}{\mathbf{w}} - \mathbf{Y} \Vert{2}^{2} + \lambda \Vert \mathbf{w} \Vert_{2}^{2} \tag{5}；
可以推导出： $\mathbf{X}^{\mathrm{T}}\mathbf{X}\mathbf{w} - \mathbf{X}^{\mathrm{T}} \mathbf{Y} + \lambda\mathbf{w} = 0$ ；
最后： $\mathbf{w} = \left( \mathbf{X}^{\mathrm{T}}\mathbf{X} + \lambda \mathbf{I}\right)^{-1} \mathbf{X}^{\mathrm{T}}\mathbf{Y}$ ；

10.5 作业

写一个小例子 $\left( n=3,m=1 \right)$ 来验证最小二乘法；

首先解释一下m与n的含义：
在最小二乘法中，n通常表示数据点的数量。可以理解为：在拟合一条直线或者更高层次的多项式到一组数据点时，n代表拥有的观测值（即数据点）的数量。
若有一组（x,y）的数据，那么n表示数据点的数量，等于数组x和y的长度。
x: [x1, x2, x3, ..., xn] y: [y1, y2, y3, ..., yn]
在最小二乘法的计算中，需要使用所有n个数据点来计算残差平方和，并找到使这个和最小的参数值（如直线的斜率和截距）。这些参数通过最小化残差平方和（即每个数据点的预测值与实际观测值之间的差的平方和）来确定。

因此，在上述例子中，n=3, m=1，这里的 n=3 表示有三个数据点，而 m=1 表示正在拟合的直线的斜率被固定为1（在该特定例子中，我们只需要找到截距即可）。

假设有以下三个数据点：
x: [1, 2, 3] y: [2, 3, 5]
由于m=1，因此直线假设为y=x+b。最小二乘法的目标是找到使以下残差平方和最小的 b 值： $\sum_{i=1}{n} (y_i - (x_i + b))^2$
将三组（x,y）代入得： $S(b) = (2 - (1 + b))^2 + (3 - (2 + b))^2 + (5 - (3 + b))^2$
化解可得： $S(b) = 3b^2 - 8b + 6$
为找到S(b)的最小值，对S(b)关于b求导并令其等于0
解得： $b=\frac{4}{3}$
将b值代入直线可得： $\frac{4}{3}$ 或 $3 y = 3 x + 4$

十一、Logistic回归

logistic回归用于分类，特别是二分类（仅有两个类别）。

11.1 分割超平面

线性分类模型的目标，是找到一个超平面，把正例、负例分割；
问题：如何评价每个超平面的性能？
方案之一，是最小化错分对象的数量，但如果多个超平面都有满足条件怎么办？
哪个超平面是最优的，就体现不同算法的设计理念；
方案之二，就是根据每个对象到超平面的距离，来计算损失；如果分类正确，则离超平面越远越好；如果错误分类，则离超平面越近越好；

图11.1 分割超平面

11.2 点到直线的距离

在 $\mathbf{m}$ 维空间上， $\mathbf{m}$ 维向量 $\mathbf{w}$ 确定了一条直线；
为方便起见，令 $\mathbf{w}$ 为列向量；
点 $\mathbf{x}$ 与 $\mathbf{w}$ 的距离为 $\mathbf{xw}$ ；
这个距离带符号，正号代表 $\mathbf{x}$ 在 $\mathbf{w}$ 的某一边，负号则表示另一边；
参见《高等数学》；

11.3 sigmoid函数

在这里插入图片描述

$\mathbf{x}$ 到超平面的距离（带符号）取值范围为： $\left( -\infty , +\infty \right)$ ，希望将其转成概率；
如果距离为负而且离超平面很远，则它为正例的概率就接近0；
如果距离为正而且离超平面很远，则它为正例的概率就接近1；
使用sigmoid函数将距离转换为（我们以为的）概率；

$\left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}} \tag{1}$
源码为：P \left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}}；

11.4 优化目标

统一 $\mathbf{y}_{i}$ 不同取值（0或1）：
$P\left( \mathbf{y}_{i} \vert \mathbf{x}_{i} ; \mathbf{w} \right) = P\left( \mathbf{y}_{i} =1 \vert \mathbf{x}_{i} ; \mathbf{w} \right)^{\mathbf{y}_{i}} \left( 1-P\left( \mathbf{y}_{i}=1 \vert \mathbf{x}_{i}; \mathbf{w} \right) \right)^{1-\mathbf{y}_{i}} \tag{2}$
显然，这个概率越大越好；
要针对全部对象进行优化，可将相应的概率相乘（最大似然，maximal likelihood）：
$\arg_{\mathbf{w}}\max \mathrm{L}(\mathbf{w}) = \prod_{i=1}^{n} P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \tag{3}$

11.5 求解

相乘计算困难，将其求一个对数，不改变单调性：
$\begin{aligned} \log L(\mathbf{w}) &= \sum_{i=1}^{n} \log P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w}) + (1-\mathbf{y}_{i}) \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log \frac{P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}{1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}+ \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \mathbf{x}_{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}}) \end{aligned} \tag{4}$

源码为：
\begin{aligned} \log L(\mathbf{w})
&= \sum_{i=1}^{n} \log P(\mathbf{y}{i} \vert \mathbf{x}{i};\mathbf{w}) \
&= \sum_{i=1}^{n} \mathbf{y}{i} \log P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w}) + (1-\mathbf{y}{i}) \log(1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})) \
&= \sum_{i=1}^{n} \mathbf{y}{i} \log \frac{P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})}{1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})}+ \log(1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})) \
&= \sum{i=1}^{n} \mathbf{y}{i} \mathbf{x}{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}})
\end{aligned} \tag{4}

对 $\mathbf{w}$ 求编导：
$\begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} &= \sum_{i=1}^{n}\mathbf{y}_{i} \mathbf{x}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}}\mathbf{x}_{i} \\ &= \sum_{i=1}^{n}\left(\mathbf{y}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}} \right) \mathbf{x}_{i} \end{aligned} \tag{5}$

源码为：
\begin{aligned}
\frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}}
&= \sum_{i=1}^{n}\mathbf{y}{i} \mathbf{x}{i} - \frac{e^{{\mathbf{x}_{i}\mathbf{w}}}{1+e}{\mathbf{x}{i}\mathbf{w}}}\mathbf{x}{i} \
&= \sum_{i=1}^{n}\left(\mathbf{y}{i} - \frac{e^{{\mathbf{x}_{i}\mathbf{w}}}{1+e}{\mathbf{x}{i}\mathbf{w}}} \right) \mathbf{x}_{i}
\end{aligned} \tag{5}

令该偏导为0，无法获得解析式，因此用梯度下降：
$\mathbf{w}^{t+1} = \mathbf{w}^{t} - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} \tag{6}$

11.6 作业

自己推导一遍，并描述这个方法的特点（不少于5条）

推导过程如下：

在 $\mathbf{m}$ 维空间上，由点到直线的距离可得：点 $\mathbf{x}$ 到 $\mathbf{m}$ 维超平面上的 $\mathbf{m}$ 维向量 $\mathbf{w}$ 可确定一条直线，将 $\mathbf{w}$ 表示为列向量，则点 $\mathbf{x}$ 与 $\mathbf{w}$ 之间的距离为 $\mathbf{xw}$ 。
接着，使用Sigmoid激活函数将距离转换到0和1之间：若距离为负且离超平面很远，则输出接近0；若距离为正且离超平面远，则输出接近1。可表示为下述式子：
$\left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}}$
统一 $\mathbf{y}_{i}$ 不同取值（0或1）：
$P\left( \mathbf{y}_{i} \vert \mathbf{x}_{i} ; \mathbf{w} \right) = P\left( \mathbf{y}_{i} =1 \vert \mathbf{x}_{i} ; \mathbf{w} \right)^{\mathbf{y}_{i}} \left( 1-P\left( \mathbf{y}_{i}=1 \vert \mathbf{x}_{i}; \mathbf{w} \right) \right)^{1-\mathbf{y}_{i}}$
显然，这个概率越大越好。要针对全部对象进行优化，可将相应的概率相乘：
$\arg_{\mathbf{w}}\max \mathrm{L}(\mathbf{w}) = \prod_{i=1}^{n} P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w})$
简化求解：将其求一个对数，不改变单调性：
$\begin{aligned} \log L(\mathbf{w}) &= \sum_{i=1}^{n} \log P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w}) + (1-\mathbf{y}_{i}) \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log \frac{P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}{1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}+ \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \mathbf{x}_{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}}) \end{aligned}$
对 $\mathbf{w}$ 求编导：
$\begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} &= \sum_{i=1}^{n}\mathbf{y}_{i} \mathbf{x}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}}\mathbf{x}_{i} \\ &= \sum_{i=1}^{n}\left(\mathbf{y}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}} \right) \mathbf{x}_{i} \end{aligned}$
令该偏导为0，无法获得解析式，因此用梯度下降：
$\mathbf{w}^{t+1} = \mathbf{w}^{t} - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}}$