一、什么是线性回归
线性回归是一种用于预测连续数值的机器学习算法。它基于输入特征与目标变量之间的线性关系建立了一个线性模型。线性回归的目标是找到最佳拟合直线,以最小化预测值与实际值之间的误差。这个线性模型可以用来进行预测和推断。
线性回归的模型可以表示为y = w0 + w1x1 + w2x2 + ... + wn*xn,其中w0, w1, w2, ..., wn是要学习的模型参数,代表了每个特征对应的权重。
即类似于在一个平面中分布了很多的数据点,现在需要去找一条线来拟合这些数据点,拟合即贴合这些数据。
实例:
有如下工资及其在银行的贷款额度:
将这些数据点依次写入坐标系中,x轴为工资,y轴为贷款额度,找到一条线来尽可能的接近这些数据(类似于下图所示),小点表示一个个数据点,找到这条线后,在这条线上的y轴对应值即为贷款额度预测值,那么这条线即为线性回归模型。
二、一元线性回归模型
1、实例
同样将上述模型拿过来:
找到那一条尽可能贴合这份数据所对应的数据点的直线后,这条线就是线性回归模型,因为只有一个输入特征(或叫一个维度)用于预测一个目标变量,所以又叫一元线性回归模型那么这条线所对应的表达式为 y = β0 + β1x + ε ,其中 β1为斜率,y是目标变量,x是输入特征,β0为截距,ε 为误差(满足正态分布)上图所示绿色线条即对应每个特征值的误差。
其作用为,当有人来银行贷款,给出了他的月工资,那么输入这个模型,自动可以得出可贷款额度。
2、正态分布(也叫高斯分布):
若随机变量 x ,服从一个位置参数 为 μ(也叫期望),尺度参数为 σ (σ平方也叫方差) 的概率分布,且其概率密度函数为:
其所对应图形形如下图所示:
则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,标准正态分布为 μ = 1,σ = 0,如下所示
三、多元线性回归模型
1、什么是多元线性回归
使用多个自变量来预测一个连续的因变量。与一元线性回归不同的是,多元线性回归可以考虑多个自变量之间的相互作用对因变量的影响。
其表达式为y = β0 + β1x1 + β2x2 +ε 同样的β为模型参数,ε为 误差项,误差项满足正态分布,β个数与特征值x的个数有关
其所表示模型类似于下图所示(三个特征值):
2、误差项分析:
误差项在线性回归模型中是一个重要的概念。它代表了模型无法完全准确预测因变量的部分,即模型的预测与真实值之间的差异。误差项通常被假设为服从均值为0的独立同分布的正态分布。
误差项不可省略,是必然产生的,同时误差具有独立同分布的特点,即每个样本点的误差都是独立的,且每个样本点都处于同一个分布函数下。
y = β0 + β1x1 + β2x2 +ε 也可以转换成矩阵计算,如下图所示:
其中X0 = 1(人为增加),由于 x 为样本项,为列向量,所以此处对 β 参数进行转置,转为行向量,所以则可以将多元线性回归表达式对应为下列表达式:
因为误差项 ε 满足独立同分布,所以将 ε = y - βx 带入高斯分布表达式,得到如下表达式:
此时p表示每条数据发生的概率概率
3、极大似然估计
极大似然估计是一种常用的参数估计方法。它用于从给定的观测数据中,通过最大化似然函数来估计模型的参数。在这种方法中,假设我们有一个概率模型,它由一组参数所描述,而我们有一组已观测到的数据。通过极大似然估计,我们尝试找到最大化观测数据出现概率的参数值。
例如,有一个袋子里有10个球,从中放回的抽了10次,一共抽出来9个白球1个黑球,则可以预测估计抽到白球的概率为10分之9,黑球的概率为10分之1,则可估计袋子内有9个白球,1个黑球。 之所以这么估计,是因为抽到这个球的概率值最大,即发生的事件就是最大概率会出现的事件,所有发生的事情都不会是偶然,所以认为其为极大概率
4、似然函数求解:
以上述抽球来看,抽了十次,每一次抽到白球的概率相乘即可得到这其中白球的概率,这就叫极大似然估计。可以用如下表达式来表示:
其中的 Π 表示连乘符号,即从开始一直乘m次,因为每个样本都是独立的,独立的概率最大,所以为连乘。
L(β)表示采集所有数据发生概率最大值
此时x为传入的特征值,y为给定训练的数据值,σ 为固定参数常量,β是需要求的值,m为数据条数
化简上述公式:
将上式左右两边同时加一个对数log(默认底数为e),因为L(β)为单调递增的,增加一个log不会改变其单调性
利用对数的特性log a x b = log a + log b,则可以将上述连乘符号Π转变为求和符号∑:
在通过对数特性 log a x b = log a + log b ,上述1 / ((√2pi)σ)为常量,将它加m次即为乘上m,而后面exp的幂也可更改,exp(x)表示e的x次方,所以对数log e 即可表示为1,化简结果如下所示 :
因为要求β的值,logL(β)为单调递增的,要求其极大值,就要求后一部分极小值,后一部分极小值既是要求β的极大值,那么将后一部分单独取出得到如下状态:
5、最小二乘法:
将上述公式利用最小二乘法,对其求偏导等于0即可得到β的极大值,得到β的表达式如下所示: