机器学习数学公式推导之线性回归

news2024/11/15 19:51:40

文章目录

  • 线性回归
    • 一、最小二乘法
      • 1.1 范数的概念
      • 1.2 最小二乘法的推导
      • 1.3 几何意义
    • 二、噪声为高斯分布的 MLE
      • 2.1 LSE(最小二乘估计)
      • 2.2 MLE(极大似然估计)
      • 2.3 LSE与MLE的联系与区别
    • 三、权重先验也为高斯分布的 MAP
    • 四、正则化
      • 4.1 L1 Lasso
      • 4.2 L2 Ridge
      • 4.3 MAP(极大后验估计)
      • LSE(最小二乘估计)
    • 五、小结

本文参考 B站UP: shuhuai008 🌹🌹

P9 系列三 线性回归1-最小二乘法及其几何意义

线性回归

假设数据集为:
D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } \mathcal{D}=\{(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_N)\} D={(x1,y1),(x2,y2),,(xN,yN)}
后面我们记:
X = ( x 1 , x 2 , ⋯   , x N ) T , Y = ( y 1 , y 2 , ⋯   , y N ) T X=(x_1,x_2,\cdots,x_N)^T,Y=(y_1,y_2,\cdots,y_N)^T X=(x1,x2,,xN)T,Y=(y1,y2,,yN)T
线性回归假设:
f ( w ) = w T x f(w)=w^Tx f(w)=wTx

一、最小二乘法

对这个问题,采用二范数定义的平方误差来定义损失函数:
L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 2 L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2 L(w)=i=1N∣∣wTxiyi22

1.1 范数的概念

范数(norm)是数学中的一种基本概念,特别在泛函分析、线性代数及相关领域中扮演着重要角色。简单来说,范数是一种“长度”或“大小”的度量方式,用于量化向量空间(或矩阵)中元素的大小或长度。它通常满足以下三个条件:

  1. 非负性:范数总是非负的。
  2. 齐次性:对于任何标量k和向量v,有||kv|| = |k|||v||。
  3. 三角不等式:对于任何两个向量u和v,有||u + v|| ≤ ||u|| + ||v||。

在二维的欧氏几何空间中,元素被表示为从原点出发的带有箭头的有向线段,而每一个矢量的有向线段的长度即为该矢量的欧氏范数。范数不仅限于欧氏空间,还广泛应用于各种向量空间和矩阵上,以度量其大小或复杂度。

∣ ∣ x ∣ ∣ 2 = ∑ i = 1 n x i 2 ||x||_2 = \sqrt{\sum_{i=1}^{n} x_i^2} ∣∣x2=i=1nxi2

  • L2范数在数学和机器学习中经常被用作一种正则化项、距离度量或误差度量。例如,在机器学习的损失函数中引入L2范数作为正则项,可以有效防止模型过拟合,提高模型的泛化能力

(4) 展开得到: 下面第二行四项都是1*1 都是标量,可以装置,并且合并。
L ( w ) = ( w T x 1 − y 1 , ⋯   , w T x N − y N ) ⋅ ( w T x 1 − y 1 , ⋯   , w T x N − y N ) T = ( w T X T − Y T ) ⋅ ( X w − Y ) = w T X T X w − Y T X w − w T X T Y + Y T Y = w T X T X w − 2 w T X T Y + Y T Y \begin{align} L(w)&=(w^Tx_1-y_1,\cdots,w^Tx_N-y_N)\cdot (w^Tx_1-y_1,\cdots,w^Tx_N-y_N)^T\nonumber\\ &=(w^TX^T-Y^T)\cdot (Xw-Y)=w^TX^TXw-Y^TXw-w^TX^TY+Y^TY\nonumber\\ &=w^TX^TXw-2w^TX^TY+Y^TY \end{align} L(w)=(wTx1y1,,wTxNyN)(wTx1y1,,wTxNyN)T=(wTXTYT)(XwY)=wTXTXwYTXwwTXTY+YTY=wTXTXw2wTXTY+YTY

在矩阵分析中,经常需要将传统的矩阵求导转换为对迹(trace)的求导,因为迹的求导在处理矩阵方程时往往更为简洁和直观。迹(trace)定义为矩阵对角线上元素的和,即对于矩阵 A ∈ R n × n A \in \mathbb{R}^{n \times n} ARn×n,有

tr ( A ) = ∑ i = 1 n A i i \text{tr}(A) = \sum_{i=1}^{n} A_{ii} tr(A)=i=1nAii

以下是一些常见的矩阵求导公式及其转换为对迹求导的形式:

  1. 线性项

对于 d d X tr ( A X ) \frac{d}{dX} \text{tr}(AX) dXdtr(AX),其中 A 和 X 是矩阵,且 A 不依赖于 X 。

  • 传统求导:直接得到 A^T (假设 A 和 X 是同型矩阵)。
  • 对迹求导
    d d X tr ( A X ) = d d X ∑ i , j A i j X j i = ∑ i , j A i j d d X j i X j i = ∑ i , j A i j I j i = A T \frac{d}{dX} \text{tr}(AX) = \frac{d}{dX} \sum_{i,j} A_{ij}X_{ji} = \sum_{i,j} A_{ij} \frac{d}{dX_{ji}} X_{ji} = \sum_{i,j} A_{ij} I_{ji} = A^T dXdtr(AX)=dXdi,jAijXji=i,jAijdXjidXji=i,jAijIji=AT
    这里 I 是单位矩阵,其元素 I i j = 1 I_{ij} = 1 Iij=1 当 i= j ,否则为 0。
  1. 二次型

对于 d d X tr ( X T A X ) \frac{d}{dX} \text{tr}(X^TAX) dXdtr(XTAX),其中 $ A $ 是对称矩阵。

  • 传统求导:得到 2AX (假设 A 是对称的)。
  • 对迹求导
    d d X tr ( X T A X ) = d d X ∑ i , j , k X k i A i j X j k = ∑ i , j , k A i j ( d d X k i X k i X j k + X k i d d X j k X j k ) \frac{d}{dX} \text{tr}(X^TAX) = \frac{d}{dX} \sum_{i,j,k} X_{ki}A_{ij}X_{jk} = \sum_{i,j,k} A_{ij} \left( \frac{d}{dX_{ki}} X_{ki} X_{jk} + X_{ki} \frac{d}{dX_{jk}} X_{jk} \right) dXdtr(XTAX)=dXdi,j,kXkiAijXjk=i,j,kAij(dXkidXkiXjk+XkidXjkdXjk)
    = ∑ i , j , k A i j ( I k i X j k + X k i I j k ) = ∑ i , j A i j ( X j i + X i j ) = 2 ∑ i , j A i j X j i = 2 A X = \sum_{i,j,k} A_{ij} \left( I_{ki} X_{jk} + X_{ki} I_{jk} \right) = \sum_{i,j} A_{ij} \left( X_{ji} + X_{ij} \right) = 2 \sum_{i,j} A_{ij} X_{ji} = 2AX =i,j,kAij(IkiXjk+XkiIjk)=i,jAij(Xji+Xij)=2i,jAijXji=2AX
    注意这里利用了 A 的对称性 A i j = A j i A_{ij} = A_{ji} Aij=Aji

3. 链式法则

对于复合函数,如 d d X tr ( f ( X ) g ( X ) ) \frac{d}{dX} \text{tr}(f(X)g(X)) dXdtr(f(X)g(X)),其中 $ f(X) $ 和 $ g(X) $ 是矩阵函数。

  • 对迹求导
    d d X tr ( f ( X ) g ( X ) ) = tr ( d f ( X ) d X g ( X ) T + f ( X ) d g ( X ) d X T ) \frac{d}{dX} \text{tr}(f(X)g(X)) = \text{tr} \left( \frac{df(X)}{dX} g(X)^T + f(X) \frac{dg(X)}{dX}^T \right) dXdtr(f(X)g(X))=tr(dXdf(X)g(X)T+f(X)dXdg(X)T)
    这里用到了矩阵微分的链式法则和迹的交换性质 tr ( A B ) = tr ( B A ) \text{tr}(AB) = \text{tr}(BA) tr(AB)=tr(BA)

结论

将矩阵求导转换为对迹的求导,关键在于利用迹的线性性质和交换性质,以及矩阵微分的链式法则。这种方法在处理复杂的矩阵方程和优化问题时特别有用。

1.2 最小二乘法的推导

最小化这个值的 $ \hat{w}$​ :
w ^ = a r g m i n w L ( w ) ⟶ ∂ ∂ w L ( w ) = 0 ⟶ 2 X T X w ^ − 2 X T Y = 0 ⟶ w ^ = ( X T X ) − 1 X T Y = X + Y \begin{align} \hat{w}=\mathop{argmin}\limits_wL(w)&\longrightarrow\frac{\partial}{\partial w}L(w)=0\nonumber\\ &\longrightarrow2X^TX\hat{w}-2X^TY=0\nonumber\\ &\longrightarrow \hat{w}=(X^TX)^{-1}X^TY=X^+Y \end{align} w^=wargminL(w)wL(w)=02XTXw^2XTY=0w^=(XTX)1XTY=X+Y
这个式子中 ( X T X ) − 1 X T (X^TX)^{-1}X^T (XTX)1XT 又被称为伪逆。对于行满秩或者列满秩的 X X X,可以直接求解,但是对于非满秩的样本集合,需要使用奇异值分解(SVD)的方法,对 X X X 求奇异值分解,得到
X = U Σ V T X=U\Sigma V^T X=UΣVT
于是:
X + = V Σ − 1 U T X^+=V\Sigma^{-1}U^T X+=VΣ1UT
在几何上,最小二乘法相当于模型(这里就是直线)和试验值的距离的平方求和,假设我们的试验样本张成一个 p p p 维空间(满秩的情况): X = S p a n ( x 1 , ⋯   , x N ) X=Span(x_1,\cdots,x_N) X=Span(x1,,xN),而模型可以写成 f ( w ) = X β f(w)=X\beta f(w)=,也就是 x 1 , ⋯   , x N x_1,\cdots,x_N x1,,xN 的某种组合,而最小二乘法就是说希望 Y Y Y 和这个模型距离越小越好,于是它们的差应该与这个张成的空间垂直:
X T ⋅ ( Y − X β ) = 0 ⟶ β = ( X T X ) − 1 X T Y X^T\cdot(Y-X\beta)=0\longrightarrow\beta=(X^TX)^{-1}X^TY XT(Y)=0β=(XTX)1XTY

  • 就是向量个数小于它的维度,没办法张成完整的向量空间 N>P
  • X左乘,可以看作X列向量的线性组合
  • 下面右下角给出几何推导

在这里插入图片描述

1.3 几何意义

在线性回归中,W权重向量的几何意义可以从多个方面来理解:

一、权重向量的基本定义

  • 线性回归模型:线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。其基本形式可以表示为 y = w T x + b y = \mathbf{w}^T\mathbf{x} + b y=wTx+b,其中 w \mathbf{w} w 是权重向量, x \mathbf{x} x 是特征向量, b b b 是截距项, y y y 是预测值。
  • 权重向量 w \mathbf{w} w:权重向量 w = ( w 1 , w 2 , … , w n ) \mathbf{w} = (w_1, w_2, \ldots, w_n) w=(w1,w2,,wn) 中的每个元素 w i w_i wi 代表了对应特征 x i x_i xi 在预测结果 y y y 中的重要程度或影响力

二、几何意义

  1. 方向性

    • 权重向量 w \mathbf{w} w 在几何上表示了一个方向,这个方向是特征空间(由 x \mathbf{x} x 的各个分量构成的空间)中,预测值 y y y 随特征变化而变化的趋势方向
    • x \mathbf{x} x 在这个方向上移动时, y y y 的变化最为显著,因为 w \mathbf{w} w 决定了 y y y x \mathbf{x} x 变化的速率和方向。
  2. 权重大小与重要性

    • 权重向量 w \mathbf{w} w 中各元素 w i w_i wi 的绝对值大小,反映了对应特征 x i x_i xi 在预测中的重要性或影响力。
    • ∣ w i ∣ |w_i| wi 越大,说明特征 x i x_i xi y y y 的预测值影响越大;反之, ∣ w i ∣ |w_i| wi 越小,说明特征 x i x_i xi 的影响力越小。
  3. 超平面

    • 在多元线性回归中,权重向量 w \mathbf{w} w 和截距 b b b 共同定义了一个超平面,该超平面将特征空间划分为两部分,预测值 y y y 高于或低于这个超平面的值,取决于 x \mathbf{x} x 在特征空间中的位置。
    • 这个超平面的法线方向就是权重向量 w \mathbf{w} w 的方向,它代表了 y y y x \mathbf{x} x 变化的最快速率方向
  4. 投影与距离

    • 从几何角度看,线性回归也可以理解为在特征空间中寻找一个超平面,使得所有观测点到这个超平面的垂直距离(即残差)的平方和最小。
    • 这个过程实际上是在特征空间中对观测点进行投影,投影方向由权重向量 w \mathbf{w} w 决定,投影点则位于超平面上。
P10 系列三 线性回归2-最小二乘法 概率视角下 高斯噪声MLE

二、噪声为高斯分布的 MLE

对于一维的情况,记 y = w T x + ϵ , ϵ ∼ N ( 0 , σ 2 ) y=w^Tx+\epsilon,\epsilon\sim\mathcal{N}(0,\sigma^2) y=wTx+ϵ,ϵN(0,σ2)(噪声属于高斯分布),那么 y ∼ N ( w T x , σ 2 ) y\sim\mathcal{N}(w^Tx,\sigma^2) yN(wTx,σ2)​。代入极大似然估计中:

  • 我的理解:y|x;w的意思是指,在参数为w的模型中,y在x的条件下所服从的概率分布。

L ( w ) = log ⁡ p ( Y ∣ X , w ) = log ⁡ ∏ i = 1 N p ( y i ∣ x i , w ) = ∑ i = 1 N log ⁡ ( 1 2 π σ e − ( y i − w T x i ) 2 2 σ 2 ) a r g m a x w L ( w ) = a r g m i n w ∑ i = 1 N ( y i − w T x i ) 2 \begin{align} L(w)=\log p(Y|X,w)&=\log\prod\limits_{i=1}^Np(y_i|x_i,w)\nonumber\\ &=\sum\limits_{i=1}^N\log(\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}})\\ \mathop{argmax}\limits_wL(w)&=\mathop{argmin}\limits_w\sum\limits_{i=1^N}(y_i-w^Tx_i)^2 \end{align} L(w)=logp(YX,w)wargmaxL(w)=logi=1Np(yixi,w)=i=1Nlog(2πσ 1e2σ2(yiwTxi)2)=wargmini=1N(yiwTxi)2

这个表达式和最小二乘估计得到的结果一样。

在这里插入图片描述

2.1 LSE(最小二乘估计)

定义与原理

  • LSE是一种数学优化技术,通过最小化误差的平方和来寻找数据的最佳函数匹配。在回归分析中,它用于找到最佳拟合直线(或曲线)以最小化实际观测值与模型预测值之间的差的平方和。
  • 最小二乘法可以应用于线性模型,也可以扩展到非线性模型。其核心思想是通过构造一条曲线(或超平面)来拟合原始数据,使得预测值与观测值之差的平方和最小。

应用

  • LSE广泛应用于数据拟合、曲线拟合、回归分析等领域。
  • 在线性回归中,LSE通过求解正规方程(Normal Equation)来找到最佳拟合直线的参数。

2.2 MLE(极大似然估计)

定义与原理

  • MLE是一种在统计学中估计概率模型参数的方法,即给定一组观测数据,通过最大化观测数据出现的概率(即似然函数)来估计模型的参数。
  • 极大似然估计的原理是认为使得观测数据出现的概率最大的参数就是模型的真实参数

应用

  • MLE广泛应用于各种概率模型的参数估计中,如线性回归、逻辑回归、时间序列分析等。
  • 在实际应用中,常常通过求解似然函数的导数并令其为零来找到参数的极大似然估计值。

2.3 LSE与MLE的联系与区别

联系

  • 在某些特定条件下,LSE和MLE是等价的。特别是当误差项服从高斯分布时,极大化似然函数就等价于极小化误差项的平方和(即LSE)。
  • 这意味着,在线性回归等模型中,如果假设误差项服从高斯分布,则通过LSE和MLE得到的参数估计值将是相同的。
P11 (系列三) 线性回归3-正则化-岭回归-频率角度

w ^ = ( X T X + λ I ) − 1 X T Y \hat{w}=(X^TX+\lambda\mathbb{I})^{-1}X^TY w^=(XTX+λI)1XTY

在这里插入图片描述

P12  (系列三) 线性回归4-正则化-岭回归-贝叶斯角度

三、权重先验也为高斯分布的 MAP

  • 特征维度超过数据维度就会不可逆

w ^ = ( X T X ) − 1 X T Y \hat{w}=(X^TX)^{-1}X^TY w^=(XTX)1XTY

  • 取先验分布 w ∼ N ( 0 , σ 0 2 ) w\sim\mathcal{N}(0,\sigma_0^2) wN(0,σ02)。于是:

w ^ = a r g m a x w p ( w ∣ Y ) = a r g m a x w p ( Y ∣ w ) p ( w ) = a r g m a x w log ⁡ p ( Y ∣ w ) p ( w ) = a r g m a x w ( log ⁡ p ( Y ∣ w ) + log ⁡ p ( w ) ) = a r g m i n w [ ( y − w T x ) 2 + σ 2 σ 0 2 w T w ] \begin{align} \hat{w}=\mathop{argmax}\limits_wp(w|Y)&=\mathop{argmax}\limits_wp(Y|w)p(w)\nonumber\\ &=\mathop{argmax}\limits_w\log p(Y|w)p(w)\nonumber\\ &=\mathop{argmax}\limits_w(\log p(Y|w)+\log p(w))\nonumber\\ &=\mathop{argmin}\limits_w[(y-w^Tx)^2+\frac{\sigma^2}{\sigma_0^2}w^Tw] \end{align} w^=wargmaxp(wY)=wargmaxp(Yw)p(w)=wargmaxlogp(Yw)p(w)=wargmax(logp(Yw)+logp(w))=wargmin[(ywTx)2+σ02σ2wTw]

这里省略了 X X X p ( Y ) p(Y) p(Y) w w w 没有关系,同时也利用了上面高斯分布的 MLE的结果。

我们将会看到,超参数 σ 0 \sigma_0 σ0​的存在和下面会介绍的 Ridge 正则项可以对应,同样的如果将先验分布取为 Laplace 分布,那么就会得到和 L1 正则类似的结果。

在这里插入图片描述

  • 上述在最后一步,同时乘以2 σ 2 \sigma^2 σ2

四、正则化

在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:

  1. 加数据
  2. 特征选择(降低特征维度)如 PCA 算法。
  3. 正则化

正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚),下面我们介绍一般情况下的两种正则化框架。
L 1 : a r g m i n w L ( w ) + λ ∣ ∣ w ∣ ∣ 1 , λ > 0 L 2 : a r g m i n w L ( w ) + λ ∣ ∣ w ∣ ∣ 2 2 , λ > 0 \begin{align} L1&:\mathop{argmin}\limits_wL(w)+\lambda||w||_1,\lambda\gt0\\ L2&:\mathop{argmin}\limits_wL(w)+\lambda||w||^2_2,\lambda \gt 0 \end{align} L1L2:wargminL(w)+λ∣∣w1,λ>0:wargminL(w)+λ∣∣w22,λ>0
下面对最小二乘误差分别分析这两者的区别。

4.1 L1 Lasso

L1正则化可以引起稀疏解。

从最小化损失的角度看,由于 L1 项求导在0附近的左右导数都不是0,因此更容易取到0解。

从另一个方面看,L1 正则化相当于:
a r g m i n w L ( w ) s . t . ∣ ∣ w ∣ ∣ 1 < C \mathop{argmin}\limits_wL(w)\\ s.t. ||w||_1\lt C wargminL(w)s.t.∣∣w1<C
我们已经看到平方误差损失函数在 w w w 空间是一个椭球,因此上式求解就是椭球和 ∣ ∣ w ∣ ∣ 1 = C ||w||_1=C ∣∣w1=C的切点,因此更容易相切在坐标轴上。

4.2 L2 Ridge

w ^ = a r g m i n w L ( w ) + λ w T w ⟶ ∂ ∂ w L ( w ) + 2 λ w = 0 ⟶ 2 X T X w ^ − 2 X T Y + 2 λ w ^ = 0 ⟶ w ^ = ( X T X + λ I ) − 1 X T Y \begin{align} \hat{w}=\mathop{argmin}\limits_wL(w)+\lambda w^Tw&\longrightarrow\frac{\partial}{\partial w}L(w)+2\lambda w=0\nonumber\\ &\longrightarrow2X^TX\hat{w}-2X^TY+2\lambda \hat w=0\nonumber\\ &\longrightarrow \hat{w}=(X^TX+\lambda \mathbb{I})^{-1}X^TY \end{align} w^=wargminL(w)+λwTwwL(w)+2λw=02XTXw^2XTY+2λw^=0w^=(XTX+λI)1XTY

可以看到,这个正则化参数和前面的 MAP 结果不谋而合。利用2范数进行正则化不仅可以是模型选择 w w w 较小的参数,同时也避免 $ X^TX$​不可逆的问题。

在统计学和机器学习中,MAP(Maximum A Posteriori Estimation,极大后验估计)和LSE(Least Square Estimation,最小二乘估计)是两种不同的参数估计方法,它们各自有不同的应用场景和优缺点。

4.3 MAP(极大后验估计)

MAP是贝叶斯学派中的一种参数估计方法。其基本原理是,在给定观测数据X的条件下,通过最大化参数w的后验概率P(w|X)来估计w的值。后验概率P(w|X)可以通过贝叶斯公式计算得到,即P(w|X) = P(X|w) * P(w) / P(X),其中P(X|w)是似然函数,P(w)是先验概率,P(X)是观测数据的边缘概率(通常作为常数处理)。因此,MAP估计可以表示为:

w ^ = arg ⁡ max ⁡ w P ( w ∣ X ) = arg ⁡ max ⁡ w P ( X ∣ w ) ⋅ P ( w ) \hat{w} = \arg\max_{w} P(w|X) = \arg\max_{w} P(X|w) \cdot P(w) w^=argwmaxP(wX)=argwmaxP(Xw)P(w)

在实际应用中,由于P(X)是常数,所以MAP估计通常简化为最大化似然函数P(X|w)和先验概率P(w)的乘积。MAP估计结合了先验知识和观测数据,能够在一定程度上避免过拟合,提高估计的稳健性。

LSE(最小二乘估计)

LSE是一种基于最小化误差平方和的参数估计方法。在线性回归模型中,LSE通过最小化预测值与真实值之差的平方和来估计回归系数w。LSE的损失函数L(w)可以表示为:

L ( w ) = 1 2 ∑ i = 1 n ( w ⊤ x i − y i ) 2 L(w) = \frac{1}{2} \sum_{i=1}^{n} (w^\top x_i - y_i)^2 L(w)=21i=1n(wxiyi)2

其中, x i x_i xi是第i个观测数据的特征向量, y i y_i yi是第i个观测数据的真实值,n是观测数据的数量。LSE估计通过求解以下优化问题来得到w的最优解:

w ^ = arg ⁡ min ⁡ w L ( w ) \hat{w} = \arg\min_{w} L(w) w^=argwminL(w)

LSE估计具有计算简单、易于理解的优点,并且在许多实际应用中表现出色。然而,当特征空间的维度大于样本数时,LSE估计可能会受到过拟合的影响。为了解决这个问题,可以通过正则化方法来改进LSE估计,如添加L1或L2正则化项。

五、小结

线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差,而增加了正则项后,最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解,加上 L1 正则项后,等价于 Laplace 噪声先验。

传统的机器学习方法或多或少都有线性回归模型的影子:

  1. 线性模型往往不能很好地拟合数据,因此有三种方案克服这一劣势:
    1. 对特征的维数进行变换,例如多项式回归模型就是在线性特征的基础上加入高次项。
    2. 在线性方程后面加入一个非线性变换,即引入一个非线性的激活函数,典型的有线性分类模型如感知机。
    3. 对于一致的线性系数,我们进行多次变换,这样同一个特征不仅仅被单个系数影响,例如多层感知机(深度前馈网络)。
  2. 线性回归在整个样本空间都是线性的,我们修改这个限制,在不同区域引入不同的线性或非线性,例如线性样条回归和决策树模型。
  3. 线性回归中使用了所有的样本,但是对数据预先进行加工学习的效果可能更好(所谓的维数灾难,高维度数据更难学习),例如 PCA 算法和流形学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2097445.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

APO的接口级拓扑 VS Dynatrace ServiceFlow

在可观测性系统中&#xff0c;几乎所有的产品都会提供拓扑功能。大部分用户在初看这个拓扑之时都会觉得非常有用&#xff0c;但是一旦真实落地使用&#xff0c;就感觉这个拓扑比较鸡肋。这篇文章重点探讨APO团队是如何考虑让用户能够更好的使用拓扑&#xff0c;真正发挥出拓扑的…

OpenCV绘图函数(14)图像上绘制文字的函数putText()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 在图像上绘制指定的文本字符串。 cv::putText 函数在图像上绘制指定的文本字符串。无法使用指定字体渲染的符号会被问号&#xff08;?&#xff…

从理论层面设计简单的电池管理系统(BMS)

前言 最近阅读了《便携式设备的电池电源管理》和《大规模锂离子电池管理系统》这两本书&#xff0c;都是比较容易入门的BMS书籍&#xff0c;书中作者做了很多深层次的思考&#xff0c;所以我摘抄了一些部分&#xff1b;同时结合我个人的项目经验及一些理解&#xff0c;整理成这…

中核武汉首位“数字员工”报到,实在智能提供RPA技术解决方案

近期新员工入职季&#xff0c;中核武汉核电运行技术股份有限公司&#xff08;以下简称“中核武汉”&#xff09;迎来了一位“看不见的新同事”——公司首位数字员工“武小数”。“武小数”基于先进的机器人流程自动化技术&#xff08;RPA&#xff09;诞生&#xff0c;结合OCR图…

c++线程库操作

一、函数介绍 1、构造函数 无参构造函数&#xff1a; thread thd thread(); 有参构造函数&#xff1a; template<class Fn, class... Arg> Fn&#xff1a;可调用对象&#xff08;函数指针&#xff0c;仿函数&#xff0c;lambda表达式&#xff0c;包装器&#xff09…

掌握 ERP 进销存系统源码,实现企业精准管理 带源代码包以及搭建部署教程

系统概述 ERP 进销存系统源码是一套基于先进技术架构开发的企业管理解决方案。它涵盖了企业采购、销售、库存管理等核心业务领域&#xff0c;通过信息化手段实现了数据的实时共享、流程的优化整合以及决策的科学支持。 该系统源码采用了模块化设计理念&#xff0c;各个模块之…

传输层(多路复用与解复用)

目录 1.概述传输层服务 传输服务和协议 传输层 VS 网络层 类比&#xff1a;两个家庭的通信 Internet传输层提供的服务 2.多路复用与解复用 多路复用/解复用 多路复用的工作原理 无连接&#xff08;UDP&#xff09;多路复用 UDP多路复用例子 UDP多路解复用例子 面向连…

【Python报错已解决】ValueError: cannot reindex from a duplicate axis

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引言&#xff1a; 当处理Pandas数据框&#xff08;DataFrame&#xff09;时&#xff0c;你是否遇到过ValueError: cannot reind…

零知识证明-公钥分发方案DH((六)

前言 椭圆曲线配对&#xff0c;是各种加密构造方法(包括 确定性阀值签名、zk-SNARKs以及相似的零知识证明)的关键元素之一。椭圆曲线配对(也叫“双线性映射”)有了30年的应用历史&#xff0c;然而最近这些年才把它应用在密码学领域。配对带来了一种“加密乘法”的形式&#xff…

VLAN原理和配置

VLAN技术可以将一个物理局域网在逻辑上划分成多个广播域&#xff0c;也就是多个VLAN。VLAN技术部署在数据链路层&#xff0c;用于隔离二层流量。同一个VLAN内的主机共享同一个广播域&#xff0c;它们之间可以直接进行二层通信。 VLAN标签长4个字节&#xff0c;直接添加在以太网…

轻松享受远程办公:可道云teamOS,让自由与效率同行

职场生活中&#xff0c;我们常常会因为工作需要而面临出差的情况。在这种情况下&#xff0c;如何能与不在身边的公司同事组员&#xff0c;保持高效协作&#xff0c;就显得尤为重要了。 移动办公新体验 记得有一次&#xff0c;我正在外地参加一个重要的商务会议&#xff0c;突…

佰朔资本:8.87亿人次!全国铁路 暑运发送旅客创历史同期新高

记者1日从我国国家铁路集团有限公司得悉&#xff0c;8月31日&#xff0c;为期62天的铁路暑运圆满结束。7月1日至8月31日&#xff0c;全国铁路累计发送旅客8.87亿人次&#xff0c;同比增长6.7%&#xff0c;日均发送旅客1431.2万人次&#xff0c;创暑运旅客发送量前史新高&#x…

如何恢复图库里的照片?照片恢复有道,最后一招更有效!

在今天&#xff0c;手机里的照片不仅是记忆的载体&#xff0c;更是我们情感的寄托。然而&#xff0c;当我们在查看照片时不小心删除或丢失重要照片的情况时有发生&#xff0c;这可能会让我们感到后悔和焦虑。我们也会想&#xff1a;如何恢复图库里的照片呢&#xff1f;失去的照…

Upscayl 采用开源人工智能技术,可以增强低分辨率图像的效果。

Upscayl 是一款免费开源的基于 AI 神经网络与深度学习的「图片画质提升 / 超分辨率软件」&#xff0c;可以做到“无损放大图片”&#xff0c;让你轻松将任意分辨率的图片、照片、壁纸放大到高清、超清甚至 4K 水平&#xff0c;大幅提升图片细节表现与清晰度&#xff01;效果比起…

谷粒商城实战笔记-问题记录-Feign异步调用丢失请求头问题

文章目录 单线程下生效的原理多线程下Interceptor不生效的原因解决方案1&#xff0c;不优雅的方法2&#xff0c;优雅的方法 在请求多个信息时&#xff0c;我们使用了多线程&#xff0c;这就带来了一个问题&#xff0c;前面我们解决Feign丢失请求头的方案在多线程下&#xff0c;…

笔记本连wifi蓝屏问题修复

最近笔记win11专业版本连wifi时总是蓝屏重启&#xff0c;各种杀毒软件升级补丁都无效&#xff0c;最后升级了网卡驱动&#xff0c;就正常了 下载链接&#xff1a; 23.40.0.4无线网卡驱动 下载后直接运行&#xff0c;运行后网卡驱动版本变成 23.40.0.4 就好了&#xff01;&am…

Spring理论知识(Ⅲ)——Spring面向切面编程

Spring的组成 Spring由20个核心依赖组成&#xff0c;这20个核心依赖可以分为6个核心模块 本文主要讲解spring的AOP模块&#xff0c;其中包括spring-aop&#xff0c;spring-aspects Spring AOP模块概述 AOP思想 Spring AOP全面详解(超级详细) AOP 是一种编程思想&…

华为云低代码AstroZero技巧教学3:智能计算商品费用,轻松实现高效数据处理

公司经营过程中&#xff0c;多个场景会涉及到计算商品花费。以企业内部行政采购为例&#xff0c;在统计相关采购清单中&#xff0c;会涉及到诸多数据统计及计算。如采购商品种类、数量、单价以及其他附加成本&#xff08;运输费用&#xff0c;装卸费用&#xff0c;包装费用&…

网络安全ctf比赛/学习资源整理,解题工具、比赛时间、解题思路、实战靶场、学习路线,推荐收藏!

前言 对于想学习或者参加CTF比赛的朋友来说&#xff0c;CTF工具、练习靶场必不可少&#xff0c;今天给大家分享自己收藏的CTF资源&#xff0c;希望能对各位有所帮助。 CTF在线工具 首先给大家推荐我自己常用的3个CTF在线工具网站&#xff0c;内容齐全&#xff0c;收藏备用。…

第11章 第9节 基于软件质量特性的测试(软件评测师)

1.以下关于软件质量特性测试的叙述&#xff0c;正确的是&#xff08;&#xff09; 1.成熟性测试是检验软件系统故障&#xff0c;或违反指定接口的情况下维持规定的性能水平有关的测试工作 &#xff08;&#xff0c;成熟性测试是检验软件产品是否具备为避免由软件中错误而导致…