Regression
- 前言
- Dependent vs. Explanatory Variables
- Handle Numerical Labels
- squared error和variance什么区别
- Linear Regression
- Linear Regression in 1 Dimension
- Least Squares (最小二乘,重点)
- Least Squares Objective
- Minimizing a Differential Function
- Finding Least Squares Solution
- Least Squares Objective / Solution (Another View)
- Motivation: Combining Explanatory Variables
- Different Notation
- Different Notations for Least Squares
- Notation
- Least Squares in d-Dimensions
- Summary
前言
本文将基于UoA的课件介绍机器学习中的回归问题。
涉及的英语比较基础,所以为节省时间(不是full-time,还有其他三门课程,所以时间还是比较紧的),只在我以为需要解释的地方进行解释。
此文不用于任何商业用途,仅仅是个人学习过程笔记以及心得体会,侵必删。
Dependent vs. Explanatory Variables
问题引入
这里只是说有监督学习预测的趋势说法,可以是“与…有关”或者“可以帮助预测…”并不能直接说:“导致…”
Handle Numerical Labels
离散化处理Numerical Labels
squared error和variance什么区别
Squared error和variance都是衡量一个模型(或预测值)与真实值之间差异的指标,但它们从不同的角度衡量这种差异。
Squared error(平方误差)是将每个预测值与对应的真实值之差平方后的平均值,它衡量的是预测值与真实值之间的偏差大小,越大则表示模型的预测效果越差。平方误差在回归分析中广泛使用。
Variance(方差)则是用来描述模型的波动性,它表示模型在不同的数据集上产生的预测结果的差异。一个具有高方差的模型对训练数据的过度拟合,很可能在新数据上表现不佳。相反,一个具有低方差的模型可能过于简单,不能很好地捕捉到数据中的复杂关系。
总之,平方误差和方差都是衡量模型的预测效果的指标,但平方误差更注重衡量偏差的大小,而方差更注重衡量模型的波动性。
Linear Regression
线性回归用于建立一个预测模型,将输入变量(或自变量)和输出变量(或因变量)之间的线性关系拟合到一个线性方程中。它是一种最简单和最常用的回归分析方法之一。
线性回归的目标是找到一条最佳的直线来拟合数据,使预测值和实际值的差异最小。这条直线被称为回归线,其方程为 y = b0 + b1x1 + b2x2 + … + bnxn,其中y是因变量,x1,x2,…,xn是自变量,b0,b1,b2,…,bn是回归系数。
线性回归的过程可以用最小二乘法来实现,即通过最小化实际值和预测值之间的残差平方和来确定回归系数。在实际应用中,可以使用不同的变体,例如岭回归和Lasso回归,以避免过度拟合和提高预测精度。
线性回归可以用于很多实际问题,例如房价预测、销售预测、股票价格预测等。它是机器学习和统计学中最基础的算法之一,也是其他高级算法的基础。
Linear Regression in 1 Dimension
就,比较简单,没啥好说的如下图所示:
Least Squares (最小二乘,重点)
最小二乘是一种常用的回归分析方法,用于拟合数据集中的观测值和预测值之间的关系。在最小二乘中,通过最小化预测值与实际值之间的残差平方和,来确定回归方程的系数。在线性回归中,最小二乘法的目标是找到一条直线,使得这条直线与数据集中所有的点的距离平方和最小。
Least Squares Objective
这里也比较简单,没啥可说的。
Minimizing a Differential Function
机器学习中最小化可微函数的一个简单方法。如果要找到函数f的最小值,我们可以用以下步骤:
- 求函数f的导数
- 找到导数f′(w)等于0的点w
- 选择最小的那个点,并检查f′′(w)是否为正数。
其中,f(w) = Σ(wxi − yi)²是一个常见的函数形式,它表示对于一组数据集合,每个样本的预测值与真实值的差值的平方之和。这个函数也可以写成f(w) = 1/2Σ(wxi − yi)²,或者f(w) = 1/nΣ(wxi − yi)²,或者f(w) = 1/2nΣ(wxi − yi)² + 1000,它们的最小值点相同。
我们可以把f乘以一个正的常数而不改变最小值点,因为导数在同样的位置为0。这个技巧在机器学习中经常被用到。
Finding Least Squares Solution
如何找到使平方误差和最小的解w。
平方误差和是指预测值与真实值之差的平方之和。我们可以把平方误差和的计算式表示为f(w) = 1/2Σ(wxi − yi)²。
通过对f(w)求导,我们可以得到f(w)的导数f′(w) = wa − b,其中a = Σ(xi)²,b = Σxiyi,n是数据点的数量。令f′(w)等于0,解出w的值,即可得到最小平方误差的解w。
公式中的w = b/a,即最小二乘解,也可以写成w = Σ(xi yi)/Σ(xi²),它表示所有样本中x和y的乘积之和除以x的平方和,是一种用于解决回归问题的常见方法。
如何验证上面的公式w=b/a是最小化平方误差和的最小值。
我们可以通过检查它的二阶导数来证明这个公式是一个最小值。对公式f′(w) = wa − b求二阶导数,可以得到f′′(w) = Σ(xi)²,因为所有的x²都是正数,所以f′′(w)是非负数。如果我们有一个非零的特征(即存在一个xi不等于0),则f′′(w)大于0,这意味着w=b/a确实是平方误差和的最小值。
Least Squares Objective / Solution (Another View)
最小二乘法是如何最小化一个二次函数
这个二次函数是由n个二次项的和组成,每个二次项都是由一个变量wx减去对应的目标值yi并平方得到的。最小化这个二次函数意味着找到最优的w,使得所有wx和yi之间的差距的平方和最小。因为每个二次项都是正的,所以这个二次函数是凸的,只有一个最小值。找到这个最小值,就是最小二乘法的解。
Motivation: Combining Explanatory Variables
如何将多个解释变量(explanatory variables)结合起来建模
以肺癌为例,吸烟并不是唯一导致肺癌的因素,还有其他环境因素如石棉暴露等。我们如何将吸烟和石棉这两个因素的综合影响建模呢?
一种简单的方法是使用二维线性函数来表示这个综合影响,形式为:
ˆy = w1xi1 + w2xi2
其中,w1是特征1(吸烟)的权重,w2是特征2(石棉)的权重,xi1和xi2分别是特征1和特征2的取值。通过乘以相应的权重,将特征1和特征2的值结合起来,得到最终的预测值ˆy。例如,假设我们认为吸烟每天10支烟和暴露在石棉环境中对肺癌的影响分别为25单位,那么对于一个给定的样本,我们可以计算出预测的肺癌发病率ˆyi为10乘以吸烟量加上25乘以石棉暴露量。这样就将多个解释变量的影响结合起来建模,从而更全面地理解和预测目标变量的变化。
Different Notation
Different Notations for Least Squares
在d维特征空间中,我们使用d维线性模型来描述因变量和自变量之间的关系。这个模型可以写成以下形式:
y_hat = w1 * x1 + w2 * x2 + … + wd * xd
其中,wi代表第i个特征的权重,xi代表第i个特征的值。我们也可以使用求和符号来简化这个表达式:
y_hat = Σ(wi * xi)
此外,我们还可以使用向量的形式来表示线性模型,这个形式更加简洁:
y_hat = w.T * x
其中,w是特征权重向量,x是特征向量。通过对训练数据的学习,我们可以得到最佳的特征权重,进而用于预测新的数据点的输出。
Notation
所有的向量都默认为列向量。
特征权重向量w、输出向量y和输入向量xi的形式可以表示为列向量,其中wi、yi和xij分别表示向量的第i个元素。
因此,wT xi是一个标量,表示特征权重向量w与输入向量xi的转置之间的点积。它可以通过将w的元素与xi的对应元素相乘,然后将结果相加得到。这个计算可以通过向量和的形式表示为Σ(wj * xij),其中j从1到d,表示特征的索引。
此外,输入矩阵X的每一行实际上是输入向量xi的转置,即xT i,其中i从1到n,表示样本的索引。这种表示方式在某些数学运算中更加方便,例如在矩阵乘法中,可以直接将X与权重向量w相乘,得到输出向量y。
Least Squares in d-Dimensions
在d维空间中的线性最小二乘模型通过最小化以下目标函数来实现:
f(w) = 1/2 * Σ(wxi - yi)^2,其中i从1到n,表示样本的索引。
在这里,w是一个向量,而不再是单一的标量。wT xi (预测值)表示向量w与向量xi的内积,即特征的线性组合。
同样,Σ(wxi - yi)^2 (误差)仍然表示真实值yi与我们的预测值wT xi之间的平方差的累加和。
这种方法可以追溯到1801年,高斯(Gauss)将其用于预测小行星谷神星(Ceres)的位置。
在d维空间中,我们如何找到最佳的权重向量w呢?我们是否可以将每个变量的偏导数设为0来解决这个问题呢?
是的,我们可以使用偏导数来找到最佳的权重向量w。具体来说,我们可以对f(w)关于每个分量wj求偏导数,并将其设置为0,从而解出每个分量wj的最优值。这是因为,当所有偏导数都为0时,f(w)取得最小值。这个方法被称为正规方程(normal equation)方法。具体求解方法是,令偏导数为0,得到一个线性方程组,将其解出即可得到权重向量w的值。
Summary
回归分析是一种解决数值型响应变量yi的问题的方法。最小二乘法是拟合线性模型的经典方法,对于只有一个特征的情况,它有一个简单的封闭形式的解决方案,并且可以推广到多个特征的情况。在二维空间中,回归分析的模型是一个二维线性函数。此外,还有许多其他的回归模型,如模型树、回归树等。