数据挖掘——回归算法
- 回归算法
- 线性回归
- 最小二乘法
- 优化求解——梯度下降法
- 逻辑回归
- 逻辑回归函数
- 逻辑回归参数估计
- 逻辑回归正则化
- 决策树回归
- 小结
回归算法
回归分析
如果把其中的一些因素(房屋面积)作为自变量,而另一些随自变量的变化而变化的变量作为因变量(房价),研究他们之间的非确定映射关系,这种分析就称为回归分析。
回归分析是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。
回归和分类的区别:
分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。
线性回归
线性回归假设特征和响应满足线性关系
一元线性回归问题函数关系可表示
y
=
a
+
b
x
y=a+bx
y=a+bx
- 根据上式,在确定a、b的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据上式得到的y值与实际的y值存在一个误差
- a、b为参数(parameters)、或称回归系数(regression coefficients)
线性回归例题:
关于线性回归的描述,以下正确的有:
A 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B 基本假设包括随机干扰项是均值为0的同方差正态分布
C 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D 在违背基本假设时,模型不再可以估计
E 可以用DW检验残差是否存在序列相关性
F 多重共线性会使得参数估计值方差减小
答案:BCE
解析:
一元线性回归的基本假设有
- 随机误差项是一个期望值或平均值为0的随机变量;
- 对于解释变量的所有观测值,随机误差项有相同的方差;
- 随机误差项彼此不相关;
- 解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
- 解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
- 随机误差项服从正态分布
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。
杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶自相关最常用的方法。
所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响
- 完全共线性下参数估计量不存在
- 近似共线性下OLS估计量非有效,多重共线性使参数估计值的方差增大
- 参数估计量经济含义不合理
- 变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
- 模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
最小二乘法
采用什么样的线性关系误差刻画更好呢?
最小二乘法!
基本思想:保证直线与所有点接近
详细做法:
若有n个样本点:
(
x
1
,
y
1
)
,
…
,
(
x
n
,
y
n
)
(x_1,y_1),… ,(x_n,y_n)
(x1,y1),…,(xn,yn),可以用下面的表达式来刻画这些
点与直线y=a+bx的接近程度:
[
y
1
−
(
a
+
b
x
1
)
]
2
+
.
.
.
+
[
y
n
−
(
a
+
b
x
n
)
]
2
[y_1-(a+bx_1)]^2+...+[y_n-(a+bx_n)]^2
[y1−(a+bx1)]2+...+[yn−(a+bxn)]2
使上式达到最小值的直线y=a+bx就是所求的直线,这种方法称为最小二乘法。
对a和b求偏导数,可以得到:
b
=
x
1
y
1
+
.
.
.
+
x
n
y
n
−
n
x
ˉ
y
ˉ
x
1
2
+
.
.
.
+
x
n
2
−
n
x
ˉ
2
,
a
=
y
ˉ
−
b
x
ˉ
b=\frac{x_1y_1+...+x_ny_n-n\bar x\bar y}{x_1^2+...+x_n^2-n\bar x^2},a=\bar y-b\bar x
b=x12+...+xn2−nxˉ2x1y1+...+xnyn−nxˉyˉ,a=yˉ−bxˉ
优化求解——梯度下降法
基本思想
- 向着梯度的反方向调整
- 步长不能太大,也不能太小
逻辑回归
逻辑回归函数
f
(
x
)
=
e
x
1
+
e
x
f(x)=\frac{e^x}{1+e^{x}}
f(x)=1+exex,值域为[0,1]
逻辑回归参数估计
使用梯度下降方法,迭代求解参数
逻辑回归正则化
W在数值上越小越好,这样越能抵抗数据的扰动
L1倾向于使得w要么取1,要么取0稀疏编码
L2倾向于使得w整体偏小(岭回归)
L1适合挑选特征
L2也称为岭回归,有很强的概率意义
决策树回归
决策树是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二, 这样使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维feature的值,一步一步往下,最后使得样本落入N个区域中的一个(假设有N个叶子节点),如下图所示。
既然是决策树,那么必然会存在以下两个核心问题:如何选择划分点?如何决定叶节点的输出值?——决策树分类选择划分点,使得信息增益最大,叶节点输出即类别
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。分类树中采用信息增益等方法,通过计算选择最佳划分点。而在回归树中,采用的是启发式的方法。