机器学习西瓜书学习笔记【第十一章】
- 第十一章 特征选择与稀疏学习
- 11.1子集搜索与评价
- 特征
- 特征选择
- 为什么要特征选择
- 如何进行特征选择
- 子集搜索
- 子集评价
- 11.2过滤式选择
- Relief
- 适用场景
- 如何确定相关统计量
- 11.3包裹式选择
- 优缺点
- 11.4嵌入式选择与L1正则化
- L1/L2正则化
- L1正则化问题的求解——近端梯度下降
- 11.5稀疏表示与字典学习
- 稀疏性
- 字典学习
- 11.6压缩感知
- 采样定理
- 关注点
第十一章 特征选择与稀疏学习
11.1子集搜索与评价
特征
将样本属性称为“特征”。
- 相关特征:对当前学习任务有关的属性
- 无关特征:对当前学习任务无关的属性
- 冗余特征:所包含的信息能从其他特征中推演出来。
特征选择
从给定的特征集合中选择出相关特征子集,是一种数据预处理。
为什么要特征选择
- 减轻维数灾难问题(与降维的原因相同)。
- 去除不相关特征往往会降低学习任务的难度。
如何进行特征选择
我们不能直接用排列组合进行遍历所有可能子集,这样会遭遇组合爆炸。所以我们选择产生一个“候选特征子集”,评价它的好坏,然后根据评价结果产生下一个候选特征子集,再进行评价,持续进行直到无法找到一个更好的子集为止。
怎么进行特征选择就转成了以下问题:如何根据评价结果生成下一个候选特征子集?
子集搜索
- 前向搜索:初始将每个特征当做一个候选特征子集,然后从当前所有的候选子集中选择出最佳的特征子集;接着在上一轮选出的特征子集中添加一个新的特征,同样地选出最佳特征子集;最后直至选不出比上一轮更好的特征子集。
- 后向搜索:从完整的特征集合开始,每次尝试去掉一个无关特征。
- 双向搜索:前向后向结合,每一轮逐渐增加选定相关特征,同时减少无关特征(前面增加的特征不会被去除)。
- 优点:思路简单,速度快,不用全部情况都遍历一遍。
- 缺点:使用贪心算法,不从总体上考虑其它可能情况,每次选取局部最优解,不再进行回溯处理,结果不一定是最好的。
子集评价
- 信息增益Gain(A)越大,特征子集A包含的有助于分类的信息越多。对每个候选特征子集,可基于训练数据集D来计算其信息增益,以此作为评价准则。信息熵也是同理,只要能判断两个划分差异的机制都能用于特征子集评价。
将特征子集搜索机制和子集评价机制相结合,即可得到特征选择方法。常见的特征选择方法大致可分为三类:过滤式、包裹式和嵌入式。
11.2过滤式选择
先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。特征选择在这里的作用相当于过滤。
Relief
①相关统计量——>度量特征的重要性。
②该统计量是一个向量,其每个分量分别对应一个初始特征(分量值越大,对应属性的分类能力越强)。
③特征子集的重要性则是由子集每个特征所对应的相关统计量分量之和决定的。
-
最终可以通过指定一个阈值t,然后选择比t大的相关统计量分量对应的特征即可
-
也可以指定选取特征的个数k,然后选择相关统计量分量最大的k个特征。
适用场景
适用于二分类问题。
如何确定相关统计量
-
对于猜中近邻,两者 j j j属性的距离越小越好,对于猜错近邻, j j j属性距离越大越好。分别计算每个分量,最终取平均便得到了整个相关统计量,分量值越大,对于属性的分类能力越强(越是相关特征)。
-
Relief只需在数据集的采样上而不必在整个数据集上估计相关统计量,Relief的时间开销随采样次数及原始特征数线性增长,因此是一个运行效率很高的过滤式特征选择法.
11.3包裹式选择
包裹式从初始特征集合中不断的选择特征子集,训练学习器,根据学习器的性能来对子集进行评价,直到选择出最佳的子集。
典型的包裹式特征选择方法—— L V W LVW LVW
优缺点
-
优点:从最终学习器的性能来看,包裹式比过滤式更好;
-
缺点:由于特征选择过程中需要多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征选择要大得多。
11.4嵌入式选择与L1正则化
将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动进行了特征选择。
L1/L2正则化
L 1 L1 L1和 L 2 L2 L2正则化都有助于降低过拟合风险,但 L 1 L1 L1还会带来一个额外的好处:它比 L 2 L2 L2更易于获得 “稀疏”解,即求得的 w w w会有更少的非零分量(即抹除了更多的特征属性)。
初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,于是求解L1范数正则化的结果是得到了仅采用一部分初始特征的模型,即基于L1正则化的学习方法就是一种嵌入式特征选择方法。
总的来说:
- L1范数会趋向产生少量的特征,其他特征的权值都是0;
- L2会选择更多的特征,这些特征的权值都会接近于0。
L1正则化问题的求解——近端梯度下降
其核心思想是:利用泰勒展开将目标函数的求解问题,变为一个二次函数的求解问题。
11.5稀疏表示与字典学习
稀疏性
-
特征选择所考虑的问题是特征具有“稀疏性”。
-
样本稀疏表达。
字典学习
目的:为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式(稀疏编码),从而简化学习任务,降低模型复杂度。
11.6压缩感知
采样定理
要从抽样信号中无失真地恢复原信号,抽样频率应大于2倍信号最高频率,即 f s > 2 ∗ f N f_s>2*f_N fs>2∗fN。
-
抽样频率小于2倍频谱最高频率时,信号的频谱有混叠。
-
抽样频率大于2倍频谱最高频率时,信号的频谱无混叠。
关注点
如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号,通常压缩感知分为:
- 感知测量(关注如何对原始信号进行处理以获得稀疏样本表示)
- 重构恢复(关注的是如何基于稀疏性从少量观测中恢复原信号,通常压缩感知指的是这部分)两个阶段。