读文章笔记-OSSFS-DD
- 文章
- 代码
- 文章主要贡献
- 内容
- 公式(5)(6)的详细推倒
- 对比其他7种算法
- 算法
- 思考
文章
Online Scalable Streaming Feature Selection via Dynamic Decision
代码
- https://github.com/doodzhou/OSFS
文章主要贡献
- 将特征分成选择,丢弃和延迟。提出基于动态决策的在线可扩展流特征选择算法。
- 通过算法降低总体决策风险。并且动态调整阈值,筛选出最富有信息的特征:1如果两个特征都>β,但是两个特征的联合信息<2β,那么就将候选特征子集的特征作为冗余信息抛弃;2如果两个特征都<β,但是两个特征的联合信息>2β,那么就将未决策的信息放入候选特征子集.
- 用11组数据集比较现有的7种流特征选择算法。
内容
- 预备的知识,总体方差计算公式:
- 预备的知识,正态分布:
- 关于Sc和Su的时间复杂度计算。
公式(5)(6)的详细推倒
对比其他7种算法
- 对比Alpha-investing[33]:只能为某些数据集选择前一两项特征,没有像本文算法那样有可扩展性。
- 对比 Fast-OSFS[21]:本文算法在跑GISETTE运行时间打败了它,因为Fast-OSFS导致关键信息丢失。所以本文算法是更稳定的算法。
- 对比SAOLA[29]:本文算法可以选择出比SAOLA算法更富有信息的特征。
- 对比OSFSMI[17]: 本文算法在DEXTER and GISETTE花费的运行时间优于OSFSMI。
- 对比GFSSF[7]:GFSSF对于相关性和冗余分析太苛刻,导致错过很多重要的信息。
- 对比OFS-A3M[36]:基于邻域粗糙集的OFS-A3M算法运行时间更大。OFS-A3M使用邻域信息进行特征选择,该特征选择可能受到样本分布的显著影响。但是OFS-A3M在一些数据集就用到了较少的样本。
- 对比OFS-Density[35]:基于邻域粗糙集的OFS-Density。不能处理分布不均匀的数据集。
算法
- 算法总体就是:1将t时刻获得的ft特征;2计算它的成员度,更新α和β的值;3如果ft的成员度<α就丢弃ft特征;4如果ft的成员度>β,就放入Sc强相关的候选特征子集;并且将fi和fj的的互信息<2β的冗余信息剔除;5如果α<ft的成员度<β,就放入Su弱相关的未确定特征子集,如果Su溢出,那么将fi和fj的的互信息>=2β的信息放入Sc中,清空Su。
思考
- 使用邻域粗糙集处理流特征。
- 一般基于邻域粗糙处理流特征,有很高的时间复杂度。文章就是提出的新的方法来应对,邻域粗糙集处理的流特征的高时间复杂度。文章中使用全局统计信息来选择信息量最大的特征的可扩展比例。
- 本文仅检查冗余和不确定性分析中两个特征之间的冗余和联合信息。在未来的工作中,我们将考虑三元组或更多变量的关系。