经验误差密度依赖的风险最小化 v.s. 经验风险最小化
论文: 《 Error Density-dependent Empirical Risk Minimization》
发表在: ESWA’24
相关代码: github.com/zxlml/EDERM
研究背景
传统的经验风险最小化(ERM)方法基于平方损失,对异常值敏感,导致泛化性能下降。现有改进方法主要关注误差值的定量关系(如Huber损失、CVaR等),但未能有效利用误差密度的结构信息。异常值通常分布在低密度区域,而高密度区域的样本更具统计意义,因此如何通过误差密度筛选样本以提升鲁棒性成为关键问题。
核心技术与思想
论文提出误差密度依赖的经验风险最小化(EDERM),核心思想是:
误差密度建模:通过核密度估计(KDE)计算样本的误差密度分布。
高密度区域筛选:利用阈值λ选择误差密度高的样本,构建鲁棒学习目标。
指示函数替代:用平滑函数(如correntropy诱导函数)替代非凸的指示函数,将问题转化为可优化的形式。
数学形式上,EDERM的目标函数为:
其中ϕ为代理函数,ρE 为KDE估计的误差密度。
核心贡献
-
新学习目标:首次将误差密度直接引入ERM框架,提出EDERM方法。
-
理论分析:证明EDERM的连续性、平滑性及鲁棒性,并揭示其与CVaR的区别。
-
实验验证:在合成数据、UCI数据集、CME数据和图像分类任务中,EDERM在噪声和异常值环境下表现优于传统方法(如Huber、MCC、MoM等),且稳定性更高。
解决的问题
-
异常值敏感性问题:传统ERM因过度关注异常值的平方误差而降低泛化能力。
-
误差结构信息利用不足:现有方法依赖误差值的排序或分位数,忽视密度分布隐含的样本聚类特征。
-
优化复杂性:通过代理函数将非凸问题转化为可高效求解的形式。
此外,本文中我们还建立了EDERM和经济学中的度量CVaR之间的联系: