比较全面的L1和L2正则化的解释
前言
前段时间写了一篇文章《深入理解线性回归算法(二):正则项的详细分析》,文章提到L1是通过稀疏参数(减少参数的数量)来降低复杂度,L2是通过减小参数值的大小来降低复杂度。网上关于L1和L2正则化降低复杂度的解释五花八门,易让人混淆,看完各种版本的解释后过几天又全部忘记了。因此,文章的内容总结了网上各种版本的解释,并加上了自己的理解,希望对大家有所帮助。
目录
1、优化角度分析
2、梯度角度分析
3、先验概率角度分析
4、知乎点赞最多的图形角度分析
5、限制条件角度分析
6.、PRML的图形角度分析
7、总结
1、优化角度分析
图片
1、L2正则化的优化角度分析
图片
在限定的区域,找到使图片最小的值。
图形表示为:
图片
上图所示,红色实线是正则项区域的边界,蓝色实线是图片的等高线,越靠里的等高圆,图片越小,梯度的反方向是图片减小最大的方向,用图片表示,正则项边界的法向量用实黑色箭头表示。
正则项边界在点P1的切向量有图片负梯度方向的分量,所以该点会有往相邻的等高虚线圆运动的趋势;当P1点移动到P2点,正则项边界在点P2的切向量与图片梯度方向的向量垂直,即该点没有往负梯度方向运动的趋势;所以P2点是图片最小的点。
结论:L2正则化项使图片值最小时对应的参数变小。
2、L1正则化的优化角度分析
图片
在限定的区域,找到使图片最小的值。
图片
结论&