正则化是解决过拟合的方法之一,对于某些不重要的特征,通过减小参数w,但是实际可能并不知道哪些参数是不重要的。所以一般缩小所有的特征参数。
在原代价函数中添加正则项(惩罚项),控制参数 w 的大小:
J(w,b)=2m1i=1∑m(fw,b(x(i))−y(i))2+2mλj=1∑nwj2
- λ=0时,没有正则化,模型可能会过拟合
- λ增大,w 会逐渐变小,拟合的曲线也会变平滑
- λ过大,所有w 会变得非常小,接近于0,代价函数变成 J(w,b)=b,会欠拟合
分母中的 m 是为了消除样本个数对正则化的影响。
梯度下降过程变为:
wj=wj−α[m1i=1∑m[(fw,b(x(i))−y(i))xj(i)]+mλwj]
b=b−αm1i=1∑m(fw,b(x(i))−y(i))
展开合并项后可得:
wj=wj(1−αmλ)−αm1i=1∑m(fw,b(x(i))−y(i))yj(i)
相当于每次梯度下降时,将 w 的值先乘以一个略小于1的数来减小 w。