特征缩放
大约 2 分钟AIAI
特征缩放
由于特征值的不同,导致对应参数的范围也不相同。
1 参数范围不同的问题
对于之前的房屋价格预测的例子, , 分别是房屋面积和卧室个数。
房屋的面积可能是,而房屋的卧室个数的范围是0-5左右。
- 当一个特征的可能值范围很大时,模型会选择一个相对较小的对应参数值,因为的一个非常小的变化会给价格和成本函数产生非常大的影响。
- 当一个特征的可能值范围很小时,模型会选择一个相对较大的对应参数值, 需要非常大的变化,才能对价格产生大的影响。
因为房屋面积的范围很大,参数 的范围就会比较小,在成本函数的等高线图中可以看到会形成一个椭圆形状。

使用梯度下降找到最小值前,会来回横跳一段时间,才能找到函数的最小值。
2 特征缩放方法
对训练数据进行一些转换映射,使特征数据的范围都在一个可比较的范围内。这样生成的成本函数等高线图就是一个圆形,可以快速的找到最小值。

2.1 除以最大值法
对于每个特征值都除以该特征的最大值,就会得到一个 [a - 1] 范围的数据(a大等0,小于1)。
2.2 均值归一化
- 求特征的平均值
- 每个特征值减去平均值,再除以最大值与最小值的差
均值归一化后,特征的可能值会围绕零点,既有负值又有正值。
2.3 z-score
- 求特征的标准差和平均值
- 每个特征值减去平均值,再除以该特征的标准差
3 场景
特征之间的取值范围只有相差太大才需要缩放,缩放时也不一定都要缩放到[-1,1]。
