跳至主要內容

高级优化方法

blacklad小于 1 分钟AIAI

高级优化方法

在梯度下降中,学习率 α 控制着每一步的大小

  • 当学习率比较小的时候,如果梯度总是朝着一个方向的,我们希望学习率能够大一些
  • 当学习率比较大的时候,梯度变化大,难以收敛到最小值,我们又希望学习率能够小一些。

1 Adam 算法

Adam(Adaptive Moment estimation) 算法可以动态的调整梯度下降过程中的学习率 αα,用最短、最平滑的路径到达成本函数的最小值,通常比梯度下降方法更快。

Adam 算法没有使用一个全局的学习率,对于每个参数都有自己的学习率 αjα_j

如果参数一直向同一个方向前进,就逐步增大该参数的学习率;若每次方向都不一样,来回振荡,就逐步减小学习率。

2 代码

compile 函数中可以指定使用 Adam 优化函数,同时使用参数 learning_rate=1e-3 指定初始学习率为0.001。

上次编辑于:
贡献者: blacklad