为什么要学习本课

为什么要使用Adam算法？
答：是因为要解决上一节课出现的无法收敛的问题。Adam算法可以自动调节每一层的学习率。我们只需要给出一个初始的学习率，在每一轮的中它会自动调整每一层的学习率，使它更接近最适合的值，从而能加快收敛

代码实现

在入口的Main代码中，现在使用Adam优化算法了，相关代码如下：

let _createConvNetwork = () => {
  let learnRate = 0.001

  ...

  Network.create(
    AdamWOptimizerUtils.buildNetworkAdamWOptimizerData(~learnRate, ()),

Adam算法的核心实现代码如下：
AdamW.res

let update = (data, (learnRate, t: int, (beta1, beta2, epsion)), vt_1, st_1, gradient) => {
  let vt = vt_1 *. beta1 +. (1. -. beta1) *. gradient
  let st = st_1 *. beta2 +. (1. -. beta2) *. gradient *. gradient

  let vBiasCorrect = vt /. (1. -. Js.Math.pow_float(~base=beta1, ~exp=t->Obj.magic))
  let sBiasCorrect = st /. (1. -. Js.Math.pow_float(~base=beta2, ~exp=t->Obj.magic))

  (data -. learnRate *. vBiasCorrect /. (Js.Math.sqrt(sBiasCorrect) +. epsion), (vt, st))
}