如题
我推导了偏差矫正的公式,供参考(在最后)
1、adam优化器公式
包括动量项和过去梯度平方的指数衰减平均
2、偏差校正后的,
3、Adam的参数更新公式
重点来了
第二部偏差矫正的公式是怎么等到的???
论文中的推导
但是不知道是怎么变化来的,下面是我的理解
这里对vt展开了,
这样就推出来那个公式了
下面是个人博客里的
————————————————
版权声明:本文为CSDN博主「飞奔的帅帅」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:Adam优化器偏差矫正的理解_ustbbsy的博客-CSDN博客
关于为什么对偏差进行修正?
下面链接有说明
————————————————
版权声明:本文为CSDN博主「糖葫芦君」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW,LazyAdam)