优化算法

  1. 梯度下降法(BGD)
  2. 随机梯度下降法(SGD)
  3. 小批量梯度下降(MBGD)
  4. Momentum(从梯度角度优化)
  5. AdaGrad(从学习率角度优化)
  6. RMSProp
  7. Adam

梯度下降法(BGD)

每次迭代都需要把所有的样本都送入进行梯度计算,是做全局的最优化,但是有可能达到局部最优

缺点:计算量大

BGD

随机梯度下降法(SGD)

针对梯度下降算法训练过慢的缺点,每一次进行梯度计算的时候只选出一组数据进行计算并更新一次,再循环;史得计算量大大减小。

缺点:受噪声影响大

小批量梯度下降(MBGD)

结合BGD和SGD取的一个新的优化方法,每一次随机抽出一小批进行梯度计算,参数更新,从而减少噪声带来的影响,也可使计算速度得到了保证。

Momentum(从梯度角度优化)

MBGD算法虽然能带来很好的训练速度,但是在快达到最优解的时候不能真正达到最优解,只能在最优解附近徘徊,为解决这一问题,创造了动量法

主要思想是之前梯度大,那接下来也梯度大,使得梯度更加稳定平缓

Momentum

AdaGrad(从学习率角度优化)

主要思想就是可以设定一个较大的学习率前期收敛快,而后期是这个学习率慢慢减少

AdaGrad

RMSProp

基于AdaGrad进行对学习率方面进行了指数加权

RMSProp

Adam

Adam算法是结合RMSProp和Momentum算法的结合,一方面能够防止梯度摆幅过大,同时还能加快收敛速度

Adam


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 zoubinbf@163.com

×

喜欢就点赞,疼爱就打赏