梯度下降法(BGD)
每次迭代都需要把所有的样本都送入进行梯度计算,是做全局的最优化,但是有可能达到局部最优
缺点:计算量大
随机梯度下降法(SGD)
针对梯度下降算法训练过慢的缺点,每一次进行梯度计算的时候只选出一组数据进行计算并更新一次,再循环;史得计算量大大减小。
缺点:受噪声影响大
小批量梯度下降(MBGD)
结合BGD和SGD取的一个新的优化方法,每一次随机抽出一小批进行梯度计算,参数更新,从而减少噪声带来的影响,也可使计算速度得到了保证。
Momentum(从梯度角度优化)
MBGD算法虽然能带来很好的训练速度,但是在快达到最优解的时候不能真正达到最优解,只能在最优解附近徘徊,为解决这一问题,创造了动量法
主要思想是之前梯度大,那接下来也梯度大,使得梯度更加稳定平缓
AdaGrad(从学习率角度优化)
主要思想就是可以设定一个较大的学习率前期收敛快,而后期是这个学习率慢慢减少
RMSProp
基于AdaGrad进行对学习率方面进行了指数加权
Adam
Adam算法是结合RMSProp和Momentum算法的结合,一方面能够防止梯度摆幅过大,同时还能加快收敛速度
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 zoubinbf@163.com