优化算法

人工智能算法梯度下降

发布时间 : 2020-05-24 15:22

字数:383 阅读 :

评论:

梯度下降法（BGD）

每次迭代都需要把所有的样本都送入进行梯度计算，是做全局的最优化，但是有可能达到局部最优

缺点：计算量大

BGD

针对梯度下降算法训练过慢的缺点，每一次进行梯度计算的时候只选出一组数据进行计算并更新一次，再循环；史得计算量大大减小。

缺点：受噪声影响大

结合BGD和SGD取的一个新的优化方法，每一次随机抽出一小批进行梯度计算，参数更新，从而减少噪声带来的影响，也可使计算速度得到了保证。

MBGD算法虽然能带来很好的训练速度，但是在快达到最优解的时候不能真正达到最优解，只能在最优解附近徘徊，为解决这一问题，创造了动量法

主要思想是之前梯度大，那接下来也梯度大，使得梯度更加稳定平缓

Momentum

主要思想就是可以设定一个较大的学习率前期收敛快，而后期是这个学习率慢慢减少

AdaGrad

基于AdaGrad进行对学习率方面进行了指数加权

RMSProp

Adam算法是结合RMSProp和Momentum算法的结合，一方面能够防止梯度摆幅过大，同时还能加快收敛速度

Adam

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 zoubinbf@163.com