文档名称：

深度学习的最优化方法比较.docx

格式：docx 大小：36KB 页数：6页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

深度学习的最优化方法比较.docx

上传人:jiyudian11 2022/7/30 文件大小：36 KB

下载得到文件列表

深度学习的最优化方法比较.docx

相关文档

文档介绍

文档介绍：深度学****的最优化方法比较
最优化理论报告
姓名：陆家双学号：182201181
梯度下降算法针对凸优化问题原则上是可以收敛到全局最优的，因为此时只有唯一的局部最优点。而实际上深度学****模型是一个复杂的非线性结构，一般属于非凸问题，含有比较大的噪音。解决这一问题的一个简单的做法便是引
入momentum, momentum即动量，是BorisPolyak在1964年提出的，其基于物体运动
时的惯性：将一个小球从山顶滚下，其初始速率很慢，但在加速度作用下速率很快增加，并最终由于阻力的存在达到一个稳定速率，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上
增加稳定性，从而学****地更快，并且还有一定摆脱局部最优的能力。掌握单纯形法的理论依据、基本思想和最优性检验定理，熟练用大M法和两阶段求解线性规划问题，理解构造的新问题和原问题的解的关系。
其更新方法如下：
m • m J(0)
0
0 J 0 - m
可以看到，参数更新时不仅考虑当前梯度值，而且加上了一个动量项丫・m,但多了一个超参Y，，直到初始学****稳定，。相比原始梯度下降算法，动量梯度下降算法有助于加速收敛。当梯度与动量方向一致时，动量项会增加而相反时，动量项减少，因此动量梯度下降算法可以减少训练的震荡过程。可以看到，参数更新时不仅考虑当前梯度值，而且加上了一个动量项Y・m，但多了一个超参Y，通常Y设，直到初始学****稳定，。相比原始梯度下降算法，动量梯度下降算法有助于加速收敛。当梯度与动量方向一致时，动量项会增加，而相反时，动量项减少，因此动量梯度下降算法可以减少训练的震荡过程。
NAG
NAG(Nesterov Accelerated Gradient)，，由 Ilya Sutskever(2012 unpublished在 Nesterov 工作的启发下提出的。对动量梯度下降算法的改进版本，其速度更快。其变化之处在于计算 “超前梯度”更新动量项Y • m，具体公式如下：
m jy • m +^ • V J(0 -y • m)
0
0 J0 -m
既然参数要沿着动量项y • m更新，不妨计算未来位置@ - y • m)的梯度，然后合并两项作为
最终的更新项。效果示意图如下：
I
Starting point
Regular momentum update
一；Nesterov update
:7c /J 但｝
optimum
AdaGrad
AdaGrad 是 Duchi 在 2011 年提出的一种学****速率自适应的梯度下降算法。在训练
迭代过程，其学****速率是逐渐衰减的，经常更新的参数其学****速率衰减更快，这是一种自适应算法。其更新过程如下：
8
£ =—
口 c *1
§ + \龙 g ®g
i i
' i=1
每步迭代过程:
从训练集中的随机抽取一批容量为m的样本｛x1,…,xm｝，以及相关的输出yi
计算梯度和误差，更新r,再根据r和梯度计算参数更新量：
g 〜丄 V/ L(f (x ;9), y )
m W i i
i
Y j Y + g®g