1 / 6
文档名称:

深度学习的最优化方法比较.docx

格式:docx   大小:36KB   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

深度学习的最优化方法比较.docx

上传人:jiyudian11 2022/7/30 文件大小:36 KB

下载得到文件列表

深度学习的最优化方法比较.docx

相关文档

文档介绍

文档介绍:深度学****的最优化方法比较
最优化理论报告
姓名:陆家双 学号:182201181
梯度下降算法针对凸优化问题原则上是可以收敛到全局最优的,因为此时只有唯一的局 部最优点。而实际上深度学****模型是一个复杂的非线性结构,一般属于非凸问题,含有比较大的噪音。解决这一问题的一个简单的做法便是引
入momentum, momentum即动量,是BorisPolyak在1964年提出的,其基于物体运动
时的惯性:将一个小球从山顶滚下,其初始速率很慢,但在加速度作用下速率很快增加, 并最终由于阻力的存在达到一个稳定速率,即更新的时候在一定程度上保留之前更新的 方向,同时利用当前batch的梯度微调最终的更新方向。这样一来,可以在一定程度上
增加稳定性,从而学****地更快,并且还有一定摆脱局部最优的能力。掌握单纯形法的理 论依据、基本思想和最优性检验定理,熟练用大M法和两阶段求解线性规划问题,理 解构造的新问题和原问题的解的关系。
其更新方法如下:
m • m J(0)
0
0 J 0 - m
可以看到,参数更新时不仅考虑当前梯度值,而且加上了一个动量项丫・m,但多了一 个超参Y,,直到初始学****稳定,。相比原始梯度 下降算法,动量梯度下降算法有助于加速收敛。当梯度与动量方向一致时,动量项会增加 而相反时,动量项减少,因此动量梯度下降算法可以减少训练的震荡过程。可以看到,参数 更新时不仅考虑当前梯度值,而且加上了一个动量项Y・m,但多了一个超参Y,通常Y设 ,直到初始学****稳定,。相比原始梯度下降算法,动量梯度 下降算法有助于加速收敛。当梯度与动量方向一致时,动量项会增加,而相反时,动量项减 少,因此动量梯度下降算法可以减少训练的震荡过程。
NAG
NAG(Nesterov Accelerated Gradient),,由 Ilya Sutskever(2012 unpublished在 Nesterov 工作的启发下提出的。对动量梯度下降算法的改进版本,其速度更快。其变化之处在于计算 “超前梯度”更新动量项Y • m,具体公式如下:
m jy • m +^ • V J(0 -y • m)
0
0 J0 -m
既然参数要沿着动量项y • m更新,不妨计算未来位置@ - y • m)的梯度,然后合并两项作为
最终的更新项。效果示意图如下:
I
Starting point
Regular momentum update
一 ;Nesterov update
:7c /J 但}
optimum
AdaGrad
AdaGrad 是 Duchi 在 2011 年提出的一种学****速率自适应的梯度下降算法。在训练
迭代过程,其学****速率是逐渐衰减的,经常更新的参数其学****速率衰减更快,这是一种 自适应算法。其更新过程如下:
8
£ =—
口 c *1
§ + \龙 g ®g
i i
' i=1
每步迭代过程:
从训练集中的随机抽取一批容量为m的样本{x1,…,xm},以及相关的输出yi
计算梯度和误差,更新r,再根据r和梯度计算参数更新量:
g 〜丄 V/ L(f (x ;9), y )
m W i i
i
Y j Y + g®g