1 / 8
文档名称:

基于动态延迟策略更新的TD3算法.pdf

格式:pdf   大小:940KB   页数:8页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于动态延迟策略更新的TD3算法.pdf

上传人:刘备文库 2022/9/30 文件大小:940 KB

下载得到文件列表

基于动态延迟策略更新的TD3算法.pdf

相关文档

文档介绍

文档介绍:该【基于动态延迟策略更新的TD3算法 】是由【刘备文库】上传分享,文档一共【8】页,该文档可以免费在线阅读,需要了解更多关于【基于动态延迟策略更新的TD3算法 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。万方数据
基于动态延迟策略更新的惴康朝海,孙超,荣垂霆,刘鹏云引言ü畲蠡悄芴与环境换セ竦玫奖励值学****最优控制策略I疃壬窬篋利用其强大的非线性拟合能力可对复杂信号进行特征提取∞=炕暗目刂凭霾吖δ苡肷疃壬窬绲母兄功能相结合产生的深度强化学****算法:情况下学****复杂的非线性控制策略,其已经成功应用到竞技游戏【、自动驾驶哺刮和机器人控制У—;强化学****篟茉诓皇孪攘私獗豢刂葡低车人工智能领域。第卷第年吉林大学学报畔⒖蒲О文章编号:摘要:在深度强化学****领域中,为进一步减少双延迟深度确定性策略梯度中价值过估计对策略估计的影响,加快模型学****的效率,提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度猅:T贒椒ㄖ校ü鼵绲淖钚翷涤肫渲甘尤ㄒ贫骄档亩钜熘傅糀网络的延迟更新步长。实验结果表明,与原始惴ㄔ交竦媒细叩慕崩迪啾龋珼甌方法可在约侥谘暗阶钣趴刂撇呗裕⑶一竦酶叩慕崩担佣岣哐罢易钣挪呗缘男省关键词:深度强化学****惴ǎ欢映俨呗愿中图分类号:文献标识码:,;作者简介:康朝海,男,黑龙江望奎人,东北石油大学副教授,硕士生导师,主要从事智能算法与智能控制研究,ū笔痛笱У缙畔⒐こ萄г海诹笄琒,,,:.:基金项目:黑龙江省自然科学基金资助项目.—.琋,
万方数据
双延迟深度确定性梯度策略;芓前凑帐奔湫蛄兴ゼ强化学****基础选深度确定性策略梯度算法深度强化学****不仅应用深度神经网络做复杂环境的特征提取工作,而且由于神经网络可解决强化学****状态维度和动作维度过高的问题,所以在实际任务中,也将其应用到强化学****的值函数及策略函数的拟合任务中¨I疃惹炕爸械木渌惴ā!I疃萉学****算法:。但是,由于猯闹倒兰浦写嬖诓豢杀苊獾脑肷虼松窬缭谀夂现岛墓讨校岢鱿旨壑倒吖兰的现象,从而导致算法获得较差的策略¨。针对这一现象,取ü跣≡缙诟叻讲罟兰频墓饶合降低倒兰啤等¨划提出猯椒ǎü远鞯难≡窈推兰劢薪怦钜源到降低过估计的效果。但上述解决过估计的方法都是针对离散动作空间任务的。针对连续动作空间任务中的价值过估计现象,等¨刮提出的惴ㄍü玅值网络机构及延迟更新勘晖缂小由于价值过估计而导致的策略恶化,并且在衅洳捎霉潭ㄑ映俨匠さ母禄疲挥锌悸羌壑倒计的动态性,从而导致策略学****效率降低。针对连续动作空间中出现的价值过估计而导致策略恶化的问题,结合械难映俑路椒ǎ收提出一种动态步长的延迟更新机制,通过累计价值网络的指数加权移动平均值,并将其设置为动态延迟步长的更新标准,指导缪映俑新。经实验验证,笔者提出的基于动态步长延迟更新的惴ň哂懈玫难靶阅堋强化学****解决了一个智能体W畲蠡崩藕哦诨肪中通过“试错”学****行为策略的问题。几乎所有的强化学****问题都可由元组珹,琑,组成的马尔科夫决策过程描述。其中为有限的状态集,S邢薜亩骷琍为状态转移概率,尺为回报函数,U劭垡蜃印T诿扛隼肷⑹奔洳街鑤,利用给定状态蔛,智能体根据策略择动作竦糜苫肪巢慕崩藕拧蔙,并且进入新状态的累计奖励。折扣因子蔥ê饬思词焙臀蠢唇崩闹匾P浴V悄芴宓哪勘晔峭ü畲蠡奂平励尺。的期望找到最优策略状态一动作值函数笔侵悄芴逶谧刺瑂下采取由策略生成动作蠡竦玫慕崩档钠谕琣籖。琣将式硎境傻莨榈谋炊匠绦问『琣针对规模比较小的任务,传统的强化学****算法如#琒,可通过迭代贝尔曼方程最大化值函数以获取最优策略为解决状态数量多或连续状态的强化学****问题,需采用比较复杂的函数逼近器拟合值函数。深度八惴是深度强化学****中的经典算法,,并通过梯度下降法寻找最优价值函数网络。基于求解值函数的强化学****算法不能有效解决连续高维动作空间的强化学****任务,而策略梯度算法提供了解决方法。策略梯度方法重新定义了期望收益最大化的目标,通过直接最小化策略目标函数获取最优策略妒#口”,口。:。其中NR谰莶呗口,智能体在状态笔涑龆餮5母怕剩瘴@帽平如神经网络夂策略仃时的参数。深度确定性策略梯度算法篋利用确定性策略大幅减少了:琣”琽仃三第康朝海,等:基于动态延迟策略更新的惴仃琣¨
万方数据
厶:专奎,蛔荩セ鮆~寺∑,卵踟诙映俨呗愿碌乃映偕疃热范ㄐ蕴荻炔呗双延迟深度确定性梯度策略算法琺:.琻。。,在校褂貌问?笮押吐训纳疃壬窬绫硎続网络和及网络,并且为算法训练所需的采样数据,显著提高了算法的收敛效率。确定性策略表示为其中/.表示参数为日的神经网络,输人为状态信息涑鑫H范ǘ鱫,相当于策略更新网络网络6杂Φ牟呗蕴荻任痾。蟆浴·B,口其中矿琽硎疽谰萑范ㄐ圆呗愿亍,在状态虏扇《鳌5淖刺髦岛K兰哿嗽诟米态下做出动作的价值,用参数为纳窬缒夂稀S捎谒刂屏瞬呗蕴荻雀碌姆较蚝头龋嗟庇价值估计网络。双延迟深度确定新策略梯度算法:是算法的升级版本。为降低网络的过估计,闪礁龆懒⒌钠缆奂彝一虲拟合智能体的行为价值函数篠×嗵⒀≡裰底钚〉腃纭智能体在训练过程中,每行动一步就会产生经验信息。,#瑀瑂⋯吹鼻白刺⒍鳌⒔崩岛下一步状态。并且以元组形式保存到经验回放体中。绾虲缤üü钚』鹗Ш萄盗吠其中云是加了高斯白噪声后的动作空间,以达到通过探索环境防止策略陷入局部最优的效果鮙。在绲腂更新中,使用目标策略平滑化的正则化技术减小确定性策略方法在更新辈叻讲钅勘曛档南窒蟆网络更新梯度确保各个网络更新的稳定性,对每个网络采用目标网络更新机制¨。在架构的惴ㄖ校勘晖缁拼嬖诓豢杀苊獾奈侍猓碅网络和网络的相互作用会导致算法不收敛。针对该问题,在网络更新过程中,为降低算法中网络的过估计而导致的策略恶化问题,设置绮捎醚映俑禄疲浩渲蠧缡窃诿扛鍪奔洳街蟾乱淮危珹网络每两个时间步更新一次。图狝网络和网络从环境中获取状态信息,并且相互之间网络更新存在延迟的示意图。虽然在惴ㄖ欣醚映俑翧网络改善策略更新效果,但延迟步长是固定的,这并不能根据网络估计效果的动态情况合理设置延迟。笔者提出的动态延迟更新将累计的价值网络的指数加权移动平均值作为动态延迟步长的更新标准,从而指导缪映俑碌口亍’薄图映俑机制。吉林大学学报畔⒖,‘
万方数据
摺—宦专∑猀%╫~,。,。ā∑痠;一/—在实际实验中,由于值的数值较小,导致专∑猀#凇酽徊悖到闲。钜焓到指数移动加权平均值—惴估计梯度,口『醒跋霢网络策略梯度!∞螺场畒回吣卯肛指数加权移动平均法心是当前众多领域,如金融时间序列、信号处理及神经网络等采用的重要算法之一。实际上,深度学****中的优化算法就应用了。此算法的主要作用是减少嘈杂数据中的噪声,平滑数据。相对于传统的平均值,不需保存过去所有的数值,计算量显著减小。其中NJ笨蘴的实际值;系数卢为加权下降速率,其值越小则下降越快;%为笨痰腅怠在校捎谑奔洳钜旄禄疲岛墓兰剖歉莺笮刺墓兰平⒌模⑶褺方程决定了误差会逐步累加,从而导致可能存在大量高估偏差和次优策略更新¨。在利用函数逼近器表示值函数时会加剧这种现象,并且每次函数更新都会留下一定量的残余错误琽’一琽日。,口抖。。口,口;可以证明,值函数不是奖励值期望的估计,而是奖励值减去误差后累计衰减和的期望估计。通过式可见,价值估计是奖励值和误差的线性函数,其方差与奖励值和误差的方差成比例。给定较大的折扣因子蚍讲钏孀琶扛黾壑蹈驴焖僭龀ぁ6彝ü可以看到,的价值弧的更新方向及步长,决定了策略更新的优劣。当存在次优的价值函数估计时,策略函数的更新也是次优的,并且次优的策略函数会根据环境信息产生劣质的行为信息,从而进一步恶化价值函数的估计,最终导致估值函数与策略函数的循环恶化。等¨钊深入研究了目标网络机制与函数逼近误差之间的关系,并验证了使用稳定目标可减少误差的增长。如果没有固定目标,每次价值估计更新都可能留下残余误差,并逐步累积。设定类似目标网络机制的延迟更新机制,减小价值网络更新的方差,通过减缓网络的更新频率,以获得准确的价值估计,从而提高优质策略的更新次数,提升策略收敛速度。在—校捎猛鏛囊贫骄涤胪绲鼻癓档牟钜炱兰跜绲脑ぜ聘路度,一旦网络下次大幅度更新,则说明这时的网络价值估计是次优的,则设置绺嗖绞的策略延迟更新以等待更优的价值估计。但如果过多延迟更新纾蚧嵊懈吒怕蚀砉胖实价值估计,无法及时更新网络参数。根据式雄逃胧计算得到在笨藽鏛囊贫骄.,并通过估算网络的计划更新幅度。小。通过指数表达形式使更新幅度表现明显。然后将,通过操作压缩并映射至更新次数范围,:叶,。延迟更新公式表示为的表达式为秽;秽,一卢。则通过#琽。第康朝海,等:基于动态延迟策略更新的惴芬籈
万方数据
五螂,一,猚,一琧瑈—痢掳蚎验妒∑。。琽。:。。ⅲ实卜幌唬环境配置其中,为线性系数,调整厂主要分布在区间,。实验证明∞彼惴ㄐЧ锏阶罴选算法结构如图尽由图杉珼猅共有錾窬纾治A嚼啵翰呗愿峦和价值评价网络,并且这两类网络皆适用目标网络机制稳定其更新。其中在计算目标价值网络狢时,使用两个独立的神经网络计算并取最小值。缭谟牖肪辰换ナ蓖üú街枞缦隆初始化网络如和缲辏勘瓴问:砸坏海妒,经验缓冲体纬檠竣簟妒范幌妒’此算法中,第轿3跏蓟鞑问墓蹋一第轿2檠镜墓蹋一第轿8新网络的过程,第~第步为延迟更新绲墓蹋轿8履勘晖绲墓獭笔者采用开发的魑J导肪常珿是一个用于研究和比较强化学****算法的开源工具包,包含了各种训练和研究新的强化学****算法的模拟环境。笔者在低诚拢褂钤谹的编译环境,并且使用效果优异的框架搭建神经网络。。.疃妊吉林大学学报畔⒖蒲О第卷选择动作回辍,其中玁,盯执行动作竦昧⒓唇崩鴕和下一状态将经验样本,瑀’嫒刖榛撼逄錌中;在经验缓冲体兴婊∨坎裳檠荆;更新网络参数甶“∑—琽‘一。畄,。。’’,通过确定性策略梯度更新绮问更新目标网络
万方数据
实验任务实验参数设置实验结果及分析为验证—挠行裕贠钟摆以随机位置开始,然后利用电机的控制力矩将其向上摆动,通过旋转摆动使其保持垂直并指向上方。观测值分别为摆钟角度的正弦及余弦值和钟摆的角速度;动作值为,的连续值,表示对钟摆施加的图狿獀挝竦氖疽馔肌观测结果如表捅所示。由表杉悄芴宓墓鄄庵,即环境的状态空间维连续值,动作空间为牧怠一骸速度,J淙肓亍S墒杉崩淖罡咧为H挝衲勘晔潜3种影诹憬嵌垂直⑶倚为保证实验对比的公平性,实验中—惴ā算法及算法参数相同。对缇添加使用经过裁剪的高斯噪声,裁剪范围为..,每批次样本数量均相等。神经网络采用全连接层,缡淙胛W刺任,隐藏层夭为。.绾虲産网络的结构相同,输人为状态和动作,维度为夭为,隐藏层L荻认陆涤呕惴ㄎ狝间步数超过鼻榻谥匦驴J肌Q奥蔰×~,折扣因子勘晖绺率倍,计算公式的参数启.#强化学****属于机器学****中的无监督学****算法,脚兴惴ǖ男阅苤副瓴煌谄渌喽窖八惴āT谇化学****中,通常应用随训练时间变化的奖励值评判算法接攘印=崩档氖樟菜俣忍逑至怂惴ㄊ欠衲芸速寻找到同定策略,而奖励值的大小表现了算法是否收敛到最优策略。图故玖嗽赑獀挝裰蠨猅算法与其他算法的效果对比。通过对比每个训练阶段的平均累计奖励衡量算法的优劣。由图可见,由于惴挥心勘晖缁坪蚏産疲矣捎贑绱嬖谝欢程度的过估计,使苣蜒暗接胖实牟呗裕绞苯崩挡庞忻飨缘纳仙由图可见,,因此算法学****到最优策略的效率很低。胶螅胖鸾デ飨蜃罡呓崩怠R簿褪撬担捌谠惴ú⒉荒芨咝У囟宰刺姓返钠拦馈猅算法在前期收敛速度明显高于原始惴ǎ阶笥铱焖俚酱镒罡咂骄崩医崩灯轿绕鸱挥薪隙嗟恼鸬聪窒蟆S捎诖嬖诙态延迟更新机制,—惴ㄔ谇捌谀芨莞胖实募壑倒兰朴行У母翧网络,从而依据此ぞ甙械腜獀钟摆肪诚陆惺笛椴馐浴—是经典的连续动作域的强化学****任务,左右力的大小。钟摆示意图表鄄庵岛妥刺任务奖励函数的精确等式为其中为钟摆与竖直方向的角度,!NV影诘慕速度最小,同时电机的控制力度最小。表髦化器。经验缓冲池大小设置为∨窝∪⊙臼縉C壳榻谧畲笫奔洳绞柚梦,时由图可见,原始惴ǖ慕崩翟并且在第康朝海,等:基于动态延迟策略更新的惴图—“一
万方数据
语结绮行У***肥葑魑狢绲氖淙胗呕绮问I鲜鍪笛榻峁砻鳎珼甌算法可更快地学****到最优策略。表狿任务中实验数据统计。从表杉階、癉惴ㄏ啾龋珼算法可获得更高的平均奖励值和最高的奖励值,说明在此任务中,.惴ǹ梢匝暗礁挪呗浴在算法训练的不同阶段,由于存在对环境的探索操作,所以存在不同程度的奖励值差异,因此存在一定的奖励值方差。表图故玖搜盗饭讨蠥网络的动态延迟次数。由图杉谘盗非捌冢捎谥悄芴逵牖肪的交互次数较少,值函数的价值估计迭代尚不充分,相应的神经网络的参数尚不成熟,则前期次优的网络价值导致缪映俨匠ぶ饕<性。缪映俨匠笔者提出的—ü髡鸄网络的延迟步长,能有效解决惴ㄓ捎贑兰频致的策略恶化问题,提高了策略学****效率。通过教ㄏ铝魅挝馪獀橹ち怂惴ㄓ行性。此改进属于对强化学****任务下的神经网络更新的优化,具有很强的通用性及应用价值,有望在以强化学****为模型的自动驾驶、工业控制等领域发挥作用。但该算法在中使用均匀采样提取数据进行训练,没有考虑中经验值优劣的问题。因此,使用分类经验的非均匀采样训练将是下一步的重点研究方向。⒖蒲О第卷算法平均奖励最高奖励方差映俨匠し植记榭映俨匠て德释臣隓’瓺与—隓猅一—一.
万方数据
甆:荆鹑伪嗉毫跚瘟参考文献:瓹蜛狶∥甌第康朝海,等:基于动态延迟策略更新的惴瓹:,,,:.珺甆:.钏常ǖ拢饧幔龋诙嗬嘈痛ǜ惺莸淖远菔簧疃惹炕***椒╗.吉林大学学报:工学版,,甁:—.,,,.疧..—./.∥.:,:疧.·甗——./...狶甆,.狢.,,/:—.甐:∥狶∥,甃.&:/..///畂痑/.蜳.,,.琙,,,珹珺甊:..:—琄琒,.珿琇—..。—:.篜..