文档介绍:第31卷第4期 信阳农林学院学报 Vol. 31 No. 4
2021年 12月 -07
基金项目:2020年福建省中青年教师教育科研项目(JAT201074)。
作者简介:王霞(1983-),女,福建福州人,副教授,研究方向:计算机应用技术。
• 124 •王霞:面向Unity3D的深度增强学习训练框架研究
表1(续)
超参数 值 含义
Epoch数量 3 梯度下降期间通过经验缓冲区的次数
e 0. 2 ,以0・8的概率选择期望回报最高的动作
Gamma 值 0. 99 计算回报的折扣因子
Beta 值 用于随机动作的爛的正则化项
学习率 3 梯度更新的步长
最大步数 该参数为变量 指训练运行的最大迭代次数
层数 2 神经网络中隐藏层的层数
隐藏单元数量 128 每个全连接层的单元数
2场景实现
一维简单场景
首先实现一个简单的游戏场景来了解工作原理。该场景由一个玩家和一个目标组成,游戏的目的是让
玩家到达目标。对于学院,将使用通用的学院设置,将大脑设置为具有1个观察和1个动作,并且状态和动
作空间都将设置为连续的。当代理达到最大步数或接触目标时,会调用代理重置算法。该算法将代理和目
标随机放置在一些预定义的位置上,并保存了代理和目标之间的初始距离。接下来,代理采用观察收集算法
收集观察。在得到一个观察结果后,代理将其传递给大脑以决定选择哪个动作,使用两个物体之间的距离作
为观察结果。尽量保持观察次数尽可能少,同时让代理有足够的信息来完成任务,代理使用动作选择算法来
选择动作和计算相应的回报。由大脑决定的动作存储在数组中,由于只有一个动作,因此该动作的值会被存
储在该数组的第一个条目中。动作的取值范围是一1和1之间,代理最大的移动