文档名称：

简书.doc

格式：doc 大小：12KB 页数：2页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

简书.doc

上传人:湘云 2022/1/21 文件大小：12 KB

下载得到文件列表

简书.doc

相关文档

文档介绍

文档介绍：简书 &#183; 使用Keras和DDPG玩赛车游戏（自动驾驶）
但是接下来我们并没有和Q-learning采取同样的Q值更新策略，重点来了：
我们采用了SARSA —— State-Action-Reward-State简书 &#183; 使用Keras和DDPG玩赛车游戏（自动驾驶）
但是接下来我们并没有和Q-learning采取同样的Q值更新策略，重点来了：
我们采用了SARSA —— State-Action-Reward-State-Action代表了状态-动作-奖励-状态-动作。在SARSA中，我们开始于状态1，执行动作1，然后得到奖励1，于是我们到了状态2，在返回并更新在状态1下执行动作1的Q值之前，我们又执行了另一个动作（动作2）然后得到奖励2。相反，在Q-learning中，我们开始于状态1，执行动作1，然后得到奖励1，接着就是查看在状态2中无论做出任一动作的最大可能奖励，并用这个值来更新状态1下执行动作1的Q值。所以不同的是未来奖励被发现的方式。在Q-learning中它只是在状态2下最可能采取的最有利的动作的最大预期值，而在SARSA中它就是实际执行的动作的奖励值。
这意味着SARSA考虑到了赛车（游戏代理）移动的控制策略（由控制策略我们连续地执行了两步），并集成到它的动作值的更新中，而Q-learning只是假设一个最优策略被执行。不考虑所谓的最优而遵循一定的策略有时会是好事。
于是乎，在连续的情况下，我们使用了SARSA，Q值公式去掉了max，它还是递归的，只是去掉了'武断'的max，而包含了控制策略，不过它并没有在这个Q值公式里表现出来，在更新公式的迭代中可以体现出来：