文档介绍：第 28卷第 7期计算机应用与软件 Vol
2011年 puterApplicationsandSoftware
强化学习方法在 Web服务组合中的应用比较研究
刘卫红周义莲
(安徽工业大学计算机学院安徽马鞍山 243002)
摘要为了提高服务组合适应动态环境的能力,将强化学习技术引入到 Web服务组合。目前常用的强化学习方法有三种:蒙
特卡罗、时序差分和 QLearning,为了发现最适合于服务组合的强化学习方法,对这三种方法进行了对比研究。首先将 Web服务组
合建模为马尔科夫决策过程,然后介绍了这三种强化学习方法并分析了它们的异同,同时,提出了 Web服务组合领域的奖赏值确定
方法。最后,通过实验比较了这三种强化学习方法的学习效果,实验结果显示,在 Web服务组合应用中,QLearning比另外两种方法
收敛速度更快,因此更适合执行服务组合。
关键词 Web服务组合强化学习马尔科夫决策过程
ACOMPARATIVESTUDYONTHEAPPLICATIONSOFREINFORCEMENT
POSITION
LiuWeihong ZhouYilian
(puterScience,AnhuiUniversityofTechnology,Ma’anshan243002,Anhui,China)
Abstract positiontobeadaptivetothedynamicenvironment,thispaperapplies
reinforcementlearning(RL)position(Wsc).monlyusedRLmethods:MonteCarlo,
temporaldifferenceandQ
DecisionProcess,

QLearningmethodisfasteratconvergencethantheothertwoRLmethods,position.
Keywords position Reinforcementlearning MarkovDecisionProcess
不确定性问题进行建模,而由于动态环境的影响,Web服务组
0 引言合存在很多不确定性因素,如组件服务可能调用失败等。因此
我们使用 MDP对 Web服务组合进行建模,构建 Web服务组合
近年来,为了给用户提供增值的服务,实现面向服务的软件模型。本节给出一些关键概念的定义,并用实例对这些定义进
开发,Web服务组合已经受到了很多研究者的关注,从面向功行了解释。
能的服务组合到质量驱动的服务选择,研究者已经在 Web服务定义 1 Web服务一个 Web服务被建模为一个五元组
组合领域做了大量的工作[1-7],然而,Web服务组合