1 / 81
文档名称:

多AGENT协同的强化学习方法的研究(可复制毕业论文).pdf

格式:pdf   页数:81
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

多AGENT协同的强化学习方法的研究(可复制毕业论文).pdf

上传人:mkt365 2013/12/24 文件大小:0 KB

下载得到文件列表

多AGENT协同的强化学习方法的研究(可复制毕业论文).pdf

文档介绍

文档介绍:国防科技大学研究生院硕士学位论文
摘要
强化学习,因其不需要环境模型、通过和所在环境的自主交互进行学
习的特点,现已成为多系统和机器学习领域的研究热点。多系统常被
应用于开放、复杂、动态变化的环境,单个的能力己不能胜任所面临的任
务,尤其是具有相同目标的系统,之间必须协同求解。同时,还必须
具备学习能力以适应环境的动态变化。但传统的单学习原理并不适用于多
环境,因此亚待根据多系统的协同性,提出新的学习方法。
问题常用于来测试人工智能领域的学习算法,本文就此问题提出
了两种多协同强化学习方法基于目标分解的方法和最优行为策略学习方
法。
博弈论反映了个人或组织之间的社会关系,将博弈论应用到多系统以
研究之间的相互关系是合适的。本文正是基于这一点将马尔可夫博弈与
强化学习结合起来,对多的协同博弈强化学习方法进行了初探。
文章首先介绍了和多系统、以及多学习的一些基本概念,然
后介绍了强化学习的基本原理以及几个常用的强化学习算法。在对
问题进行初步分析的基础上,提出了基于目标分解的强化学习方法。但基于目标
分解的方法有可能学习到的是局部最优解,为此对它进行了改进,提出了最优行
为策略学习方法。文中对上述两种方法都进行了实验验证。最后,在对上述两种
方法进行一般化和扩充的基础上,对多的协同博弈强化学习进行了初步研
究,提出了协同博弈强化学习算法,并就算法的收敛性进行了证明。
本文的主要成果及创新见解是,提出了两种适用于问题的多
协同强化学习算法,并进行了实验验证。此外,通过施加一定的约束,将
马尔可夫博弈与强化学习相结合并应用到多系统中,对协同博弈强化学习
进行了初探。在理论分析的基础上,提出了协同博弈的强化学习算法,并证明了
算法的收敛性。
关键词多系统强化学习
基于目标分解最优行为策略协同博弈
第页一一—一下—
国防科技大学研究生院硕士学位论文


,






































—一一一一一一一一一一一一厂一一一一一一,一, 一
独创性声明
本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得
的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含
其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它
教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任
何贡献均已在论文中作了明确的说明并表示谢意。
学位论文题目多协同的强化学习方法研究
学位论文作者签名日期年月布日
学位论文版权使用授权书
本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权
国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子
文档,允许论文被查阅和借阅可以将学位论文的全部或部分内容编入有关数据
库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。
保密学位论文在解密后适用本授权书。
学位论文题目
学位论文作者签名日期行今年月日
作者指导教师签名日期加乡年月日
国防科技大学研究生院硕士学位论文
图表索引
图标准的强化学习模型,,⋯⋯⋯,,⋯⋯‘⋯,,⋯,⋯
图算法构成示意图一二‘‘, “二,,一‘,,‘,,“
一‘引
图描述⋯,,⋯,⋯⋯‘卜⋯⋯“,,,⋯⋯‘⋯⋯‘⋯⋯份

图猎人捕物问题中目标的分解⋯‘⋯⋯, ⋯,⋯⋯, ⋯⋯朴

图猎人捕物问题中的状态分析,,,,二二,,,甲二“二,,,一‘一,、卜,二,,,⋯卜

图部分感知且共享值表的实验结果⋯⋯‘⋯⋯,⋯⋯二

图全感知且不共享值表的实验结果⋯⋯,,二‘,⋯,,, ⋯,,⋯⋯曰

图全感知且共享值表的实验结果‘二,⋯⋯卜⋯⋯卜,⋯价⋯,⋯⋯卜⋯二

图用相对位置表示状态,⋯⋯, ⋯‘⋯⋯比

表的算法⋯,,一“‘,,,一“‘二,,“二, ‘,,二,二二

图运行组数与抓获猎物所需平均步数的关系卜,,⋯⋯,卜⋯⋯,,二,,,⋯,,⋯曰

图运行组数与平均抓获概率关系图⋯⋯,二, 一,,⋯

图与基于目标分解的方法的比较,一,,,,一,“‘,,,,,⋯,,,,,

图两个参与的伪回报阶段博弈矩阵⋯‘二”⋯,⋯⋯,二,⋯⋯。

图个体理性与集体理性的伪回报博弈矩阵,,⋯⋯,⋯,,,⋯,,⋯,⋯

图根据值阶段博弈矩阵选择行为,,‘一二‘⋯