文档介绍:摘要强化学习,因其不需要环境模型、通过退诨肪车淖灾鹘换ソ醒暗奶点,现己成为多低澈突餮傲煊虻难芯咳鹊恪6郃系统常被应用于开放、目标的系统,浔匦胄蠼狻M保珹贡匦刖弑秆澳芰σ允视肪车问题常用于来测试人工智能领域的学习算法,本文就此问题提出了两种文章首先介绍了投郃系统、以及多暗囊恍┗靖拍睿缓蠼绍了强化学习和多炕暗难芯肯肿春臀蠢捶⒄狗较颉5诙糠侄郧炕袄础上,针对独立行为学习者,扩展了单秂炕八惴ǎ岢隽嘶诔信岛驮级ǖ本文的主要成果及创新是,提出了两种多炕八惴ǎ⒔辛耸笛承诺和约定协同博弈团队随机博弈纳复杂、动态变化的环境,单个哪芰σ巡荒苁と嗡媪俚娜挝瘢绕涫蔷哂邢嗤动态变化。但传统的单霸聿⒉皇视糜诙郃环境,因此亟待根据多系统的协同性,提出新的学习方法。多炕胺椒ǎ夯诔信岛驮级ǖ姆椒ê突诹:闲形S畔刃蛄械姆椒ā论和多趀强化学习理论进行了简要介绍。在对问题进行初步分析的基多炕胺椒∕U攵粤:闲形Q罢撸隽硕郃协同强化学习的团队随机博弈框架,并解决了多晟优均衡解问题,提出了基于联合行为优先序列的多炕胺椒∕广。文中对上述两种方法都进行了实验验证。验证。甤诙韵低衬勘甑奶匦越蟹治龅幕∩希低衬勘杲蟹纸猓⒉用基于承诺和约定的协作方法实现的协作求解;考虑到状态行为空间可能很大的问题,提出了状态和行为的泛化的概念,对状态空间进行了缩减;针对谇蠼夤程中学习到的经验知识的相似性,提出了经验知识共享的方法以提高学习效率。针对多炕暗奶氐悖岢隽硕郃协同强化学习的团队随机博弈框架:针对博奔问题的多最优均衡解难题,提出了基于联合行为优先序列的方法,确保芄蛔既吩げ馄渌鸄的行为,从而选择一致的最优均衡解。关键词:多低城炕癙什均衡联合行为优先序列第Ⅳ页国防科学技术大学研究生院学位论文
曲,’,鉐甇第甀,猯,,舏琍“瑃狝】—:、,猙狝狿—纓猼喀,縜痶琾,厅琣甌~琧,,,琤—,猠“盿“”,、—
—————————————————————————————————————————一緀:鱩琍譽,皁第Ⅵ页国防科学技术大学研究生院学位论文琑騭,.
图表目录国防科学技术大学研究生院学位论文图强化学习分类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一图强化学习的框架结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图纳什谎八惴ā图虚执行算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..桓鲈级ǖ睦印圈问题的初始状态和目标状态⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一侍庵心勘甑姆纸狻问题的坐标系⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯问题中的状态分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯诔信岛驮级ǖ亩郃甆吠炕八惴ā图部分感知且倒蚕淼氖笛榻峁图全感知且挡还蚕淼氖笛榻峁图全感知且倒蚕淼氖笛榻峁图对接问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图可能达到的下一步状态⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.表状态O碌乃彩被乇ň卣蟆袁某状态碌某て诨乇ň卣蟆图对接问题的坐标系⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..保琈胄橹葱兴惴ǖ谋冉稀脏以猎物为中心的坐标系⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯,与猚惴ū冉稀第Ⅲ页图问题⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图鉐惴ā图
日期:侥阬碌笕日期:沙心年月≯扫独创性声明学位论文版权使用授权书日期:曲酊年月垴日本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文题目:垒△盐监围丛煎堡丝堂要左洼班窒本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C苎宦畚脑诮饷芎笫视帽臼谌ㄊ椤垒△妗姥尉略按允に刻貌嫌淹菝酥作者指导教师签名:学位论文作者签名:
组成部分就是目前人工智能沁第一章绪论§研究背景~酥良扑慊缙捣笔褂玫氖跤铩!学习是囊幌钪匾5哪芰Γ逑至