1 / 12
文档名称:

基于点的POMDPs在线值迭代算法.pdf

格式:pdf   大小:2,000KB   页数:12页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于点的POMDPs在线值迭代算法.pdf

上传人:allap 2021/4/17 文件大小:1.95 MB

下载得到文件列表

基于点的POMDPs在线值迭代算法.pdf

相关文档

文档介绍

文档介绍:万方数据
基于点的在线值迭代算法木仵博饷鬖芙趸虺芇⑺惴ㄔ诟ǖ目纱镄拍钭刺闵辖懈定环境下序贯决策的理想模型,但是现有离线算法陷入信念状态“维数灾”和“历史灾”问题,而现有在线算法无法同部分可观察马尔可夫决策过程;信念状态;基于点的算法;在线算法;与或树,摘要:部分可观察马尔可夫决策过程虺芇是动态不确时满足低误差与高实时性的要求,造成理想的模型无法在实际工程中得到应用.对此,提出一种基于点的在线值迭代算法新操作,避免对整个信念状态空间单纯体进行求解,加速问题求解;采用分支界限裁剪方法对信念状态与或树进行在线裁剪;提出信念状态结点重用思想,重用上一时刻已求解出的信念状态点,避免重复计算.实验结果表明,该算法具有较低误差率、较快收敛性。满足系统实时性的要求.关键词:中图法分类号:文献标识码::疭...泄蒲г喝砑芯克嫒ㄋ校中南大学信息科学与工程学院,湖南长沙先进控制与智能自动化湖南省工程实验室,湖南长沙深圳职业技术学院教育技术与信息中心,广东深圳—,通讯作者:仵博,:甧.,://畇甧.:產甤://甹.甤中文引用格式:仵博,吴敏,佘锦华.基于点的在线值迭代算法.软件学报,,甴海痺.畂./英文引用格式:琖.,,.://甹.甤,.一,,一,,·软件学报琒/瓾珻仃,,’琒,琂:,簑.甤琱海痺..甤瓾.·基金项目:国家自然科学基金;国家教育部博士点基金收稿时间:..;修改时间:·欢ǜ迨奔洌—..琓疐:甴.,::.,,疧甌,.
万方数据
通常用一个六元组,琓,珼枋觥,,其序贯决策示意图如图荆刺蟨移函数集合冢瑂,口窃谧刺琒虏捎枚骺冢赡茏R频阶刺瑂母怕剩鄄旌螼琿,韵软件学报琋,部分可观察马尔可夫决策过程虺芇尽磕芄豢凸邸准确地描述真实世界,是随机决策过程研究的重要分支,最近成为计算机、控制和管理等学科研究的热点.综述现有算法,按照年代可大致分为两个阶段:第锥世纪末饕J蔷非蠼馑惴ǎ硭惴ㄎ猈算法【;第锥世纪初捎诰非蠼釶檀嬖谛拍钭刺占湮趾偷吕吩治侍猓媒段主要是近似求解算法,代表算法为基于点的值迭代算法【浚诘愕闹档惴ǖ闹饕K枷胧牵焊菸蟛钆卸条件,给出固定的有限可达信念状态集合,在其上进行更新操作,避免对整个信念状态空间单纯体进行求解,从而在有限的误差范围内快速求解.更进一步地,卞爱华等人提出基于点的算法的预处理方法【浚盟惴对于解决维数灾问题有效,但在序贯决策中,信念状态空间会随着时间的推移而呈指数形式爆炸增长.近几年,为了使理想的模型能够满足实时系统的要求,普遍采用在线近似算法来求解【浚谙呓扑惴主要是信念状态与或树查找算法,此类算法将看成智能体与环境之间的博弈,在每一个信念状态结点上,智能体必须选择一个动作,并随机选择下一时刻的观察,在给定的深度内,通过遍历与或树获得当前时刻最优动作.信念状态与或树查找算法可分为蒙特卡罗采样算法、分支界限裁剪算法和启发式搜索算法.提出一种惴ā】,使用分支界限裁剪思想对动作进行在线裁剪.男屎艽蟪潭壬弦赖于离线求解值函数上下界的精确度,当上下界很紧密的时候,查找算法很高效.但该算法忽略了观察集合,当观察集合很大时,为了在有限时间内求解问题,遍历深度应该很小,但这又将增加最优策略的误差.等人在惴ǖ幕∩咸岢鲆恢只诿商乜薏裳腗甊算法【浚捎昧W勇瞬ɡ创砹男拍钭刺空间.蒙特卡罗采样算法只对观察集合进行裁剪,而忽略了动作集合.当动作集合很大时,该算法的效果并不理想.等人提出一种惴ā尽保腔谄舴⑹降奈蟛钭钚』檎宜惴ǎ舴⑹讲檎宜惴ū苊舛怨鄄旎者动作分支进行裁剪,通过使用启发式方法来选择最佳的扩展边缘结点,从而查找出与决策相关性最高的可达信念状态点.在启发式查找算法中,每一个边缘结点都对应着一个启发式值,启发式值决定着是否扩展该边缘结点.每次迭代的目标是在所有边缘节点中寻找能够最大化启发式值的结点,该最佳边缘结点的参照是其子树的父亲结点,利用存储在父亲结点中的参照和启发式值,采用动态规划算法,可以高效地对最佳边缘结点进行扩展和更新.但是启发式查找算法需要计算出需要扩展的边缘结点,并且还要在每次迭代中更新父亲结点的值.因此,它比一般的深度优先和广度优先算法更为耗时.本文针对现有在线算法和离线算法的优缺点,提出一种基于点的在线值迭代算法.虺芇盟惴ú捎没诘愕闹档椒ǘ钥纱镄拍钭刺岬憬懈拢苊舛运械男拍钭刺空间进行遍历,极大地降低了问题的求解规模;然后,采用分支界限裁剪方法对信念状态与或树进行在线裁剪,并提出信念状态结点重用思想,重用上一时刻已求解出的信念状态点,避免对己计算过的信念结点的重复计算.本文中,除特殊说明外,上标代表时间,下标代表集合中的具体实例.例如,碜刺现械牡趇个状态,一代表笨痰淖刺琍名韙时刻状态为钡母怕剩惺保菝枋鑫侍獾男枰#挥猩舷卤辏虮硎镜鼻笆刻的变量,上标是“”’的表示下一时刻的变量.例如,硎镜鼻笆笨痰淖刺鳶硎鞠乱皇笨痰淖刺本文第