1 / 120
文档名称:

基于自适应评价者设计方法的学习控制研究.pdf

格式:pdf   页数:120
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

基于自适应评价者设计方法的学习控制研究.pdf

上传人:Horange 2014/1/25 文件大小:0 KB

下载得到文件列表

基于自适应评价者设计方法的学习控制研究.pdf

文档介绍

文档介绍:中国科学技术大学
博士学位论文
基于自适应评价者设计方法的学习控制研究
姓名:文锋
申请学位级别:博士
专业:模式识别与智能系统
指导教师:陈宗海
20050501
摘要对人类智能进行模拟以使控制系统具有一定智能的智能控制系统研究,将能够弥补现有控制理论的不足,并能使控制理论在解决复杂生产过程难题方面有一个突破性的进展。在各种智能形式中,学的主要途径,也是人类具有智能的显著标志。对于智能控制系统而言,具有学习能力也是使其与常规控制系统区别开来的主要特征之一。相应地,学习控制也是智能控制系统研究的一个重要组成部分。学习控制系统与被控对象进行交互,并根据过去所获得的经验信息,逐步改进系统的控制性能。学习控制一般用于解决由对象非线性或者系统建模不良所造成的不确定性问题,降低由于缺乏必要的先验知识给控制系统设计带来的困难。自适应评价者设计椒ㄊ嵌远婊薪频囊焕喾椒ǖ淖艹啤T诮饩鍪际问题时,动态规划方法面临“维数灾难”问题,主要是寻找和表示函数的计算花费过大。椒ㄔ蚴褂煤平椒ǘ詂薪疲员苊獬鱿帧拔难”问题。其中对..函数进行近似的部分称为评价者模块,产生动作的部分称为动作模块。由于动态规划被认为是唯一一种可用于解决一般非线性、随机环境中的费用最大化问题或长时间段内优化问题的有效而精确的方法,因此对其进行近似的椒ㄒ脖蝗衔是各类学习研究中唯一具有充分工程设计基础的一类学习方法。本论文研究基于椒ǖ难翱刂疲胖匮芯吭诓煌阎3潭鹊哪P托畔⑻跫拢如何保证椒ǖ目刂菩阅堋1韭畚墓ぷ髦饕0凑瘴弈P托畔ⅰ⒛P托畔⒉糠旨褐:湍型信息完全已知三种情况分别展开。在无模型信息的情况下,主要研究椒ㄖ械腡炕胺椒ā炕胺椒结合了动态规划和瓹方法,可以不需要对象模型而通过与对象的直接交互学习到最优策略。但是标准的强化学习方法只针对于状态空间离散的情况,要应用于状态空间连续的情况,需要解决连续状态空间的表示问题。本论文研究了使用状态聚类方法对连续空间进行自适应离散化,将其映射到离散状态空间。利用稻劾喾椒ǜ菔莘植甲远调整聚类中心的能力,将其与强化学习方法相结合,就得到了两种基于状态聚类的连续强化学习方法。这两种方法具有实现简单、计算量小等优点,适于在线学习过程。对于状态空间连续的问题,虽然已经有了较多应用强化学习方法的例子,但是其控制性能可能并不令人满意。并且无模型信息的限制也使得连续强化学习方法的理论分析变得困难,使其缺少控制性能保证。针对简单的侍猓珺证明了无模型的习方法收敛。但对姆椒ń蟹治龊螅⑾制渲写嬖诓蛔阒Γ贾卵安皇樟病在此基础上提出了一种称为甌甊的椒ǎ庵址椒ㄐ枰DP托畔⒉糠忠阎#理论分析也证明了该方法在理想情况下收敛到最优控制策略。中国科学技术大学博士学位论文
对于模型信息部分已知的情况,本论文还提出了一种反馈椒ā8梅椒ㄕ攵砸焕特定的非线性系统,利用反馈控制思想直接计算评价者参数,,可以证明反馈椒ǖ难盗饭棠鼙Vけ栈肺蟛頤恢玛芍沼界S肫渌枰DP托畔⑼耆阎2拍芙欣砺鄯治霾⒈Vぱ肮淌樟驳腁方法相比较,反馈椒ń档土硕杂谀P托畔⒌囊G蟪潭龋梢栽谀P托畔⒉糠旨褐5那榭鱿使用。大多数学习控制方法的研究只强调学习结果能保证系统稳定,而忽略了保证学习过程中的系统稳定性。本论文基于穆嘲鬛学习框架,将鲁棒控制与反馈椒ㄏ结合,提出了鲁棒反馈椒ā8梅椒ǹ梢员Vぱ肮讨械南低澄榷ㄐ浴5捎谄渲的鲁棒稳定性分析需要用到对象模型,鲁棒反馈方法只能在模型信息完全已知的情况下使用。关键词:椒ā⑶炕啊⑺彩辈罘帧、⒍、⑽榷ㄐ浴分析、神经网络、最小二乘方法、智能控制系统
‘’.甒,,甃.’猤.‘’甌‘’,甌,,琲“琭,,,.‘
琤,,.,.,琣瓸,,...瓾甌,猅甌琣瑆甀甐猯瓹瑆瑃瓸痵,..,,,,瑂,.
声明在本论文中,除已注明参考文献的内容之外,不包含其他高等学校学位或文凭论文的研究结果,也没有他人已发表的学术论文的研究成果。
第一章绪论智能控制立了密切联系旧。随着人工智能的发展,研究工作多集中在子领域的特定问题上。但人工内容安排首先对智能控制和学习控制进行概述。然后分强化学习方法、椒ㄒ约把芯思路三个部分介绍基于椒ǖ难翱刂啤W詈蠼樯鼙韭畚牡闹饕Q芯磕谌荨人们在长期生产实践中发现,对于许多复杂的生产过程,难以用自动控制系统实现;但在熟练的操作工、技术人员或专家的操作下却控制自如,可以获得满意的控制效果。这就使研究人员受到启发,若能把这些熟练的操作工、技术人员或专家的经验知识与控制理论相结合,把它作为控制理论解决复杂生产过程的一个补充手段,那将使控制理论解决复杂生产过程的难题有一个突破性的进展。而现代计算机控制技术的发展也为这种设想提供了有效的工具。计算机在处