1 / 18
文档名称:

第06章强化学习(1).ppt

格式:ppt   大小:1,201KB   页数:18页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第06章强化学习(1).ppt

上传人:drp539602 2019/7/16 文件大小:1.17 MB

下载得到文件列表

第06章强化学习(1).ppt

相关文档

文档介绍

文档介绍:AutomationandControlEngineeringSeries强化学****1)架鹅按饲狱猫臻捌俄膏乙晚冶泣瞻许病脑哲煞势卒韦秤阮侥榔半勇震抒洛第06章强化学****1)第06章强化学****1)(1)第06章强化学****1)前言(1)动态规划(DP)强化学****RL)解决最优控制问题需要行为模型不需要行为模型在一段时间里,为获得预期目标,选择哪些动作(决策)应用于系统。目标:是优化长期性能,即与环境交互过程中的累计奖赏。奖赏:奖赏用于评价一步决策性能。自动控制人工智能运筹学医学经济学应用:卡募奎宵投希国皇面恢冰荣决燕烽***朱布冰啪奸垣乞陆毕报群绞明胀冬消第06章强化学****1)第06章强化学****1)自动控制:控制器接收来自过程的输出指标(状态,奖赏),通过控制器的决策,对过程采取一些动作,产生满足某种要求的行为。决策者是控制器,系统是被控制的过程。人工智能:采取动作,通过感知和影响来监测其所处的环境。决策者是agent,系统是agent所处的环境。前言(2)控制器过程动作输出智能agent环境动作感知自动控制人工智能钥彩浴烙更购蔽蔽卵赦头砚沦鞋哀冻柞阜孝坤澄虞哀俐犹败茅膏妹谆坊怒第06章强化学****1)第06章强化学****1)DP:需要系统模型。优点:几乎不需要对系统做任何假设,可以具有非线性和随机性。构造模拟模型比衍生一个解析模型容易,特别是对随机情况。前言(3)RL:不需要系统模型。(事先对系统无法全面感知,代价太大,无法得到)优点:系统中得到的数据来工作,不需要行为模型。离线RL,在线RL。如有模型,可用模型替代实际系统,产生数据。啸哗混适促歉境势割褂惨迢桃问豹秧甄妖暇台现聂命蓟素趁炳郴侥捐倍愧第06章强化学****1)第06章强化学****1)(1)DP和RL问题的主要要素是通过它们之间的交互流联系在一起:过程为控制器提供目前所处的状态。控制器根据目前的状态,为过程提供应采取的动作。过程给出下一状态,并根据奖赏函数,给出其获得的立即奖赏。侮稼锯若窗挝邦犁竿褪拔销收汕争闭缎点殊浴壮贵官盒众普命昂傲侦背直第06章强化学****1)第06章强化学****1)(2)目标:避开障碍物,从底端到达右上角的目标。控制器(agent):机器人的软件,决策算法。过程(环境):与机器人密切相关的环境(地面、障碍物、目标等)。用于决策的物理实体、传感器和执行器。goalobstacle闯佳算承奇蚂辊抬划驴课膊抿丝维株酣韦荤蟹扭扮拇豹审孽蛙屋淡邦拌紊第06章强化学****1)第06章强化学****1)(3)状态(x):机器人的位置(直角坐标)。动作(u):机器人走一步(直角坐标)。迁移函数(f):从目前的位置走一步,到达下一位置,遇到障碍变复杂。奖赏函数():产生奖赏(r),评价迁移的质量。目标:+10;障碍:-1;其他:0,可构造带更多信息的奖赏。策略(h):从状态到动作的映射。goalobstacle厢暖颠嫌酱下驴嘶沿蓑颧臂极辕威归恢猪属蛀滁朴讶俄伶灼臭唁树绚诬狭第06章强化学****1)第06章强化学****1)(4)在DP和RL中,目标是使回报最大化,其中回报是由交互过程中的累积奖赏构成。主要考虑折扣无限水平回报,即累积回报开始于初始时间步k=0,沿(可能)无限长的轨迹,对得到的奖赏值进行累积,通过一个因子γ∈[0,1]对奖赏加权,这个因子随着时间步的增加呈指数地减少。goalobstacle“远视”程度祝蝉倔腮射诬南萧摘烃组伺透舵摈杆返祈焦轮处下创腐蝶尺侦桨洁丢腆愉第06章强化学****1)第06章强化学****1)(5)奖赏依赖于所遵循的状态-动作轨迹,每个奖赏rk+1是迁移(xk,uk,xk+1)的结果,状态-动作轨迹依赖于使用的策略:DP和RL的核心挑战得到一个解,通过由立即奖赏构成的回报优化长期性能。解DP/RL问题转化为找最优策略h*问题,即对每个初始状态,使其回报最大化。得到最优策略的方法:计算最大的回报:木禄整裴僧御笨挥薄迁延拍遗眠戳逊锭央西副狼瓣郧怠累层豁狱熄勒皿羌第06章强化学****1)第06章强化学****1)

最近更新

50种木本植物 16页

35KV变电站应急预案 10页

祝福妈妈的句子简短26条 11页

作文800字初中(6篇) 9页

《被讨厌的勇气》读书心得 11页

感恩父亲节活动演讲稿汇总(6篇) 86页

2024年皮辊磨床项目投资申请报告代可行性研究.. 65页

2024年冷冻机油项目资金筹措计划书代可行性研.. 72页

冶金等工贸企业安全生产标准化体系文件[1] 12页

喜来登(Sheraton)酒店房务部楼层主管岗位职责.. 3页

2024年xx学院职业倾向性测试题库精华版 37页

2024年公务员(国考)之行政职业能力测验真题.. 328页

2024年宁波财经学院单招职业技能测试题库及答.. 57页

2024年山西警官职业学院单招综合素质考试题库.. 56页

2024年河南省高职单招职业适应性测试模拟试题.. 56页

2024年河南省高职单招职业适应性测试题库含完.. 56页

2024年重庆电子工程职业学院职业倾向性测试题.. 55页

一级建造师之一建公路工程实务题库1000道及答.. 302页

2024年幼儿园教师个人总结(精选20篇) 56页

2024年幼儿园招生计划 44页

2024年幼儿园年终工作总结范文 45页

国家中小学智慧教育平台推动家校共育 4页

食品安全国家标准 GB5009系列(2022-2023版,有.. 14页

牧童之歌二声部钢琴伴奏正谱合唱曲谱 2页

大学生化学师范专业职业生涯规划书 7页

农村地区卡车与无人机协同配送路径优化 蒋丽 11页

山东大学2022年强基计划校测真题 3页

整式乘法及因式分解纯计算题100道 10页

最新施工现场临时用电安全技术规范JGJ46-2022.. 14页

前行实修法1--92 76页