1 / 58
文档名称:

动态规划基本理论推广函数迭代与策略迭代法学习教案.ppt

格式:ppt   大小:1,542KB   页数:58页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

动态规划基本理论推广函数迭代与策略迭代法学习教案.ppt

上传人:wz_198613 2021/12/15 文件大小:1.51 MB

下载得到文件列表

动态规划基本理论推广函数迭代与策略迭代法学习教案.ppt

相关文档

文档介绍

文档介绍:本章(běn zhānɡ)内容
举例简单说明不定期与无期决策(juécè)过程的形式和概念;以不定期和无期决策(juécè)过程为例,介绍函数迭代法和策略迭代法。
管理科学与系统工程
第1页/共57页
第一页,共58页。
不定期与无期决策(juécè)过程
定义:多阶段的决策过程的阶段数N确定,称为定期决策过程,当N不确定时,称此类决策过程为不定期决策过程,当N趋向无穷(wúqióng)时称为无期决策过程。
管理科学与系统工程
第2页/共57页
第二页,共58页。
不定期与无期决策(juécè)过程
例1:段数不定的最短路线问题(不定期决策过程)
n个点相互连接组成 一 个连通图(右图中n=5),各点 标号为1,2,…,n。任意两点 i,j之间的距离(费用(fèi yong))记作 dij 。求任意一点i到点n(靶 点)的最短路线(距离)。
5
1
4
3
2
3
2
2
5
7
5
5
6

1
管理科学与系统工程
第3页/共57页
第三页,共58页。
不定期与无期决策(juécè)过程
例1:段数不定的最短路线问题(不定期决策过程)
n个点相互连接组成(zǔ chénɡ) 一 个连通图(右图中n=5),各点 标号为1,2,…,n。任意两点 i,j之间的距离(费用)记作 dij 。求任意一点i到点n(靶 点)的最短路线(距离)。
5
1
4
3
2
3
2
2
5
7
5
5
6

1
管理科学与系统工程
第4页/共57页
第四页,共58页。
不定期与无期(wú qī)决策过程
例2:无限期决策(juécè)过程
模型 ,状态变换函数
为 。( 存在明显的级变量,但级 数是无限的 )
管理科学与系统工程
第5页/共57页
第五页,共58页。
不定期与无期决策(juécè)过程
求解这类问题如果仍使用(shǐyòng)以前的逐级递推方法,将遇到极大的计算量,为此必需寻找新方法。
函数方程可以用迭代法求解,通常有函数迭代法和策略迭代法两种迭代方法。
管理科学与系统工程
第6页/共57页
第六页,共58页。
函数(hánshù)迭代法与策略迭代法
(dié dài)法的步骤是:
(1)选初始函数 (一般取 );
(2)用迭代(dié dài)公式
及 计算
其中 为当前阶段的状态和决策, 为 已知终止函数, 为迭代(dié dài)步数, v为指标函数
(3)当 或
管理科学与系统工程
第7页/共57页
第七页,共58页。
函数(hánshù)迭代法与策略迭代法
(4)当

时迭代停止,最优值函数(hánshù) ,最优策略 ;否则以k+1代替k重复(2),(3).
管理科学与系统工程
第8页/共57页
第八页,共58页。
函数(hánshù)迭代法与策略迭代法
说明:
函数迭代法和策略迭代法中,序列 和 的收敛性在相当广泛的条件下是可以 保证的,一般来说它与 等 的具体形式有关。
函数迭代法的基本思想是以步数(段数)作为参数,先求在各个不同步数下的最优策略,然后从这些(zhèxiē)最优解中再选出最优者,从而同时确定了最优步数。
管理科学与系统工程
第9页/共57页
第九页,共58页。
函数(hánshù)迭代法与策略迭代法
策略迭代法的基本思想是:先选定一初始策略 然后按某种方式求得新策略 直至最终求出最优策略。若对某一k,对所有i有: ,则称 收敛,此时,策略 就是(jiùshì)最优策略。
一般来说,选定初始策略要比选定初始目标最优值函数容易得多,且策略迭代的收敛速度稍快,但其计算量要大些。
管理科学与系统工程
第10页/共57页
第十页,共58页。