文档名称：

动态规划基本理论推广函数迭代与策略迭代法学习教案.ppt

格式：ppt 大小：1,542KB 页数：58页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

动态规划基本理论推广函数迭代与策略迭代法学习教案.ppt

上传人:wz_198613 2021/12/15 文件大小：1.51 MB

下载得到文件列表

动态规划基本理论推广函数迭代与策略迭代法学习教案.ppt

相关文档

文档介绍

文档介绍：本章(běn zhānɡ)内容
举例简单说明不定期与无期决策(juécè)过程的形式和概念；以不定期和无期决策(juécè)过程为例，介绍函数迭代法和策略迭代法。
管理科学与系统工程
第1页/共57页
第一页，共58页。
不定期与无期决策(juécè)过程
定义：多阶段的决策过程的阶段数N确定，称为定期决策过程，当N不确定时，称此类决策过程为不定期决策过程，当N趋向无穷(wúqióng)时称为无期决策过程。
管理科学与系统工程
第2页/共57页
第二页，共58页。
不定期与无期决策(juécè)过程
例1：段数不定的最短路线问题（不定期决策过程）
n个点相互连接组成一个连通图(右图中n=5),各点标号为1,2,…,n。任意两点i，j之间的距离(费用(fèi yong))记作dij 。求任意一点i到点n(靶点)的最短路线(距离)。
5
1
4
3
2
3
2
2
5
7
5
5
6

1
管理科学与系统工程
第3页/共57页
第三页，共58页。
不定期与无期决策(juécè)过程
例1：段数不定的最短路线问题（不定期决策过程）
n个点相互连接组成(zǔ chénɡ) 一个连通图(右图中n=5),各点标号为1,2,…,n。任意两点i，j之间的距离(费用)记作dij 。求任意一点i到点n(靶点)的最短路线(距离)。
5
1
4
3
2
3
2
2
5
7
5
5
6

1
管理科学与系统工程
第4页/共57页
第四页，共58页。
不定期与无期(wú qī)决策过程
例2：无限期决策(juécè)过程
模型，状态变换函数
为。( 存在明显的级变量，但级数是无限的 )
管理科学与系统工程
第5页/共57页
第五页，共58页。
不定期与无期决策(juécè)过程
求解这类问题如果仍使用(shǐyòng)以前的逐级递推方法，将遇到极大的计算量，为此必需寻找新方法。
函数方程可以用迭代法求解，通常有函数迭代法和策略迭代法两种迭代方法。
管理科学与系统工程
第6页/共57页
第六页，共58页。
函数(hánshù)迭代法与策略迭代法
(dié dài)法的步骤是：
(1)选初始函数 (一般取 )；
(2)用迭代(dié dài)公式
及计算
其中为当前阶段的状态和决策，为已知终止函数，为迭代(dié dài)步数, v为指标函数
(3)当或
管理科学与系统工程
第7页/共57页
第七页，共58页。
函数(hánshù)迭代法与策略迭代法
(4)当
或
时迭代停止，最优值函数(hánshù) ，最优策略；否则以k+1代替k重复(2),(3).
管理科学与系统工程
第8页/共57页
第八页，共58页。
函数(hánshù)迭代法与策略迭代法
说明：
函数迭代法和策略迭代法中，序列和的收敛性在相当广泛的条件下是可以保证的，一般来说它与等的具体形式有关。
函数迭代法的基本思想是以步数(段数)作为参数，先求在各个不同步数下的最优策略，然后从这些(zhèxiē)最优解中再选出最优者，从而同时确定了最优步数。
管理科学与系统工程
第9页/共57页
第九页，共58页。
函数(hánshù)迭代法与策略迭代法
策略迭代法的基本思想是：先选定一初始策略然后按某种方式求得新策略直至最终求出最优策略。若对某一k，对所有i有：，则称收敛，此时，策略就是(jiùshì)最优策略。
一般来说，选定初始策略要比选定初始目标最优值函数容易得多，且策略迭代的收敛速度稍快，但其计算量要大些。
管理科学与系统工程
第10页/共57页
第十页，共58页。