文档介绍：南京邮电大学
硕士学位论文
基于强化学习的动态频谱分配算法的研究
姓名:李晓静
申请学位级别:硕士
专业:通信与信息系统
指导教师:朱琦
2011-03
南京邮电大学硕士研究生学位论文摘要
摘要
认知无线电的智能核心在认知引擎中,认知引擎执行在通信系统重构中必须的模拟、
学习、最优化过程。认知引擎必须具备学习能力,是认知无线电区别于传统无线电的关键
部件。本文主要研究的便是将强化学习引入到认知用户动态接入授权用户网络的动态频谱
接入问题中,使认知用户具备一定的智能,使认知引擎具备学习推理能力。
本文介绍了强化学习的基本原理,描述了几种比较常用的强化学习算法,并且对多智
能体强化学习理论进行了比较详细的介绍,为接下来的研究打好了理论基础。
本文将频点的信噪比考虑到认知用户的奖赏函数中,提出了一种改进的 DAQL 算法,
并且将该算法引入到有授权用户存在环境下的动态频谱接入的问题中,使认知用户具备一
定的智能,实现了降低系统冲突概率,同时提高系统的平均容量的目标。仿真证明了该方
案的有效性。
本文重点研究了多用户动态频谱接入的问题,在认知用户独立学习的基础上提出一种
基于分布式独立学习的多用户动态频谱接入算法。该算法中每个认知用户都是一个基于独
立学习的智能体,它不知道在联合行动中其他认知用户的行动策略,仅维护自己的一个关
于状态-行动对的 Q 值表,并且每个认知用户各自采取独立的迭代过程。同时将各个用户
频点的信噪比引入到奖赏函数 r 中,在降低系统冲突概率的同时,提高了系统的平均容量。
仿真结果表明该算法可以降低冲突概率,在考虑频点信噪比的情况下,系统的平均容量可
以得到提高。
为了加快学习速率,使系统能够拥有更好的收敛速度,本文将黑板模型、融合算法以
及强化学习技术相结合,提出了一种基于协作学习的多用户动态频谱接入算法。其中,黑
板是一块共享的存储区域,可以实现信息共享,融合算法用来对共享信息进行融合,强化
学习技术利用融合结果进行动作选择。仿真验证了其学习速率和收敛速度明显优于基于分
布式独立学习的多用户频谱接入算法,能够适应认知无线电对学习算法的要求。

关键词:认知无线电;频谱接入;多用户;协作学习;黑板模型;融合算法

I
南京邮电大学硕士研究生学位论文摘要
Abstract
Cognitive engine is the intelligent core of cognitive radio which execute the process of
simulation, learning and optimization which is used in reconstruction in munication
engine must have the ability of learning which is the ponent
distinguishing cognitive radio from traditional radio. In this paper, reinforcement learning is
proposed to solve the problem of dynamic spectrum access by allowing the cognitive users to
have some intelligence and make the cognitive engine to have the ability of reasoning.
In this paper, the fundamental principle of reinforcement learning is
familiar reinforcement learning algorithms are described, and the theory of multi-agent
reinforcement learning is discussed in dedail. All these lay a solid theoretical basis for further
studies.
This paper takes SNR of each channel into account in the reward function r and put forward
a improved DAQL algorithm which is pr