马氏过程的最优控制及其应用研究

中文摘要

基于控制理论和马氏过程的最新进展，本项目研究马氏过程的最优控制问题。我们强调的是"最优控制"，系统所处的环境是"马氏环境"，从而具有很大的随机性并具有丰富的实际应用背景。我们的任务是：首先引入效益函数（如报酬函数或费用函数等），然后根据系统的状态变化在各个时刻做出决策（即制定策略）使系统运行的效益在某种目标下达到最优。项目研究的内容主要包括：..（1）受控"马氏环境"中最优策略的存在性条件、有效算

结题摘要

马氏决策过程（简称为MDP）属概率论与运筹学的交叉学科,也属随机系统最优控制的范畴。由于其广阔的应用范围和巨大的研究潜力，国际上对它的研究相当活跃。按时间参数不同，MDP可分为离散时间MDP 和连续时间MDP两类。对于离散时间MDP,我们研究了bias、强折扣、样本轨道和方差等最优性准则。我们探讨了这些准则中更一般的或更容易验证的最优性条件, 并证明了最优策略的存在性。特别,我们去掉了以往文献中所必需的不可约条件。我们首次提出了"最大极限平均方差准则",并首次建立了"两个方差最优不等式"。我们也进一步分析了它们在受控的排队系统和随机游动等实际问题中应用。尤其是在受控随机游动中的应用,据我们所知在MDP中尚属首次。对于连续时间MDP, 我们给出了更一般的最优性条件，并用著名的"最优不等式法"证明了任意状态空间中平均最优平稳策略的存在性。特别,我们首次用策略迭代法研究了一般状态空间中的平均最优性问题, 并首次得到了一般状态空间中的"平均最优方程"。此外, 我们对最优策略的性质也作了相当深入的研究，首次建立了关于最优平稳策略"位势"的"最优方程"，并给出了最优策略的"鞅刻画"特征。