马尔可夫决策过程
算法
马尔可夫链
计算机科学
部分可观测马尔可夫决策过程
数学优化
马尔可夫过程
数学
马尔可夫模型
机器学习
统计
标识
DOI:10.1016/j.sysconle.2004.08.007
摘要
An actor-critic type reinforcement learning algorithm is proposed and analyzed for constrained controlled Markov decision processes. The analysis uses multiscale stochastic approximation theory and the `envelope theorem' of mathematical economics.
科研通智能强力驱动
Strongly Powered by AbleSci AI