Square-Root Regret Bounds for Continuous-Time Episodic Markov Decision Processes

数学 平方根 后悔 马尔可夫决策过程 词根(语言学) 马尔可夫链 数学优化 平方(代数) 马尔可夫过程 数理经济学 应用数学 统计 几何学 语言学 哲学
作者
Xuefeng Gao,Xunyu Zhou
出处
期刊:Mathematics of Operations Research [Institute for Operations Research and the Management Sciences]
标识
DOI:10.1287/moor.2022.0283
摘要

We study reinforcement learning for continuous-time Markov decision processes (MDPs) in the finite-horizon episodic setting. In contrast to discrete-time MDPs, the intertransition times of a continuous-time MDP are exponentially distributed with rate parameters depending on the state–action pair at each transition. We present a learning algorithm based on the methods of value iteration and upper confidence bound. We derive an upper bound on the worst case expected regret for the proposed algorithm and establish a worst case lower bound with both bounds of the order of square root on the number of episodes. Finally, we conduct simulation experiments to illustrate the performance of our algorithm. Funding: X. Gao is supported by the Hong Kong Research Grant Council [Grants 14201421, 14212522, 14200123]. X. Zhou gratefully acknowledges financial support through the Nie Center for Intelligent Asset Management at Columbia.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
clearlove发布了新的文献求助30
2秒前
科研通AI6.4应助hsx采纳,获得10
5秒前
yy发布了新的文献求助10
5秒前
天天快乐应助科研通管家采纳,获得10
10秒前
5_羟色胺应助科研通管家采纳,获得10
10秒前
xiaofei应助科研通管家采纳,获得10
10秒前
华仔应助科研通管家采纳,获得10
10秒前
10秒前
10秒前
所所应助科研通管家采纳,获得10
10秒前
xiaofei应助科研通管家采纳,获得10
10秒前
11秒前
11秒前
11秒前
科研通AI6.1应助hyhyhyhy采纳,获得10
11秒前
ccc发布了新的文献求助10
17秒前
18秒前
桐桐应助守拙采纳,获得10
18秒前
yy发布了新的文献求助10
19秒前
yyg发布了新的文献求助10
21秒前
21秒前
英姑应助失心落情采纳,获得10
23秒前
26秒前
无花果应助ALAI采纳,获得10
27秒前
大蒜泥完成签到,获得积分10
27秒前
Wzh完成签到,获得积分10
28秒前
28秒前
29秒前
hyhyhyhy发布了新的文献求助10
30秒前
JD发布了新的文献求助10
30秒前
33秒前
33秒前
MAKABANANA完成签到,获得积分10
34秒前
34秒前
守拙发布了新的文献求助10
35秒前
开心紫安应助爱听歌笑寒采纳,获得10
36秒前
沉默笑寒完成签到,获得积分10
36秒前
yy完成签到,获得积分10
37秒前
accept完成签到,获得积分10
37秒前
38秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
PowerCascade: A Synthetic Dataset for Cascading Failure Analysis in Power Systems 2000
Various Faces of Animal Metaphor in English and Polish 800
Signals, Systems, and Signal Processing 610
An Introduction to Medicinal Chemistry 第六版习题答案 600
On the Dragon Seas, a sailor's adventures in the far east 500
Yangtze Reminiscences. Some Notes And Recollections Of Service With The China Navigation Company Ltd., 1925-1939 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6347425
求助须知:如何正确求助?哪些是违规求助? 8162263
关于积分的说明 17169522
捐赠科研通 5403713
什么是DOI,文献DOI怎么找? 2861511
邀请新用户注册赠送积分活动 1839318
关于科研通互助平台的介绍 1688656