Performance Bounds for Policy-Based Reinforcement Learning Methods in Zero-Sum Markov Games with Linear Function Approximation

马尔可夫决策过程 强化学习 计算机科学 数学优化 增强学习 马尔可夫链 功能(生物学) 马尔可夫过程 函数逼近 零(语言学) 算法 近似算法 路径(计算) 数学 人工智能 机器学习 人工神经网络 程序设计语言 语言学 统计 哲学 进化生物学 生物
作者
Anna Winnicki,R. Srikant
标识
DOI:10.1109/cdc49753.2023.10384061
摘要

Until recently, efficient policy iteration algorithms for zero-sum Markov games that converge were unknown. Therefore, model-based RL algorithms for such problems could not use policy iteration in the planning modules of the algorithms. In an earlier paper, we showed that a convergent policy iteration algorithm can be obtained by using a commonly used technique in RL called lookahead. However, the algorithm could be applied to the function approximation setting only in the special case of linear MDPs (Markov Decision Processes). In this paper, we obtain performance bounds for policy-based RL algorithms for general settings, including one where policy evaluation is performed using noisy samples of (state, action, reward) triplets from a single sample path of a given policy.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
壹拾柒发布了新的文献求助20
刚刚
桐桐应助无情的白桃采纳,获得10
1秒前
请叫我风吹麦浪应助himsn采纳,获得40
1秒前
tzy发布了新的文献求助10
1秒前
2秒前
2秒前
今后应助专注的易文采纳,获得10
3秒前
lin完成签到,获得积分10
3秒前
执着的若灵完成签到,获得积分10
3秒前
3秒前
甜北枳完成签到,获得积分10
4秒前
SCI发布了新的文献求助10
4秒前
Frieren完成签到 ,获得积分10
4秒前
正直亦旋发布了新的文献求助10
4秒前
mjj发布了新的文献求助10
4秒前
是微微完成签到,获得积分20
5秒前
5秒前
5秒前
5秒前
起司嗯发布了新的文献求助10
6秒前
leon完成签到,获得积分10
6秒前
ccyrichard发布了新的文献求助10
6秒前
7秒前
李健应助无情山水采纳,获得10
8秒前
充电宝应助龙华之士采纳,获得10
9秒前
着急的笑旋完成签到,获得积分10
9秒前
澜生完成签到,获得积分10
10秒前
LLL完成签到 ,获得积分10
10秒前
April发布了新的文献求助10
10秒前
矜天完成签到 ,获得积分10
10秒前
cmy完成签到,获得积分10
11秒前
11秒前
笨蛋琪露诺完成签到,获得积分10
12秒前
专注的易文完成签到,获得积分10
12秒前
12秒前
刘怀蕊发布了新的文献求助10
12秒前
13秒前
13秒前
sptyzl完成签到 ,获得积分10
14秒前
彭于晏应助mnm采纳,获得10
14秒前
高分求助中
Continuum Thermodynamics and Material Modelling 3000
Production Logging: Theoretical and Interpretive Elements 2700
Social media impact on athlete mental health: #RealityCheck 1020
Ensartinib (Ensacove) for Non-Small Cell Lung Cancer 1000
Unseen Mendieta: The Unpublished Works of Ana Mendieta 1000
Bacterial collagenases and their clinical applications 800
El viaje de una vida: Memorias de María Lecea 800
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3527742
求助须知:如何正确求助?哪些是违规求助? 3107867
关于积分的说明 9286956
捐赠科研通 2805612
什么是DOI,文献DOI怎么找? 1540026
邀请新用户注册赠送积分活动 716884
科研通“疑难数据库(出版商)”最低求助积分说明 709762