Credit assignment with predictive contribution measurement in multi-agent reinforcement learning

强化学习 计算机科学 人工智能 相关性(法律) 机器学习 分解 国家(计算机科学) 预测值 价值(数学) 算法 政治学 生态学 医学 生物 内科学 法学
作者
Renlong Chen,Ying Tan
出处
期刊:Neural Networks [Elsevier]
卷期号:164: 681-690 被引量:2
标识
DOI:10.1016/j.neunet.2023.05.021
摘要

Credit assignment is a crucial issue in multi-agent tasks employing a centralized training and decentralized execution paradigm. While value decomposition has demonstrated strong performance in Q-learning-based approaches and certain Actor–Critic variants, it remains challenging to achieve efficient credit assignment in multi-agent tasks using policy gradient methods due to decomposable value limitations. This paper introduces Predictive Contribution Measurement, an explicit credit assignment method that compares prediction errors among agents and allocates surrogate rewards based on their relevance to global state transitions, with a theoretical guarantee. With multi-agent proximal policy optimization (MAPPO) as a training backend, we propose Predictive Contribution MAPPO (PC-MAPPO). Our experiments demonstrate that PC-MAPPO, with a 10% warm-up phase, outperforms MAPPO, QMIX, and Weighted QMIX on StarCraft multi-agent challenge tasks, particularly in maps requiring heightened cooperation to defeat enemies, such as the map corridor. Employing a pre-trained predictor, PC-MAPPO achieves significantly improved performance on all tested super-hard maps. In parallel training scenarios, PC-MAPPO exhibits superior data efficiency and achieves state-of-the-art performance compared to other methods.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
yuuuuu2023完成签到,获得积分10
1秒前
1秒前
ma完成签到,获得积分10
1秒前
WJH发布了新的文献求助30
2秒前
FashionBoy应助leez采纳,获得10
3秒前
3秒前
达克赛德发布了新的文献求助10
3秒前
4秒前
小彭仔完成签到,获得积分10
5秒前
卓一曲完成签到,获得积分20
6秒前
爆米花应助正直天佑采纳,获得10
6秒前
三笠发布了新的文献求助10
6秒前
科研废人完成签到,获得积分10
6秒前
药神L发布了新的文献求助10
6秒前
6秒前
小面脑袋发布了新的文献求助10
7秒前
火星上白羊完成签到,获得积分10
7秒前
wwwww完成签到 ,获得积分10
7秒前
7秒前
NexusExplorer应助ChemMa采纳,获得10
7秒前
leez完成签到,获得积分10
8秒前
seeu完成签到,获得积分10
9秒前
肖旻发布了新的文献求助10
9秒前
9秒前
火星上无烦恼完成签到,获得积分10
11秒前
wws应助vivi采纳,获得10
13秒前
科研通AI6.2应助vivi采纳,获得10
13秒前
科研通AI6.2应助xxy采纳,获得10
13秒前
14秒前
arizaki7发布了新的文献求助10
15秒前
15秒前
SciGPT应助wfy1227采纳,获得10
15秒前
田様应助17采纳,获得10
16秒前
YX1994发布了新的文献求助10
16秒前
16秒前
anan完成签到,获得积分10
16秒前
16秒前
汉堡包应助可不采纳,获得10
17秒前
斯文败类应助月落采纳,获得10
18秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Kinesiophobia : a new view of chronic pain behavior 2000
Research for Social Workers 1000
Psychology and Work Today 800
Mastering New Drug Applications: A Step-by-Step Guide (Mastering the FDA Approval Process Book 1) 800
Kinesiophobia : a new view of chronic pain behavior 600
Signals, Systems, and Signal Processing 510
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5896870
求助须知:如何正确求助?哪些是违规求助? 6713180
关于积分的说明 15735797
捐赠科研通 5019429
什么是DOI,文献DOI怎么找? 2703040
邀请新用户注册赠送积分活动 1649830
关于科研通互助平台的介绍 1598781