Credit assignment with predictive contribution measurement in multi-agent reinforcement learning

强化学习 计算机科学 人工智能 相关性(法律) 机器学习 分解 国家(计算机科学) 预测值 价值(数学) 算法 政治学 生态学 医学 生物 内科学 法学
作者
Renlong Chen,Ying Tan
出处
期刊:Neural Networks [Elsevier BV]
卷期号:164: 681-690 被引量:2
标识
DOI:10.1016/j.neunet.2023.05.021
摘要

Credit assignment is a crucial issue in multi-agent tasks employing a centralized training and decentralized execution paradigm. While value decomposition has demonstrated strong performance in Q-learning-based approaches and certain Actor–Critic variants, it remains challenging to achieve efficient credit assignment in multi-agent tasks using policy gradient methods due to decomposable value limitations. This paper introduces Predictive Contribution Measurement, an explicit credit assignment method that compares prediction errors among agents and allocates surrogate rewards based on their relevance to global state transitions, with a theoretical guarantee. With multi-agent proximal policy optimization (MAPPO) as a training backend, we propose Predictive Contribution MAPPO (PC-MAPPO). Our experiments demonstrate that PC-MAPPO, with a 10% warm-up phase, outperforms MAPPO, QMIX, and Weighted QMIX on StarCraft multi-agent challenge tasks, particularly in maps requiring heightened cooperation to defeat enemies, such as the map corridor. Employing a pre-trained predictor, PC-MAPPO achieves significantly improved performance on all tested super-hard maps. In parallel training scenarios, PC-MAPPO exhibits superior data efficiency and achieves state-of-the-art performance compared to other methods.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
林北bei完成签到,获得积分10
1秒前
啥都会发布了新的文献求助10
1秒前
1秒前
1秒前
所所应助jackhlj采纳,获得30
2秒前
joestar发布了新的文献求助10
2秒前
任朝暮发布了新的文献求助10
2秒前
5秒前
molihuakai应助科研小白采纳,获得10
5秒前
SciGPT应助撒旦asd采纳,获得10
7秒前
9秒前
ding应助仁爱可乐采纳,获得10
9秒前
小飞鼠爱丽丝完成签到,获得积分10
10秒前
欢呼曼荷发布了新的文献求助10
11秒前
JY完成签到,获得积分10
11秒前
好滴捏完成签到,获得积分10
12秒前
14秒前
jackhlj发布了新的文献求助30
14秒前
14秒前
优秀的初柔完成签到 ,获得积分10
15秒前
好滴捏发布了新的文献求助10
15秒前
16秒前
KKKEY完成签到,获得积分10
17秒前
17秒前
情怀应助LY采纳,获得10
18秒前
仁爱的老太完成签到 ,获得积分10
18秒前
JY发布了新的文献求助10
19秒前
20秒前
陶醉巧凡完成签到,获得积分10
21秒前
eiiinx发布了新的文献求助10
21秒前
奋斗的海豚完成签到,获得积分10
21秒前
无花果应助杨杨采纳,获得20
21秒前
22秒前
张宇发布了新的文献求助10
22秒前
22秒前
桐桐应助槑槑采纳,获得20
23秒前
爆米花应助小何采纳,获得30
23秒前
完美世界应助好滴捏采纳,获得10
24秒前
24秒前
快点毕业发布了新的文献求助10
25秒前
高分求助中
Cronologia da história de Macau 5000
Matrix Methods in Data Mining and Pattern Recognition 510
Interactions of Vowel Quality and Prosody in East Slavic 500
Vander's Renal Physiology第10版 500
Forensic Science An Introduction to Scientific and Investigative Techniques 6th Edition 400
Virus-like particles empower RNAi for effective control of a Coleopteran pest 400
Materials Informatics Molecules, Crystals and Beyond A volume in Acta Materialia Book Series 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 内科学 物理 复合材料 催化作用 细胞生物学 无机化学 光电子学 物理化学 电极 基因
热门帖子
关注 科研通微信公众号,转发送积分 7097757
求助须知:如何正确求助?哪些是违规求助? 8754006
关于积分的说明 18514969
捐赠科研通 6653432
什么是DOI,文献DOI怎么找? 3138596
关于科研通互助平台的介绍 2247783
邀请新用户注册赠送积分活动 2113533