Learning Cooperative Multi-Agent Policies With Partial Reward Decoupling

解耦(概率) 计算机科学 人工智能 工程类 控制工程
作者
Benjamin Freed,Aditya Kapoor,Ian Abraham,Jeff Schneider,Howie Choset
出处
期刊:IEEE robotics and automation letters 卷期号:7 (2): 890-897 被引量:3
标识
DOI:10.1109/lra.2021.3135930
摘要

One of the preeminent obstacles to scaling multi-agent reinforcement learning to large numbers of agents is assigning credit to individual agents' actions. In this paper, we address this credit assignment problem with an approach that we call \textit{partial reward decoupling} (PRD), which attempts to decompose large cooperative multi-agent RL problems into decoupled subproblems involving subsets of agents, thereby simplifying credit assignment. We empirically demonstrate that decomposing the RL problem using PRD in an actor-critic algorithm results in lower variance policy gradient estimates, which improves data efficiency, learning stability, and asymptotic performance across a wide array of multi-agent RL tasks, compared to various other actor-critic approaches. Additionally, we relate our approach to counterfactual multi-agent policy gradient (COMA), a state-of-the-art MARL algorithm, and empirically show that our approach outperforms COMA by making better use of information in agents' reward streams, and by enabling recent advances in advantage estimation to be used.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
1秒前
1秒前
想睡觉的小笼包完成签到 ,获得积分10
1秒前
狗大王完成签到,获得积分10
2秒前
2秒前
啊呜啊呜苇完成签到,获得积分10
5秒前
勇闯SCI一区完成签到,获得积分10
5秒前
SYLH应助哈哈哈采纳,获得10
6秒前
任小萱发布了新的文献求助10
6秒前
海洋发布了新的文献求助10
7秒前
9秒前
朴实的映雁完成签到,获得积分10
9秒前
9秒前
Orange应助白开水采纳,获得10
9秒前
完美世界应助hqq采纳,获得10
9秒前
研友_Z33zkZ发布了新的文献求助10
9秒前
junhaowang发布了新的文献求助10
9秒前
沁雪完成签到,获得积分10
10秒前
10秒前
kaka完成签到 ,获得积分10
11秒前
袁钰琳完成签到,获得积分10
11秒前
antinomy完成签到,获得积分10
12秒前
mmddlj完成签到 ,获得积分10
13秒前
14秒前
无心的雅旋完成签到,获得积分10
14秒前
重要若烟完成签到,获得积分10
15秒前
15秒前
极易完成签到,获得积分10
15秒前
何hyy发布了新的文献求助30
16秒前
schuang完成签到,获得积分10
17秒前
在水一方应助袁钰琳采纳,获得20
17秒前
17秒前
18秒前
领导范儿应助wangjue采纳,获得10
18秒前
islazheng应助无限的平萱采纳,获得10
19秒前
鸿俦鹤侣完成签到,获得积分10
20秒前
23秒前
小小莫发布了新的文献求助10
23秒前
23秒前
高分求助中
Continuum Thermodynamics and Material Modelling 2000
The organometallic chemistry of the transition metals 7th 666
こんなに痛いのにどうして「なんでもない」と医者にいわれてしまうのでしょうか 510
Seven new species of the Palaearctic Lauxaniidae and Asteiidae (Diptera) 400
Handbook of Laboratory Animal Science 300
Fundamentals of Medical Device Regulations, Fifth Edition(e-book) 300
A method for calculating the flow in a centrifugal impeller when entropy gradients are present 240
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3701187
求助须知:如何正确求助?哪些是违规求助? 3251544
关于积分的说明 9874989
捐赠科研通 2963549
什么是DOI,文献DOI怎么找? 1625157
邀请新用户注册赠送积分活动 769822
科研通“疑难数据库(出版商)”最低求助积分说明 742564