发布文献求助

MAMBPO: Sample-efficient multi-robot reinforcement learning using learned world models

强化学习计算机科学机器人样品（材料）人工智能财产（哲学）样本复杂性机器学习哲学化学认识论色谱法

作者

Daniël Willemsen,Mario Coppola,Guido C. H. E. de Croon

链接

arxiv.org arxiv.orgdoi.org

标识

DOI：10.1109/iros51168.2021.9635836

摘要

Multi-robot systems can benefit from reinforcement learning (RL) algorithms that learn behaviours in a small number of trials, a property known as sample efficiency. This research thus investigates the use of learned world models to improve sample efficiency. We present a novel multi-agent model-based RL algorithm: Multi-Agent Model-Based Policy Optimization (MAMBPO), utilizing the Centralized Learning for Decentralized Execution (CLDE) framework. CLDE algorithms allow a group of agents to act in a fully decentralized manner after training. This is a desirable property for many systems comprising of multiple robots. MAMBPO uses a learned world model to improve sample efficiency compared to model-free Multi-Agent Soft Actor-Critic (MASAC). We demonstrate this on two simulated multi-robot tasks, where MAMBPO achieves a similar performance to MASAC, but requires far fewer samples to do so. Through this, we take an important step towards making real-life learning for multi-robot systems possible.

求助该文献

科研通智能强力驱动
Strongly Powered by AbleSci AI

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 历史今天

更新

新增更精细的自定义提醒设置 (2026-1-4)

新增

🕒每天60秒读懂世界·精选全球要闻 (2026-1-2)

更新

2025年影响因子查询已上线 (2025-6-18)

新增

PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: zhonglv7的应助被善良乐松采纳，获得10

刚刚; 风趣的南霜完成签到，获得积分10

刚刚; 大胆的向卉发布了新的文献求助10

刚刚; Jasper的应助被Ding-Ding采纳，获得10

1秒前; 今后的应助被Ding-Ding采纳，获得10

1秒前; 外向铃铛发布了新的文献求助10

1秒前; 无花果的应助被Ding-Ding采纳，获得10

1秒前; 飞向火星完成签到，获得积分10

1秒前; 小马甲上传了应助文件

1秒前; 科研通AI2S的应助被咻咻采纳，获得10

1秒前; bless发布了新的文献求助10

1秒前; badada完成签到，获得积分10

1秒前; JamesPei上传了应助文件

1秒前; CodeCraft的应助被飘逸颖采纳，获得10

2秒前; YiYi发布了新的文献求助10

2秒前; 隐形曼青的应助被小张采纳，获得10

2秒前; doudou发布了新的文献求助10

2秒前; bkagyin上传了应助文件

3秒前; 无辜的大米完成签到，获得积分10

3秒前; 科研通AI6.3的应助被LRRAM_809采纳，获得10

3秒前; 烟花上传了应助文件

3秒前; 隋玉发布了新的文献求助10

3秒前; 李克杨发布了新的文献求助20

4秒前; 核桃上传了应助文件

4秒前; 无花果上传了应助文件

5秒前; 欢喜冷S亦A完成签到，获得积分10

5秒前; king发布了新的文献求助10

5秒前; 英姑的应助被波函数采纳，获得10

5秒前; 积极盈完成签到，获得积分10

5秒前; 托托完成签到，获得积分10

5秒前; orixero上传了应助文件

5秒前; 牛牛小天使上传了应助文件

6秒前; zch完成签到，获得积分10

6秒前; liuanqi发布了新的文献求助10

6秒前; 科研通AI6.3上传了应助文件

6秒前; Tim发布了新的文献求助10

7秒前; 鱼汤完成签到，获得积分10

7秒前; 熬夜拜拜发布了新的文献求助10

7秒前; 爱笑的皮卡丘完成签到，获得积分10

7秒前; 冷傲新柔发布了新的文献求助10

8秒前

高分求助中: (应助此贴封号)【重要！！请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000; Handbook of pharmaceutical excipients, Ninth edition 5000; Aerospace Standards Index - 2026 ASIN2026 3000; Signals, Systems, and Signal Processing 610; Discrete-Time Signals and Systems 610; Principles of town planning : translating concepts to applications 500; Short-Wavelength Infrared Windows for Biomedical Applications 400

热门求助领域（近24小时）

热门帖子: 关注科研通微信公众号，转发送积分 6060287; 求助须知：如何正确求助？哪些是违规求助？ 7892761; 关于积分的说明 16302721; 捐赠科研通 5204362; 什么是DOI，文献DOI怎么找？ 2784323; 邀请新用户注册赠送积分活动 1766998; 关于科研通互助平台的介绍 1647287

今日热心研友

大力的灵雁

不能玩一下午吗

宇宙无敌大火龙

蓝莓橘子酱

热心市民小红花

贪玩的秋柔

你嵙这个期刊没买

注：热心度 = 本日应助数 + 本日被采纳获取积分÷10

Copyright © 2020-2026 AbleSci.COM, 科研通, All Right Reserved

科研通是非营利科研互助平台，不忘初心，为科研助力

本站互助的所有文件仅供个人学习研究用，禁止任何人把求助的所得文献进行盈利或传播

皖ICP备2024041134号-1

皖公网安备34019202002308

科研通【文献互助QQ群】：如果您有特殊求助，或发布求助超过24小时未得到应助，可加群求助，群号：821889395【点击一键加群】

科研通【志愿服务QQ群】：如果您热爱文献互助，有热心愿意为更多人服务，请加入小伙伴群，点击申请加入

关注微信服务号

科研通