Scalable Hierarchical Reinforcement Learning for Hyper Scale Multi-Robot Task Planning

强化学习 计算机科学 可扩展性 任务(项目管理) 比例(比率) 机器人 人工智能 人机交互 工程类 地理 系统工程 数据库 地图学
作者
Xuan Zhou,Xiang Shi,Lele Zhang,Chen Chen,Hongbo Li,Lin Ma,Fang Deng,Jie Chen
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2412.19538
摘要

To improve the efficiency of warehousing system and meet huge customer orders, we aim to solve the challenges of dimension disaster and dynamic properties in hyper scale multi-robot task planning (MRTP) for robotic mobile fulfillment system (RMFS). Existing research indicates that hierarchical reinforcement learning (HRL) is an effective method to reduce these challenges. Based on that, we construct an efficient multi-stage HRL-based multi-robot task planner for hyper scale MRTP in RMFS, and the planning process is represented with a special temporal graph topology. To ensure optimality, the planner is designed with a centralized architecture, but it also brings the challenges of scaling up and generalization that require policies to maintain performance for various unlearned scales and maps. To tackle these difficulties, we first construct a hierarchical temporal attention network (HTAN) to ensure basic ability of handling inputs with unfixed lengths, and then design multi-stage curricula for hierarchical policy learning to further improve the scaling up and generalization ability while avoiding catastrophic forgetting. Additionally, we notice that policies with hierarchical structure suffer from unfair credit assignment that is similar to that in multi-agent reinforcement learning, inspired of which, we propose a hierarchical reinforcement learning algorithm with counterfactual rollout baseline to improve learning performance. Experimental results demonstrate that our planner outperform other state-of-the-art methods on various MRTP instances in both simulated and real-world RMFS. Also, our planner can successfully scale up to hyper scale MRTP instances in RMFS with up to 200 robots and 1000 retrieval racks on unlearned maps while keeping superior performance over other methods.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
李兴完成签到 ,获得积分10
刚刚
周周完成签到,获得积分10
1秒前
4秒前
TUTU应助科研通管家采纳,获得10
4秒前
cdercder应助科研通管家采纳,获得10
4秒前
cdercder应助科研通管家采纳,获得10
4秒前
cdercder应助科研通管家采纳,获得10
4秒前
水星完成签到 ,获得积分10
5秒前
佳妹儿发布了新的文献求助10
5秒前
7秒前
Tom完成签到,获得积分10
8秒前
皮皮完成签到 ,获得积分10
11秒前
科研通AI5应助komisan采纳,获得10
11秒前
青衫完成签到 ,获得积分10
12秒前
12秒前
悄悄是心上的肖肖完成签到 ,获得积分10
14秒前
时尚俊驰发布了新的文献求助10
15秒前
aaqw_8完成签到,获得积分10
17秒前
佳妹儿完成签到,获得积分10
19秒前
YYY完成签到,获得积分10
20秒前
笨鸟先飞完成签到 ,获得积分10
20秒前
22秒前
淳于安筠完成签到,获得积分10
22秒前
道友等等我完成签到,获得积分0
23秒前
小小户完成签到 ,获得积分10
24秒前
四然应助wuludie采纳,获得10
25秒前
msk完成签到 ,获得积分10
25秒前
keleboys完成签到 ,获得积分10
26秒前
风中的冰蓝完成签到,获得积分10
26秒前
chriscda发布了新的文献求助10
27秒前
平淡的寄风完成签到,获得积分10
27秒前
赘婿应助时尚俊驰采纳,获得10
28秒前
Xxxuan完成签到,获得积分10
28秒前
张雷完成签到 ,获得积分10
28秒前
007完成签到 ,获得积分10
29秒前
酷酷的树叶完成签到 ,获得积分10
29秒前
月光族完成签到,获得积分10
29秒前
30秒前
木木水完成签到,获得积分10
31秒前
hml123完成签到,获得积分10
31秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Continuum Thermodynamics and Material Modelling 2000
105th Edition CRC Handbook of Chemistry and Physics 1600
ISCN 2024 – An International System for Human Cytogenomic Nomenclature (2024) 1000
CRC Handbook of Chemistry and Physics 104th edition 1000
Maneuvering of a Damaged Navy Combatant 650
Izeltabart tapatansine - AdisInsight 600
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3770540
求助须知:如何正确求助?哪些是违规求助? 3315496
关于积分的说明 10176697
捐赠科研通 3030555
什么是DOI,文献DOI怎么找? 1663036
邀请新用户注册赠送积分活动 795258
科研通“疑难数据库(出版商)”最低求助积分说明 756705