Reaching the limit in autonomous racing: Optimal control versus reinforcement learning

强化学习 机器人学 敏捷软件开发 计算机科学 人工智能 控制器(灌溉) 杠杆(统计) 机器人 弹道 控制工程 控制理论(社会学) 控制(管理) 工程类 农学 软件工程 生物 物理 天文
作者
Yunlong Song,Angel Romero,Matthias M. Müller,Vladlen Koltun,Davide Scaramuzza
出处
期刊:Science robotics [American Association for the Advancement of Science (AAAS)]
卷期号:8 (82) 被引量:34
标识
DOI:10.1126/scirobotics.adg1462
摘要

A central question in robotics is how to design a control system for an agile mobile robot. This paper studies this question systematically, focusing on a challenging setting: autonomous drone racing. We show that a neural network controller trained with reinforcement learning (RL) outperformed optimal control (OC) methods in this setting. We then investigated which fundamental factors have contributed to the success of RL or have limited OC. Our study indicates that the fundamental advantage of RL over OC is not that it optimizes its objective better but that it optimizes a better objective. OC decomposes the problem into planning and control with an explicit intermediate representation, such as a trajectory, that serves as an interface. This decomposition limits the range of behaviors that can be expressed by the controller, leading to inferior control performance when facing unmodeled effects. In contrast, RL can directly optimize a task-level objective and can leverage domain randomization to cope with model uncertainty, allowing the discovery of more robust control responses. Our findings allowed us to push an agile drone to its maximum performance, achieving a peak acceleration greater than 12 times the gravitational acceleration and a peak velocity of 108 kilometers per hour. Our policy achieved superhuman control within minutes of training on a standard workstation. This work presents a milestone in agile robotics and sheds light on the role of RL and OC in robot control.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
百里一一完成签到,获得积分10
刚刚
ninini发布了新的文献求助10
1秒前
3469907229完成签到,获得积分10
2秒前
铮铮完成签到,获得积分10
3秒前
xiaoGuo应助百里一一采纳,获得10
4秒前
淡淡白枫完成签到,获得积分10
5秒前
5秒前
研玲完成签到,获得积分10
7秒前
7秒前
万能图书馆应助txy采纳,获得10
8秒前
淡淡白枫发布了新的文献求助10
8秒前
9秒前
鸣蜩阿六发布了新的文献求助10
10秒前
zhi关闭了zhi文献求助
10秒前
子车茗应助ZHY采纳,获得10
12秒前
超帅方盒发布了新的文献求助10
12秒前
13秒前
浅唱发布了新的文献求助10
14秒前
晓筠完成签到,获得积分10
15秒前
彭大完成签到,获得积分10
17秒前
AAA完成签到,获得积分10
18秒前
无奈的菠萝完成签到,获得积分10
20秒前
重要半兰发布了新的文献求助10
22秒前
25秒前
26秒前
26秒前
26秒前
赘婿应助超帅方盒采纳,获得10
26秒前
发飙的蜗牛完成签到,获得积分10
28秒前
柚子发布了新的文献求助10
29秒前
yx_cheng完成签到,获得积分0
29秒前
zhi发布了新的文献求助50
30秒前
31秒前
33秒前
我是老大应助柚子采纳,获得10
35秒前
淡然子轩完成签到,获得积分10
35秒前
子车茗应助ZHY采纳,获得10
35秒前
苗条热狗发布了新的文献求助10
37秒前
娜罗的名单完成签到,获得积分10
37秒前
38秒前
高分求助中
Sustainability in Tides Chemistry 2800
The Young builders of New china : the visit of the delegation of the WFDY to the Chinese People's Republic 1000
Rechtsphilosophie 1000
Bayesian Models of Cognition:Reverse Engineering the Mind 888
Le dégorgement réflexe des Acridiens 800
Defense against predation 800
Very-high-order BVD Schemes Using β-variable THINC Method 568
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3136302
求助须知:如何正确求助?哪些是违规求助? 2787407
关于积分的说明 7781286
捐赠科研通 2443393
什么是DOI,文献DOI怎么找? 1299137
科研通“疑难数据库(出版商)”最低求助积分说明 625357
版权声明 600939