Reaching the limit in autonomous racing: Optimal control versus reinforcement learning

强化学习 机器人学 敏捷软件开发 计算机科学 人工智能 控制器(灌溉) 杠杆(统计) 机器人 弹道 控制工程 控制理论(社会学) 控制(管理) 工程类 物理 软件工程 生物 农学 天文
作者
Yunlong Song,Ángel Romero,Matthias M. Müller,Vladlen Koltun,Davide Scaramuzza
出处
期刊:Science robotics [American Association for the Advancement of Science]
卷期号:8 (82) 被引量:63
标识
DOI:10.1126/scirobotics.adg1462
摘要

A central question in robotics is how to design a control system for an agile mobile robot. This paper studies this question systematically, focusing on a challenging setting: autonomous drone racing. We show that a neural network controller trained with reinforcement learning (RL) outperformed optimal control (OC) methods in this setting. We then investigated which fundamental factors have contributed to the success of RL or have limited OC. Our study indicates that the fundamental advantage of RL over OC is not that it optimizes its objective better but that it optimizes a better objective. OC decomposes the problem into planning and control with an explicit intermediate representation, such as a trajectory, that serves as an interface. This decomposition limits the range of behaviors that can be expressed by the controller, leading to inferior control performance when facing unmodeled effects. In contrast, RL can directly optimize a task-level objective and can leverage domain randomization to cope with model uncertainty, allowing the discovery of more robust control responses. Our findings allowed us to push an agile drone to its maximum performance, achieving a peak acceleration greater than 12 times the gravitational acceleration and a peak velocity of 108 kilometers per hour. Our policy achieved superhuman control within minutes of training on a standard workstation. This work presents a milestone in agile robotics and sheds light on the role of RL and OC in robot control.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
1秒前
2秒前
松果发布了新的文献求助30
2秒前
Lxx完成签到,获得积分10
2秒前
九三发布了新的文献求助10
4秒前
科研通AI5应助滚去看书采纳,获得10
4秒前
可知蝶恋花完成签到,获得积分10
4秒前
yw完成签到,获得积分10
4秒前
smily完成签到,获得积分10
6秒前
Li发布了新的文献求助10
6秒前
科研通AI5应助wryyyn采纳,获得10
8秒前
共享精神应助可知蝶恋花采纳,获得10
10秒前
11秒前
一颗蘑古力完成签到 ,获得积分10
11秒前
overcome完成签到 ,获得积分10
12秒前
12秒前
简单的涵阳完成签到 ,获得积分10
13秒前
所所应助九三采纳,获得10
13秒前
14秒前
怕黑的擎发布了新的文献求助10
15秒前
科研通AI5应助周恒胜采纳,获得10
15秒前
选波发布了新的文献求助10
15秒前
汽泡完成签到,获得积分10
15秒前
冷酷夜南发布了新的文献求助10
15秒前
碧蓝的以云完成签到,获得积分10
16秒前
16秒前
17秒前
18秒前
研友_VZG7GZ应助安详的觅风采纳,获得10
19秒前
陆家麟发布了新的文献求助20
19秒前
冬瓜完成签到,获得积分20
19秒前
21秒前
养乐多发布了新的文献求助10
22秒前
123qwe完成签到,获得积分10
22秒前
冬瓜发布了新的文献求助20
23秒前
24秒前
24秒前
alan66发布了新的文献求助10
24秒前
25秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Pipeline and riser loss of containment 2001 - 2020 (PARLOC 2020) 1000
Comparing natural with chemical additive production 500
Machine Learning in Chemistry 500
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 500
A Manual for the Identification of Plant Seeds and Fruits : Second revised edition 500
The Social Work Ethics Casebook: Cases and Commentary (revised 2nd ed.) 400
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 5196657
求助须知:如何正确求助?哪些是违规求助? 4378232
关于积分的说明 13635659
捐赠科研通 4233741
什么是DOI,文献DOI怎么找? 2322414
邀请新用户注册赠送积分活动 1320532
关于科研通互助平台的介绍 1270952