Operational Safe Control for Reinforcement-Learning-Based Robot Autonomy

强化学习 机器人 计算机科学 控制(管理) 人工智能 软件部署 自治 软件工程 政治学 法学
作者
Xu Zhou
标识
DOI:10.23919/ccc52363.2021.9549723
摘要

Reinforcement learning (RL) has been widely used for robot autonomy because it can adapt to dynamic or unknown environments by automatically learning optimal control policies from the interactions between robots and environments. However, the practical deployment of RL can endanger the safety of both robots and environments because many RL methods must experience failures during the training phase. These failures can be reduced or avoided by assuming knowing prior knowledge about the states and environments in the training phase, but this assumption is easily invalid in practical applications, especially with unknown environments. In addition, restarting a training episode could be difficult in practice because the robot may be stuck in the failures. To solve these problems, we propose an operational safe control framework that can automatically recover from failures and reduce failure risks without any prior knowledge. Our framework consists of three steps: (1) detect failures and revert to safe actions, (2) collect correction samples to learn a potential that provides internal environment information to robots, (3) use the potential to shape a safe reward that biases safe explorations. A maze navigation example is used to demonstrate that our method outperforms the traditional reinforcement learning with significantly less failures.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
羊白玉完成签到 ,获得积分10
5秒前
6秒前
spy完成签到 ,获得积分10
8秒前
金勇完成签到,获得积分10
17秒前
xgx984完成签到,获得积分10
20秒前
SONGer完成签到,获得积分10
20秒前
lovt123完成签到,获得积分10
21秒前
小小鱼完成签到 ,获得积分10
23秒前
xiaxia42完成签到 ,获得积分10
26秒前
FL完成签到,获得积分10
27秒前
柒八染完成签到 ,获得积分10
30秒前
量子星尘发布了新的文献求助10
35秒前
盼盼完成签到,获得积分10
36秒前
39秒前
小刺猬完成签到,获得积分10
40秒前
41秒前
西瓜完成签到 ,获得积分10
42秒前
小蘑菇应助ceeray23采纳,获得20
55秒前
哈哈哈完成签到,获得积分10
56秒前
真真完成签到 ,获得积分10
59秒前
回首不再是少年完成签到,获得积分0
1分钟前
1分钟前
四叶草完成签到 ,获得积分10
1分钟前
量子星尘发布了新的文献求助10
1分钟前
1分钟前
自信松思完成签到 ,获得积分10
1分钟前
xun完成签到,获得积分10
1分钟前
嫁个养熊猫的完成签到 ,获得积分10
1分钟前
1分钟前
秋秋完成签到 ,获得积分10
1分钟前
愉快的真应助marco采纳,获得50
1分钟前
安静严青完成签到 ,获得积分10
1分钟前
现代小丸子完成签到 ,获得积分10
1分钟前
che完成签到 ,获得积分10
1分钟前
量子星尘发布了新的文献求助10
1分钟前
Rondab应助marco采纳,获得10
1分钟前
lql完成签到 ,获得积分10
1分钟前
吉祥高趙完成签到 ,获得积分10
1分钟前
科研通AI2S应助科研通管家采纳,获得10
1分钟前
活泼的大船完成签到,获得积分10
1分钟前
高分求助中
【提示信息,请勿应助】关于scihub 10000
A new approach to the extrapolation of accelerated life test data 1000
Coking simulation aids on-stream time 450
北师大毕业论文 基于可调谐半导体激光吸收光谱技术泄漏气体检测系统的研究 390
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 370
Robot-supported joining of reinforcement textiles with one-sided sewing heads 360
Novel Preparation of Chitin Nanocrystals by H2SO4 and H3PO4 Hydrolysis Followed by High-Pressure Water Jet Treatments 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4015568
求助须知:如何正确求助?哪些是违规求助? 3555555
关于积分的说明 11318118
捐赠科研通 3288718
什么是DOI,文献DOI怎么找? 1812284
邀请新用户注册赠送积分活动 887882
科研通“疑难数据库(出版商)”最低求助积分说明 812015