Operational Safe Control for Reinforcement-Learning-Based Robot Autonomy

强化学习 机器人 计算机科学 控制(管理) 人工智能 软件部署 自治 软件工程 政治学 法学
作者
Xu Zhou
标识
DOI:10.23919/ccc52363.2021.9549723
摘要

Reinforcement learning (RL) has been widely used for robot autonomy because it can adapt to dynamic or unknown environments by automatically learning optimal control policies from the interactions between robots and environments. However, the practical deployment of RL can endanger the safety of both robots and environments because many RL methods must experience failures during the training phase. These failures can be reduced or avoided by assuming knowing prior knowledge about the states and environments in the training phase, but this assumption is easily invalid in practical applications, especially with unknown environments. In addition, restarting a training episode could be difficult in practice because the robot may be stuck in the failures. To solve these problems, we propose an operational safe control framework that can automatically recover from failures and reduce failure risks without any prior knowledge. Our framework consists of three steps: (1) detect failures and revert to safe actions, (2) collect correction samples to learn a potential that provides internal environment information to robots, (3) use the potential to shape a safe reward that biases safe explorations. A maze navigation example is used to demonstrate that our method outperforms the traditional reinforcement learning with significantly less failures.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
lili完成签到 ,获得积分10
刚刚
zorro3574发布了新的文献求助10
1秒前
海丽完成签到 ,获得积分10
1秒前
三三四完成签到,获得积分10
2秒前
韭菜盒子完成签到,获得积分10
2秒前
2秒前
hao完成签到,获得积分0
3秒前
灵巧的飞雪完成签到 ,获得积分10
4秒前
一二完成签到,获得积分10
4秒前
谭慧娉完成签到 ,获得积分10
5秒前
6秒前
璐璐完成签到 ,获得积分10
6秒前
俊杰完成签到,获得积分10
6秒前
魁梧的仰完成签到,获得积分20
7秒前
7秒前
8秒前
肱二头肌完成签到,获得积分10
8秒前
廖喜林完成签到,获得积分10
8秒前
赘婿应助逍遥子采纳,获得10
9秒前
852应助逍遥子采纳,获得10
9秒前
9秒前
ChiariRay完成签到,获得积分10
9秒前
长柏完成签到 ,获得积分10
9秒前
酷波er应助ysta采纳,获得10
9秒前
Gloria的保镖完成签到 ,获得积分10
9秒前
10秒前
魁梧的仰发布了新的文献求助10
11秒前
道爷发布了新的文献求助10
11秒前
应急食品完成签到,获得积分10
11秒前
12秒前
关耳完成签到,获得积分10
12秒前
12秒前
12秒前
Channing_Ho完成签到,获得积分10
13秒前
大树十字坡完成签到,获得积分10
14秒前
星辉斑斓完成签到,获得积分10
14秒前
科研小趴菜完成签到,获得积分10
14秒前
14秒前
15秒前
qq完成签到,获得积分10
15秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Encyclopedia of Agriculture and Food Systems Third Edition 2000
Clinical Microbiology Procedures Handbook, Multi-Volume, 5th Edition 临床微生物学程序手册,多卷,第5版 2000
人脑智能与人工智能 1000
King Tyrant 720
Silicon in Organic, Organometallic, and Polymer Chemistry 500
Principles of Plasma Discharges and Materials Processing, 3rd Edition 400
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5600162
求助须知:如何正确求助?哪些是违规求助? 4685844
关于积分的说明 14840076
捐赠科研通 4675267
什么是DOI,文献DOI怎么找? 2538559
邀请新用户注册赠送积分活动 1505668
关于科研通互助平台的介绍 1471141