清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Deep predictive policy training using reinforcement learning

强化学习 计算机科学 人工智能 机器人 机器学习 深度学习 人工神经网络 弹道 任务(项目管理) 感知 任务分析 工程类 心理学 物理 天文 神经科学 系统工程
作者
Ali Ghadirzadeh,Atsuto Maki,Danica Kragić,Mårten Björkman
标识
DOI:10.1109/iros.2017.8206046
摘要

Skilled robot task learning is best implemented by predictive action policies due to the inherent latency of sensorimotor processes. However, training such predictive policies is challenging as it involves finding a trajectory of motor activations for the full duration of the action. We propose a data-efficient deep predictive policy training (DPPT) framework with a deep neural network policy architecture which maps an image observation to a sequence of motor activations. The architecture consists of three sub-networks referred to as the perception, policy and behavior super-layers. The perception and behavior super-layers force an abstraction of visual and motor data trained with synthetic and simulated training samples, respectively. The policy super-layer is a small subnetwork with fewer parameters that maps data in-between the abstracted manifolds. It is trained for each task using methods for policy search reinforcement learning. We demonstrate the suitability of the proposed architecture and learning framework by training predictive policies for skilled object grasping and ball throwing on a PR2 robot. The effectiveness of the method is illustrated by the fact that these tasks are trained using only about 180 real robot attempts with qualitative terminal rewards.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
LTJ完成签到,获得积分10
7秒前
机灵哲瀚完成签到,获得积分10
11秒前
11秒前
23秒前
通科研完成签到 ,获得积分10
44秒前
1分钟前
1分钟前
1分钟前
1分钟前
2分钟前
星辰大海应助科研通管家采纳,获得10
2分钟前
2分钟前
2分钟前
3分钟前
3分钟前
4分钟前
4分钟前
4分钟前
5分钟前
方白秋完成签到,获得积分10
5分钟前
5分钟前
田様应助qdlsc采纳,获得10
5分钟前
5分钟前
5分钟前
核桃发布了新的文献求助10
5分钟前
5分钟前
qdlsc发布了新的文献求助10
5分钟前
迅速的蜡烛完成签到 ,获得积分10
6分钟前
6分钟前
6分钟前
7分钟前
jingjili发布了新的文献求助10
7分钟前
yufanhui应助Wei采纳,获得20
7分钟前
7分钟前
852应助樱桃味的火苗采纳,获得10
7分钟前
7分钟前
7分钟前
chcmy完成签到 ,获得积分0
7分钟前
飞翔的企鹅完成签到,获得积分10
7分钟前
高分求助中
Evolution 10000
ISSN 2159-8274 EISSN 2159-8290 1000
Becoming: An Introduction to Jung's Concept of Individuation 600
Ore genesis in the Zambian Copperbelt with particular reference to the northern sector of the Chambishi basin 500
A new species of Coccus (Homoptera: Coccoidea) from Malawi 500
A new species of Velataspis (Hemiptera Coccoidea Diaspididae) from tea in Assam 500
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3162343
求助须知:如何正确求助?哪些是违规求助? 2813330
关于积分的说明 7899736
捐赠科研通 2472848
什么是DOI,文献DOI怎么找? 1316533
科研通“疑难数据库(出版商)”最低求助积分说明 631375
版权声明 602142