Continuous control with deep reinforcement learning

强化学习 计算机科学 钢筋 人工智能 控制(管理) 心理学 社会心理学
作者
Timothy Lillicrap,Jonathan J. Hunt,Alexander Pritzel,Nicolas Heess,Tom Erez,Yuval Tassa,David Silver,Daan Wierstra
出处
期刊:Cornell University - arXiv 被引量:6222
标识
DOI:10.48550/arxiv.1509.02971
摘要

We adapt the ideas underlying the success of Deep Q-Learning to the continuous action domain. We present an actor-critic, model-free algorithm based on the deterministic policy gradient that can operate over continuous action spaces. Using the same learning algorithm, network architecture and hyper-parameters, our algorithm robustly solves more than 20 simulated physics tasks, including classic problems such as cartpole swing-up, dexterous manipulation, legged locomotion and car driving. Our algorithm is able to find policies whose performance is competitive with those found by a planning algorithm with full access to the dynamics of the domain and its derivatives. We further demonstrate that for many of the tasks the algorithm can learn policies end-to-end: directly from raw pixel inputs.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
清脆易梦发布了新的文献求助30
1秒前
中央戏精学院完成签到,获得积分10
1秒前
叶听枫发布了新的文献求助10
1秒前
不配.应助111采纳,获得10
1秒前
2秒前
hss发布了新的文献求助10
2秒前
2秒前
英姑应助炽岈采纳,获得10
2秒前
小二郎应助美好斓采纳,获得10
2秒前
老实鞯发布了新的文献求助10
2秒前
斯文败类应助xiao双月采纳,获得10
2秒前
proteinpurify发布了新的文献求助10
3秒前
keyanniniz发布了新的文献求助10
3秒前
4秒前
4秒前
在水一方应助cheng采纳,获得10
4秒前
Zzz_Carlos完成签到,获得积分10
4秒前
无奈安寒完成签到,获得积分10
5秒前
6秒前
6秒前
乐观期待完成签到,获得积分10
6秒前
yangshujuan发布了新的文献求助10
6秒前
忘仔仙贝发布了新的文献求助10
7秒前
善学以致用应助。.。采纳,获得10
7秒前
文艺弘文发布了新的文献求助30
7秒前
无私的珩发布了新的文献求助10
9秒前
柳一发布了新的文献求助10
9秒前
yin完成签到,获得积分10
10秒前
10秒前
10秒前
研友_LwlAgn发布了新的文献求助10
10秒前
诚心采白发布了新的文献求助10
11秒前
MIAAAAAAO完成签到,获得积分10
12秒前
14秒前
Ava应助psj采纳,获得10
14秒前
yuna完成签到 ,获得积分10
14秒前
周胖胖发布了新的文献求助10
15秒前
美好斓发布了新的文献求助10
15秒前
华仔应助yangshujuan采纳,获得10
15秒前
wanci应助研友_LwlAgn采纳,获得10
16秒前
高分求助中
Sustainability in Tides Chemistry 2000
Microlepidoptera Palaearctica, Volumes 1 and 3 - 13 (12-Volume Set) [German] 1122
Дружба 友好报 (1957-1958) 1000
The Data Economy: Tools and Applications 1000
A Dissection Guide & Atlas to the Rabbit 600
中国心血管健康与疾病报告2023(要完整的报告) 500
Ожившие листья и блуждающие цветы. Практическое руководство по содержанию богомолов [Alive leaves and wandering flowers. A practical guide for keeping praying mantises] 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3102053
求助须知:如何正确求助?哪些是违规求助? 2753346
关于积分的说明 7623434
捐赠科研通 2406027
什么是DOI,文献DOI怎么找? 1276521
科研通“疑难数据库(出版商)”最低求助积分说明 616877
版权声明 599103