亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Proximal Policy Optimization Algorithms

计算机科学 优化算法 数学优化 算法 数学
作者
John Schulman,Filip Wolski,Prafulla Dhariwal,Alec Radford,Oleg Klimov
出处
期刊:Cornell University - arXiv 被引量:10790
标识
DOI:10.48550/arxiv.1707.06347
摘要

We propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standard policy gradient methods perform one gradient update per data sample, we propose a novel objective function that enables multiple epochs of minibatch updates. The new methods, which we call proximal policy optimization (PPO), have some of the benefits of trust region policy optimization (TRPO), but they are much simpler to implement, more general, and have better sample complexity (empirically). Our experiments test PPO on a collection of benchmark tasks, including simulated robotic locomotion and Atari game playing, and we show that PPO outperforms other online policy gradient methods, and overall strikes a favorable balance between sample complexity, simplicity, and wall-time.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
米缸完成签到,获得积分10
31秒前
Jasper应助chen某采纳,获得10
37秒前
伍洁完成签到 ,获得积分10
40秒前
科研通AI5应助橘子采纳,获得10
44秒前
TrungHieuPham完成签到,获得积分10
56秒前
1分钟前
chen某发布了新的文献求助10
1分钟前
1分钟前
magical完成签到,获得积分20
1分钟前
baifan完成签到,获得积分10
1分钟前
科研通AI2S应助科研通管家采纳,获得10
1分钟前
magical发布了新的文献求助10
1分钟前
斯文败类应助沐秋如叶采纳,获得10
1分钟前
赵十七完成签到 ,获得积分10
1分钟前
2分钟前
传奇3应助王心心采纳,获得10
2分钟前
沐秋如叶发布了新的文献求助10
2分钟前
mzz完成签到,获得积分10
2分钟前
2分钟前
2分钟前
mzz发布了新的文献求助10
2分钟前
王心心发布了新的文献求助10
2分钟前
2分钟前
2分钟前
2分钟前
Paddi完成签到 ,获得积分10
2分钟前
jiajia发布了新的文献求助10
2分钟前
2分钟前
橘子发布了新的文献求助10
3分钟前
3分钟前
chen某发布了新的文献求助10
3分钟前
sora98完成签到 ,获得积分10
3分钟前
3分钟前
二皮发布了新的文献求助10
3分钟前
橘子完成签到,获得积分10
3分钟前
二皮完成签到,获得积分10
4分钟前
含章发布了新的文献求助10
4分钟前
wanci应助含章采纳,获得10
4分钟前
4分钟前
4分钟前
高分求助中
Continuum Thermodynamics and Material Modelling 2000
Neuromuscular and Electrodiagnostic Medicine Board Review 1000
こんなに痛いのにどうして「なんでもない」と医者にいわれてしまうのでしょうか 510
いちばんやさしい生化学 500
The First Nuclear Era: The Life and Times of a Technological Fixer 500
岡本唐貴自伝的回想画集 500
Atmosphere-ice-ocean interactions in the Antarctic 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3677709
求助须知:如何正确求助?哪些是违规求助? 3231543
关于积分的说明 9797919
捐赠科研通 2942689
什么是DOI,文献DOI怎么找? 1613428
邀请新用户注册赠送积分活动 761539
科研通“疑难数据库(出版商)”最低求助积分说明 736978