清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Deep Reinforcement Learning from Human Preferences

强化学习 灵活性(工程) 计算机科学 人工智能 功能(生物学) 机器人 弹道 人机交互 错误驱动学习 天文 数学 进化生物学 生物 统计 物理
作者
Paul F. Christiano,Jan Leike,T. B. Brown,Miljan Martic,Shane Legg,Dario Amodei
出处
期刊:Neural Information Processing Systems 卷期号:30: 4299-4307 被引量:212
链接
摘要

For sophisticated reinforcement learning (RL) systems to interact usefully with real-world environments, we need to communicate complex goals to these systems. In this work, we explore goals defined in terms of (non-expert) human preferences between pairs of trajectory segments. Our approach separates learning the goal from learning the behavior to achieve it. We show that this approach can effectively solve complex RL tasks without access to the reward function, including Atari games and simulated robot locomotion, while providing feedback on about 0.1% of our agent's interactions with the environment. This reduces the cost of human oversight far enough that it can be practically applied to state-of-the-art RL systems. To demonstrate the flexibility of our approach, we show that we can successfully train complex novel behaviors with about an hour of human time. These behaviors and environments are considerably more complex than any which have been previously learned from human feedback.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
DJ_Tokyo完成签到,获得积分10
2秒前
14秒前
奥丁蒂法发布了新的文献求助10
20秒前
41秒前
呆呆的猕猴桃完成签到 ,获得积分10
49秒前
1分钟前
1分钟前
1分钟前
在水一方应助科研通管家采纳,获得10
1分钟前
科研通AI2S应助科研通管家采纳,获得10
1分钟前
a46539749完成签到 ,获得积分10
1分钟前
lovexa完成签到,获得积分10
1分钟前
1分钟前
琉璃岁月完成签到,获得积分10
2分钟前
tjpuzhang完成签到 ,获得积分10
2分钟前
阳光森林完成签到 ,获得积分10
2分钟前
ybwei2008_163完成签到,获得积分20
2分钟前
隐形曼青应助Demi_Ming采纳,获得10
2分钟前
2分钟前
cfd完成签到,获得积分10
2分钟前
llll完成签到,获得积分10
2分钟前
2分钟前
3分钟前
田様应助认真的画板采纳,获得10
3分钟前
3分钟前
3分钟前
科研通AI2S应助科研通管家采纳,获得10
3分钟前
要开心发布了新的文献求助10
3分钟前
小蘑菇应助要开心采纳,获得10
3分钟前
别具一格完成签到 ,获得积分10
3分钟前
奥丁蒂法发布了新的文献求助10
3分钟前
勤恳的雪卉完成签到,获得积分10
3分钟前
guanruo发布了新的文献求助10
3分钟前
HCCha完成签到,获得积分10
3分钟前
3分钟前
guanruo完成签到,获得积分10
4分钟前
奥丁蒂法发布了新的文献求助10
4分钟前
Alisha完成签到,获得积分10
4分钟前
科研通AI2S应助科研通管家采纳,获得10
5分钟前
Lucas应助科研通管家采纳,获得10
5分钟前
高分求助中
Licensing Deals in Pharmaceuticals 2019-2024 3000
Cognitive Paradigms in Knowledge Organisation 2000
Effect of reactor temperature on FCC yield 2000
How Maoism Was Made: Reconstructing China, 1949-1965 800
Medical technology industry in China 600
Introduction to Spectroscopic Ellipsometry of Thin Film Materials Instrumentation, Data Analysis, and Applications 600
Promoting women's entrepreneurship in developing countries: the case of the world's largest women-owned community-based enterprise 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3311215
求助须知:如何正确求助?哪些是违规求助? 2943928
关于积分的说明 8516766
捐赠科研通 2619310
什么是DOI,文献DOI怎么找? 1432227
科研通“疑难数据库(出版商)”最低求助积分说明 664536
邀请新用户注册赠送积分活动 649815