Motif: Intrinsic Motivation from Artificial Intelligence Feedback

主题(音乐) 强化学习 计算机科学 人工智能 机器学习 人机交互 声学 物理
作者
Martin Klissarov,Pierluca D’Oro,Shagun Sodhani,Roberta Raileanu,Pierre‐Luc Bacon,Pascal Vincent,Amy Zhang,Mikael Henaff
出处
期刊:Cornell University - arXiv 被引量:1
标识
DOI:10.48550/arxiv.2310.00166
摘要

Exploring rich environments and evaluating one's actions without prior knowledge is immensely challenging. In this paper, we propose Motif, a general method to interface such prior knowledge from a Large Language Model (LLM) with an agent. Motif is based on the idea of grounding LLMs for decision-making without requiring them to interact with the environment: it elicits preferences from an LLM over pairs of captions to construct an intrinsic reward, which is then used to train agents with reinforcement learning. We evaluate Motif's performance and behavior on the challenging, open-ended and procedurally-generated NetHack game. Surprisingly, by only learning to maximize its intrinsic reward, Motif achieves a higher game score than an algorithm directly trained to maximize the score itself. When combining Motif's intrinsic reward with the environment reward, our method significantly outperforms existing approaches and makes progress on tasks where no advancements have ever been made without demonstrations. Finally, we show that Motif mostly generates intuitive human-aligned behaviors which can be steered easily through prompt modifications, while scaling well with the LLM size and the amount of information given in the prompt.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
wananan发布了新的文献求助10
刚刚
乐乐乐乐乐乐应助phw2333采纳,获得30
刚刚
刚刚
有点儿小库完成签到,获得积分10
刚刚
1秒前
等闲月发布了新的文献求助10
1秒前
鱼儿会飞完成签到,获得积分10
1秒前
NZH关闭了NZH文献求助
1秒前
1秒前
1秒前
Paris完成签到,获得积分10
2秒前
历史雨发布了新的文献求助10
3秒前
泡泡球发布了新的文献求助10
3秒前
3秒前
追寻不言发布了新的文献求助30
4秒前
4秒前
糊糊完成签到 ,获得积分10
4秒前
4秒前
赘婿应助背后的书文采纳,获得10
5秒前
共享精神应助细腻的吐司采纳,获得10
5秒前
Jasper应助dcdc采纳,获得10
5秒前
邹小天发布了新的文献求助10
6秒前
zf发布了新的文献求助10
6秒前
6秒前
6秒前
橙子发布了新的文献求助10
6秒前
绵绵球完成签到,获得积分0
7秒前
pluto应助syyy采纳,获得10
7秒前
英俊的铭应助Yao采纳,获得10
7秒前
wananan完成签到,获得积分10
7秒前
y111发布了新的文献求助30
8秒前
8秒前
李开心发布了新的文献求助200
8秒前
9秒前
9秒前
poyo发布了新的文献求助10
9秒前
9秒前
10秒前
小小小杰发布了新的文献求助10
10秒前
十一发布了新的文献求助10
11秒前
高分求助中
Earth System Geophysics 1000
Semiconductor Process Reliability in Practice 650
Studies on the inheritance of some characters in rice Oryza sativa L 600
Medicina di laboratorio. Logica e patologia clinica 600
《关于整治突出dupin问题的实施意见》(厅字〔2019〕52号) 500
Language injustice and social equity in EMI policies in China 500
mTOR signalling in RPGR-associated Retinitis Pigmentosa 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3209570
求助须知:如何正确求助?哪些是违规求助? 2858950
关于积分的说明 8117420
捐赠科研通 2524564
什么是DOI,文献DOI怎么找? 1358064
科研通“疑难数据库(出版商)”最低求助积分说明 642755
邀请新用户注册赠送积分活动 614360