Language Instructed Reinforcement Learning for Human-AI Coordination

强化学习 计算机科学 水准点(测量) 人工智能 人类语言 质量(理念) 钢筋 心理学 社会心理学 语言学 大地测量学 认识论 哲学 地理
作者
Hengyuan Hu,Dorsa Sadigh
出处
期刊:Cornell University - arXiv 被引量:8
标识
DOI:10.48550/arxiv.2304.07297
摘要

One of the fundamental quests of AI is to produce agents that coordinate well with humans. This problem is challenging, especially in domains that lack high quality human behavioral data, because multi-agent reinforcement learning (RL) often converges to different equilibria from the ones that humans prefer. We propose a novel framework, instructRL, that enables humans to specify what kind of strategies they expect from their AI partners through natural language instructions. We use pretrained large language models to generate a prior policy conditioned on the human instruction and use the prior to regularize the RL objective. This leads to the RL agent converging to equilibria that are aligned with human preferences. We show that instructRL converges to human-like policies that satisfy the given instructions in a proof-of-concept environment as well as the challenging Hanabi benchmark. Finally, we show that knowing the language instruction significantly boosts human-AI coordination performance in human evaluations in Hanabi.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
1秒前
落俗发布了新的文献求助10
1秒前
心子吖发布了新的文献求助10
1秒前
害羞人英发布了新的文献求助10
2秒前
养虎人发布了新的文献求助10
2秒前
细腻白柏发布了新的文献求助10
3秒前
星辰大海应助o0bubble0o采纳,获得10
5秒前
刘亚茹发布了新的文献求助10
5秒前
咩咩1完成签到,获得积分10
7秒前
7秒前
cyr发布了新的文献求助10
8秒前
8秒前
科研通AI5应助lucky采纳,获得10
8秒前
10秒前
nn发布了新的文献求助10
10秒前
我爱科研发布了新的文献求助10
11秒前
科研通AI2S应助jokerwang采纳,获得10
12秒前
yang完成签到,获得积分10
13秒前
14秒前
Akim应助刘亚茹采纳,获得10
14秒前
ppg关闭了ppg文献求助
15秒前
Jasmine发布了新的文献求助10
15秒前
15秒前
抽根烟发布了新的文献求助10
15秒前
16秒前
16秒前
迟大猫应助打发十分采纳,获得10
17秒前
Zn应助nn采纳,获得10
17秒前
18秒前
RC_Wang应助害羞人英采纳,获得10
19秒前
大模型应助theThreeMagi采纳,获得10
19秒前
傅诗淇发布了新的文献求助10
20秒前
20秒前
科研通AI5应助别急我先送采纳,获得10
21秒前
qwa发布了新的文献求助10
21秒前
科目三应助泥中尘采纳,获得10
21秒前
哒哒哒发布了新的文献求助100
21秒前
香蕉觅云应助行路1采纳,获得10
23秒前
梅一一发布了新的文献求助10
24秒前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2700
1.3μm GaAs基InAs量子点材料生长及器件应用 1000
Ensartinib (Ensacove) for Non-Small Cell Lung Cancer 1000
Unseen Mendieta: The Unpublished Works of Ana Mendieta 1000
Bacterial collagenases and their clinical applications 800
El viaje de una vida: Memorias de María Lecea 800
Luis Lacasa - Sobre esto y aquello 700
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3526144
求助须知:如何正确求助?哪些是违规求助? 3106527
关于积分的说明 9280744
捐赠科研通 2804127
什么是DOI,文献DOI怎么找? 1539278
邀请新用户注册赠送积分活动 716514
科研通“疑难数据库(出版商)”最低求助积分说明 709495