Learning Intention-Aware Policies in Deep Reinforcement Learning

强化学习 任务(项目管理) 动作(物理) 计算机科学 人工智能 过程(计算) 政策学习 控制(管理) 国家(计算机科学) 增强学习 机器学习 经济 算法 物理 管理 量子力学 操作系统
作者
Tingting Zhao,Shuai Wu,Guixi Li,Yarui Chen,Gang Niu,Masashi Sugiyama
出处
期刊:Neural Computation [MIT Press]
卷期号:35 (10): 1657-1677
标识
DOI:10.1162/neco_a_01607
摘要

Abstract Deep reinforcement learning (DRL) provides an agent with an optimal policy so as to maximize the cumulative rewards. The policy defined in DRL mainly depends on the state, historical memory, and policy model parameters. However, we humans usually take actions according to our own intentions, such as moving fast or slow, besides the elements included in the traditional policy models. In order to make the action-choosing mechanism more similar to humans and make the agent to select actions that incorporate intentions, we propose an intention-aware policy learning method in this letter To formalize this process, we first define an intention-aware policy by incorporating the intention information into the policy model, which is learned by maximizing the cumulative rewards with the mutual information (MI) between the intention and the action. Then we derive an approximation of the MI objective that can be optimized efficiently. Finally, we demonstrate the effectiveness of the intention-aware policy in the classical MuJoCo control task and the multigoal continuous chain walking task.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
朴素青寒完成签到,获得积分10
刚刚
刚刚
英俊水池完成签到,获得积分10
刚刚
刚刚
缓慢语雪完成签到,获得积分10
刚刚
俞水云完成签到,获得积分10
刚刚
1秒前
1秒前
老迟到的土豆完成签到 ,获得积分10
1秒前
Naixichaohaohe完成签到,获得积分10
1秒前
long4jun3发布了新的文献求助10
2秒前
可爱的函函应助花花采纳,获得10
3秒前
浮曳发布了新的文献求助20
3秒前
3秒前
背后白梦完成签到,获得积分10
3秒前
3秒前
苹果完成签到,获得积分10
4秒前
执着的水杯完成签到,获得积分10
4秒前
Taki完成签到,获得积分10
5秒前
Lucas应助Tonyyy采纳,获得10
5秒前
5秒前
Sam发布了新的文献求助10
5秒前
5秒前
化工渣渣完成签到,获得积分10
5秒前
清爽朋友完成签到,获得积分10
5秒前
聆风完成签到 ,获得积分10
5秒前
QQ完成签到,获得积分10
6秒前
超级的鞅发布了新的文献求助10
6秒前
zzz发布了新的文献求助10
6秒前
花花完成签到 ,获得积分10
6秒前
6秒前
7秒前
Leucalypt完成签到,获得积分10
7秒前
SQL完成签到 ,获得积分10
7秒前
soso完成签到,获得积分10
7秒前
8秒前
一碗饭1982发布了新的文献求助10
9秒前
沉静的安露完成签到 ,获得积分10
9秒前
9秒前
10秒前
高分求助中
晶体学对称群—如何读懂和应用国际晶体学表 1500
Problem based learning 1000
Constitutional and Administrative Law 1000
Microbially Influenced Corrosion of Materials 500
Die Fliegen der Palaearktischen Region. Familie 64 g: Larvaevorinae (Tachininae). 1975 500
Numerical controlled progressive forming as dieless forming 400
Rural Geographies People, Place and the Countryside 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 遗传学 催化作用 冶金 量子力学 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 5388001
求助须知:如何正确求助?哪些是违规求助? 4509881
关于积分的说明 14033262
捐赠科研通 4420771
什么是DOI,文献DOI怎么找? 2428439
邀请新用户注册赠送积分活动 1421106
关于科研通互助平台的介绍 1400293