Parallel learner: A practical deep reinforcement learning framework for multi-scenario games

强化学习 计算机科学 任务(项目管理) 一般化 人工智能 趋同(经济学) 功能(生物学) 代表(政治) 贝尔曼方程 机器学习 数学优化 政治 数学分析 生物 经济 进化生物学 管理 法学 经济增长 数学 政治学
作者
Xiaolu Hou,Zhenyang Guo,Xuan Wang,Tao Qian,Jiajia Zhang,Shuhan Qi,Jing Xiao
出处
期刊:Knowledge Based Systems [Elsevier]
卷期号:236: 107753-107753 被引量:1
标识
DOI:10.1016/j.knosys.2021.107753
摘要

Traditional reinforcement learning methods are only applicable to single-scenario tasks. When it comes to multi-scenario, the single-scenario agents fail to perform well. That is, the traditional reinforcement learning methods own the poor generalization when facing different tasks simultaneously. In this work, we propose a practical deep reinforcement learning framework that can perform on multiple 3D scenarios concurrently. We adopt the Actor–Learner framework to realize the parallelization of multiple scenarios and resolve the policy lag problem by generalizing Retrace(λ) to a new value function. We prove its convergence theoretically. Besides, we design an auxiliary recognition task and an auxiliary control task inspired by the hard shared representation in multi-task learning to improve the performance of our multi-scenario agent. Experimental results show that our method outperforms state-of-the-art algorithms on DMLab-30, achieving more advantages on multi-scenario games. We verify the effectiveness of each part of our framework by the ablation experiments. We also find our parallel learner transferable by testing on the untrained scenarios.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
爆米花应助小畅采纳,获得10
刚刚
无极微光应助hismeng采纳,获得20
刚刚
刚刚
香蕉觅云应助FdOvO采纳,获得10
刚刚
无题完成签到,获得积分10
1秒前
酷波er应助Zzz采纳,获得10
1秒前
smile完成签到,获得积分10
1秒前
奋斗灵珊发布了新的文献求助10
1秒前
mocheer完成签到,获得积分10
2秒前
2秒前
那年那兔那些事完成签到 ,获得积分10
2秒前
water发布了新的文献求助10
2秒前
2秒前
ECT完成签到,获得积分10
2秒前
小二郎应助高贵振家采纳,获得10
2秒前
Naixichaohaohe完成签到,获得积分10
3秒前
站台完成签到 ,获得积分10
3秒前
why完成签到 ,获得积分10
4秒前
飞飞发布了新的文献求助30
4秒前
up完成签到,获得积分10
4秒前
5秒前
情怀应助zzzzlll采纳,获得10
5秒前
蓝莓芝士完成签到 ,获得积分10
5秒前
mengxiangrui完成签到,获得积分10
5秒前
善学以致用应助丸子王采纳,获得10
6秒前
123完成签到,获得积分10
6秒前
现代完成签到,获得积分10
6秒前
6秒前
打打应助炙热笑旋采纳,获得10
7秒前
7秒前
7秒前
恬恬完成签到,获得积分10
7秒前
周游发布了新的文献求助50
8秒前
醉熏的菲鹰完成签到 ,获得积分10
8秒前
lllllsy发布了新的文献求助10
8秒前
gk完成签到,获得积分0
8秒前
9秒前
9秒前
9秒前
娇气的笑蓝完成签到,获得积分10
9秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
List of 1,091 Public Pension Profiles by Region 1621
Les Mantodea de Guyane: Insecta, Polyneoptera [The Mantids of French Guiana] | NHBS Field Guides & Natural History 1500
Lloyd's Register of Shipping's Approach to the Control of Incidents of Brittle Fracture in Ship Structures 1000
Brittle fracture in welded ships 1000
Metagames: Games about Games 700
King Tyrant 680
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5573825
求助须知:如何正确求助?哪些是违规求助? 4660098
关于积分的说明 14727788
捐赠科研通 4599933
什么是DOI,文献DOI怎么找? 2524546
邀请新用户注册赠送积分活动 1494900
关于科研通互助平台的介绍 1464997