Parallel learner: A practical deep reinforcement learning framework for multi-scenario games

强化学习 计算机科学 任务(项目管理) 一般化 人工智能 趋同(经济学) 功能(生物学) 代表(政治) 贝尔曼方程 机器学习 数学优化 政治 数学分析 生物 经济 进化生物学 管理 法学 经济增长 数学 政治学
作者
Xiaolu Hou,Zhenyang Guo,Xuan Wang,Tao Qian,Jiajia Zhang,Shuhan Qi,Jing Xiao
出处
期刊:Knowledge Based Systems [Elsevier]
卷期号:236: 107753-107753 被引量:1
标识
DOI:10.1016/j.knosys.2021.107753
摘要

Traditional reinforcement learning methods are only applicable to single-scenario tasks. When it comes to multi-scenario, the single-scenario agents fail to perform well. That is, the traditional reinforcement learning methods own the poor generalization when facing different tasks simultaneously. In this work, we propose a practical deep reinforcement learning framework that can perform on multiple 3D scenarios concurrently. We adopt the Actor–Learner framework to realize the parallelization of multiple scenarios and resolve the policy lag problem by generalizing Retrace(λ) to a new value function. We prove its convergence theoretically. Besides, we design an auxiliary recognition task and an auxiliary control task inspired by the hard shared representation in multi-task learning to improve the performance of our multi-scenario agent. Experimental results show that our method outperforms state-of-the-art algorithms on DMLab-30, achieving more advantages on multi-scenario games. We verify the effectiveness of each part of our framework by the ablation experiments. We also find our parallel learner transferable by testing on the untrained scenarios.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
ZH完成签到,获得积分10
刚刚
bobochi完成签到 ,获得积分10
刚刚
1秒前
飞向火星完成签到,获得积分10
1秒前
aaaaaamiaoa发布了新的文献求助10
1秒前
1秒前
yif完成签到 ,获得积分10
2秒前
程程完成签到,获得积分10
3秒前
美丽完成签到 ,获得积分10
3秒前
NexusExplorer应助LisaZhang采纳,获得30
4秒前
白马爱毛驴完成签到,获得积分10
4秒前
高大涵梅发布了新的文献求助10
6秒前
科研通AI2S应助司空豁采纳,获得10
7秒前
8秒前
甜味白开水完成签到,获得积分10
11秒前
朴实的觅翠完成签到,获得积分10
12秒前
小梦发布了新的文献求助10
12秒前
duan完成签到 ,获得积分10
12秒前
清爽的亦云完成签到,获得积分10
12秒前
yyd完成签到,获得积分10
13秒前
天天快乐应助Fxxkme采纳,获得10
14秒前
MFiWanting完成签到,获得积分10
15秒前
小琦无敌完成签到,获得积分10
15秒前
yongzaizhuigan完成签到,获得积分0
17秒前
LIKUN完成签到,获得积分10
17秒前
科研狗完成签到,获得积分10
19秒前
19秒前
柠七完成签到,获得积分10
19秒前
Muran完成签到,获得积分10
19秒前
科研狗发布了新的文献求助10
22秒前
道道sy完成签到,获得积分10
22秒前
蛋妞儿完成签到,获得积分10
23秒前
23秒前
蛋炒饭不加蛋完成签到,获得积分10
24秒前
LW完成签到,获得积分10
24秒前
mg完成签到,获得积分10
24秒前
lemonlmm完成签到,获得积分0
25秒前
huihuiyve完成签到,获得积分10
26秒前
怡然猎豹完成签到,获得积分10
26秒前
26秒前
高分求助中
Sustainability in Tides Chemistry 2800
The Young builders of New china : the visit of the delegation of the WFDY to the Chinese People's Republic 1000
Rechtsphilosophie 1000
Bayesian Models of Cognition:Reverse Engineering the Mind 888
Le dégorgement réflexe des Acridiens 800
Defense against predation 800
A Dissection Guide & Atlas to the Rabbit 600
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3134060
求助须知:如何正确求助?哪些是违规求助? 2784861
关于积分的说明 7769049
捐赠科研通 2440325
什么是DOI,文献DOI怎么找? 1297361
科研通“疑难数据库(出版商)”最低求助积分说明 624959
版权声明 600792