A novel multi-step Q-learning method to improve data efficiency for deep reinforcement learning

计算机科学 强化学习 增强学习 人工智能 机器学习
作者
Yi Yuan,Zhu Liang Yu,Zhenghui Gu,Yao Yeboah,Wei Wu,Xinyang Deng,Yuanqing Li
出处
期刊:Knowledge Based Systems [Elsevier BV]
卷期号:175: 107-117 被引量:33
标识
DOI:10.1016/j.knosys.2019.03.018
摘要

Deep reinforcement learning (DRL) algorithms with experience replays have been used to solve many sequential learning problems. However, in practice, DRL algorithms still suffer from the data inefficiency problem, which limits their applicability in many scenarios, and renders them inefficient in solving real-world problems. To improve the data efficiency of DRL, in this paper, a new multi-step method is proposed. Unlike traditional algorithms, the proposed method uses a new return function, which alters the discount of future rewards while decreasing the impact of the immediate reward when selecting the current state action. This approach has the potential to improve the efficiency of reward data. By combining the proposed method with classic DRL algorithms, deep Q-networks (DQN) and double deep Q-networks (DDQN), two novel algorithms are proposed for improving the efficiency of learning from experience replay. The performance of the proposed algorithms, expected n-step DQN (EnDQN) and expected n-step DDQN (EnDDQN), are validated using two simulation environments, CartPole and DeepTraffic. The experimental results demonstrate that the proposed multi-step methods greatly improve the data efficiency of DRL agents while further improving the performance of existing classic DRL algorithms when incorporated into their training.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
jingwenxu发布了新的文献求助10
1秒前
1秒前
bb发布了新的文献求助10
1秒前
MU关注了科研通微信公众号
1秒前
西瓜发布了新的文献求助10
1秒前
如意发布了新的文献求助30
2秒前
orange发布了新的文献求助10
3秒前
3秒前
4秒前
4秒前
飞羽发布了新的文献求助10
4秒前
hulin123发布了新的文献求助10
4秒前
5秒前
王wang完成签到,获得积分10
6秒前
yuiiuy发布了新的文献求助10
7秒前
9秒前
FashionBoy应助西瓜采纳,获得10
9秒前
贾方硕发布了新的文献求助10
10秒前
wangli完成签到,获得积分10
10秒前
lin完成签到 ,获得积分10
12秒前
12秒前
晚风完成签到 ,获得积分10
14秒前
ZZZ发布了新的文献求助10
15秒前
背光完成签到,获得积分10
15秒前
阿牛发布了新的文献求助10
17秒前
WW应助从嘉采纳,获得10
17秒前
zpy完成签到,获得积分10
18秒前
努力生活的小柴完成签到,获得积分10
19秒前
阿巴阿巴发布了新的文献求助10
19秒前
科研通AI6.2应助阳光岱周采纳,获得10
19秒前
etlincat完成签到,获得积分10
21秒前
静静完成签到,获得积分10
23秒前
25秒前
mxczsl发布了新的文献求助10
25秒前
25秒前
26秒前
如意荔枝发布了新的文献求助20
27秒前
睡觉发布了新的文献求助30
27秒前
研友_8o5V2n发布了新的文献求助10
28秒前
准静止锋发布了新的文献求助30
29秒前
高分求助中
Principles of Economics, 11th Edition 10000
Prescott's Microbiology: 2026 Release ISE 10000
University Physics with Modern Physics, 16th edition 10000
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Environmental Leverage in Times of Climate Crisis: Product Standards, Carbon Border Measures and Preferential Trade Agreements 1000
Interactions of Vowel Quality and Prosody in East Slavic 1000
Erwählung und Berufung bei Paulus: Bedeutung, Entwicklung und Funktion einer Vorstellung in ihrem frühjüdischen und griechisch-römischen Kontext 850
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 内科学 物理 复合材料 催化作用 细胞生物学 无机化学 光电子学 物理化学 电极 基因
热门帖子
关注 科研通微信公众号,转发送积分 7190844
求助须知:如何正确求助?哪些是违规求助? 8828042
关于积分的说明 18638123
捐赠科研通 6824998
什么是DOI,文献DOI怎么找? 3175114
关于科研通互助平台的介绍 2326537
邀请新用户注册赠送积分活动 2149577