清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

A novel multi-step Q-learning method to improve data efficiency for deep reinforcement learning

计算机科学 强化学习 增强学习 人工智能 机器学习
作者
Yi Yuan,Zhu Liang Yu,Zhenghui Gu,Yao Yeboah,Wei Wu,Xinyang Deng,Yuanqing Li
出处
期刊:Knowledge Based Systems [Elsevier BV]
卷期号:175: 107-117 被引量:33
标识
DOI:10.1016/j.knosys.2019.03.018
摘要

Deep reinforcement learning (DRL) algorithms with experience replays have been used to solve many sequential learning problems. However, in practice, DRL algorithms still suffer from the data inefficiency problem, which limits their applicability in many scenarios, and renders them inefficient in solving real-world problems. To improve the data efficiency of DRL, in this paper, a new multi-step method is proposed. Unlike traditional algorithms, the proposed method uses a new return function, which alters the discount of future rewards while decreasing the impact of the immediate reward when selecting the current state action. This approach has the potential to improve the efficiency of reward data. By combining the proposed method with classic DRL algorithms, deep Q-networks (DQN) and double deep Q-networks (DDQN), two novel algorithms are proposed for improving the efficiency of learning from experience replay. The performance of the proposed algorithms, expected n-step DQN (EnDQN) and expected n-step DDQN (EnDDQN), are validated using two simulation environments, CartPole and DeepTraffic. The experimental results demonstrate that the proposed multi-step methods greatly improve the data efficiency of DRL agents while further improving the performance of existing classic DRL algorithms when incorporated into their training.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
5秒前
10秒前
口十木又寸完成签到,获得积分10
20秒前
黑猫老师完成签到 ,获得积分10
53秒前
林狗完成签到 ,获得积分10
1分钟前
隐形曼青应助科研通管家采纳,获得10
1分钟前
lingling完成签到 ,获得积分10
1分钟前
wanghao完成签到 ,获得积分10
1分钟前
胡萝卜完成签到,获得积分10
1分钟前
Bond发布了新的文献求助10
2分钟前
不秃燃的小老弟完成签到 ,获得积分10
2分钟前
跳跳虎完成签到 ,获得积分10
3分钟前
qvb完成签到 ,获得积分10
3分钟前
zhangyx完成签到 ,获得积分0
4分钟前
鸡鸡大魔王完成签到,获得积分10
4分钟前
4分钟前
勇敢牛牛完成签到 ,获得积分10
4分钟前
633完成签到 ,获得积分10
5分钟前
5分钟前
NexusExplorer应助科研通管家采纳,获得10
5分钟前
wanci应助科研通管家采纳,获得10
5分钟前
古炮完成签到 ,获得积分10
6分钟前
阳光的凡阳完成签到 ,获得积分10
6分钟前
萨尔莫斯完成签到,获得积分10
6分钟前
深情安青应助ping采纳,获得10
7分钟前
科研强完成签到,获得积分10
7分钟前
在水一方应助科研通管家采纳,获得10
7分钟前
宇文雨文完成签到 ,获得积分10
7分钟前
宝贝888888完成签到,获得积分10
7分钟前
7分钟前
袁建波发布了新的文献求助10
7分钟前
Orange应助袁建波采纳,获得30
8分钟前
沈惠映完成签到 ,获得积分10
8分钟前
lili完成签到 ,获得积分10
8分钟前
8分钟前
乐乐呀完成签到 ,获得积分10
8分钟前
8分钟前
张丽妍发布了新的文献求助10
8分钟前
ping发布了新的文献求助10
8分钟前
科研通AI6.4应助张丽妍采纳,获得10
8分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Applied Min-Max Approach to Missile Guidance and Control 5000
Metallurgy at high pressures and high temperatures 2000
Inorganic Chemistry Eighth Edition 1200
Anionic polymerization of acenaphthylene: identification of impurity species formed as by-products 1000
The Psychological Quest for Meaning 800
Signals, Systems, and Signal Processing 610
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6325836
求助须知:如何正确求助?哪些是违规求助? 8141976
关于积分的说明 17071528
捐赠科研通 5378288
什么是DOI,文献DOI怎么找? 2854148
邀请新用户注册赠送积分活动 1831815
关于科研通互助平台的介绍 1682973