亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

A novel multi-step Q-learning method to improve data efficiency for deep reinforcement learning

计算机科学 强化学习 增强学习 人工智能 机器学习
作者
Yi Yuan,Zhu Liang Yu,Zhenghui Gu,Yao Yeboah,Wei Wu,Xinyang Deng,Yuanqing Li
出处
期刊:Knowledge Based Systems [Elsevier]
卷期号:175: 107-117 被引量:33
标识
DOI:10.1016/j.knosys.2019.03.018
摘要

Deep reinforcement learning (DRL) algorithms with experience replays have been used to solve many sequential learning problems. However, in practice, DRL algorithms still suffer from the data inefficiency problem, which limits their applicability in many scenarios, and renders them inefficient in solving real-world problems. To improve the data efficiency of DRL, in this paper, a new multi-step method is proposed. Unlike traditional algorithms, the proposed method uses a new return function, which alters the discount of future rewards while decreasing the impact of the immediate reward when selecting the current state action. This approach has the potential to improve the efficiency of reward data. By combining the proposed method with classic DRL algorithms, deep Q-networks (DQN) and double deep Q-networks (DDQN), two novel algorithms are proposed for improving the efficiency of learning from experience replay. The performance of the proposed algorithms, expected n-step DQN (EnDQN) and expected n-step DDQN (EnDDQN), are validated using two simulation environments, CartPole and DeepTraffic. The experimental results demonstrate that the proposed multi-step methods greatly improve the data efficiency of DRL agents while further improving the performance of existing classic DRL algorithms when incorporated into their training.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
大可奇发布了新的文献求助10
2秒前
huo发布了新的文献求助10
3秒前
知性的德地完成签到,获得积分10
9秒前
平常的过客完成签到,获得积分10
17秒前
36秒前
gc完成签到 ,获得积分10
40秒前
zhangshenlan发布了新的文献求助10
40秒前
科研通AI2S应助科研通管家采纳,获得10
43秒前
科研通AI2S应助科研通管家采纳,获得10
43秒前
斯文败类应助科研通管家采纳,获得80
43秒前
晓书完成签到 ,获得积分10
46秒前
李爱国应助春风采纳,获得10
47秒前
斯文败类应助柠橙采纳,获得10
54秒前
56秒前
Langsam发布了新的文献求助10
59秒前
韩保晨完成签到 ,获得积分10
59秒前
1分钟前
huo完成签到,获得积分10
1分钟前
小蘑菇应助未来可期采纳,获得10
1分钟前
彭于晏应助神奇大药丸采纳,获得10
1分钟前
1分钟前
1分钟前
一个薯片完成签到,获得积分10
1分钟前
winkyyang完成签到 ,获得积分10
1分钟前
ShowMaker完成签到,获得积分10
1分钟前
未来可期发布了新的文献求助10
1分钟前
1分钟前
alien52发布了新的文献求助10
1分钟前
未来可期完成签到,获得积分10
1分钟前
1分钟前
深情安青应助alien52采纳,获得10
1分钟前
lxl发布了新的文献求助50
1分钟前
动听从寒发布了新的文献求助10
1分钟前
怡然聪展完成签到 ,获得积分10
1分钟前
呆瓜发布了新的文献求助10
1分钟前
Panther完成签到,获得积分10
1分钟前
1分钟前
ASHSR完成签到 ,获得积分10
1分钟前
柠橙发布了新的文献求助10
2分钟前
2分钟前
高分求助中
Evolution 10000
Sustainability in Tides Chemistry 2800
юрские динозавры восточного забайкалья 800
English Wealden Fossils 700
Diagnostic immunohistochemistry : theranostic and genomic applications 6th Edition 500
Chen Hansheng: China’s Last Romantic Revolutionary 500
China's Relations With Japan 1945-83: The Role of Liao Chengzhi 400
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3150492
求助须知:如何正确求助?哪些是违规求助? 2801881
关于积分的说明 7845873
捐赠科研通 2459235
什么是DOI,文献DOI怎么找? 1309099
科研通“疑难数据库(出版商)”最低求助积分说明 628656
版权声明 601727