Local instance-based transfer learning for reinforcement learning

计算机科学 强化学习 学习迁移 人工智能 学习分类器系统 错误驱动学习 机器学习
作者
Xiaoguang Li,Wan-Ting Ji,Jun Huang
出处
期刊:Engineering Applications of Artificial Intelligence [Elsevier BV]
卷期号:133: 108488-108488
标识
DOI:10.1016/j.engappai.2024.108488
摘要

Similarity-based transfer learning for reinforcement learning has garnered attention for its potential to enhance target task learning. However, it faces significant challenges in efficiency and effectiveness, primarily stemming from issues such as sparse reward, long trajectory, and strict similarity. To solve these problems, this paper proposes a local instance-based transfer learning method for reinforcement learning. Instead of relying on sparse reward and long trajectory, this approach leverages the Q value of the local trajectory to evaluate similarity, thereby significantly enhancing transfer efficiency. Furthermore, by relaxing the strictness of the similarity, three transfer policies are proposed to facilitate positive transfer. Extensive experimental results demonstrate that the effectiveness and efficiency of the proposed method in comparison with traditional similarity-based transfer learning methods.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
辣辣发布了新的文献求助20
2秒前
潇湘夜雨应助he采纳,获得10
2秒前
2秒前
田超完成签到,获得积分10
4秒前
5秒前
沙都学不会完成签到,获得积分10
7秒前
jimmy24完成签到 ,获得积分10
7秒前
端庄洋葱发布了新的文献求助10
8秒前
9秒前
爱的看到完成签到,获得积分10
10秒前
自亮李发布了新的文献求助10
10秒前
throb完成签到,获得积分10
11秒前
大力的飞莲完成签到,获得积分10
11秒前
12秒前
Autumn完成签到 ,获得积分10
13秒前
Unstoppable完成签到,获得积分10
13秒前
15秒前
17秒前
Valley发布了新的文献求助10
18秒前
无极微光应助风清扬采纳,获得20
18秒前
19秒前
leahlin完成签到,获得积分10
19秒前
19秒前
Wu完成签到,获得积分10
20秒前
tallon完成签到,获得积分10
21秒前
老福贵儿应助Dr大壮采纳,获得10
21秒前
汉堡包应助端庄洋葱采纳,获得10
22秒前
标致映秋完成签到,获得积分10
26秒前
28秒前
28秒前
小吉麻麻完成签到,获得积分10
28秒前
31秒前
Mercury发布了新的文献求助10
32秒前
summer发布了新的文献求助10
33秒前
Lucifer完成签到,获得积分10
34秒前
端庄洋葱完成签到,获得积分10
35秒前
开心的问儿完成签到 ,获得积分10
35秒前
搜集达人应助纸飞机采纳,获得10
35秒前
37秒前
Joker_Li完成签到,获得积分10
37秒前
高分求助中
Metallurgy at high pressures and high temperatures 2000
PowerCascade: A Synthetic Dataset for Cascading Failure Analysis in Power Systems 1000
Relationship between smartphone usage in changes of ocular biometry components and refraction among elementary school children 800
The SAGE Dictionary of Qualitative Inquiry 610
Signals, Systems, and Signal Processing 610
An Introduction to Medicinal Chemistry 第六版习题答案 600
应急管理理论与实践 530
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6335875
求助须知:如何正确求助?哪些是违规求助? 8151850
关于积分的说明 17119973
捐赠科研通 5391447
什么是DOI,文献DOI怎么找? 2857587
邀请新用户注册赠送积分活动 1835162
关于科研通互助平台的介绍 1685903