Self-Attention for Deep Reinforcement Learning

强化学习 计算机科学 基线(sea) 人工智能 国家(计算机科学) 业余 机制(生物学) 动作(物理) 方案(数学) 钢筋 人机交互 机器学习 工程类 数学分析 哲学 海洋学 物理 数学 结构工程 认识论 算法 量子力学 政治学 法学 地质学
作者
Xiangxiang Shen,Chuanhuan Yin,Xinwen Hou
标识
DOI:10.1145/3325730.3325743
摘要

Reinforcement learning is concerned with how software agents ought to take actions according to the state of the environment so as to maximize some notion of cumulative reward. Therefore, in-depth study and mining of the state of the environment will be more conducive to the agent to make better decisions. Motivated by the advantages of self-attention mechanism in machine translation, this paper presents a new scheme. In this scheme, the state in deep reinforcement learning algorithms can be combined with self-attention mechanism. After that agents will pay more attention to the internal structure of state especially in a complex game environment, like real-time strategy game StarCraft. StarCraft is a huge challenge platform for AI researchers because of its huge state spaces and action spaces. Some baseline agents of reinforcement learning provided by DeepMind for mini-games in StarCraft II have not reached the level of an amateur player. Our agents use fewer features than DeepMind's baseline agents and have made significant improvement.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
高大的老头完成签到,获得积分10
刚刚
Ava应助霜之哀伤采纳,获得10
刚刚
lf发布了新的文献求助10
刚刚
刚刚
寒冷南晴完成签到,获得积分10
刚刚
hhhh_xt完成签到,获得积分10
1秒前
爆米花应助落寞易形采纳,获得10
1秒前
义气山柳完成签到,获得积分10
1秒前
2秒前
dada完成签到,获得积分10
2秒前
3秒前
科目三应助大力的图图采纳,获得10
3秒前
3秒前
3秒前
3秒前
Ava应助王其超采纳,获得10
3秒前
Sherry发布了新的文献求助10
3秒前
4秒前
jane0501发布了新的文献求助10
4秒前
5秒前
5秒前
5秒前
快乐半山发布了新的文献求助10
5秒前
sxb10101举报发嗲的飞机求助涉嫌违规
5秒前
听露发布了新的文献求助30
6秒前
赘婿应助光亮的天真采纳,获得10
6秒前
陈任棠他奶奶完成签到,获得积分10
6秒前
wanci应助wenxu采纳,获得10
6秒前
yiyiyibbb发布了新的文献求助10
7秒前
bathygobius完成签到,获得积分10
8秒前
轩轩发布了新的文献求助10
8秒前
Cytosol发布了新的文献求助10
8秒前
9秒前
vvs发布了新的文献求助10
9秒前
oaix完成签到 ,获得积分10
9秒前
9秒前
coral发布了新的文献求助10
10秒前
瑾色长安完成签到,获得积分20
10秒前
11秒前
科研之家完成签到,获得积分10
11秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Kinesiophobia : a new view of chronic pain behavior 3000
Les Mantodea de guyane 2500
Molecular Biology of Cancer: Mechanisms, Targets, and Therapeutics 2000
Standard: In-Space Storable Fluid Transfer for Prepared Spacecraft (AIAA S-157-2024) 1000
Signals, Systems, and Signal Processing 510
Discrete-Time Signals and Systems 510
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5948926
求助须知:如何正确求助?哪些是违规求助? 7119325
关于积分的说明 15914130
捐赠科研通 5082055
什么是DOI,文献DOI怎么找? 2732308
邀请新用户注册赠送积分活动 1692780
关于科研通互助平台的介绍 1615526