已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors

强化学习 贝尔曼方程 嵌入 计算机科学 功能(生物学) 差异(会计) 数学优化 价值(数学) 数学 人工智能 机器学习 经济 进化生物学 生物 会计
作者
Jingliang Duan,Yang Guan,Shengbo Eben Li,Yangang Ren,Qi Sun,Bo Cheng
出处
期刊:IEEE transactions on neural networks and learning systems [Institute of Electrical and Electronics Engineers]
卷期号:33 (11): 6584-6598 被引量:119
标识
DOI:10.1109/tnnls.2021.3082568
摘要

In reinforcement learning (RL), function approximation errors are known to easily lead to the Q -value overestimations, thus greatly reducing policy performance. This article presents a distributional soft actor-critic (DSAC) algorithm, which is an off-policy RL method for continuous control setting, to improve the policy performance by mitigating Q -value overestimations. We first discover in theory that learning a distribution function of state-action returns can effectively mitigate Q -value overestimations because it is capable of adaptively adjusting the update step size of the Q -value function. Then, a distributional soft policy iteration (DSPI) framework is developed by embedding the return distribution function into maximum entropy RL. Finally, we present a deep off-policy actor-critic variant of DSPI, called DSAC, which directly learns a continuous return distribution by keeping the variance of the state-action returns within a reasonable range to address exploding and vanishing gradient problems. We evaluate DSAC on the suite of MuJoCo continuous control tasks, achieving the state-of-the-art performance.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
俭朴的猫咪完成签到,获得积分10
3秒前
10秒前
江南之南完成签到 ,获得积分10
13秒前
Tying完成签到 ,获得积分10
14秒前
别信同学完成签到 ,获得积分10
21秒前
大个应助pylchm采纳,获得10
24秒前
HTniconico完成签到 ,获得积分10
26秒前
华仔应助HTniconico采纳,获得10
30秒前
1364135702完成签到 ,获得积分10
32秒前
益笙鸿老板完成签到 ,获得积分10
33秒前
英俊的铭应助zzzy采纳,获得10
35秒前
文欣完成签到 ,获得积分10
37秒前
闲来逛逛007完成签到 ,获得积分10
37秒前
Simpson完成签到 ,获得积分10
38秒前
brwen完成签到,获得积分10
39秒前
wwjjhh发布了新的文献求助10
40秒前
41秒前
45秒前
HY发布了新的文献求助10
46秒前
岁岁完成签到 ,获得积分10
49秒前
超级路人发布了新的文献求助10
49秒前
优雅苑睐完成签到,获得积分10
51秒前
dd完成签到 ,获得积分10
52秒前
Jasper应助科研通管家采纳,获得10
55秒前
Hello应助科研通管家采纳,获得20
55秒前
科研通AI2S应助科研通管家采纳,获得10
55秒前
55秒前
传奇3应助GGGGEEEE采纳,获得10
56秒前
58秒前
领导范儿应助超级路人采纳,获得10
1分钟前
啊倦发布了新的文献求助10
1分钟前
youziyou发布了新的文献求助10
1分钟前
enchanted完成签到 ,获得积分10
1分钟前
mmmmmmgm完成签到 ,获得积分10
1分钟前
1分钟前
ouyang完成签到,获得积分20
1分钟前
一一完成签到,获得积分10
1分钟前
繁荣的勒完成签到,获得积分10
1分钟前
youziyou完成签到,获得积分10
1分钟前
1分钟前
高分求助中
Licensing Deals in Pharmaceuticals 2019-2024 3000
Cognitive Paradigms in Knowledge Organisation 2000
Effect of reactor temperature on FCC yield 2000
How Maoism Was Made: Reconstructing China, 1949-1965 800
Introduction to Spectroscopic Ellipsometry of Thin Film Materials Instrumentation, Data Analysis, and Applications 600
Promoting women's entrepreneurship in developing countries: the case of the world's largest women-owned community-based enterprise 500
Shining Light on the Dark Side of Personality 400
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3310983
求助须知:如何正确求助?哪些是违规求助? 2943826
关于积分的说明 8516538
捐赠科研通 2619121
什么是DOI,文献DOI怎么找? 1432072
科研通“疑难数据库(出版商)”最低求助积分说明 664484
邀请新用户注册赠送积分活动 649802