Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning

自举(财务) 强化学习 计算机科学 水准点(测量) 悲观 外推法 一般化 人工智能 过度拟合 贝尔曼方程 功能(生物学) 价值(数学) 机器学习 数学优化 数学 计量经济学 统计 人工神经网络 数学分析 哲学 大地测量学 认识论 进化生物学 生物 地理
作者
Chenjia Bai,Lingxiao Wang,Zhuoran Yang,Zhihong Deng,Animesh Garg,Peng Liu,Zhaoran Wang
出处
期刊:Cornell University - arXiv 被引量:17
标识
DOI:10.48550/arxiv.2202.11566
摘要

Offline Reinforcement Learning (RL) aims to learn policies from previously collected datasets without exploring the environment. Directly applying off-policy algorithms to offline RL usually fails due to the extrapolation error caused by the out-of-distribution (OOD) actions. Previous methods tackle such problem by penalizing the Q-values of OOD actions or constraining the trained policy to be close to the behavior policy. Nevertheless, such methods typically prevent the generalization of value functions beyond the offline data and also lack precise characterization of OOD data. In this paper, we propose Pessimistic Bootstrapping for offline RL (PBRL), a purely uncertainty-driven offline algorithm without explicit policy constraints. Specifically, PBRL conducts uncertainty quantification via the disagreement of bootstrapped Q-functions, and performs pessimistic updates by penalizing the value function based on the estimated uncertainty. To tackle the extrapolating error, we further propose a novel OOD sampling method. We show that such OOD sampling and pessimistic bootstrapping yields provable uncertainty quantifier in linear MDPs, thus providing the theoretical underpinning for PBRL. Extensive experiments on D4RL benchmark show that PBRL has better performance compared to the state-of-the-art algorithms.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Dlan完成签到,获得积分10
刚刚
呆萌井完成签到,获得积分10
刚刚
1秒前
鉴湖完成签到,获得积分10
1秒前
001完成签到,获得积分10
1秒前
蕉鲁诺蕉巴纳完成签到,获得积分0
1秒前
efengmo完成签到,获得积分10
2秒前
天真南松完成签到,获得积分10
3秒前
讨厌下雨天完成签到 ,获得积分10
4秒前
量子星尘发布了新的文献求助10
4秒前
5秒前
lii完成签到,获得积分10
7秒前
哦哦完成签到,获得积分10
8秒前
ninomae完成签到 ,获得积分10
11秒前
渴望者完成签到,获得积分10
11秒前
lzl007完成签到 ,获得积分10
12秒前
只争朝夕完成签到,获得积分10
14秒前
yin完成签到,获得积分10
14秒前
abbytang完成签到 ,获得积分10
14秒前
优雅沛文完成签到 ,获得积分10
14秒前
JamesPei应助科研通管家采纳,获得10
14秒前
sjw525完成签到,获得积分10
16秒前
小公牛完成签到 ,获得积分10
18秒前
李正纲完成签到 ,获得积分10
19秒前
Criminology34应助1101592875采纳,获得10
24秒前
24秒前
25秒前
孟小宝完成签到,获得积分10
26秒前
量子星尘发布了新的文献求助10
27秒前
mojomars完成签到,获得积分0
27秒前
ryq327完成签到 ,获得积分10
28秒前
俏皮的老三完成签到 ,获得积分10
32秒前
小高同学完成签到,获得积分10
33秒前
潇洒的蝴蝶完成签到,获得积分10
34秒前
dldldl完成签到,获得积分10
34秒前
35秒前
养鸟的人完成签到,获得积分10
36秒前
Tin完成签到,获得积分10
36秒前
36秒前
Moonpie完成签到 ,获得积分10
37秒前
高分求助中
Encyclopedia of Immunobiology Second Edition 5000
Clinical Microbiology Procedures Handbook, Multi-Volume, 5th Edition 临床微生物学程序手册,多卷,第5版 2000
List of 1,091 Public Pension Profiles by Region 1621
Les Mantodea de Guyane: Insecta, Polyneoptera [The Mantids of French Guiana] | NHBS Field Guides & Natural History 1500
The Victim–Offender Overlap During the Global Pandemic: A Comparative Study Across Western and Non-Western Countries 1000
Lloyd's Register of Shipping's Approach to the Control of Incidents of Brittle Fracture in Ship Structures 1000
Brittle fracture in welded ships 1000
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5584850
求助须知:如何正确求助?哪些是违规求助? 4668735
关于积分的说明 14771737
捐赠科研通 4616005
什么是DOI,文献DOI怎么找? 2530253
邀请新用户注册赠送积分活动 1499111
关于科研通互助平台的介绍 1467590