发布文献求助

Quantile Markov Decision Processes

分位数马尔可夫决策过程分位数函数数学优化马尔可夫链贝尔曼方程累积前景理论马尔可夫过程数学计算机科学计量经济学累积分布函数统计期望效用假设概率密度函数

作者

Xiaocheng Li,Huaiyang Zhong,Margaret L. Brandeau

出处

期刊：Operations Research [Institute for Operations Research and the Management Sciences]
日期：2021-11-09 卷期号：70 (3): 1428-1447 被引量：5

链接

nih.gov nih.govdoi.org

标识

DOI：10.1287/opre.2021.2123

摘要

The goal of a traditional Markov decision process (MDP) is to maximize expected cumulative reward over a defined horizon (possibly infinite). In many applications, however, a decision maker may be interested in optimizing a specific quantile of the cumulative reward instead of its expectation. In this paper we consider the problem of optimizing the quantiles of the cumulative rewards of a Markov decision process (MDP), which we refer to as a quantile Markov decision process (QMDP). We provide analytical results characterizing the optimal QMDP value function and present a dynamic programming-based algorithm to solve for the optimal policy. The algorithm also extends to the MDP problem with a conditional value-at-risk (CVaR) objective. We illustrate the practical relevance of our model by evaluating it on an HIV treatment initiation problem, where patients aim to balance the potential benefits and risks of the treatment.

求助该文献

科研通智能强力驱动
Strongly Powered by AbleSci AI

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 历史今天

更新

新增更精细的自定义提醒设置 (2026-1-4)

新增

🕒每天60秒读懂世界·精选全球要闻 (2026-1-2)

更新

2025年影响因子查询已上线 (2025-6-18)

新增

PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: 科技梦发布了新的文献求助10

1秒前; 优雅战斗机完成签到，获得积分10

1秒前; 巧克力完成签到，获得积分10

1秒前; 搜集达人上传了应助文件

1秒前; 单纯的白桃发布了新的文献求助10

1秒前; 清风明月完成签到，获得积分10

2秒前; Unifrog发布了新的文献求助10

2秒前; 科研通AI2S的应助被xuxuux采纳，获得10

2秒前; 二二发布了新的文献求助10

2秒前; Deer完成签到，获得积分20

2秒前; 予北完成签到，获得积分10

3秒前; Aero完成签到，获得积分10

3秒前; lili完成签到，获得积分10

3秒前; 思源上传了应助文件

4秒前; 那地方完成签到，获得积分10

4秒前; 爱库珀上传了应助文件

4秒前; LJM完成签到，获得积分20

5秒前; orixero上传了应助文件

6秒前; 一丢丢完成签到，获得积分0

6秒前; 华北第一深情完成签到，获得积分20

6秒前; 丘比特上传了应助文件

6秒前; 回穆完成签到，获得积分10

7秒前; 过时的沛槐上传了应助文件

7秒前; 於傲松发布了新的文献求助10

7秒前; 热心的小馒头完成签到，获得积分10

7秒前; 思源的应助被吴宇杰采纳，获得10

8秒前; meng发布了新的文献求助10

8秒前; 高贵的迎蕾发布了新的文献求助10

9秒前; 小马甲上传了应助文件

9秒前; 暮凝完成签到，获得积分10

9秒前; luluyang发布了新的文献求助10

10秒前; 善学以致用上传了应助文件

10秒前; 李健的应助被机智迎夏采纳，获得10

10秒前; zhangxf608完成签到，获得积分10

10秒前; 陈陈陈完成签到，获得积分20

11秒前; 清晨发布了新的文献求助10

11秒前; 852的应助被不安青牛采纳，获得10

11秒前; 艾格尔的小提琴完成签到，获得积分10

11秒前; zhnf1179完成签到，获得积分10

11秒前; 屿顾完成签到，获得积分10

12秒前

高分求助中: (应助此贴封号)【重要！！请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000; Encyclopedia of Reproduction Third Edition 3000; Comprehensive Methanol Science Production, Applications, and Emerging Technologies 2000; From Victimization to Aggression 1000; 化妆品原料学 1000; 小学科学课程与教学 500; Study and Interlaboratory Validation of Simultaneous LC-MS/MS Method for Food Allergens Using Model Processed Foods 500

热门求助领域（近24小时）

热门帖子: 关注科研通微信公众号，转发送积分 5645486; 求助须知：如何正确求助？哪些是违规求助？ 4769060; 关于积分的说明 15029686; 捐赠科研通 4804149; 什么是DOI，文献DOI怎么找？ 2568731; 邀请新用户注册赠送积分活动 1526021; 关于科研通互助平台的介绍 1485606

今日热心研友

专注的问寒

反耳是一种助力

注：热心度 = 本日应助数 + 本日被采纳获取积分÷10

Copyright © 2020-2026 AbleSci.COM, 科研通, All Right Reserved

科研通是非营利科研互助平台，不忘初心，为科研助力

本站互助的所有文件仅供个人学习研究用，禁止任何人把求助的所得文献进行盈利或传播

皖ICP备2024041134号-1

皖公网安备34019202002308

科研通【文献互助QQ群】：如果您有特殊求助，或发布求助超过24小时未得到应助，可加群求助，群号：821889395【点击一键加群】

科研通【志愿服务QQ群】：如果您热爱文献互助，有热心愿意为更多人服务，请加入小伙伴群，点击申请加入

关注微信服务号

科研通