Markov Decision Process Design for Imitation of Optimal Task Schedulers

马尔可夫决策过程 计算机科学 强化学习 调度(生产过程) 任务(项目管理) 决策树 部分可观测马尔可夫决策过程 马尔可夫过程 过程(计算) 机器学习 马尔可夫链 任务分析 人工智能 马尔可夫模型 数学优化 工程类 统计 数学 系统工程 操作系统
作者
Paul Rademacher,Kevin Wagner,Leslie N. Smith
标识
DOI:10.1109/ssp53291.2023.10207940
摘要

Due to the generally prohibitive computational requirements of optimal task schedulers, much of the field of task scheduling focuses on designing fast suboptimal algorithms. Since the tree search commonly used by sequencing algorithms such as Branch-and-Bound can naturally be framed as a Markov decision process, designing schedulers using imitation and reinforcement learning is a promising and active area of research. This paper demonstrates how polices can be trained on previously solved scheduling problems and successfully generalize to novel ones. Instead of focusing on policy design, however, this work focuses on designing the Markov decision process observation and reward functions to make learning as effective and efficient as possible. This can be of critical importance when training data is limited or when only simple, fast policies are practical. Various Markov decision process designs are introduced and simulation examples demonstrate the resultant increases in policy performance, even without integration into search algorithms.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
天仙狂醉完成签到 ,获得积分10
1秒前
小木子发布了新的文献求助10
1秒前
灵巧夏彤完成签到 ,获得积分10
2秒前
season发布了新的文献求助10
3秒前
wanci应助han采纳,获得10
4秒前
5秒前
玛卡巴卡完成签到 ,获得积分10
5秒前
情怀应助trilex采纳,获得20
5秒前
AllRightReserved应助chen采纳,获得10
7秒前
yhhhhhh发布了新的文献求助10
9秒前
ding应助f_2097353采纳,获得10
9秒前
吴雨茜发布了新的文献求助30
9秒前
科ke完成签到,获得积分10
10秒前
天真的乌完成签到 ,获得积分10
12秒前
Ava应助难过的夜香采纳,获得10
13秒前
科ke发布了新的文献求助10
13秒前
yhhhhhh完成签到,获得积分10
17秒前
直率无春完成签到,获得积分10
17秒前
SciGPT应助beimi采纳,获得30
18秒前
19秒前
Zoe完成签到,获得积分10
22秒前
22秒前
23秒前
XZY完成签到,获得积分10
24秒前
sunsaint完成签到,获得积分10
25秒前
f_2097353发布了新的文献求助10
26秒前
HoaryZ完成签到,获得积分10
27秒前
captain601发布了新的文献求助10
27秒前
sdjtxdy发布了新的文献求助10
29秒前
科研通AI6.2应助小巧晓夏采纳,获得10
29秒前
Scorpia112应助吴雨茜采纳,获得10
30秒前
f_2097353完成签到,获得积分10
30秒前
31秒前
老实的乐儿完成签到 ,获得积分10
32秒前
耗子完成签到,获得积分10
33秒前
沈冷完成签到,获得积分10
33秒前
李健应助Ronin采纳,获得10
34秒前
苯环完成签到,获得积分10
35秒前
毛毛余完成签到 ,获得积分10
37秒前
37秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Developing Genetic Editing Tools for Lysobacter 2000
Моделирование процессов самоорганизации в кристаллообразующих системах 1000
History of U.S. Space Surveillance and Satellite Cataloging 1000
Adhesion Science: Principles & Practice 800
Signals, Systems, and Signal Processing 610
Fundamentals of Pharmaceutical and Biologics Regulations: A Global Perspective, Second Edition 600
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6524922
求助须知:如何正确求助?哪些是违规求助? 8318242
关于积分的说明 17801447
捐赠科研通 5626734
什么是DOI,文献DOI怎么找? 2928958
邀请新用户注册赠送积分活动 1905628
关于科研通互助平台的介绍 1765508