亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Control Systems and Reinforcement Learning

强化学习 计算机科学 趋同(经济学) 编码(集合论) 马尔可夫决策过程 马尔可夫链 过程(计算) 光学(聚焦) 人工智能 控制(管理) 马尔可夫过程 理论计算机科学 机器学习 数学 程序设计语言 集合(抽象数据类型) 经济 物理 光学 统计 经济增长
作者
Sean Meyn
标识
DOI:10.1017/9781009051873
摘要

A high school student can create deep Q-learning code to control her robot, without any understanding of the meaning of 'deep' or 'Q', or why the code sometimes fails. This book is designed to explain the science behind reinforcement learning and optimal control in a way that is accessible to students with a background in calculus and matrix algebra. A unique focus is algorithm design to obtain the fastest possible speed of convergence for learning algorithms, along with insight into why reinforcement learning sometimes fails. Advanced stochastic process theory is avoided at the start by substituting random exploration with more intuitive deterministic probing for learning. Once these ideas are understood, it is not difficult to master techniques rooted in stochastic control. These topics are covered in the second part of the book, starting with Markov chain theory and ending with a fresh look at actor-critic methods for reinforcement learning.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
知了完成签到 ,获得积分10
1秒前
量子星尘发布了新的文献求助10
5秒前
科研通AI5应助华风采纳,获得10
6秒前
在水一方应助十七采纳,获得10
10秒前
称心的沛柔完成签到 ,获得积分10
16秒前
量子星尘发布了新的文献求助10
21秒前
21秒前
菜鸡5号完成签到,获得积分10
22秒前
醉书生应助科研通管家采纳,获得10
26秒前
科研通AI2S应助科研通管家采纳,获得10
26秒前
醉书生应助科研通管家采纳,获得10
26秒前
十七发布了新的文献求助10
26秒前
27秒前
dabaopinkman发布了新的文献求助10
27秒前
MDW完成签到,获得积分20
32秒前
psyYang完成签到,获得积分10
32秒前
丘比特应助张玮采纳,获得10
35秒前
量子星尘发布了新的文献求助10
37秒前
39秒前
40秒前
40秒前
十七完成签到,获得积分20
40秒前
凯文完成签到 ,获得积分10
41秒前
43秒前
44秒前
ymbb发布了新的文献求助10
46秒前
华风发布了新的文献求助10
46秒前
保卫时光发布了新的文献求助10
46秒前
大力怜容完成签到 ,获得积分10
47秒前
乐乐发布了新的文献求助10
47秒前
drbrianlau发布了新的文献求助10
49秒前
学不完了完成签到 ,获得积分10
49秒前
量子星尘发布了新的文献求助10
49秒前
复杂不二完成签到,获得积分10
54秒前
十七关注了科研通微信公众号
54秒前
保卫时光完成签到,获得积分10
55秒前
57秒前
1分钟前
支翰完成签到 ,获得积分10
1分钟前
嘟嘟嘟嘟完成签到 ,获得积分10
1分钟前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2700
Neuromuscular and Electrodiagnostic Medicine Board Review 1000
Statistical Methods for the Social Sciences, Global Edition, 6th edition 600
こんなに痛いのにどうして「なんでもない」と医者にいわれてしまうのでしょうか 510
ALUMINUM STANDARDS AND DATA 500
Walter Gilbert: Selected Works 500
岡本唐貴自伝的回想画集 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3666287
求助须知:如何正确求助?哪些是违规求助? 3225351
关于积分的说明 9762737
捐赠科研通 2935243
什么是DOI,文献DOI怎么找? 1607522
邀请新用户注册赠送积分活动 759252
科研通“疑难数据库(出版商)”最低求助积分说明 735185