Robust Inverse Q-Learning for Continuous-Time Linear Systems in Adversarial Environments

反向 符号 功能(生物学) 人工智能 算法 计算机科学 数学 域代数上的 离散数学 纯数学 算术 几何学 进化生物学 生物
作者
Bosen Lian,Wenqian Xue,Frank L. Lewis,Tianyou Chai
出处
期刊:IEEE transactions on cybernetics [Institute of Electrical and Electronics Engineers]
卷期号:52 (12): 13083-13095 被引量:48
标识
DOI:10.1109/tcyb.2021.3100749
摘要

This article proposes robust inverse Q -learning algorithms for a learner to mimic an expert's states and control inputs in the imitation learning problem. These two agents have different adversarial disturbances. To do the imitation, the learner must reconstruct the unknown expert cost function. The learner only observes the expert's control inputs and uses inverse Q -learning algorithms to reconstruct the unknown expert cost function. The inverse Q -learning algorithms are robust in that they are independent of the system model and allow for the different cost function parameters and disturbances between two agents. We first propose an offline inverse Q -learning algorithm which consists of two iterative learning loops: 1) an inner Q -learning iteration loop and 2) an outer iteration loop based on inverse optimal control. Then, based on this offline algorithm, we further develop an online inverse Q -learning algorithm such that the learner mimics the expert behaviors online with the real-time observation of the expert control inputs. This online computational method has four functional approximators: a critic approximator, two actor approximators, and a state-reward neural network (NN). It simultaneously approximates the parameters of Q -function and the learner state reward online. Convergence and stability proofs are rigorously studied to guarantee the algorithm performance.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
xyc完成签到 ,获得积分10
1秒前
mm完成签到,获得积分10
1秒前
ling发布了新的文献求助10
1秒前
1秒前
独特凡松完成签到,获得积分10
2秒前
2秒前
GIK尘完成签到,获得积分10
3秒前
3秒前
桐桐应助杨洁采纳,获得10
4秒前
初景发布了新的文献求助10
4秒前
酷波er应助付涵采纳,获得10
4秒前
淡定听双发布了新的文献求助10
4秒前
乐乐应助淡淡红茶采纳,获得10
5秒前
5秒前
5秒前
5秒前
goubuli00完成签到,获得积分10
6秒前
sjyu1985完成签到 ,获得积分0
6秒前
6秒前
6秒前
Owen应助charles采纳,获得30
7秒前
勤奋高丽发布了新的文献求助10
7秒前
STEMOS完成签到 ,获得积分10
8秒前
9秒前
9秒前
鲁路修发布了新的文献求助10
9秒前
小马甲应助wise111采纳,获得10
9秒前
小鱼美美完成签到,获得积分10
10秒前
余雨发布了新的文献求助10
10秒前
llopcop完成签到,获得积分10
10秒前
我的Diy发布了新的文献求助10
11秒前
11秒前
典雅的丹寒完成签到,获得积分10
12秒前
传统的捕完成签到,获得积分10
12秒前
丘比特应助淡淡红茶采纳,获得10
12秒前
Trace2023完成签到,获得积分10
12秒前
Gray发布了新的文献求助10
12秒前
丸子发布了新的文献求助20
13秒前
共享精神应助bunny采纳,获得10
13秒前
勤奋高丽完成签到,获得积分10
13秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Cowries - A Guide to the Gastropod Family Cypraeidae 1200
Quality by Design - An Indispensable Approach to Accelerate Biopharmaceutical Product Development 800
Pulse width control of a 3-phase inverter with non sinusoidal phase voltages 777
Signals, Systems, and Signal Processing 610
Research Methods for Applied Linguistics 500
Chemistry and Physics of Carbon Volume 15 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6396165
求助须知:如何正确求助?哪些是违规求助? 8211441
关于积分的说明 17393784
捐赠科研通 5449521
什么是DOI,文献DOI怎么找? 2880549
邀请新用户注册赠送积分活动 1857118
关于科研通互助平台的介绍 1699454