Robust Inverse Q-Learning for Continuous-Time Linear Systems in Adversarial Environments

反向 符号 功能(生物学) 人工智能 算法 计算机科学 数学 域代数上的 离散数学 纯数学 算术 几何学 进化生物学 生物
作者
Bosen Lian,Wenqian Xue,Frank L. Lewis,Tianyou Chai
出处
期刊:IEEE transactions on cybernetics [Institute of Electrical and Electronics Engineers]
卷期号:52 (12): 13083-13095 被引量:33
标识
DOI:10.1109/tcyb.2021.3100749
摘要

This article proposes robust inverse Q -learning algorithms for a learner to mimic an expert's states and control inputs in the imitation learning problem. These two agents have different adversarial disturbances. To do the imitation, the learner must reconstruct the unknown expert cost function. The learner only observes the expert's control inputs and uses inverse Q -learning algorithms to reconstruct the unknown expert cost function. The inverse Q -learning algorithms are robust in that they are independent of the system model and allow for the different cost function parameters and disturbances between two agents. We first propose an offline inverse Q -learning algorithm which consists of two iterative learning loops: 1) an inner Q -learning iteration loop and 2) an outer iteration loop based on inverse optimal control. Then, based on this offline algorithm, we further develop an online inverse Q -learning algorithm such that the learner mimics the expert behaviors online with the real-time observation of the expert control inputs. This online computational method has four functional approximators: a critic approximator, two actor approximators, and a state-reward neural network (NN). It simultaneously approximates the parameters of Q -function and the learner state reward online. Convergence and stability proofs are rigorously studied to guarantee the algorithm performance.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
FashionBoy应助云朵上的鱼采纳,获得10
2秒前
玉米完成签到,获得积分10
3秒前
5秒前
烂漫的静枫完成签到,获得积分10
6秒前
杜康完成签到,获得积分10
6秒前
7秒前
nz完成签到,获得积分10
7秒前
深情月饼发布了新的文献求助10
7秒前
自由宛筠完成签到,获得积分10
8秒前
cldg完成签到,获得积分10
9秒前
9秒前
Hydro发布了新的文献求助10
10秒前
10秒前
11秒前
11秒前
12秒前
12秒前
北雁发布了新的文献求助10
13秒前
yar举报laoli2022求助涉嫌违规
13秒前
洁净的士晋完成签到,获得积分10
13秒前
随性完成签到 ,获得积分10
14秒前
EMMA完成签到,获得积分10
15秒前
劲秉应助Hydro采纳,获得10
16秒前
16秒前
Tianju完成签到,获得积分0
16秒前
guozizi发布了新的文献求助10
18秒前
18秒前
18秒前
山水木发布了新的文献求助10
19秒前
小羊完成签到,获得积分10
19秒前
20秒前
21秒前
Peyton Why完成签到,获得积分10
21秒前
小羊咩咩咩完成签到,获得积分10
22秒前
22秒前
打打应助ppppp采纳,获得10
22秒前
ding应助秀丽的初柔采纳,获得10
22秒前
23秒前
可爱的函函应助123采纳,获得10
24秒前
25秒前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2500
Востребованный временем 2500
Agaricales of New Zealand 1: Pluteaceae - Entolomataceae 1040
지식생태학: 생태학, 죽은 지식을 깨우다 600
海南省蛇咬伤流行病学特征与预后影响因素分析 500
Neuromuscular and Electrodiagnostic Medicine Board Review 500
ランス多機能化技術による溶鋼脱ガス処理の高効率化の研究 500
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 纳米技术 内科学 物理 化学工程 计算机科学 复合材料 基因 遗传学 物理化学 催化作用 细胞生物学 免疫学 电极
热门帖子
关注 科研通微信公众号,转发送积分 3460894
求助须知:如何正确求助?哪些是违规求助? 3054804
关于积分的说明 9044831
捐赠科研通 2744673
什么是DOI,文献DOI怎么找? 1505633
科研通“疑难数据库(出版商)”最低求助积分说明 695745
邀请新用户注册赠送积分活动 695173