已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Adversarial Counterfactual Environment Model Learning

反事实思维 对抗制 计算机科学 机器学习 人工智能 一般化 伽利略(卫星导航) 数学 大地测量学 认识论 数学分析 哲学 地理
作者
Xionghui Chen,Yang Yu,Zhengmao Zhu,Zhihua Yu,Zhenjun Chen,Chenghe Wang,Yinan Wu,Hongqiu Wu,Rongjun Qin,Ruijin Ding,Fangsheng Huang
出处
期刊:Cornell University - arXiv 被引量:4
标识
DOI:10.48550/arxiv.2206.04890
摘要

A good model for action-effect prediction, named environment model, is important to achieve sample-efficient decision-making policy learning in many domains like robot control, recommender systems, and patients' treatment selection. We can take unlimited trials with such a model to identify the appropriate actions so that the costs of queries in the real world can be saved. It requires the model to handle unseen data correctly, also called counterfactual data. However, standard data fitting techniques do not automatically achieve such generalization ability and commonly result in unreliable models. In this work, we introduce counterfactual-query risk minimization (CQRM) in model learning for generalizing to a counterfactual dataset queried by a specific target policy. Since the target policies can be various and unknown in policy learning, we propose an adversarial CQRM objective in which the model learns on counterfactual data queried by adversarial policies, and finally derive a tractable solution GALILEO. We also discover that adversarial CQRM is closely related to the adversarial model learning, explaining the effectiveness of the latter. We apply GALILEO in synthetic tasks and a real-world application. The results show that GALILEO makes accurate predictions on counterfactual data and thus significantly improves policies in real-world testing.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
4秒前
啦啦啦蛤蛤蛤完成签到 ,获得积分10
4秒前
叫滚滚发布了新的文献求助20
5秒前
8秒前
科研通AI6.3应助Riley采纳,获得30
8秒前
甘乐发布了新的文献求助10
12秒前
星辰大海应助llll采纳,获得10
12秒前
FrozenMask完成签到 ,获得积分10
13秒前
14秒前
xingsixs发布了新的文献求助10
14秒前
晴朗完成签到 ,获得积分10
15秒前
19秒前
魔幻的纸鹤完成签到,获得积分10
19秒前
20秒前
Jayzie完成签到 ,获得积分10
20秒前
21秒前
23秒前
炙热的灵薇完成签到,获得积分10
23秒前
王冠完成签到,获得积分10
24秒前
李栖迟完成签到 ,获得积分10
25秒前
25秒前
27秒前
学者风范完成签到 ,获得积分10
27秒前
含糊的无声完成签到 ,获得积分10
27秒前
27秒前
你好完成签到,获得积分10
29秒前
30秒前
TIMF14完成签到,获得积分10
30秒前
33秒前
酷波er应助炙热的灵薇采纳,获得10
37秒前
积极慕晴完成签到,获得积分10
43秒前
44秒前
FashionBoy应助赋剑于归采纳,获得20
44秒前
橙汁完成签到 ,获得积分10
45秒前
桐桐应助唔wu采纳,获得10
47秒前
50秒前
Hello应助i科研采纳,获得10
52秒前
wqqwds发布了新的文献求助10
53秒前
悦轩风完成签到,获得积分10
54秒前
脑洞疼应助科研通管家采纳,获得10
55秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
機能性マイクロ細孔・マイクロ流体デバイスを利用した放射性核種の 分離・溶解・凝集挙動に関する研究 1000
卤化钙钛矿人工突触的研究 1000
Engineering for calcareous sediments : proceedings of the International Conference on Calcareous Sediments, Perth 15-18 March 1988 / edited by R.J. Jewell, D.C. Andrews 1000
Wolffs Headache and Other Head Pain 9th Edition 1000
Continuing Syntax 1000
Harnessing Lymphocyte-Cytokine Networks to Disrupt Current Paradigms in Childhood Nephrotic Syndrome Management: A Systematic Evidence Synthesis 700
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6253632
求助须知:如何正确求助?哪些是违规求助? 8076350
关于积分的说明 16868360
捐赠科研通 5327489
什么是DOI,文献DOI怎么找? 2836505
邀请新用户注册赠送积分活动 1813768
关于科研通互助平台的介绍 1668495