Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents

互惠的 心理学 业务 哲学 语言学
作者
John L. Zhou,Weizhe Hong,Jonathan C. Kao
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2406.01641
摘要

Emergent cooperation among self-interested individuals is a widespread phenomenon in the natural world, but remains elusive in interactions between artificially intelligent agents. Instead, na\"ive reinforcement learning algorithms typically converge to Pareto-dominated outcomes in even the simplest of social dilemmas. An emerging class of opponent-shaping methods have demonstrated the ability to reach prosocial outcomes by influencing the learning of other agents. However, they rely on higher-order derivatives through the predicted learning step of other agents or learning meta-game dynamics, which in turn rely on stringent assumptions over opponent learning rules or exponential sample complexity, respectively. To provide a learning rule-agnostic and sample-efficient alternative, we introduce Reciprocators, reinforcement learning agents which are intrinsically motivated to reciprocate the influence of an opponent's actions on their returns. This approach effectively seeks to modify other agents' $Q$-values by increasing their return following beneficial actions (with respect to the Reciprocator) and decreasing it after detrimental actions, guiding them towards mutually beneficial actions without attempting to directly shape policy updates. We show that Reciprocators can be used to promote cooperation in a variety of temporally extended social dilemmas during simultaneous learning.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
二十九画生完成签到,获得积分10
刚刚
123发布了新的文献求助10
1秒前
1秒前
1秒前
新闻联播发布了新的文献求助10
1秒前
遇上就这样吧给怡心亭的求助进行了留言
3秒前
Orange应助入戏太深采纳,获得10
3秒前
zzzcccy发布了新的文献求助10
3秒前
华仔应助酷酷觅夏采纳,获得10
3秒前
naomi完成签到 ,获得积分10
4秒前
汉堡包应助sincoco采纳,获得50
4秒前
Orange应助永野芽郁采纳,获得10
4秒前
6秒前
zhencheng发布了新的文献求助30
6秒前
科研通AI5应助英勇的老头采纳,获得10
9秒前
Yunism发布了新的文献求助10
10秒前
yjj6809完成签到,获得积分10
10秒前
Rogerthat发布了新的文献求助10
10秒前
科目三应助入戏太深采纳,获得10
12秒前
12秒前
遇上就这样吧应助怡心亭采纳,获得20
13秒前
惑感完成签到 ,获得积分10
17秒前
明理冰双完成签到,获得积分10
19秒前
董夜白发布了新的文献求助10
19秒前
打打应助阿强采纳,获得10
20秒前
20秒前
科研通AI5应助Brain采纳,获得10
20秒前
乐乐应助Cyrus采纳,获得10
22秒前
22秒前
23秒前
23秒前
大个应助renkemaomao采纳,获得10
25秒前
XJH发布了新的文献求助10
27秒前
热爱学习发布了新的文献求助10
27秒前
111发布了新的文献求助10
27秒前
科研通AI2S应助aliu采纳,获得10
27秒前
淡淡冬瓜发布了新的文献求助10
28秒前
28秒前
Yunism完成签到,获得积分10
28秒前
Willy完成签到,获得积分10
28秒前
高分求助中
Continuum Thermodynamics and Material Modelling 2000
Neuromuscular and Electrodiagnostic Medicine Board Review 1000
こんなに痛いのにどうして「なんでもない」と医者にいわれてしまうのでしょうか 510
いちばんやさしい生化学 500
The First Nuclear Era: The Life and Times of a Technological Fixer 500
频率源分析与设计 300
Avialinguistics:The Study of Language for Aviation Purposes 270
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3686372
求助须知:如何正确求助?哪些是违规求助? 3236772
关于积分的说明 9827524
捐赠科研通 2948573
什么是DOI,文献DOI怎么找? 1616979
邀请新用户注册赠送积分活动 764029
科研通“疑难数据库(出版商)”最低求助积分说明 738227