Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning

已关闭

文献求助详情

标题	Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning 多智能体强化学习中的信赖域策略优化相关领域强化学习单调函数计算机科学外稃（植物学）多样性（控制论）财产（哲学）功能（生物学）贝尔曼方程数学优化人工智能数学禾本科生态学进化生物学生物认识论数学分析哲学
网址	http://arxiv.org/abs/2109.11251 AI链接 arxiv.org arxiv.orgdoi.org
DOI	10.48550/arxiv.2109.11251 doi
其它	期刊：arXiv (Cornell University) 作者：Jakub Grudzien Kuba; Ruiqing Chen; Muning Wen; Ying Wen; Fanglei Sun; et al 出版日期：2021-09-23
求助人	sysssss 在 2023-09-13 10:09:20 发布自湖南，悬赏 10 积分
下载
	温馨提示：该文献已被科研通学术中心收录，前往查看科研通『学术中心』是文献索引库，收集文献的基本信息（如标题、摘要、期刊、作者、被引量等），不提供下载功能。如需下载文献全文，请通过文献求助获取。

上个求助

求助 / 应助时间线

1年前，求助关闭

sysssss 求助人 Lv4 关闭了本次求助。

说明开源不需要帮助了谢谢【积分已退回】
1年前

sysssss 求助人 Lv4 发起了本次求助

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 历史今天

更新

2024年影响因子查询已上线 (2024-6-20)

更新

大幅提高文件上传限制，最高150M (2024-4-1)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: hillson发布了新的文献求助10

刚刚; 头大四年发布了新的文献求助10

刚刚; hank完成签到，获得积分10

6秒前; 大鳄鱼完成签到，获得积分10

9秒前; hsvxvk完成签到，获得积分10

9秒前; 哈比人linling完成签到，获得积分10

10秒前; 酷波er的应助被lx采纳，获得10

32秒前; sissiarno的应助被科研通管家采纳，获得30

32秒前; Owen的应助被科研通管家采纳，获得10

32秒前; wanci的应助被怎么什么都不会呢采纳，获得10

46秒前; li完成签到，获得积分10

48秒前; 生动的若之完成签到，获得积分10

50秒前; 落后的忆文完成签到，获得积分10

54秒前; 情怀的应助被dingdingding采纳，获得10

55秒前; 怎么什么都不会呢完成签到，获得积分10

56秒前; wanci上传了应助文件

56秒前; 怎么什么都不会呢发布了新的文献求助10

1分钟前; 寒冷哈密瓜完成签到，获得积分10

1分钟前; Lucas上传了应助文件

1分钟前; Owen上传了应助文件

1分钟前; 头大四年发布了新的文献求助10

1分钟前; 情怀的应助被怎么什么都不会呢采纳，获得10

1分钟前; 科研通AI2S上传了应助文件

1分钟前; 头大四年完成签到，获得积分10

1分钟前; 科目三上传了应助文件

1分钟前; sunshine完成签到，获得积分10

1分钟前; dududu完成签到，获得积分20

1分钟前; 水木发布了新的文献求助10

1分钟前; Ava上传了应助文件

1分钟前; 0.2完成签到，获得积分10

1分钟前; S-Lab Sonic发布了新的文献求助10

1分钟前; Alijiang上传了应助文件

1分钟前; Nancy0818完成签到，获得积分10

1分钟前; 在水一方的应助被S-Lab Sonic采纳，获得10

1分钟前; TH发布了新的文献求助10

1分钟前; 大模型的应助被大布采纳，获得10

2分钟前; StH完成签到，获得积分10

2分钟前; 科研通AI2S上传了应助文件

2分钟前; long完成签到，获得积分10

2分钟前; 科研通AI2.0上传了应助文件

2分钟前