CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

计算机科学 强化学习 水准点(测量) 正确性 编码(集合论) 编码器 人工智能 推论 语言模型 机器学习 程序设计语言 大地测量学 集合(抽象数据类型) 地理 操作系统
作者
H Le,Yue Wang,Akhilesh Gotmare,Silvio Savarese,Steven C. H. Hoi
出处
期刊:Cornell University - arXiv 被引量:59
标识
DOI:10.48550/arxiv.2207.01780
摘要

Program synthesis or code generation aims to generate a program that satisfies a problem specification. Recent approaches using large-scale pretrained language models (LMs) have shown promising results, yet they have some critical limitations. In particular, they often follow a standard supervised fine-tuning procedure to train a code generation model only from the pairs of natural-language problem descriptions and ground-truth programs. Such paradigm largely ignores some important but potentially useful signals in the problem specification such as unit tests, which thus often results in poor performance when solving complex unseen coding tasks. To address the limitations, we propose "CodeRL", a new framework for program synthesis tasks through pretrained LMs and deep reinforcement learning (RL). Specifically, during training, we treat the code-generating LM as an actor network, and introduce a critic network that is trained to predict the functional correctness of generated programs and provide dense feedback signals to the actor. During inference, we introduce a new generation procedure with a critical sampling strategy that allows a model to automatically regenerate programs based on feedback from example unit tests and critic scores. For the model backbones, we extended the encoder-decoder architecture of CodeT5 with enhanced learning objectives, larger model sizes, and better pretraining data. Our method not only achieves new SOTA results on the challenging APPS benchmark, but also shows strong zero-shot transfer capability with new SOTA results on the simpler MBPP benchmark.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
明白放弃发布了新的文献求助10
1秒前
纪富发布了新的文献求助10
1秒前
2秒前
2秒前
搞怪人雄发布了新的文献求助10
3秒前
Kaiwei发布了新的文献求助10
7秒前
田様应助123采纳,获得10
7秒前
杨馨蕊发布了新的文献求助10
8秒前
CipherSage应助CompJIN采纳,获得10
8秒前
科研一坤年完成签到,获得积分10
9秒前
封似狮完成签到,获得积分10
12秒前
YWR完成签到,获得积分10
12秒前
gb完成签到 ,获得积分10
12秒前
12秒前
量子星尘发布了新的文献求助10
15秒前
zzh完成签到,获得积分10
15秒前
AR完成签到 ,获得积分10
16秒前
明白放弃发布了新的文献求助10
16秒前
17秒前
GankhuyagJavzan完成签到,获得积分10
17秒前
maxyer完成签到,获得积分10
17秒前
17秒前
传奇3应助kaola采纳,获得10
18秒前
忆修完成签到,获得积分10
18秒前
18秒前
清淮完成签到 ,获得积分10
19秒前
19秒前
21秒前
22秒前
22秒前
顾矜应助苏倩采纳,获得30
22秒前
YANG发布了新的文献求助20
23秒前
小蘑菇应助sufi采纳,获得10
23秒前
NexusExplorer应助愉快的秋凌采纳,获得10
23秒前
24秒前
CompJIN发布了新的文献求助10
24秒前
CMD完成签到 ,获得积分10
25秒前
26秒前
man发布了新的文献求助10
26秒前
张广雪发布了新的文献求助30
26秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Social Work Ethics Casebook: Cases and Commentary (revised 2nd ed.).. Frederic G. Reamer 1070
Introduction to Early Childhood Education 1000
2025-2031年中国兽用抗生素行业发展深度调研与未来趋势报告 1000
List of 1,091 Public Pension Profiles by Region 871
Alloy Phase Diagrams 500
A Guide to Genetic Counseling, 3rd Edition 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 遗传学 催化作用 冶金 量子力学 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 5419552
求助须知:如何正确求助?哪些是违规求助? 4534796
关于积分的说明 14146780
捐赠科研通 4451460
什么是DOI,文献DOI怎么找? 2441744
邀请新用户注册赠送积分活动 1433345
关于科研通互助平台的介绍 1410587