GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

计算机科学 多任务学习 过度拟合 超参数 人工智能 超参数优化 机器学习 规范化(社会学) 人工神经网络 任务(项目管理) 深度学习 支持向量机 人类学 社会学 经济 管理
作者
Chen Zhao,Vijay Badrinarayanan,Chen‐Yu Lee,Andrew Rabinovich
出处
期刊:International Conference on Machine Learning 卷期号:: 794-803 被引量:347
摘要

Deep multitask networks, in which one neural network produces multiple predictive outputs, can offer better speed and performance than their single-task counterparts but are challenging to train properly. We present a gradient normalization (GradNorm) algorithm that automatically balances training in deep multitask models by dynamically tuning gradient magnitudes. We show that for various network architectures, for both regression and classification tasks, and on both synthetic and real datasets, GradNorm improves accuracy and reduces overfitting across multiple tasks when compared to single-task networks, static baselines, and other adaptive multitask loss balancing techniques. GradNorm also matches or surpasses the performance of exhaustive grid search methods, despite only involving a single asymmetry hyperparameter $\alpha$. Thus, what was once a tedious search process that incurred exponentially more compute for each task added can now be accomplished within a few training runs, irrespective of the number of tasks. Ultimately, we will demonstrate that gradient manipulation affords us great control over the training dynamics of multitask networks and may be one of the keys to unlocking the potential of multitask learning.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
刚刚
fff完成签到,获得积分10
刚刚
1秒前
1秒前
Stella发布了新的文献求助10
1秒前
hhh发布了新的文献求助10
1秒前
2秒前
2秒前
FashionBoy应助JXY采纳,获得10
2秒前
whh发布了新的文献求助10
2秒前
ddd完成签到,获得积分10
2秒前
俏皮元珊发布了新的文献求助10
2秒前
端庄的荧发布了新的文献求助30
3秒前
送你一朵彼岸花完成签到,获得积分10
3秒前
3秒前
3秒前
科研通AI2S应助Dawn采纳,获得10
4秒前
香妃完成签到,获得积分10
4秒前
4秒前
5秒前
科目三应助aaa采纳,获得30
5秒前
时尚战斗机完成签到,获得积分20
5秒前
terryok完成签到,获得积分10
6秒前
CC发布了新的文献求助30
6秒前
今后应助zhang20082418采纳,获得10
6秒前
柠栀完成签到 ,获得积分10
6秒前
6秒前
高等数学完成签到,获得积分10
7秒前
8秒前
暴躁的访波完成签到,获得积分10
8秒前
yy发布了新的文献求助10
9秒前
充电宝应助Candy采纳,获得10
9秒前
深情安青应助Candy采纳,获得10
9秒前
9秒前
lili完成签到,获得积分10
9秒前
星辰大海应助予东采纳,获得10
9秒前
甜甜元绿完成签到,获得积分20
10秒前
10秒前
田所浩二发布了新的文献求助10
10秒前
高分求助中
Sustainability in Tides Chemistry 2800
The Young builders of New china : the visit of the delegation of the WFDY to the Chinese People's Republic 1000
Rechtsphilosophie 1000
Bayesian Models of Cognition:Reverse Engineering the Mind 888
Le dégorgement réflexe des Acridiens 800
Defense against predation 800
Very-high-order BVD Schemes Using β-variable THINC Method 568
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3135387
求助须知:如何正确求助?哪些是违规求助? 2786384
关于积分的说明 7777028
捐赠科研通 2442291
什么是DOI,文献DOI怎么找? 1298501
科研通“疑难数据库(出版商)”最低求助积分说明 625124
版权声明 600847