清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks

超参数 人工神经网络 参数化(大气建模) 特征(语言学) 同种类的 计算机科学 人工智能 残余物 极限(数学) 块(置换群论) 张量(固有定义) 算法 深层神经网络 数学 模式识别(心理学) 物理 纯数学 组合数学 数学分析 哲学 辐射传输 量子力学 语言学
作者
Greg Yang,Dingli Yu,Zhu Chen,Soufiane Hayou
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2310.02244
摘要

By classifying infinite-width neural networks and identifying the *optimal* limit, Tensor Programs IV and V demonstrated a universal way, called $\mu$P, for *widthwise hyperparameter transfer*, i.e., predicting optimal hyperparameters of wide neural networks from narrow ones. Here we investigate the analogous classification for *depthwise parametrizations* of deep residual networks (resnets). We classify depthwise parametrizations of block multiplier and learning rate by their infinite-width-then-depth limits. In resnets where each block has only one layer, we identify a unique optimal parametrization, called Depth-$\mu$P that extends $\mu$P and show empirically it admits depthwise hyperparameter transfer. We identify *feature diversity* as a crucial factor in deep networks, and Depth-$\mu$P can be characterized as maximizing both feature learning and feature diversity. Exploiting this, we find that absolute value, among all homogeneous nonlinearities, maximizes feature diversity and indeed empirically leads to significantly better performance. However, if each block is deeper (such as modern transformers), then we find fundamental limitations in all possible infinite-depth limits of such parametrizations, which we illustrate both theoretically and empirically on simple networks as well as Megatron transformer trained on Common Crawl.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
14秒前
完美世界应助陈维熙采纳,获得10
19秒前
威武谷南发布了新的文献求助20
45秒前
1分钟前
1分钟前
widesky777完成签到 ,获得积分0
1分钟前
郭星星完成签到,获得积分10
1分钟前
Lan完成签到 ,获得积分10
1分钟前
FeelingUnreal完成签到,获得积分10
1分钟前
GHOSTagw完成签到,获得积分10
1分钟前
星辰大海应助彭博采纳,获得10
2分钟前
2分钟前
调皮凝芙发布了新的文献求助10
2分钟前
爆米花应助调皮凝芙采纳,获得10
2分钟前
咖啡完成签到 ,获得积分10
2分钟前
隐形的小蚂蚁完成签到,获得积分10
3分钟前
xinxin完成签到,获得积分10
3分钟前
3分钟前
彭博发布了新的文献求助10
3分钟前
3分钟前
碗碗豆喵完成签到 ,获得积分10
3分钟前
VOIC发布了新的文献求助10
3分钟前
万能图书馆应助彭博采纳,获得10
3分钟前
思源应助VOIC采纳,获得10
3分钟前
智慧金刚完成签到 ,获得积分10
4分钟前
随心所欲完成签到 ,获得积分10
4分钟前
4分钟前
4分钟前
深圳黄大彪完成签到 ,获得积分10
4分钟前
wwe完成签到,获得积分10
4分钟前
4分钟前
玛琳卡迪马完成签到,获得积分10
4分钟前
su发布了新的文献求助10
4分钟前
5分钟前
misu完成签到,获得积分10
5分钟前
两个榴莲完成签到,获得积分0
5分钟前
mellow完成签到,获得积分10
5分钟前
陈维熙发布了新的文献求助10
5分钟前
bkagyin应助陈维熙采纳,获得10
5分钟前
LINDENG2004完成签到 ,获得积分10
5分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
晶种分解过程与铝酸钠溶液混合强度关系的探讨 8888
Chemistry and Physics of Carbon Volume 18 800
The Organometallic Chemistry of the Transition Metals 800
Leading Academic-Practice Partnerships in Nursing and Healthcare: A Paradigm for Change 800
The formation of Australian attitudes towards China, 1918-1941 640
Signals, Systems, and Signal Processing 610
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6427279
求助须知:如何正确求助?哪些是违规求助? 8244395
关于积分的说明 17527846
捐赠科研通 5482601
什么是DOI,文献DOI怎么找? 2894965
邀请新用户注册赠送积分活动 1871077
关于科研通互助平台的介绍 1709823