Deep Double Descent: Where Bigger Models and More Data Hurt

下降(航空) 度量(数据仓库) 计算机科学 梯度下降 猜想 功能(生物学) 随机梯度下降算法 多样性(控制论) 深度学习 算法 人工智能 数学 人工神经网络 数据挖掘 组合数学 进化生物学 生物 工程类 航空航天工程
作者
Venkatesan Guruswami,Gal Kaplun,Yamini Bansal,Tristan Yang,Boaz Barak,Ilya Sutskever
出处
期刊:Cornell University - arXiv 被引量:163
摘要

We show that a variety of modern deep learning tasks exhibit a double-descent phenomenon where, as we increase model size, performance first gets worse and then gets better. Moreover, we show that double descent occurs not just as a function of model size, but also as a function of the number of training epochs. We unify the above phenomena by defining a new complexity measure we call the effective model complexity, and conjecture a generalized double descent with respect to this measure. Furthermore, our notion of model complexity allows us to identify certain regimes where increasing (even quadrupling) the number of train samples actually hurts test performance.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
111222333发布了新的文献求助50
刚刚
1秒前
Wudifairy发布了新的文献求助30
2秒前
hp发布了新的文献求助10
2秒前
3秒前
年糕哥发布了新的文献求助10
3秒前
4秒前
平常囧完成签到,获得积分10
4秒前
旰旰旰完成签到,获得积分10
4秒前
wxz1236完成签到 ,获得积分10
5秒前
Tuo关注了科研通微信公众号
5秒前
5秒前
一直以来发布了新的文献求助10
5秒前
Aug31完成签到 ,获得积分10
6秒前
爱读文献的小刘完成签到 ,获得积分10
6秒前
Ehassup发布了新的文献求助10
6秒前
占语蝶完成签到 ,获得积分10
6秒前
优美紫槐应助smile采纳,获得20
7秒前
dawnfrf应助smile采纳,获得30
7秒前
顾矜应助smile采纳,获得10
7秒前
Foalphaz发布了新的文献求助10
8秒前
8秒前
水凝胶发布了新的文献求助10
9秒前
缥缈语蕊发布了新的文献求助10
9秒前
冷酷男人发布了新的文献求助10
9秒前
10秒前
11秒前
Go发布了新的文献求助10
11秒前
11秒前
13秒前
魔幻的凝荷完成签到,获得积分20
15秒前
孤独兰发布了新的文献求助50
15秒前
iris发布了新的文献求助10
15秒前
16秒前
yyyg完成签到,获得积分10
16秒前
脑洞疼应助小y要读书采纳,获得10
16秒前
Ehassup完成签到,获得积分10
16秒前
惕守完成签到,获得积分10
16秒前
Pupil发布了新的文献求助10
17秒前
17秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
人脑智能与人工智能 1000
King Tyrant 720
Silicon in Organic, Organometallic, and Polymer Chemistry 500
Principles of Plasma Discharges and Materials Processing, 3rd Edition 400
Pharmacology for Chemists: Drug Discovery in Context 400
El poder y la palabra: prensa y poder político en las dictaduras : el régimen de Franco ante la prensa y el periodismo 400
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5604322
求助须知:如何正确求助?哪些是违规求助? 4689080
关于积分的说明 14857878
捐赠科研通 4697618
什么是DOI,文献DOI怎么找? 2541249
邀请新用户注册赠送积分活动 1507374
关于科研通互助平台的介绍 1471874