ConViT: improving vision transformers with soft convolutional inductive biases*

计算机科学 地点 归纳偏置 人工智能 卷积神经网络 变压器 机器学习 模式识别(心理学) 多任务学习 任务(项目管理) 管理 电压 经济 哲学 物理 量子力学 语言学
作者
Stéphane d’Ascoli,Hugo Touvron,Matthew L. Leavitt,Ari S. Morcos,Giulio Biroli,Levent Sagun
出处
期刊:Journal of Statistical Mechanics: Theory and Experiment [Institute of Physics]
卷期号:2022 (11): 114005-114005 被引量:395
标识
DOI:10.1088/1742-5468/ac9830
摘要

Abstract Convolutional architectures have proven to be extremely successful for vision tasks. Their hard inductive biases enable sample-efficient learning, but come at the cost of a potentially lower performance ceiling. Vision transformers rely on more flexible self-attention layers, and have recently outperformed CNNs for image classification. However, they require costly pre-training on large external datasets or distillation from pre-trained convolutional networks. In this paper, we ask the following question: is it possible to combine the strengths of these two architectures while avoiding their respective limitations? To this end, we introduce gated positional self-attention (GPSA), a form of positional self-attention which can be equipped with a ‘soft’ convolutional inductive bias. We initialize the GPSA layers to mimic the locality of convolutional layers, then give each attention head the freedom to escape locality by adjusting a gating parameter regulating the attention paid to position versus content information. The resulting convolutional-like ViT architecture, ConViT , outperforms the DeiT (Touvron et al 2020 arXiv: 2012.12877 ) on ImageNet, while offering a much improved sample efficiency. We further investigate the role of locality in learning by first quantifying how it is encouraged in vanilla self-attention layers, then analyzing how it has escaped in GPSA layers. We conclude by presenting various ablations to better understand the success of the ConViT. Our code and models are released publicly at https://github.com/facebookresearch/convit .
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
柳大宝发布了新的文献求助10
刚刚
风中的怜阳完成签到,获得积分10
1秒前
深情安青应助Ying采纳,获得10
2秒前
可爱的函函应助Brilliant采纳,获得10
4秒前
6秒前
科研通AI6应助郭曦铖采纳,获得10
9秒前
10秒前
彩色的恋风完成签到,获得积分10
10秒前
10秒前
11秒前
11秒前
量子星尘发布了新的文献求助10
12秒前
NN发布了新的文献求助30
12秒前
许卡号完成签到,获得积分10
14秒前
科研通AI5应助戴衡霞采纳,获得10
14秒前
yangm9给chen的求助进行了留言
14秒前
15秒前
LinqiangQuan完成签到,获得积分10
15秒前
16秒前
陈陈陈完成签到,获得积分10
16秒前
jiang发布了新的文献求助10
18秒前
20秒前
Qiao完成签到 ,获得积分10
21秒前
21秒前
星辰大海应助心落失采纳,获得10
21秒前
等待靖儿给等待靖儿的求助进行了留言
21秒前
22秒前
cd发布了新的文献求助10
23秒前
23秒前
LiuRuizhe发布了新的文献求助10
23秒前
25秒前
666发布了新的文献求助20
25秒前
26秒前
26秒前
香蕉觅云应助jiang采纳,获得10
26秒前
碧蓝莫言完成签到 ,获得积分10
27秒前
QING发布了新的文献求助10
28秒前
28秒前
不可以懒懒完成签到,获得积分10
29秒前
科研通AI2S应助科研通管家采纳,获得30
29秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Acute Mountain Sickness 2000
Cowries - A Guide to the Gastropod Family Cypraeidae 1200
Handbook of Milkfat Fractionation Technology and Application, by Kerry E. Kaylegian and Robert C. Lindsay, AOCS Press, 1995 1000
Textbook of Neonatal Resuscitation ® 500
Why Neuroscience Matters in the Classroom 500
The Affinity Designer Manual - Version 2: A Step-by-Step Beginner's Guide 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 5049551
求助须知:如何正确求助?哪些是违规求助? 4277489
关于积分的说明 13333822
捐赠科研通 4092139
什么是DOI,文献DOI怎么找? 2239507
邀请新用户注册赠送积分活动 1246375
关于科研通互助平台的介绍 1174960