Shunted Self-Attention via Multi-Scale Token Aggregation

计算机科学 安全性令牌 计算 变压器 人工智能 计算机工程 模式识别(心理学) 算法 计算机网络 工程类 电压 电气工程
作者
Sucheng Ren,Daquan Zhou,Shengfeng He,Jiashi Feng,Xinchao Wang
标识
DOI:10.1109/cvpr52688.2022.01058
摘要

Recent Vision Transformer (ViT) models have demonstrated encouraging results across various computer vision tasks, thanks to its competence in modeling long-range de-pendencies of image patches or tokens via self-attention. These models, however, usually designate the similar receptive fields of each token feature within each layer. Such a constraint inevitably limits the ability of each self-attention layer in capturing multi-scale features, thereby leading to performance degradation in handling images with multiple objects of different scales. To address this issue, we propose a novel and generic strategy, termed shunted self-attention (SSA), that allows ViTs to model the attentions at hybrid scales per attention layer. The key idea of SSA is to inject heterogeneous receptive field sizes into tokens: before computing the self-attention matrix, it selectively merges tokens to represent larger object features while keeping certain tokens to preserve fine-grained features. This novel merging scheme enables the self-attention to learn relationships between objects with different sizes, and simultaneously reduces the token numbers and the computational cost. Extensive experiments across various tasks demonstrate the superiority of SSA. Specifically, the SSA-based transformer achieve 84.0% Top-1 accuracy and out-performs the state-of-the-art Focal Transformer on Ima-geNet with only half of the model size and computation cost, and surpasses Focal Transformer by 1.3 mAP on COCO and 2.9 mIOU on ADE20K under similar parameter and computation cost. Code has been released at https://github.com/OliverRensulShunted-Transformer.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
沉静的万天完成签到 ,获得积分10
6秒前
如意2023完成签到 ,获得积分10
7秒前
牛轧糖完成签到 ,获得积分10
7秒前
香蕉爆米花完成签到,获得积分10
7秒前
加油呀完成签到,获得积分10
9秒前
小祺完成签到,获得积分10
9秒前
9秒前
10秒前
水穷云起完成签到,获得积分10
11秒前
HSH完成签到,获得积分10
11秒前
11秒前
fawr完成签到 ,获得积分10
13秒前
水穷云起发布了新的文献求助10
14秒前
Lori完成签到,获得积分10
15秒前
Grace0610发布了新的文献求助10
15秒前
听风随影完成签到 ,获得积分10
15秒前
16秒前
Felix完成签到,获得积分10
17秒前
NexusExplorer应助认真的寒香采纳,获得10
18秒前
18秒前
研友_VZG7GZ应助Grace0610采纳,获得10
20秒前
21秒前
Una发布了新的文献求助10
21秒前
21秒前
21秒前
细心健柏完成签到 ,获得积分10
21秒前
斯文的难破完成签到 ,获得积分10
22秒前
DUTlh发布了新的文献求助10
23秒前
24秒前
WXF完成签到 ,获得积分10
24秒前
江桥完成签到,获得积分10
24秒前
蔡徐坤完成签到,获得积分10
25秒前
丘比特应助Una采纳,获得10
26秒前
humorlife完成签到,获得积分10
27秒前
HSH发布了新的文献求助10
27秒前
28秒前
orixero应助稳重的灵安采纳,获得10
29秒前
氟兊锝钼完成签到 ,获得积分10
31秒前
652183758完成签到 ,获得积分10
31秒前
蔡徐坤发布了新的文献求助10
32秒前
高分求助中
Becoming: An Introduction to Jung's Concept of Individuation 600
Ore genesis in the Zambian Copperbelt with particular reference to the northern sector of the Chambishi basin 500
A new species of Coccus (Homoptera: Coccoidea) from Malawi 500
A new species of Velataspis (Hemiptera Coccoidea Diaspididae) from tea in Assam 500
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 500
Die Gottesanbeterin: Mantis religiosa: 656 400
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger 400
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3165214
求助须知:如何正确求助?哪些是违规求助? 2816237
关于积分的说明 7911970
捐赠科研通 2475937
什么是DOI,文献DOI怎么找? 1318452
科研通“疑难数据库(出版商)”最低求助积分说明 632155
版权声明 602388