ScopeViT: Scale-Aware Vision Transformer

计算机科学 人工智能 计算机视觉 变压器 工程类 电气工程 电压
作者
Xuesong Nie,Haoyuan Jin,Yunfeng Yan,Xi Chen,Zhihang Zhu,Donglian Qi
出处
期刊:Pattern Recognition [Elsevier]
卷期号:153: 110470-110470 被引量:8
标识
DOI:10.1016/j.patcog.2024.110470
摘要

Multi-scale features are essential for various vision tasks, such as classification, detection, and segmentation. Although Vision Transformers (ViTs) show remarkable success in capturing global features within an image, how to leverage multi-scale features in Transformers is not well explored. This paper proposes a scale-aware vision Transformer called ScopeViT that efficiently captures multi-granularity representations. Two novel attention with lightweight computation are introduced: Multi-Scale Self-Attention (MSSA) and Global-Scale Dilated Attention (GSDA). MSSA embeds visual tokens with different receptive fields into distinct attention heads, allowing the model to perceive various scales across the network. GSDA enhances model understanding of the global context through token-dilation operation, which reduces the number of tokens involved in attention computations. This dual attention method enables ScopeViT to "see" various scales throughout the entire network and effectively learn inter-object relationships, reducing heavy quadratic computational complexity. Extensive experiments demonstrate that ScopeViT achieves competitive complexity/accuracy trade-offs compared to existing networks across a wide range of visual tasks. On the ImageNet-1K dataset, ScopeViT achieves a top-1 accuracy of 81.1%, using only 7.4M parameters and 2.0G FLOPs. Our approach outperforms Swin (ViT-based) by 1.9% accuracy while saving 42% of the parameters, outperforms MobileViTv2 (Hybrid-based) with a 0.7% accuracy gain while using 50% of the computations, and also beats ConvNeXt V2 (ConvNet-based) by 0.8% with fewer parameters. Our code is available on GitHub.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
6秒前
酷炫觅双完成签到 ,获得积分10
8秒前
TiY完成签到 ,获得积分10
8秒前
量子星尘发布了新的文献求助10
11秒前
12秒前
12秒前
13秒前
yj完成签到,获得积分10
17秒前
qianci2009完成签到,获得积分0
18秒前
19秒前
prawn218完成签到,获得积分10
20秒前
量子星尘发布了新的文献求助10
26秒前
海英完成签到,获得积分10
32秒前
合适的平安完成签到 ,获得积分10
38秒前
39秒前
42秒前
46秒前
lilylwy完成签到 ,获得积分0
47秒前
量子星尘发布了新的文献求助10
49秒前
wujiwuhui完成签到 ,获得积分10
51秒前
子凡完成签到 ,获得积分10
52秒前
rigelfalcon完成签到,获得积分10
54秒前
量子星尘发布了新的文献求助10
1分钟前
可乐完成签到 ,获得积分10
1分钟前
Ganann完成签到 ,获得积分10
1分钟前
雨竹完成签到,获得积分10
1分钟前
1分钟前
轨迹应助Lny采纳,获得40
1分钟前
量子星尘发布了新的文献求助10
1分钟前
王波完成签到 ,获得积分10
1分钟前
活泼的寒安完成签到 ,获得积分10
1分钟前
huco完成签到,获得积分10
1分钟前
1分钟前
顺利的璎完成签到 ,获得积分10
1分钟前
Singularity举报求助违规成功
1分钟前
yznfly举报求助违规成功
1分钟前
MchemG举报求助违规成功
1分钟前
1分钟前
忧心的藏鸟完成签到 ,获得积分10
1分钟前
1分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Introduction to strong mixing conditions volume 1-3 5000
Clinical Microbiology Procedures Handbook, Multi-Volume, 5th Edition 2000
从k到英国情人 1500
Ägyptische Geschichte der 21.–30. Dynastie 1100
„Semitische Wissenschaften“? 1100
Real World Research, 5th Edition 800
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5732958
求助须知:如何正确求助?哪些是违规求助? 5344050
关于积分的说明 15322714
捐赠科研通 4878163
什么是DOI,文献DOI怎么找? 2621060
邀请新用户注册赠送积分活动 1570181
关于科研通互助平台的介绍 1526956